Paper/Others 8

FeatUp: A Model-Agnostic Framework for Features at Any Resolution

내 맘대로 Introduction 기본 아이디어가 학습 잘 된 backbone에서 나오는 feature들을 고해상도로 변환할 수 없을까? 라는 질문에서 시작된다. DinoV2 같은 foundation backbone을 가져와서 사용하는 것이 흔한 요즘, 224x224로 제한된 해상도는 활용에 걸림돌이 되곤 한다. 이러한 답답함을 완화하기 위해서 뒤에 갖다 붙일 수 있는 feature upsampler를 만들고자 했다.  upsample -> down sample 원본 feature 방식으로 cyclic하게 학습해서 나중엔 upsampler만 가져와서 쓰는 방식 두 가지 구현 방식이 존재하는데 1) 학습 1번 완료 후 계속 고정하고 사용하는 upsampler2) 이미지 1장마다 overfitting시켜서..

Paper/Others 2024.05.13

MultiMAE: Multi-modal Multi-task Masked Auto encoders

내 맘대로 Introduction masked image modeling 기법을 활용해서 transformer를 pretraining하는 방법이 유명해진 이후로 나온 논문이다. 이종 입력들, 이미지나 depth, normal 등,을 동시에 입력으로 받아 자가 학습하는 방법론을 설명한다. 내용 자체는 Masked auto encoder를 그대로 가져오면서 입력 개수와 출력 개수를 늘린 것이니 별 것 없어 보이지만 실제로 전혀 다른 이종 입력이 pretrain 레벨에서도 도움이 된다는 것을 보여줬다는 것에 의미가 있다. multimodal pretraining의 입문 같은 논문. 메모 설명할 내용은 별로 없다. MAE를 구성하는 건데 각각 다른 입력, 다른 encoder에서 나온 token을 받는 식으로 구..

Paper/Others 2024.04.16

Learning Transferable Visual Models From Natural Language Supervision (a.k.a CLIP)

내 맘대로 Introduction 너무 유명한 논문이라서 이제 와서 읽고 기록해두는 것이 민망하지만 간단히 적어두고자 한다. 이 논문은 OpenAI에서 CLIP이라는 이름으로 발표한 image encoder/text encoder 논문이다. image embedding 결과가 text embedding과 같도록 설계된 환경에서 학습된 두 encoder를 제공함으로써 주어진 image에서 text embedding을, text에서 image embedding을 얻어내는 효과를 노린다. 아이디어에 핵심이 있다기 보다 엄청나게 방대한 데이터를 먹여 범용적인 embedding space를 구축했다는 것이 핵심이다. 추후 CLIP embedding을 이용한 활용 논문이 쏟아졌는데, 해당 논문들에서 CLIP의 우수..

Paper/Others 2024.02.06

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

내 맘대로 Introduction language model 이해하려고 보기 시작한 논문 중 두번째. 이 역시 나온지 오래 돼서 지금 보면 뭐 간단해보이기만 하는 논문 같다만, 기존 GPT1 방식처럼 문장을 왼쪽에서 오른쪽으로 다루는 방식에서 양방향으로 다루는 방식이 더 효과적이라는 것을 보이고 fine tuning 시에 네트워크를 추가하거나 구조를 변경하지 않아도 그대로 적용할 수 있도록 간단히 했다. 더불어서 학습 방법론에서도 단순히 다음 단어를 예측하도록 하는 것이 아니라, masked language modeling 일명 가려진 단어 맞추기로 변경했다. masked image modeling을 먼저 알고 보니 여기서 시작됐구나 싶었다. 메모하며 읽기 pre-training 때부터 두 문장 단위로 ..

Paper/Others 2024.01.05

Improving Language Understanding by Generative Pre-Training (a.k.a GPT 1)

내 맘대로 Introduction 꽤 오래된 논문이지만 LM 논문들을 쫓아가는 과정에서 시발점과 같은 논문이라 읽었다. GPT1.0이라고 불리는 논문인데, 대규모의 unlabeled text data를 어떻게 활용할 수 있는지 그 방법론을 설명한다. unlabled data vs labeled data 불균형이 엄청 큰 상황에서 unlabeled data를 버릴 순 없으니 pre-training으로 사용하자는 컨셉인데 이전에는 이게 의미가 있는지 고민하던 시기였다. 그 시점에서 충분히 의미있다고 증명해낸 논문이다. 내용은 간단하다. unlabeled data로 pre-training하고 labeled data로 fine-tuning하면 어떤 task든 성능이 뛴다는 것을 증명해낸 것이다. 다시 말해 사전..

Paper/Others 2024.01.05

Vision Transformers for Dense Prediction

내 맘대로 Introduction Dense prediction을 필요로 하는 task들은 (depth, semantic segmentation 등) encoder-decoder 구조를 많이 차용한다. 그리고 CNN으로 많이 구현한다. 하지만 메모리 사용량과 연산량 문제로 CNN encoder-decoder 구조는 downsampling을 많이 사용한다. 이 과정이 사실 많이 사용하고는 있으나 따지고 보면 dense prediction을 하기 위해 global context를 더 잘 보고 high frequency detail을 유지해야 하는 특성과 맞아 떨어지지는 않는다는 주장이다. 따라서 downsample이 포함되지 않는 ViT 구조를 encoder로 사용하고 CNN decoder를 조합하면 den..

Paper/Others 2023.09.13

CroCo v2: Improved Cross-view Completion Pre-training for Stereo Matching and Optical Flow

내 맘대로 Introduction 제목에서 알 수 있다시피 Croco의 성능 개선편, v2다. 사실 상 엄청난 개선은 없고 성능을 끌어올리기 위한 기법들을 소개하는 것이다. 첫번째는 synthetic data만 썼던 v1 대비 large scale real data를 만든 것. 두번째는 모델 사이즈를 키운 것. 세번째는 rotary positional embedding으로 변경한 것이다. 그리고 downstream task로 binocular vision task에서 성능 향상이 얼마나 큰 지 강조하면서 geometric task에서의 우수성을 보여준다. 메모하며 읽기 한 그림에 다 나와있다. 모델 크기 키웠고 실환경 데이터 무지막지하게 추가했고 positional embedding을 변경했다. Croc..

Paper/Others 2023.09.13

CroCo: Self-Supervised Pre-training for 3D Vision Tasks by Cross-View Completion

내 맘대로 Introduction 이 논문은 pretrained ViT backbone을 학습시켜두는 방법론을 설명하는 논문이다. Masked image modeling(MIM) 기법으로 사전 학습시킨 ViT backbone이 다른 vision task에 사용되었을 때 성능 향상에 기여했다는 논문들이 다수 등장함에 따라 그 확장 판 논문이다. 핵심 아이디어는 하나의 이미지로만 학습시키던 MIM 기법을 두 개의 이미지로 학습시키는 파이프라인으로 만들고, 그 두 개의 이미지를 같은 공간 view point만 다른 이미지로 제한하여 공간 정보를 더 잘배우도록 유도하는 것이다. 공간 정보를 더 잘 배우니 3D vision task의 backbone으로써 더 적합하다는 주장도 펼친다. 메모하며 읽기 MIM이라는 ..

Paper/Others 2023.09.13