Paper/Others 23

ArcFace: Additive Angular Margin Loss for DeepFace Recognition

내 맘대로 Introduction 논문에 face가 들어가서 face recognition이 본체인 것 같지만 사실 additive angular margin loss가 본체다. triplet loss와 같이 positive 대상과는 가깝게, negative 대상과는 멀게 embedding해야 하는 상황에서 쓸 수 있는 loss다. 조금 오래 된 논문이기도 한데 뒤늦게 읽었다. 엄청 유명한 방식. log-softmax와 비슷한데, 단순히 값을 input으로 넣는 것이 아니라, learnable embedding N개를 만들어두고, 가까운 embedding과의 "각도"의 cosine 값을 사용한다. 직관적으로 보면 feature 간의 각도를 벌리도록 설계하는 것. 여기다 마진을 조금 더 더해주면 분별력이 ..

Paper/Others 2024.10.07

Improving 2D Feature Representations by 3D-Aware Fine-Tuning

내 맘대로 Introduction요즘 foundation model이 온갖 feature extraction을 대체하고도 남을 정도로 잘 되다보니까 foundation model에서 나온 feature 갖고 노는 법, 업그레이드하는 법 같은 논문이 자주 보이는 것 같다. 이 논문은 DiNOv2를 예시로 썼지만 foundation model에서 나온 2D feature를 3D-aware형태로 튜닝하는 방법론을 설명한다. 2D 이미지를 어마어마하게 먹어서 어느 정도 3D-aware라고 "할 수도" 있겠지만 명시적으로 3D를 보고 배운 것이 아니기 때문에 아쉬운 점이 있다.  3D feature gaussian을 2D feature + camera pose로 학습시킨 뒤, 이를 이용해 다시 각 view의 2D..

Paper/Others 2024.09.11

XCiT: Cross-Covariance Image Transformers

내 맘대로 Introduction2021년 나온 논문이긴 한데 Facebook에서 낸 논문으로 아직까지도 잘 인용되는 논문. transformer 구조의 연산량 문제를 해결하는 구조 제안 논문이다.  핵심 아이디어는 NxN self-attention이 겪는 quadratic complexity 문제를 Nxd 수준의 linear complexity 문제로 바꾸는 방법이다. 토큰 개수가 늘어날수록 연산량이 제곱배로 증가하기 때문에 보통 transformer는 이미지 해상도를 제한할 수 밖에 없는데 이 논문은 high resolution 이미지도 transformer로 처리할 수 있도록 self-attention을 변형했다.  아이디어가 간단하지만 굉장히 좋다고 생각한다.  메모기본적으로 self-attent..

Paper/Others 2024.08.06

SHIC: Shape-Image Correspondences with no Keypoint Supervision

내 맘대로 Introduction 이 논문은 3D template mesh image object 간의 correspondence를 찾는 논문이다. 3D-2D correspondence를 찾는 문제인데 이때 3D가 template mesh로 semantic하게만 2D와 맞아떨어지는 3D다. 예를 들어 고양이 template mesh와 모든 고양이 이미지 간의 correspondence를 찾는 논문이다.  연구적인 레벨이라서 실용성과는 아직 거리가 있는 논문이긴 한데 활용을 생각해보면, 서로 다른 고양이 이미지 간의 semantic correspondence를 찾을 때 3D template mesh를 매개로 사용하여 찾을 수 있다는 정도가 있다. 핵심 아이디어는 GT를 만들기 힘들기 때문에 이를 SD-D..

Paper/Others 2024.07.30

As-Rigid-As-Possible Surface Modeling

내 맘대로 Introductionregistration에서 무조건 사용하는 non-rigid ICP의 핵심 원리가 나와있는 논문. ARAP이라고 불리기도 하는데, 2007년 논문이다. 이젠 15년도 더 된 논문인데 아직까지 사용되고, 이것만 한게 없다고 하는 논문. 임팩트가 참 좋은 것 같다. 논문도 깔끔함. mesh deformation 시에 mesh가 stretching, shear같은 non-linear deformation을 당연히 겪게 되는데 이를 그냥 열린 문제로 최적화하면 형상이 일그러진다. 핵심 아이디어는 stretching, shear가 발생하더라도 국소적으로 face와 그 주변 face들만 보면 rigid하게 움직인다는 것이다. 마치 자전거 체인이 각 분절은 쇠라서 고정되어 있지만 전체..

Paper/Others 2024.07.16

FeatUp: A Model-Agnostic Framework for Features at Any Resolution

내 맘대로 Introduction 기본 아이디어가 학습 잘 된 backbone에서 나오는 feature들을 고해상도로 변환할 수 없을까? 라는 질문에서 시작된다. DinoV2 같은 foundation backbone을 가져와서 사용하는 것이 흔한 요즘, 224x224로 제한된 해상도는 활용에 걸림돌이 되곤 한다. 이러한 답답함을 완화하기 위해서 뒤에 갖다 붙일 수 있는 feature upsampler를 만들고자 했다.  upsample -> down sample 원본 feature 방식으로 cyclic하게 학습해서 나중엔 upsampler만 가져와서 쓰는 방식 두 가지 구현 방식이 존재하는데 1) 학습 1번 완료 후 계속 고정하고 사용하는 upsampler2) 이미지 1장마다 overfitting시켜서..

Paper/Others 2024.05.13

MultiMAE: Multi-modal Multi-task Masked Auto encoders

내 맘대로 Introduction masked image modeling 기법을 활용해서 transformer를 pretraining하는 방법이 유명해진 이후로 나온 논문이다. 이종 입력들, 이미지나 depth, normal 등,을 동시에 입력으로 받아 자가 학습하는 방법론을 설명한다. 내용 자체는 Masked auto encoder를 그대로 가져오면서 입력 개수와 출력 개수를 늘린 것이니 별 것 없어 보이지만 실제로 전혀 다른 이종 입력이 pretrain 레벨에서도 도움이 된다는 것을 보여줬다는 것에 의미가 있다. multimodal pretraining의 입문 같은 논문. 메모 설명할 내용은 별로 없다. MAE를 구성하는 건데 각각 다른 입력, 다른 encoder에서 나온 token을 받는 식으로 구..

Paper/Others 2024.04.16

Learning Transferable Visual Models From Natural Language Supervision (a.k.a CLIP)

내 맘대로 Introduction 너무 유명한 논문이라서 이제 와서 읽고 기록해두는 것이 민망하지만 간단히 적어두고자 한다. 이 논문은 OpenAI에서 CLIP이라는 이름으로 발표한 image encoder/text encoder 논문이다. image embedding 결과가 text embedding과 같도록 설계된 환경에서 학습된 두 encoder를 제공함으로써 주어진 image에서 text embedding을, text에서 image embedding을 얻어내는 효과를 노린다. 아이디어에 핵심이 있다기 보다 엄청나게 방대한 데이터를 먹여 범용적인 embedding space를 구축했다는 것이 핵심이다. 추후 CLIP embedding을 이용한 활용 논문이 쏟아졌는데, 해당 논문들에서 CLIP의 우수..

Paper/Others 2024.02.06

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

내 맘대로 Introduction language model 이해하려고 보기 시작한 논문 중 두번째. 이 역시 나온지 오래 돼서 지금 보면 뭐 간단해보이기만 하는 논문 같다만, 기존 GPT1 방식처럼 문장을 왼쪽에서 오른쪽으로 다루는 방식에서 양방향으로 다루는 방식이 더 효과적이라는 것을 보이고 fine tuning 시에 네트워크를 추가하거나 구조를 변경하지 않아도 그대로 적용할 수 있도록 간단히 했다. 더불어서 학습 방법론에서도 단순히 다음 단어를 예측하도록 하는 것이 아니라, masked language modeling 일명 가려진 단어 맞추기로 변경했다. masked image modeling을 먼저 알고 보니 여기서 시작됐구나 싶었다. 메모하며 읽기 pre-training 때부터 두 문장 단위로 ..

Paper/Others 2024.01.05

Improving Language Understanding by Generative Pre-Training (a.k.a GPT 1)

내 맘대로 Introduction 꽤 오래된 논문이지만 LM 논문들을 쫓아가는 과정에서 시발점과 같은 논문이라 읽었다. GPT1.0이라고 불리는 논문인데, 대규모의 unlabeled text data를 어떻게 활용할 수 있는지 그 방법론을 설명한다. unlabled data vs labeled data 불균형이 엄청 큰 상황에서 unlabeled data를 버릴 순 없으니 pre-training으로 사용하자는 컨셉인데 이전에는 이게 의미가 있는지 고민하던 시기였다. 그 시점에서 충분히 의미있다고 증명해낸 논문이다. 내용은 간단하다. unlabeled data로 pre-training하고 labeled data로 fine-tuning하면 어떤 task든 성능이 뛴다는 것을 증명해낸 것이다. 다시 말해 사전..

Paper/Others 2024.01.05