Paper/Others 16

Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture (a.k.a I-JEPA) + (V-JEPA)

내 맘대로 Introduction이 논문은 MAE의 많은 후속 연구와 같이 어떻게 하면 self-supervised learning을 효과적으로 이미지에 적용할 수 있을지 고민한 논문이다. 여느 논문들과 달리 MAE를 연구한 그룹에서 낸 후속 연구격이라 신뢰도가 높다. 저자에 LeCun이 들어있는 것도 한 몫한다.  많은 데이터를 사용하는 학습이고 모델이 transformer다 보니 연산량도 작지 않기 때문에, 성능 뿐만 아니라 학습에 걸리는 시간도 문제인데 이 두 가지 문제를 해결하고자 한 듯하다. 핵심 아이디어는 어찌 보면 간단하다. 1) random masking 대신 patch masking을 하고 patch 단위로 비교 2) 비교할 때 복원한 이미지 상의 pixel loss가 아닌 feature..

Paper/Others 2024.10.22

VideoMAE: Masked Autoencoders are Data-EfficientLearners for Self-Supervised Video Pre-Training (+VideoMAE2)

내 맘대로 Introduction SSL 방법의 인기가 올라가는 시기에 video 데이터에 적용 가능한 masked auto encoding 기법을 고민한 내용이다. 사실 특별하다기 보다 직관적으로 떠올렸을 때 이렇게 하면 될 것 같다... 싶은 방식대로 한 방식이라서 누구보다 빠르게 선점한게 눈에 띈다.  핵심 아이디어는 t frames을 쌓은 뒤, 같은 위치의 이미지 patch를 masking 하고, token화 할 때도 같은 위치 이미지 patch끼리 쌓아서 사용한 점이다. 인접 프레임의 다른 patch를 보고 복붙하듯이 학습될 여지가 더 많으므로 masking ratio를 90%까지 올리는 것이 효과가 좋았다고 발견한 것도 약간의 포인트다. 메모비디오 인접 프레임을 쌓는 방식은 masking한다 ..

Paper/Others 2024.10.21

Learning Implicit Functions for Dense 3D Shape Correspondence of Generic Objects

내 맘대로 Introduction 주제는 관심에서 벗어나도 한참 벗어났지만, 3D dense correspondence라는 관점에서 참고할 만할까 해서 읽은 22년도 논문. 어떻게 하면 효과적으로 semantic embedding을 할 수 있을지 고민한 논문으로 embedding space 상의 거리로 correspondence를 찾아낸다.  뭔가 이것저것 들어가있지만 결국 이것도 VAE와 95% 동일하다. 입력으로 들어간 N point와 별개로 중간에 query point가 따로 들어간다는게 차이일 뿐 거의 동일하다. 서로 다른 shape의 object를 대상으로 하다보니 mutual correspondence가 애초에 불가능하고, 그렇기 때문에 query point로 지정해서 correspondenc..

Paper/Others 2024.10.18

ArcFace: Additive Angular Margin Loss for DeepFace Recognition

내 맘대로 Introduction 논문에 face가 들어가서 face recognition이 본체인 것 같지만 사실 additive angular margin loss가 본체다. triplet loss와 같이 positive 대상과는 가깝게, negative 대상과는 멀게 embedding해야 하는 상황에서 쓸 수 있는 loss다. 조금 오래 된 논문이기도 한데 뒤늦게 읽었다. 엄청 유명한 방식. log-softmax와 비슷한데, 단순히 값을 input으로 넣는 것이 아니라, learnable embedding N개를 만들어두고, 가까운 embedding과의 "각도"의 cosine 값을 사용한다. 직관적으로 보면 feature 간의 각도를 벌리도록 설계하는 것. 여기다 마진을 조금 더 더해주면 분별력이 ..

Paper/Others 2024.10.07

Improving 2D Feature Representations by 3D-Aware Fine-Tuning

내 맘대로 Introduction요즘 foundation model이 온갖 feature extraction을 대체하고도 남을 정도로 잘 되다보니까 foundation model에서 나온 feature 갖고 노는 법, 업그레이드하는 법 같은 논문이 자주 보이는 것 같다. 이 논문은 DiNOv2를 예시로 썼지만 foundation model에서 나온 2D feature를 3D-aware형태로 튜닝하는 방법론을 설명한다. 2D 이미지를 어마어마하게 먹어서 어느 정도 3D-aware라고 "할 수도" 있겠지만 명시적으로 3D를 보고 배운 것이 아니기 때문에 아쉬운 점이 있다.  3D feature gaussian을 2D feature + camera pose로 학습시킨 뒤, 이를 이용해 다시 각 view의 2D..

Paper/Others 2024.09.11

XCiT: Cross-Covariance Image Transformers

내 맘대로 Introduction2021년 나온 논문이긴 한데 Facebook에서 낸 논문으로 아직까지도 잘 인용되는 논문. transformer 구조의 연산량 문제를 해결하는 구조 제안 논문이다.  핵심 아이디어는 NxN self-attention이 겪는 quadratic complexity 문제를 Nxd 수준의 linear complexity 문제로 바꾸는 방법이다. 토큰 개수가 늘어날수록 연산량이 제곱배로 증가하기 때문에 보통 transformer는 이미지 해상도를 제한할 수 밖에 없는데 이 논문은 high resolution 이미지도 transformer로 처리할 수 있도록 self-attention을 변형했다.  아이디어가 간단하지만 굉장히 좋다고 생각한다.  메모기본적으로 self-attent..

Paper/Others 2024.08.06

SHIC: Shape-Image Correspondences with no Keypoint Supervision

내 맘대로 Introduction 이 논문은 3D template mesh image object 간의 correspondence를 찾는 논문이다. 3D-2D correspondence를 찾는 문제인데 이때 3D가 template mesh로 semantic하게만 2D와 맞아떨어지는 3D다. 예를 들어 고양이 template mesh와 모든 고양이 이미지 간의 correspondence를 찾는 논문이다.  연구적인 레벨이라서 실용성과는 아직 거리가 있는 논문이긴 한데 활용을 생각해보면, 서로 다른 고양이 이미지 간의 semantic correspondence를 찾을 때 3D template mesh를 매개로 사용하여 찾을 수 있다는 정도가 있다. 핵심 아이디어는 GT를 만들기 힘들기 때문에 이를 SD-D..

Paper/Others 2024.07.30

As-Rigid-As-Possible Surface Modeling

내 맘대로 Introductionregistration에서 무조건 사용하는 non-rigid ICP의 핵심 원리가 나와있는 논문. ARAP이라고 불리기도 하는데, 2007년 논문이다. 이젠 15년도 더 된 논문인데 아직까지 사용되고, 이것만 한게 없다고 하는 논문. 임팩트가 참 좋은 것 같다. 논문도 깔끔함. mesh deformation 시에 mesh가 stretching, shear같은 non-linear deformation을 당연히 겪게 되는데 이를 그냥 열린 문제로 최적화하면 형상이 일그러진다. 핵심 아이디어는 stretching, shear가 발생하더라도 국소적으로 face와 그 주변 face들만 보면 rigid하게 움직인다는 것이다. 마치 자전거 체인이 각 분절은 쇠라서 고정되어 있지만 전체..

Paper/Others 2024.07.16

FeatUp: A Model-Agnostic Framework for Features at Any Resolution

내 맘대로 Introduction 기본 아이디어가 학습 잘 된 backbone에서 나오는 feature들을 고해상도로 변환할 수 없을까? 라는 질문에서 시작된다. DinoV2 같은 foundation backbone을 가져와서 사용하는 것이 흔한 요즘, 224x224로 제한된 해상도는 활용에 걸림돌이 되곤 한다. 이러한 답답함을 완화하기 위해서 뒤에 갖다 붙일 수 있는 feature upsampler를 만들고자 했다.  upsample -> down sample 원본 feature 방식으로 cyclic하게 학습해서 나중엔 upsampler만 가져와서 쓰는 방식 두 가지 구현 방식이 존재하는데 1) 학습 1번 완료 후 계속 고정하고 사용하는 upsampler2) 이미지 1장마다 overfitting시켜서..

Paper/Others 2024.05.13

MultiMAE: Multi-modal Multi-task Masked Auto encoders

내 맘대로 Introduction masked image modeling 기법을 활용해서 transformer를 pretraining하는 방법이 유명해진 이후로 나온 논문이다. 이종 입력들, 이미지나 depth, normal 등,을 동시에 입력으로 받아 자가 학습하는 방법론을 설명한다. 내용 자체는 Masked auto encoder를 그대로 가져오면서 입력 개수와 출력 개수를 늘린 것이니 별 것 없어 보이지만 실제로 전혀 다른 이종 입력이 pretrain 레벨에서도 도움이 된다는 것을 보여줬다는 것에 의미가 있다. multimodal pretraining의 입문 같은 논문. 메모 설명할 내용은 별로 없다. MAE를 구성하는 건데 각각 다른 입력, 다른 encoder에서 나온 token을 받는 식으로 구..

Paper/Others 2024.04.16