Paper/Others 20

Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling

내 맘대로 Introduction Masked autoencoder가 ViT의 pre-train 기법으로 자리매김하는 와중에, 똑같은 방법론이 CNN에는 적용될 수 없을까 고민한 논문. Computation resource 때문에 CNN을 써야만 하는 상황에서 확실한 방법론이 있다면 꽤 유용할 것 같다는 생각이다.  핵심은 Masked autoencoding 컨셉은 그대로 가져오되, convolution kernel이 masked region에서는 feature를 뽑지 않도록 sparse convolution으로 억제하는 방식을 적용한 것이다. 커널이 masked region을 처리하는 순간 feature extraction을 방해할 뿐만 아니라, layer를 거듭할 수록 그 효과가 점점 확산되기 때문에..

Paper/Others 2025.03.27

CoTracker3: Simpler and Better Point Tracking by Pseudo-Labelling Real Videos

내 맘대로 Introduction Cotracker를 갈고 닦아서 버전 3까지 만들었다. 핵심 내용이나 구조는 거의 동일하고, 학습 방법론 + unlabeled data 추가가 관건. 요즘 이런 실험적인 성능 향상도 contribution으로 인정 받아 논문화되는 경우가 많은 것 같다. 메모Cotracker랑 거의 동일하나track feature라고 불리던 Q를 과감히 없애버림.단순히 image feature + correlation feature 만으로 해결함-> 실험적으로 이렇게 해도 성능 달성이 되었기 때문에 뺀 듯.학습할 때, 1. 일단 1개 학습해둠.2. 이걸로 pseudo labelling을 엄청 함3. 통합해서 다시 학습함이 과정을 반복하는 식으로 unlabel 데이터를 활용했다. 이 때 p..

Paper/Others 2025.03.24

CoTracker: It is Better to Track Together

내 맘대로 Introduction 이 논문도 Meta 에서 나온 논문인데 query point 위치를 주어진 video sequence 내내 tracking 하는 논문. arbitrary 2D point 입력을 받을 수 있는 구조인데 transformer로 구현되어 있어서 사실 상 N개의 지정 위치를 동시에 tracking할 수 있다. 사용해본 결과, 성능이 엄청 좋고 학습 시에 사용한 synthetic dataset이 사람과 동물을 다수 포함하고 있기 때문에 지형, 지물 뿐만 아니라 사람도 잘한다. close-up face도 잘됨. query point feature를 처음 첫 프레임에서 뽑아서 learnable로 계속 열어두고, 각 프레임마다 query point feature + 현재 예측 상태의 ..

Paper/Others 2025.03.24

Deep Marching Tetrahedra: a Hybrid Representation for High-Resolution 3D Shape Synthesis

내 맘대로 Introduction 2021년 논문으로 시간이 좀 지난 논문이지만 좋은 컨셉이고 후속 연구가 없다는 것이 아쉬운 논문. 주어진 3D 입력 (pointcloud 혹은 voxel)을 일종의 query로 생각하고 tetrahederon으로 구성된 3D volumd grid를 이에 맞춰 변형하는 논문이다. 쉽게 말해 정사면체로 구성된 큐브를 구겨서 주어진 입력에 맞도록 변형하는 논문이다.  핵심 아이디어는 grid를 cube로 나누지 않고 tetrahedron으로 구성해서 marching tetradera 컨셉을 녹여내 복잡도를 확 낮추었다는 것. end-to-end라기 보다 중간중간 rule-based로 정리해주고 inference하는 것을 반복한다.  하나 노트는, 입력에 정확하게 최적화 방식..

Paper/Others 2024.12.27

Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture (a.k.a I-JEPA) + (V-JEPA)

내 맘대로 Introduction이 논문은 MAE의 많은 후속 연구와 같이 어떻게 하면 self-supervised learning을 효과적으로 이미지에 적용할 수 있을지 고민한 논문이다. 여느 논문들과 달리 MAE를 연구한 그룹에서 낸 후속 연구격이라 신뢰도가 높다. 저자에 LeCun이 들어있는 것도 한 몫한다.  많은 데이터를 사용하는 학습이고 모델이 transformer다 보니 연산량도 작지 않기 때문에, 성능 뿐만 아니라 학습에 걸리는 시간도 문제인데 이 두 가지 문제를 해결하고자 한 듯하다. 핵심 아이디어는 어찌 보면 간단하다. 1) random masking 대신 patch masking을 하고 patch 단위로 비교 2) 비교할 때 복원한 이미지 상의 pixel loss가 아닌 feature..

Paper/Others 2024.10.22

VideoMAE: Masked Autoencoders are Data-EfficientLearners for Self-Supervised Video Pre-Training (+VideoMAE2)

내 맘대로 Introduction SSL 방법의 인기가 올라가는 시기에 video 데이터에 적용 가능한 masked auto encoding 기법을 고민한 내용이다. 사실 특별하다기 보다 직관적으로 떠올렸을 때 이렇게 하면 될 것 같다... 싶은 방식대로 한 방식이라서 누구보다 빠르게 선점한게 눈에 띈다.  핵심 아이디어는 t frames을 쌓은 뒤, 같은 위치의 이미지 patch를 masking 하고, token화 할 때도 같은 위치 이미지 patch끼리 쌓아서 사용한 점이다. 인접 프레임의 다른 patch를 보고 복붙하듯이 학습될 여지가 더 많으므로 masking ratio를 90%까지 올리는 것이 효과가 좋았다고 발견한 것도 약간의 포인트다. 메모비디오 인접 프레임을 쌓는 방식은 masking한다 ..

Paper/Others 2024.10.21

Learning Implicit Functions for Dense 3D Shape Correspondence of Generic Objects

내 맘대로 Introduction 주제는 관심에서 벗어나도 한참 벗어났지만, 3D dense correspondence라는 관점에서 참고할 만할까 해서 읽은 22년도 논문. 어떻게 하면 효과적으로 semantic embedding을 할 수 있을지 고민한 논문으로 embedding space 상의 거리로 correspondence를 찾아낸다.  뭔가 이것저것 들어가있지만 결국 이것도 VAE와 95% 동일하다. 입력으로 들어간 N point와 별개로 중간에 query point가 따로 들어간다는게 차이일 뿐 거의 동일하다. 서로 다른 shape의 object를 대상으로 하다보니 mutual correspondence가 애초에 불가능하고, 그렇기 때문에 query point로 지정해서 correspondenc..

Paper/Others 2024.10.18

ArcFace: Additive Angular Margin Loss for DeepFace Recognition

내 맘대로 Introduction 논문에 face가 들어가서 face recognition이 본체인 것 같지만 사실 additive angular margin loss가 본체다. triplet loss와 같이 positive 대상과는 가깝게, negative 대상과는 멀게 embedding해야 하는 상황에서 쓸 수 있는 loss다. 조금 오래 된 논문이기도 한데 뒤늦게 읽었다. 엄청 유명한 방식. log-softmax와 비슷한데, 단순히 값을 input으로 넣는 것이 아니라, learnable embedding N개를 만들어두고, 가까운 embedding과의 "각도"의 cosine 값을 사용한다. 직관적으로 보면 feature 간의 각도를 벌리도록 설계하는 것. 여기다 마진을 조금 더 더해주면 분별력이 ..

Paper/Others 2024.10.07

Improving 2D Feature Representations by 3D-Aware Fine-Tuning

내 맘대로 Introduction요즘 foundation model이 온갖 feature extraction을 대체하고도 남을 정도로 잘 되다보니까 foundation model에서 나온 feature 갖고 노는 법, 업그레이드하는 법 같은 논문이 자주 보이는 것 같다. 이 논문은 DiNOv2를 예시로 썼지만 foundation model에서 나온 2D feature를 3D-aware형태로 튜닝하는 방법론을 설명한다. 2D 이미지를 어마어마하게 먹어서 어느 정도 3D-aware라고 "할 수도" 있겠지만 명시적으로 3D를 보고 배운 것이 아니기 때문에 아쉬운 점이 있다.  3D feature gaussian을 2D feature + camera pose로 학습시킨 뒤, 이를 이용해 다시 각 view의 2D..

Paper/Others 2024.09.11

XCiT: Cross-Covariance Image Transformers

내 맘대로 Introduction2021년 나온 논문이긴 한데 Facebook에서 낸 논문으로 아직까지도 잘 인용되는 논문. transformer 구조의 연산량 문제를 해결하는 구조 제안 논문이다.  핵심 아이디어는 NxN self-attention이 겪는 quadratic complexity 문제를 Nxd 수준의 linear complexity 문제로 바꾸는 방법이다. 토큰 개수가 늘어날수록 연산량이 제곱배로 증가하기 때문에 보통 transformer는 이미지 해상도를 제한할 수 밖에 없는데 이 논문은 high resolution 이미지도 transformer로 처리할 수 있도록 self-attention을 변형했다.  아이디어가 간단하지만 굉장히 좋다고 생각한다.  메모기본적으로 self-attent..

Paper/Others 2024.08.06