Paper/Others 27

4Deform: Neural Surface Deformation for Robust Shape Interpolation

내 맘대로 Introduction Implicit Neural Surface Deformation with Explicit Velocity Fields 의 저자랑 동일한 사람이 90% 같은 내용 + 10% 추가 term으로 연달아 CVPR에 낸 논문. 핵심은 modified level set equation으로 형상 간의 interpolation을 질량 보존이 성립하도록 억제하는 것으로 똑같은데, 추가로 surface stretching, shear 같은 표면 형상 변화를 억제하는 loss를 추가한 점이 차이가 있다. vector field를 요리보고 조리봐서 활용할 수 있는 방법을 계속 캐내는 것이 신기할 뿐이다. 메모내가 볼 땐 전혀 중요한게 아니지만, 저자가 말하길 이전 ICLR 논문에서는 spa..

Paper/Others 2025.06.13

Implicit Neural Surface Deformation with Explicit Velocity Fields

내 맘대로 Introduction세상엔 똑똑한 사람이 많구나. Neural Implicit Surface Evolution 에서 level-set equation으로 implicit sdf function 간의 interpolation을 GT없이 전개한 것에 감탄하고 수학적 깊이에 후속 연구가 나오긴 시간이 꽤 걸리겠다 싶었는데, 단번에 이 논문의 단점을 지적하면서 개선한 논문이 나왔다. shape matching을 파고드는 뚝심있는 연구실에서 나온 논문이라서 이 역시 수학적 깊이가 남다르다. 역시 내가 모른다고 남도 모르는게 아니다. 이 논문은 기존 implicit function g1, g2 간의 interpolation을 풀 때 가장 문제가 됐던, point tracking이 안된다는 점 + 중간..

Paper/Others 2025.06.12

Neural Implicit Surface Evolution

내 맘대로 Introduction 짧고 굵은 제목에서 느껴지는 힘만큼이나 알찬 내용을 담고 있는 논문. 어떤 application을 고민한 논문이 아니라 수학적으로 implicit surface를 표현하는 function, g를 어떻게 변형할 수 있을지 고민해본 논문. 이미 어떤 형상의 SDF를 표현하도록 학습해둔 implicit function, g이 있다고 했을 때 우리는 그대로 쓰는 것 밖에 못한다. implicit function이 아닌 mesh 표현법을 택했다면 smoothing, simplification 등 후가공이 가능했을텐데, implicit function으로 표현한 순간 변형이 불가능하기 때문에 고정된 형상 표현법이라고 가정하곤 했다. 저자들은 g가 주어졌을 때 geometry에 부..

Paper/Others 2025.06.10

Harnessing the Universal Geometry of Embeddings

내 맘대로 Introduction 개쩌는 논문을 하나 또 발견한 것 같다. 성능이 개쩐다는 것이 아니라 파급력 측면에서 정말 파격적인 논문인 것 같다. 얼마나 많은 후속 연구가 나올지... 또 얼마나 많은 돈과 전기를 쓰게 될지 궁금하다. 요약하자면, 서로 다른 LLM 간의 embedding space를 GT 없이도 matching 할 수 있다는 것을 밝혔다. 예를 들면, GPT4에 어떤 입력을 넣어서 얻은 embedding이 있다고 쳤을 때, 이 값을 해석하려면 다시 GPU4 decoder가 필요했다. 하지만 이제는 GPT4 embedding을 DeepSeek embedding으로 변환할 수 있게 됐기 때문에 DeepSeek decoder가 있어도 값을 해석할 수 있다. 멋지지만 동시에 두렵다;; e..

Paper/Others 2025.05.30

DreamSim: Learning New Dimensions of Human Visual Similarity using Synthetic Data

내 맘대로 Introduction우연히 발견한 논문인데, 오랜만에 원론적인 고민을 한 사람을 만난 것 같다. 이 논문은 "이미지가 비슷하다"를 집요하게 파고 들어 비슷함에 대한 metric을 만들고자 했다. 우리가 흔히 LPIPS나 CLIP/DINO/SAM 등 foundation model feature의 cosine similarity로 이미지의 비슷함을 가늠하곤 했는데 이 사람은 이게 효과적임을 인정함과 동시에 의문을 품었다. 비슷하긴 한데 어떻게 비슷한건데? 결국 사람이 보기에 비슷한 거랑 일치해야 하는거 아니야? 라고. 그래서 이 사람은 SD에서 같은 category로 만들어 낸 무수한 이미지 triplet을 갖고 "진짜" 사람한테 시켜서 데이터를 구성한 뒤, 이 데이터를 갖고 각 feature ..

Paper/Others 2025.05.29

AM-RADIO: Agglomerative Vision Foundation Model Reduce All Domains Into One

내 맘대로 Introduction 미친 논문을 하나 발견했다. 개인적으로 이렇게 파고드는 탐색적 연구가 멋있는 것 같다. 이 논문은 DINOv2, CLIP, SAM 등 foundation model이라고 불리며 general purpose feature를 뽑아주는 모델들을 보고, 단 하나로 융합할 수 없을까 고민한 논문이다. 쉽게 말하면 모든 VFM(vision foundation model)을 하나로 합쳐서 궁극의 모델을 만드는 방법을 고민한 것. 핵심은 기존 VFM 들을 multi-teacher로 두고 하나의 student를 학습하는 knowledge distillation이다. 단순히 결과 feature가 닮도록 loss를 걸어준다고 생각하기 쉽지만, 그 과정에서 각기 다른 dimension, fe..

Paper/Others 2025.04.08

PointMamba: A Simple State Space Model for Point Cloud Analysis

내 맘대로 Introduction 이 논문은 Point cloud에 transformer 적용하는 방법을 고민한 point-transformer나 point-MAE같이 Mamba 구조를 어떻게 point cloud domain에 적용할지 고민한 논문. mamba는 sequential 처리 능력을 가진 구조이다 보니 전후관계를 따로 모델링할 필요가 없는 transformer 대비 어떤 point cloud가 먼저고, 뒤인지 정의하는 것이 필수적이다. 3차원 열린 공간에서 point cloud의 "선", "후" 개념은 사실 존재하지 않기 때문에 저자들은 일정 규칙으로 연결하는 룰 하나를 제안하고 그 룰 대로 정렬한 뒤에 mamba를 통과시키는 구조다.  효과는 예상 가능하게도, 폭발적인 메모리, 연산량 절약..

Paper/Others 2025.04.04

Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling

내 맘대로 Introduction Masked autoencoder가 ViT의 pre-train 기법으로 자리매김하는 와중에, 똑같은 방법론이 CNN에는 적용될 수 없을까 고민한 논문. Computation resource 때문에 CNN을 써야만 하는 상황에서 확실한 방법론이 있다면 꽤 유용할 것 같다는 생각이다.  핵심은 Masked autoencoding 컨셉은 그대로 가져오되, convolution kernel이 masked region에서는 feature를 뽑지 않도록 sparse convolution으로 억제하는 방식을 적용한 것이다. 커널이 masked region을 처리하는 순간 feature extraction을 방해할 뿐만 아니라, layer를 거듭할 수록 그 효과가 점점 확산되기 때문에..

Paper/Others 2025.03.27

CoTracker3: Simpler and Better Point Tracking by Pseudo-Labelling Real Videos

내 맘대로 Introduction Cotracker를 갈고 닦아서 버전 3까지 만들었다. 핵심 내용이나 구조는 거의 동일하고, 학습 방법론 + unlabeled data 추가가 관건. 요즘 이런 실험적인 성능 향상도 contribution으로 인정 받아 논문화되는 경우가 많은 것 같다. 메모Cotracker랑 거의 동일하나track feature라고 불리던 Q를 과감히 없애버림.단순히 image feature + correlation feature 만으로 해결함-> 실험적으로 이렇게 해도 성능 달성이 되었기 때문에 뺀 듯.학습할 때, 1. 일단 1개 학습해둠.2. 이걸로 pseudo labelling을 엄청 함3. 통합해서 다시 학습함이 과정을 반복하는 식으로 unlabel 데이터를 활용했다. 이 때 p..

Paper/Others 2025.03.24

CoTracker: It is Better to Track Together

내 맘대로 Introduction 이 논문도 Meta 에서 나온 논문인데 query point 위치를 주어진 video sequence 내내 tracking 하는 논문. arbitrary 2D point 입력을 받을 수 있는 구조인데 transformer로 구현되어 있어서 사실 상 N개의 지정 위치를 동시에 tracking할 수 있다. 사용해본 결과, 성능이 엄청 좋고 학습 시에 사용한 synthetic dataset이 사람과 동물을 다수 포함하고 있기 때문에 지형, 지물 뿐만 아니라 사람도 잘한다. close-up face도 잘됨. query point feature를 처음 첫 프레임에서 뽑아서 learnable로 계속 열어두고, 각 프레임마다 query point feature + 현재 예측 상태의 ..

Paper/Others 2025.03.24