Paper/Others 30

Cameras as Relative Positional Encoding

내 맘대로 Introductiontransformer가 텍스트에서 이미지로 넘어오고, 이미지에서 3D로 넘어가고 있는 시점에서 positional embedding에 대한 관심도 자연스레 늘고 있다. absolute-relative-rotary 등등 절대적 정보와 상대적 정보를 동시에 담는 방식이 효과가 좋다는 것이 밝혀져 있는데 이 논문은 3D 공간에서 어떻게 담을 것인지 절대+상대 정보를 고민한 논문이다. 대표적으로 raymap, 즉 이미지의 각 픽셀을 intrinsic,extrinsic으로 back-projection했을 때 생성할 수 있는 ray vector를 encoding값으로 쓰는 것이 있는데 너무 naive하기도 하고 scale, translation, rotation에 취약하기 때문에 ..

Paper/Others 2025.07.18

Rectified Point Flow: Generic Point Cloud Pose Estimation

내 맘대로 Introduction 이 논문은 여러개의 object part pointcloud가 주어졌을 때, 하나를 기준으로 나머지 pcd들이 조립되듯이 정렬되는 걸 목표로 한다. 구현을 이렇게 했지만 풀고자 했던 문제를 point cloud generative model이 형상과 구조, 의미를 파악할 수 있음을 보이는데 있다. 어떻게 보면 입력을 pointcloud로 바꾼 diffusion model로 볼 수 있지만 내 생각엔 좋은 insight를 주는 컨셉 논문인 것 같다. ICP나 여느 registration 논문은 overlapped region에 의존해서 정렬을 하기 때문에 완전 떨어진 pointcloud끼리는 의미론적으로 정렬할 수 밖에 없다. 이 부분을 파고 들어서 minimal over..

Paper/Others 2025.07.14

Parallel Sequence Modeling via Generalized Spatial Propagation Network (a.k.a GSPN)

내 맘대로 Introduction드디어 나왔나?! 쓰기도 쉽고 이해하기도 간단한 transformer 대체재? trasnformer의 핵심 attention meschanism은 효과적이지만 그 연산량이 O(N^2) 이기 때문에 높은 해상도로 학습하는건 기업의 전유물이 된지 오래다. 내로라 할 backbone들 중 개인이 공개한 경우는 거의 없다. 전기랑 GPU 값을 견딜 수 없기 때문이다. 기업에서도 하긴 한다만 부담이 있는 것도 팩트. 그래서 mamba를 비롯한 attention layer를 대체하는 연구에 관심이 많이 쏠리는데, 이번에 NVIDIA에서 깔끔한 논문을 하나 냈다. 개인적으로 mamba는 몇 번 읽어봤지만 아직도 완벽하게 이해가 안간 반면 이 논문은 그냥 바로 이해가 가능해서 좋았다. ..

Paper/Others 2025.07.08

4Deform: Neural Surface Deformation for Robust Shape Interpolation

내 맘대로 Introduction Implicit Neural Surface Deformation with Explicit Velocity Fields 의 저자랑 동일한 사람이 90% 같은 내용 + 10% 추가 term으로 연달아 CVPR에 낸 논문. 핵심은 modified level set equation으로 형상 간의 interpolation을 질량 보존이 성립하도록 억제하는 것으로 똑같은데, 추가로 surface stretching, shear 같은 표면 형상 변화를 억제하는 loss를 추가한 점이 차이가 있다. vector field를 요리보고 조리봐서 활용할 수 있는 방법을 계속 캐내는 것이 신기할 뿐이다. 메모내가 볼 땐 전혀 중요한게 아니지만, 저자가 말하길 이전 ICLR 논문에서는 spa..

Paper/Others 2025.06.13

Implicit Neural Surface Deformation with Explicit Velocity Fields

내 맘대로 Introduction세상엔 똑똑한 사람이 많구나. Neural Implicit Surface Evolution 에서 level-set equation으로 implicit sdf function 간의 interpolation을 GT없이 전개한 것에 감탄하고 수학적 깊이에 후속 연구가 나오긴 시간이 꽤 걸리겠다 싶었는데, 단번에 이 논문의 단점을 지적하면서 개선한 논문이 나왔다. shape matching을 파고드는 뚝심있는 연구실에서 나온 논문이라서 이 역시 수학적 깊이가 남다르다. 역시 내가 모른다고 남도 모르는게 아니다. 이 논문은 기존 implicit function g1, g2 간의 interpolation을 풀 때 가장 문제가 됐던, point tracking이 안된다는 점 + 중간..

Paper/Others 2025.06.12

Neural Implicit Surface Evolution

내 맘대로 Introduction 짧고 굵은 제목에서 느껴지는 힘만큼이나 알찬 내용을 담고 있는 논문. 어떤 application을 고민한 논문이 아니라 수학적으로 implicit surface를 표현하는 function, g를 어떻게 변형할 수 있을지 고민해본 논문. 이미 어떤 형상의 SDF를 표현하도록 학습해둔 implicit function, g이 있다고 했을 때 우리는 그대로 쓰는 것 밖에 못한다. implicit function이 아닌 mesh 표현법을 택했다면 smoothing, simplification 등 후가공이 가능했을텐데, implicit function으로 표현한 순간 변형이 불가능하기 때문에 고정된 형상 표현법이라고 가정하곤 했다. 저자들은 g가 주어졌을 때 geometry에 부..

Paper/Others 2025.06.10

Harnessing the Universal Geometry of Embeddings

내 맘대로 Introduction 개쩌는 논문을 하나 또 발견한 것 같다. 성능이 개쩐다는 것이 아니라 파급력 측면에서 정말 파격적인 논문인 것 같다. 얼마나 많은 후속 연구가 나올지... 또 얼마나 많은 돈과 전기를 쓰게 될지 궁금하다. 요약하자면, 서로 다른 LLM 간의 embedding space를 GT 없이도 matching 할 수 있다는 것을 밝혔다. 예를 들면, GPT4에 어떤 입력을 넣어서 얻은 embedding이 있다고 쳤을 때, 이 값을 해석하려면 다시 GPU4 decoder가 필요했다. 하지만 이제는 GPT4 embedding을 DeepSeek embedding으로 변환할 수 있게 됐기 때문에 DeepSeek decoder가 있어도 값을 해석할 수 있다. 멋지지만 동시에 두렵다;; e..

Paper/Others 2025.05.30

DreamSim: Learning New Dimensions of Human Visual Similarity using Synthetic Data

내 맘대로 Introduction우연히 발견한 논문인데, 오랜만에 원론적인 고민을 한 사람을 만난 것 같다. 이 논문은 "이미지가 비슷하다"를 집요하게 파고 들어 비슷함에 대한 metric을 만들고자 했다. 우리가 흔히 LPIPS나 CLIP/DINO/SAM 등 foundation model feature의 cosine similarity로 이미지의 비슷함을 가늠하곤 했는데 이 사람은 이게 효과적임을 인정함과 동시에 의문을 품었다. 비슷하긴 한데 어떻게 비슷한건데? 결국 사람이 보기에 비슷한 거랑 일치해야 하는거 아니야? 라고. 그래서 이 사람은 SD에서 같은 category로 만들어 낸 무수한 이미지 triplet을 갖고 "진짜" 사람한테 시켜서 데이터를 구성한 뒤, 이 데이터를 갖고 각 feature ..

Paper/Others 2025.05.29

AM-RADIO: Agglomerative Vision Foundation Model Reduce All Domains Into One

내 맘대로 Introduction 미친 논문을 하나 발견했다. 개인적으로 이렇게 파고드는 탐색적 연구가 멋있는 것 같다. 이 논문은 DINOv2, CLIP, SAM 등 foundation model이라고 불리며 general purpose feature를 뽑아주는 모델들을 보고, 단 하나로 융합할 수 없을까 고민한 논문이다. 쉽게 말하면 모든 VFM(vision foundation model)을 하나로 합쳐서 궁극의 모델을 만드는 방법을 고민한 것. 핵심은 기존 VFM 들을 multi-teacher로 두고 하나의 student를 학습하는 knowledge distillation이다. 단순히 결과 feature가 닮도록 loss를 걸어준다고 생각하기 쉽지만, 그 과정에서 각기 다른 dimension, fe..

Paper/Others 2025.04.08

PointMamba: A Simple State Space Model for Point Cloud Analysis

내 맘대로 Introduction 이 논문은 Point cloud에 transformer 적용하는 방법을 고민한 point-transformer나 point-MAE같이 Mamba 구조를 어떻게 point cloud domain에 적용할지 고민한 논문. mamba는 sequential 처리 능력을 가진 구조이다 보니 전후관계를 따로 모델링할 필요가 없는 transformer 대비 어떤 point cloud가 먼저고, 뒤인지 정의하는 것이 필수적이다. 3차원 열린 공간에서 point cloud의 "선", "후" 개념은 사실 존재하지 않기 때문에 저자들은 일정 규칙으로 연결하는 룰 하나를 제안하고 그 룰 대로 정렬한 뒤에 mamba를 통과시키는 구조다.  효과는 예상 가능하게도, 폭발적인 메모리, 연산량 절약..

Paper/Others 2025.04.04