Paper 260

MeGA: Hybrid Mesh-Gaussian Head Avatar for High-Fidelity Rendering and Head Editing

내 맘대로 Introduction주어진 multiview-video + fitted FLAME 들로부터 animatable avatar를 만드는 것은 기존 많은 논문들과 동일한데, 머리카락 부분과 나머지 부분을 분리해서 학습시켜서 머리 바꿔치기가 가능하다는 점과, FLAME을 그대로 안쓰고 UV displacement을 중간 끼워넣어서 geometry가 더정확해지도록 만든 다음 처리했다는 점이 눈에 띈다. 결과가 재밌고 자연스러워서 인정 받은 느낌도 있다.  메모일단 전제 조건은 주어진 1객체마다 학습을 따로 한다는 점. 범용 모델은 아니다. subject A, B가 있으면 A, B 각각 학습하는 식.1) exp+pose parameter 입력으로 받았을 때 subject-specific displace..

Paper/Human 2025.04.04

PointMamba: A Simple State Space Model for Point Cloud Analysis

내 맘대로 Introduction 이 논문은 Point cloud에 transformer 적용하는 방법을 고민한 point-transformer나 point-MAE같이 Mamba 구조를 어떻게 point cloud domain에 적용할지 고민한 논문. mamba는 sequential 처리 능력을 가진 구조이다 보니 전후관계를 따로 모델링할 필요가 없는 transformer 대비 어떤 point cloud가 먼저고, 뒤인지 정의하는 것이 필수적이다. 3차원 열린 공간에서 point cloud의 "선", "후" 개념은 사실 존재하지 않기 때문에 저자들은 일정 규칙으로 연결하는 룰 하나를 제안하고 그 룰 대로 정렬한 뒤에 mamba를 통과시키는 구조다.  효과는 예상 가능하게도, 폭발적인 메모리, 연산량 절약..

Paper/Others 2025.04.04

Arc2Avatar: Generating Expressive 3D Avatars from a Single Image via ID Guidance

내 맘대로 Introduction 이 논문은 arc2face (얼굴 ID embedding으로부터 얼굴 이미지 만들어주는 SD)를 이용해서 3D animatable head를 만드는 논문. 핵심 아이디어는 FLAME 각 vertex마다 3D GS를 할당하고, ID embedding을 condition으로 주는 상태에서 "SDS" loss 만으로 학습시킨 점. text-to-3D에서 주로 쓰는 방법인데, arc2face가 text를 ID embedding으로 바꿔친 논문이다 보니 ID-to-3D가 가능해진 점을 바로 캐치하고 대입한 논문이라고 할 수 있다.  가능성이 아무리 열렸다고 해도 이를 SDS loss 만으로 위 결과를 만들어 내는 것은 쉽지 않았을텐데, 실험의 실험을 거듭한 결과이지 않을까. 논문..

Paper/Human 2025.04.03

Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling

내 맘대로 Introduction Masked autoencoder가 ViT의 pre-train 기법으로 자리매김하는 와중에, 똑같은 방법론이 CNN에는 적용될 수 없을까 고민한 논문. Computation resource 때문에 CNN을 써야만 하는 상황에서 확실한 방법론이 있다면 꽤 유용할 것 같다는 생각이다.  핵심은 Masked autoencoding 컨셉은 그대로 가져오되, convolution kernel이 masked region에서는 feature를 뽑지 않도록 sparse convolution으로 억제하는 방식을 적용한 것이다. 커널이 masked region을 처리하는 순간 feature extraction을 방해할 뿐만 아니라, layer를 거듭할 수록 그 효과가 점점 확산되기 때문에..

Paper/Others 2025.03.27

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

내 맘대로 Introduction 이 논문은 진짜 여러모로 유명하다. diffusion이 생성형 시장을 독식하고 있는 와중에 일각에서 autoregressive transformer로 돌파하려는 시도가 있었다. 근데 눈에 띄는 성과를 거두지 못하고 연산량 문제도 있어서 "굳이?"라는 시선을 받고 말았는데 이 논문을 기점으로 diffusion을 넘어설 수 있지 않을까란 기대가 생겼다. 또 유명한 이유는 1저자의 도덕성 문제로 대서특필된 바 있다. bytedance에 금전적인 피해를 끼치고 다른 실험들을 망치면서까지 실험해서 낸 논문으로 별명이 붙었다. 핵심은 image token을 flatten에서 1D로 처리하는 것이 아니라 coarse to fine token으로 만들어서 접근한 것. + autoreg..

Paper/Generation 2025.03.26

LHM: Large Animatable Human Reconstruction Model for Single Image to 3D in Seconds

내 맘대로 Introduction single image에서 3d human avatar 얻어내려는 시도가 워낙 많아서 이제는 이 논문이 저 논문 같고, 저 논문이 이 논문 같다. 방법론은 대개 비슷한 것 같고 누가 누가 더 많은 데이터로 완성도 있게 만들었냐를 경쟁하는 듯 하다. 이 논문 역시 SMPLX query point (feature) + image feauter --> transformer --> per-vertex 3D Gaussian parameter 이런 흐름이다. Feature extractor로 Sapiens에 DINOv2까지 갖다 붙이고 transformer로 decoding 하는 방식.  메모목적이 뚜렷하다.SMPLX per-vertex 3DGS 를 만들건데, LBS로 자세 바꿨을..

Paper/Human 2025.03.25

CoTracker3: Simpler and Better Point Tracking by Pseudo-Labelling Real Videos

내 맘대로 Introduction Cotracker를 갈고 닦아서 버전 3까지 만들었다. 핵심 내용이나 구조는 거의 동일하고, 학습 방법론 + unlabeled data 추가가 관건. 요즘 이런 실험적인 성능 향상도 contribution으로 인정 받아 논문화되는 경우가 많은 것 같다. 메모Cotracker랑 거의 동일하나track feature라고 불리던 Q를 과감히 없애버림.단순히 image feature + correlation feature 만으로 해결함-> 실험적으로 이렇게 해도 성능 달성이 되었기 때문에 뺀 듯.학습할 때, 1. 일단 1개 학습해둠.2. 이걸로 pseudo labelling을 엄청 함3. 통합해서 다시 학습함이 과정을 반복하는 식으로 unlabel 데이터를 활용했다. 이 때 p..

Paper/Others 2025.03.24

CoTracker: It is Better to Track Together

내 맘대로 Introduction 이 논문도 Meta 에서 나온 논문인데 query point 위치를 주어진 video sequence 내내 tracking 하는 논문. arbitrary 2D point 입력을 받을 수 있는 구조인데 transformer로 구현되어 있어서 사실 상 N개의 지정 위치를 동시에 tracking할 수 있다. 사용해본 결과, 성능이 엄청 좋고 학습 시에 사용한 synthetic dataset이 사람과 동물을 다수 포함하고 있기 때문에 지형, 지물 뿐만 아니라 사람도 잘한다. close-up face도 잘됨. query point feature를 처음 첫 프레임에서 뽑아서 learnable로 계속 열어두고, 각 프레임마다 query point feature + 현재 예측 상태의 ..

Paper/Others 2025.03.24

Equivariant Point Network for 3D Point Cloud Analysis

내 맘대로 Introduction 논문 ETCH 에서 핵심으로 인용했던 SE3 equivariant network의 본체다. point cloud는 이미지랑 달리 3차원에 존재하기 때문에 rotation, translation이 발생할 수 있고, 이에 따라 point feature가 다르게 뽑히는 문제가 있다. 이를 해결하기 위해서 주어진 point cloud에서 feature를 뽑을 때, 어떻게 회전/이동 상태에 상관없이 feature를 뽑을 수 있을지 고민한 논문.  pinscreen에서 쓴 논문으로, 이전에 6D rotation representation을 소개한 논문도 그렇고 3차원 회전을 다루는데 진심인 그룹 같다. 이 논문도 어떤 실용성, 우수성보다 수학적 전개를 중심으로 하는 논문이라서 더 ..

Paper/3D vision 2025.03.21

ETCH: Generalizing Body Fitting to Clothed Humans via Equivariant Tightness

내 맘대로 Introduction Neural ICP랑 결이 비슷하긴 하지만 주어진 SCAN에 딱맞는 registration level의 SMPL를 얻는 것이 아니라, 옷 내부에 있는 skinned body만 얻어내는 논문. 어찌 보면 SMPL 표현력에 딱 맞는 최대 fitting을 찾는 논문이라 볼 수 있겠다. 옷으로 인한 displacement는 애초에 SMPL로 찾는 것이 문제기도 하니까.outer surface를 SMPL로 찾는 것이 맞는 문제인가? 라고 보여주면서 문제 정의 확실하게 하고 시작함. 주어진 각 SCAN point, x에 대해 가장 가까운 SMPL point를 찾아내는 컨셉. NICP랑 방향이 반대라고 할 수 있다.  이 논문은 조금 배경 지식이 필요했다. 각 3D point의 fe..

Paper/Human 2025.03.20