Paper 265

Large Steps in Inverse Rendering of Geometry

내 맘대로 Introduction 이 논문은 diff.rendering으로 target geometry를 역추정할 때 (DMTet 같은 느낌) 단순히 gradient를 vertex에 흘려보내기만 한다면 위 그림의 (b)처럼 망가지는데, 어떻게 regularization하면 효과적으로 최적화할 수 있을지 방법론을 소개하는 논문이다. 기존 방식은 vertex gradient와 laplacian regularizer 간의 trade-off 지점을 정하는 방식으로 완충했는데, 이 논문은 수학적으로 조금 더 나은 방법을 계산한다. gradient와 regularizer가 싸우도록하는 것이 아니라 gradient 자체를 regularize하는 방식이다. 구체적인 수학은 나도 모름. 메모mesh M이 주어졌을 때 ..

Paper/3D vision 2025.04.29

Towards Realistic Example-based Modeling via 3D Gaussian Stitching

내 맘대로 Introduction 이전 SeamlessNeRF의 3DGS 버전이라고 보면 된다. SeamlessNeRF가 잘 학습된 TensoRF 모델을 위치를 지정해서 merging하는 방법론. NeRF보다 3DGS는 explicit하기 때문에 딱봐도 더 난이도가 낮아보이고 성능도 더 뛰어날 것으로 보인다. 단순히 color tone만 matching하는 것을 넘어서 gradient를 사용하는 컨셉을 그대로 가져오되 형식을 3DGS에 맞도록 변경한 것이 핵심. GUI까지 꾸며서 개발한 것을 보아 연구성 논문으로 시작한 것은 아닌 것 같다. 메모전처리1) 합칠 대상이 되는 2개의 3DGS 복원 완료된 결과를 GUI에 띄워서 bounding box로 cropping -> 유효 3DGS를 손으로 일단 정..

Paper/3D vision 2025.04.18

SeamlessNeRF: Stitching Part NeRFs with Gradient Propagation

내 맘대로 Introduction 요즘 3DGS을 seamless integration하는 방법을 좀 알아보고 있는데, 2023년 NeRF에서 구현한 논문이 있길래 참고 삼아 읽었다. 각기 다른 대상을 담은 NeRF MLP (정확히는 TesorRF Vector-matrix)가 주어졌을 때, 이를 두 개를 합쳐 마치 하나였던 것처럼 렌더링하는 방법론이다. 핵심은 color tone을 업데이트해서 자연스럽게 이어붙이는 과정. 단순히 color tone만 업데이트하면 잘 안될 것 같은데, gradient를 이용한 loss로 보강한 것이 핵심 메모1) 기본적으로 TensorRF를 backbone으로 쓴다. TensorRF는 vector와 matrix로 공간을 표현하는 representation을 쓰기 때문에 유..

Paper/3D vision 2025.04.16

GGHead: Fast and Generalizable 3D Gaussian Heads

내 맘대로 Introduction 상상만 했던 것을 직접 구현한게 나왔다. StyleGAN2의 3DGS 버전이다. latent 하나만 달랑 넣으면 template mesh에 대응되는 3DGS가 짠 나오는 논문. StyleGAN2 generator - 3DGS + diff. rasterizer - discriminator 3개만으로 풀어버렸다. 안 그래도 학습이 어려운 GAN 튜닝을 3DGS 같이 자유도가 높은 대상에 대해서 하는 것은 사실 누가 봐도 쉽지 않아보였는데 그걸 해버렸다. 그래서 SIGGRAPH에 됐나 보다.... 메모1) generator  UV domain 각 픽셀마다 3DGS primitives 예측2) 3DGS 렌더링3) discirimination.latent 512 vector 를 ..

Paper/Human 2025.04.10

AM-RADIO: Agglomerative Vision Foundation Model Reduce All Domains Into One

내 맘대로 Introduction 미친 논문을 하나 발견했다. 개인적으로 이렇게 파고드는 탐색적 연구가 멋있는 것 같다. 이 논문은 DINOv2, CLIP, SAM 등 foundation model이라고 불리며 general purpose feature를 뽑아주는 모델들을 보고, 단 하나로 융합할 수 없을까 고민한 논문이다. 쉽게 말하면 모든 VFM(vision foundation model)을 하나로 합쳐서 궁극의 모델을 만드는 방법을 고민한 것. 핵심은 기존 VFM 들을 multi-teacher로 두고 하나의 student를 학습하는 knowledge distillation이다. 단순히 결과 feature가 닮도록 loss를 걸어준다고 생각하기 쉽지만, 그 과정에서 각기 다른 dimension, fe..

Paper/Others 2025.04.08

MeGA: Hybrid Mesh-Gaussian Head Avatar for High-Fidelity Rendering and Head Editing

내 맘대로 Introduction주어진 multiview-video + fitted FLAME 들로부터 animatable avatar를 만드는 것은 기존 많은 논문들과 동일한데, 머리카락 부분과 나머지 부분을 분리해서 학습시켜서 머리 바꿔치기가 가능하다는 점과, FLAME을 그대로 안쓰고 UV displacement을 중간 끼워넣어서 geometry가 더정확해지도록 만든 다음 처리했다는 점이 눈에 띈다. 결과가 재밌고 자연스러워서 인정 받은 느낌도 있다.  메모일단 전제 조건은 주어진 1객체마다 학습을 따로 한다는 점. 범용 모델은 아니다. subject A, B가 있으면 A, B 각각 학습하는 식.1) exp+pose parameter 입력으로 받았을 때 subject-specific displace..

Paper/Human 2025.04.04

PointMamba: A Simple State Space Model for Point Cloud Analysis

내 맘대로 Introduction 이 논문은 Point cloud에 transformer 적용하는 방법을 고민한 point-transformer나 point-MAE같이 Mamba 구조를 어떻게 point cloud domain에 적용할지 고민한 논문. mamba는 sequential 처리 능력을 가진 구조이다 보니 전후관계를 따로 모델링할 필요가 없는 transformer 대비 어떤 point cloud가 먼저고, 뒤인지 정의하는 것이 필수적이다. 3차원 열린 공간에서 point cloud의 "선", "후" 개념은 사실 존재하지 않기 때문에 저자들은 일정 규칙으로 연결하는 룰 하나를 제안하고 그 룰 대로 정렬한 뒤에 mamba를 통과시키는 구조다.  효과는 예상 가능하게도, 폭발적인 메모리, 연산량 절약..

Paper/Others 2025.04.04

Arc2Avatar: Generating Expressive 3D Avatars from a Single Image via ID Guidance

내 맘대로 Introduction 이 논문은 arc2face (얼굴 ID embedding으로부터 얼굴 이미지 만들어주는 SD)를 이용해서 3D animatable head를 만드는 논문. 핵심 아이디어는 FLAME 각 vertex마다 3D GS를 할당하고, ID embedding을 condition으로 주는 상태에서 "SDS" loss 만으로 학습시킨 점. text-to-3D에서 주로 쓰는 방법인데, arc2face가 text를 ID embedding으로 바꿔친 논문이다 보니 ID-to-3D가 가능해진 점을 바로 캐치하고 대입한 논문이라고 할 수 있다.  가능성이 아무리 열렸다고 해도 이를 SDS loss 만으로 위 결과를 만들어 내는 것은 쉽지 않았을텐데, 실험의 실험을 거듭한 결과이지 않을까. 논문..

Paper/Human 2025.04.03

Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling

내 맘대로 Introduction Masked autoencoder가 ViT의 pre-train 기법으로 자리매김하는 와중에, 똑같은 방법론이 CNN에는 적용될 수 없을까 고민한 논문. Computation resource 때문에 CNN을 써야만 하는 상황에서 확실한 방법론이 있다면 꽤 유용할 것 같다는 생각이다.  핵심은 Masked autoencoding 컨셉은 그대로 가져오되, convolution kernel이 masked region에서는 feature를 뽑지 않도록 sparse convolution으로 억제하는 방식을 적용한 것이다. 커널이 masked region을 처리하는 순간 feature extraction을 방해할 뿐만 아니라, layer를 거듭할 수록 그 효과가 점점 확산되기 때문에..

Paper/Others 2025.03.27

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

내 맘대로 Introduction 이 논문은 진짜 여러모로 유명하다. diffusion이 생성형 시장을 독식하고 있는 와중에 일각에서 autoregressive transformer로 돌파하려는 시도가 있었다. 근데 눈에 띄는 성과를 거두지 못하고 연산량 문제도 있어서 "굳이?"라는 시선을 받고 말았는데 이 논문을 기점으로 diffusion을 넘어설 수 있지 않을까란 기대가 생겼다. 또 유명한 이유는 1저자의 도덕성 문제로 대서특필된 바 있다. bytedance에 금전적인 피해를 끼치고 다른 실험들을 망치면서까지 실험해서 낸 논문으로 별명이 붙었다. 핵심은 image token을 flatten에서 1D로 처리하는 것이 아니라 coarse to fine token으로 만들어서 접근한 것. + autoreg..

Paper/Generation 2025.03.26