Paper 249

GSTAR: Gaussian Surface Tracking and Reconstruction

내 맘대로 Introduction RGB-D multiview video 셋업에서 tracked 3DGS 복원하는 논문. tracking이 꼈다는 것은 당연히 dynamic 시나리오. 보통 sequence를 다룰 때 이전 프레임에서 초기화한 mesh(혹은 3DGS) topology가 변하지 않는다는 가정 하에 다음 프레임에서 correspondence를 찾아가는 방식이지만, 이 논문은 다음 프레임에서 topology가 변할 수 있음을 추가한 것이 눈에 띈다.  예를 들어, 첫 프레임에서 모자를 쓰고 있었다가 어느 프레임에서 모자를 벗었다면, 모자로 가려졌던 부분은 기존 topology로 아무리 매칭을 해본들 없던 부분이라 못 찾는다. 이런 문제를 짚으면서 topology가 변해야 하는 부분을 인식하고 해..

Paper/3D vision 2025.01.22

HeadCraft: Modeling High-Detail Shape Variations for Animated 3DMMs

내 맘대로 Introduction NPHM이 고가의 레이저 스캔 장비로 기존 데이터셋과 다르게 머리카락을 포함한 데이터셋을 공개한 것에서 출발해서, FLAME 모델에서 부재하는 hair 표현력을 보강한 논문이다. 한마디로 FLAME에 갖다붙일 수 있는 hair 모델이다. 핵심 아이디어는 3D SCAN - registered FLAME = displacement를 학습 데이터로 사용해서 displacement generative model을 만든 것. 요즘 대세인 UV domain representation을 사용해서 displacement를 2차원으로 다루었다는 것도 눈에 띈다. (확실히 요새 UV가 대세인 것 같다.) 2D UV 도메인으로 오는 순간 CNN의 spatial inductive bias를 ..

Paper/Human 2024.12.27

Deep Marching Tetrahedra: a Hybrid Representation for High-Resolution 3D Shape Synthesis

내 맘대로 Introduction 2021년 논문으로 시간이 좀 지난 논문이지만 좋은 컨셉이고 후속 연구가 없다는 것이 아쉬운 논문. 주어진 3D 입력 (pointcloud 혹은 voxel)을 일종의 query로 생각하고 tetrahederon으로 구성된 3D volumd grid를 이에 맞춰 변형하는 논문이다. 쉽게 말해 정사면체로 구성된 큐브를 구겨서 주어진 입력에 맞도록 변형하는 논문이다.  핵심 아이디어는 grid를 cube로 나누지 않고 tetrahedron으로 구성해서 marching tetradera 컨셉을 녹여내 복잡도를 확 낮추었다는 것. end-to-end라기 보다 중간중간 rule-based로 정리해주고 inference하는 것을 반복한다.  하나 노트는, 입력에 정확하게 최적화 방식..

Paper/Others 2024.12.27

Topo4D: Topology-Preserving Gaussian Splatting for High-Fidelity 4D Head Capture

내 맘대로 Introduction Multiview video -> uniform topology Gaussian Mesh per frame 논문. 캘리브레이션/싱크 완벽한 카메라 세팅에서 찍은 비디오가 준비된 상황에서 첫 프레임만 MVS+Registration으로 gaussian mesh 초기화하고 이후부터는 tracking 하듯이 움직여서 나머지 프레임을 찾는 방식이다.  기존 방식이 매프레임 registration하고 나서 tracking하는 방식인데 첫프레임만 그렇게 하고 나머지는 최적화로 풀어서 속도가 빠르다는 것도 contribution으로 가져간다.  핵심이 되는 내용은 안정적으로 GS를 매 프레임 최적화할 수 있도록 넣은 scale loss, prior loss 들이다. 마지막에 3DGS ..

Paper/Human 2024.12.26

Cafca: High-quality Novel View Synthesis of Expressive Faces from Casual Few-shot Captures

내 맘대로 Introduction 이 논문은 Preface ++이라고 봐도 무방하다. 저자 라인도 똑같고 데이터도 똑같으며, 약간의 차이는 learnable latent가 함축해야 되는 정보량을 줄이고 decouple해서 성능을 조금 더 올리고 animatable하게 바꿨다는 점이다.  많은 사람 이미지로 학습시킨 NeRF prior model을 기반으로 few shot neural rendering을 잘하자는 논문. 메모그림만 봐도 preface와 거의 동일하다는 걸 볼 수 있음기존 preface에서 per-subject latent code W 하나만 conditional으로 제공해서 prior NeRF를 학습시켰다면caface에서는 per-suject identity code, expression ..

Paper/3D vision 2024.12.23

NICP: Neural ICP for 3D Human Registration at Scale

내 맘대로 Introduction Neural ICP라는 이름에서 바로 느낌 오듯이 기존 ICP 알고리즘에서 distance measure를 neural net으로 대체한 논문이다. euclidean distance로 nearest-neighbor를 찾아 거리를 좁히는 방식인데, nearest match가 잘되었을 때만 효과적이고 잘못되었을 때는 완전히 망가지는 방식이기 때문에 network가 semantic 정보를 기반으로 무조건적 nearest를 좀 걸러주길 기대하는 방식. ICP도 그렇듯 초기화가 굉장히 성능을 좌지우지하는데, 이 역시 아무리 network를 쓴다고 해도 target shape에서 크게 벗어난 초기값에서 시작하는 것을 무리다. 그래서 기존 방식을 stage 1으로 붙이고 제안하는 방..

Paper/Human 2024.12.23

GS2Mesh: Surface Reconstruction from Gaussian Splatting via Novel Stereo Views

내 맘대로 Introduction 3DGS로부터 어떻게 mesh를 얻을 수 있을지 고민한 논문. baseline을 SuGaR로 잡은 만큼 어떤 방법론으로 Mesh를 만들었을지 굉장히 궁금했다. 약간의 아쉽게도 내용은 3DGS 복원 -> stereo view 렌더링 -> 별도로 feature matching 후 depthmap building -> TSDF recon 이다.  3DGS를 알고리즘적으로 변형했다기 보다 잘 학습된 3DGS로부터 stereo 이미지를 얻어서 시점 별 depth를 얻어낸다는, 어떻게 보면 활용에 관한 논문이라고 볼 수 있다.  stereo view 렌더링부터, 데이터 정리 feature matching, depthmap building, TSDF fusion 등의 과정을 얼마나 ..

Paper/3D vision 2024.12.13

FFHQ-UV: Normalized Facial UV-Texture Dataset for 3D Face Reconstruction

내 맘대로 Introduction 이 논문은 FFHQ 데이터세에 있는 얼굴들의 texture를 뽑아내서 데이터셋화 한 논문이다. 이미지 말고는 주어진 정보가 아무것도 없는 FFHQ 데이터셋에서 정해진 UV 도메인의 texture map을 뽑아내는 것이 목적이기 때문에 이미지 to scan, scan unwrap 등 여러 요소가 끼어들어야 했다. 결과적으로 기존에 등장했던 여러 SOTA 알고리즘을 총집합해서 끄끝낸 만들어낸 데이터셋 내용이다.  데이터셋 논문이다 보니 알고리즘 적인 내용보다 어떻게 처리했는지 디테일 위주다. 메모크게 3단계다.1) 이미지를 InterFaceGAN으로 multiview + 머리 없애고 + 안경 없애고 2) Deep3D 알고리즘을 자체 학습한 것을 돌려 3D Mesh 뽑아내기3..

Paper/Human 2024.12.11

Pixel Codec Avatars

내 맘대로 Introduction Telecommunication을 목표로 하는 메타 연구 중 하나. 사람 1명에 대한 realistic avatar를 만드는 것을 주목적으로 하되, 실제 위 예시처럼 telecommunication 상황에서 real time으로 사용 가능하도록 하는 것도 염두했다. 여러 사람이 있는 장면을 렌더링한다고 하면 실제 머리에 해당하는 pixel은 적은 영역이므로 적은 pixel만 실시간 렌더링해서 연산량을 줄일 수 있도록 NeRF 컨셉을 적용했다고 한다.  핵심 아이디어는 latent to position map(xyz) + feature -> MLP 붙여서 neural rendering 이다. multiface dataset 세팅에서 취득한 초고품질 데이터로 학습을 시켜서 ..

Paper/Human 2024.12.03

MoGe: Unlocking Accurate Monocular Geometry Estimation for Open-Domain Images with Optimal Training Supervision

내 맘대로 Introduction DUSt3R이 쏘아올린 작은 공 후속편. monocular point map estimation이다. monodepth 추세가 DUSt3R로 인해 mono pointmap으로 넘어온 듯 하다. 단일 입력을 받고, intrinsic에 상관없이 normalized scale의 point cloud가 나오는 방식 DUSt3R과 구조적으로 single input을 받는다는 차이점 외에 focal length ambiguity를 해결하기 위해 scale 에 더불어 translation까지 고려한다는 차이점이 있다. 직관적으로 focal length가 다르면 물체가 다르게 보이기 때문에 같은 위치의 point cloud를 예측하기 힘드니까, translation을 같이 풀어주는 느..

Paper/3D vision 2024.11.19