Paper/3D vision 107

Towards Realistic Example-based Modeling via 3D Gaussian Stitching

내 맘대로 Introduction 이전 SeamlessNeRF의 3DGS 버전이라고 보면 된다. SeamlessNeRF가 잘 학습된 TensoRF 모델을 위치를 지정해서 merging하는 방법론. NeRF보다 3DGS는 explicit하기 때문에 딱봐도 더 난이도가 낮아보이고 성능도 더 뛰어날 것으로 보인다. 단순히 color tone만 matching하는 것을 넘어서 gradient를 사용하는 컨셉을 그대로 가져오되 형식을 3DGS에 맞도록 변경한 것이 핵심. GUI까지 꾸며서 개발한 것을 보아 연구성 논문으로 시작한 것은 아닌 것 같다. 메모전처리1) 합칠 대상이 되는 2개의 3DGS 복원 완료된 결과를 GUI에 띄워서 bounding box로 cropping -> 유효 3DGS를 손으로 일단 정..

Paper/3D vision 2025.04.18

SeamlessNeRF: Stitching Part NeRFs with Gradient Propagation

내 맘대로 Introduction 요즘 3DGS을 seamless integration하는 방법을 좀 알아보고 있는데, 2023년 NeRF에서 구현한 논문이 있길래 참고 삼아 읽었다. 각기 다른 대상을 담은 NeRF MLP (정확히는 TesorRF Vector-matrix)가 주어졌을 때, 이를 두 개를 합쳐 마치 하나였던 것처럼 렌더링하는 방법론이다. 핵심은 color tone을 업데이트해서 자연스럽게 이어붙이는 과정. 단순히 color tone만 업데이트하면 잘 안될 것 같은데, gradient를 이용한 loss로 보강한 것이 핵심 메모1) 기본적으로 TensorRF를 backbone으로 쓴다. TensorRF는 vector와 matrix로 공간을 표현하는 representation을 쓰기 때문에 유..

Paper/3D vision 2025.04.16

Equivariant Point Network for 3D Point Cloud Analysis

내 맘대로 Introduction 논문 ETCH 에서 핵심으로 인용했던 SE3 equivariant network의 본체다. point cloud는 이미지랑 달리 3차원에 존재하기 때문에 rotation, translation이 발생할 수 있고, 이에 따라 point feature가 다르게 뽑히는 문제가 있다. 이를 해결하기 위해서 주어진 point cloud에서 feature를 뽑을 때, 어떻게 회전/이동 상태에 상관없이 feature를 뽑을 수 있을지 고민한 논문.  pinscreen에서 쓴 논문으로, 이전에 6D rotation representation을 소개한 논문도 그렇고 3차원 회전을 다루는데 진심인 그룹 같다. 이 논문도 어떤 실용성, 우수성보다 수학적 전개를 중심으로 하는 논문이라서 더 ..

Paper/3D vision 2025.03.21

VGGT: Visual Geometry Grounded Transformer

내 맘대로 Introduction Meta가 요즘 Visual geometry group이랑 연구를 활발히 하는 것 같은데, 아무튼 meta에서 DUST3R와 결을 같이 하는 3D geometry estimation 논문을 공개했다. 아카이브 공개가 3월 14일이니 일주일도 안된 논문. head에 따라 camera parameter, point map, depth map, feature point 등 동시에 예측할 수 있고, 수백장을 동시처리하는 성능을 보인다고 한다. 핵심은 DUST3R와 거의 유사하지만, backbone을 transformer 1개로 묶어버림으로써 N장 처리 능력을 확보하고, 어떤 구조가 좋을지 고민했다는 점이 차이점. 메모이미지 N장을 DINOv2를 통해 token화 하고 입력으로..

Paper/3D vision 2025.03.19

GSTAR: Gaussian Surface Tracking and Reconstruction

내 맘대로 Introduction RGB-D multiview video 셋업에서 tracked 3DGS 복원하는 논문. tracking이 꼈다는 것은 당연히 dynamic 시나리오. 보통 sequence를 다룰 때 이전 프레임에서 초기화한 mesh(혹은 3DGS) topology가 변하지 않는다는 가정 하에 다음 프레임에서 correspondence를 찾아가는 방식이지만, 이 논문은 다음 프레임에서 topology가 변할 수 있음을 추가한 것이 눈에 띈다.  예를 들어, 첫 프레임에서 모자를 쓰고 있었다가 어느 프레임에서 모자를 벗었다면, 모자로 가려졌던 부분은 기존 topology로 아무리 매칭을 해본들 없던 부분이라 못 찾는다. 이런 문제를 짚으면서 topology가 변해야 하는 부분을 인식하고 해..

Paper/3D vision 2025.01.22

Cafca: High-quality Novel View Synthesis of Expressive Faces from Casual Few-shot Captures

내 맘대로 Introduction 이 논문은 Preface ++이라고 봐도 무방하다. 저자 라인도 똑같고 데이터도 똑같으며, 약간의 차이는 learnable latent가 함축해야 되는 정보량을 줄이고 decouple해서 성능을 조금 더 올리고 animatable하게 바꿨다는 점이다.  많은 사람 이미지로 학습시킨 NeRF prior model을 기반으로 few shot neural rendering을 잘하자는 논문. 메모그림만 봐도 preface와 거의 동일하다는 걸 볼 수 있음기존 preface에서 per-subject latent code W 하나만 conditional으로 제공해서 prior NeRF를 학습시켰다면caface에서는 per-suject identity code, expression ..

Paper/3D vision 2024.12.23

GS2Mesh: Surface Reconstruction from Gaussian Splatting via Novel Stereo Views

내 맘대로 Introduction 3DGS로부터 어떻게 mesh를 얻을 수 있을지 고민한 논문. baseline을 SuGaR로 잡은 만큼 어떤 방법론으로 Mesh를 만들었을지 굉장히 궁금했다. 약간의 아쉽게도 내용은 3DGS 복원 -> stereo view 렌더링 -> 별도로 feature matching 후 depthmap building -> TSDF recon 이다.  3DGS를 알고리즘적으로 변형했다기 보다 잘 학습된 3DGS로부터 stereo 이미지를 얻어서 시점 별 depth를 얻어낸다는, 어떻게 보면 활용에 관한 논문이라고 볼 수 있다.  stereo view 렌더링부터, 데이터 정리 feature matching, depthmap building, TSDF fusion 등의 과정을 얼마나 ..

Paper/3D vision 2024.12.13

MoGe: Unlocking Accurate Monocular Geometry Estimation for Open-Domain Images with Optimal Training Supervision

내 맘대로 Introduction DUSt3R이 쏘아올린 작은 공 후속편. monocular point map estimation이다. monodepth 추세가 DUSt3R로 인해 mono pointmap으로 넘어온 듯 하다. 단일 입력을 받고, intrinsic에 상관없이 normalized scale의 point cloud가 나오는 방식 DUSt3R과 구조적으로 single input을 받는다는 차이점 외에 focal length ambiguity를 해결하기 위해 scale 에 더불어 translation까지 고려한다는 차이점이 있다. 직관적으로 focal length가 다르면 물체가 다르게 보이기 때문에 같은 위치의 point cloud를 예측하기 힘드니까, translation을 같이 풀어주는 느..

Paper/3D vision 2024.11.19

MonST3R: A Simple Approach for EstimatingGeometry in the Presence of Motion

내 맘대로 Introduction DUST3R의 dynamic scene용 fine tuning 버전이다. 논문보다 테크니컬 리포트에 가깝고 내용도 굉장히 짧다. 컨셉만 설명하고 마무리함. DUST3R의 아이디어 자체가 굉장히 좋고 성능도 압도적인 탓에 많은 관심을 받는 중인데, 이 논문은 UC Berkeley, Google deepmind, stability AI, UC Merced 등 네임드에 있는 사람들이 모여 프로젝트성으로 진행한 것 같다.  기존 DUST3R가 static scene에 대해 학습된 네트워크이다 보니 dynamic object가 등장했을 때 이 dynamic object 영역을 틀어 맞추려고 하다 망가지는 경우가 있다. 이 문제를 짚으면서 데이터셋을 dynamic object를 커..

Paper/3D vision 2024.10.31

Mixture of Volumetric Primitives for Efficient Neural Rendering

내 맘대로 Introduction 이 논문은 2021년에 나와서 꽤 된 논문이긴 하지만 눈에 띄어서 그냥 읽었다. 핵심은 3D scan sequence (+image)가 주어졌을 때 빠르게 렌더링 가능한 형태로 어떻게 만드느냐 이다.  dynamic scene rendering을 어떻게 할 것이냐를 고민한 논문. 핵심 아이디어는  mesh face 마다 직사각형 형태의 primitives를 할당하고, 나중에 렌더링할 때는 이 primitives만 읽어서 빠르게 렌더링하는 방식이다. 요즘 3DGS가 유행하는데, 사실 같은 컨셉을 보다 일찍 구현한 논문이라고도 볼 수 있겠다. 개인적으로 3DGS의 선구적 증명인 것 같다. 이 논문을 개선해서 3DGS가 탄생했다고 해도 괜찮을 수준. 메모이 당시에는 NeRF가..

Paper/3D vision 2024.10.16