Paper/3D vision 111

Gaussian Opacity Fields: Efficient Adaptive Surface Reconstruction in Unbounded Scenes

내 맘대로 Introduction Gaussian-to-Mesh에 속하는 논문인데, 3DGS에는 3DGS->2DGS로 내려찍는 방식으로 하는데 반대로 조금은 느리겠지만 NeRF에서 원래 하던 방식대로 pixel-to-ray를 만들고 ray tracing하면서 3DGS를 적분해나가는 식으로 바꾼 논문. 왜 이 불편함을 감수하느냐. ray 단위로 다시 시선을 바꾼 다음 적분하기 시작하면 NeRF에서 그랬듯 surface를 찾기 쉬워지기 때문이다. 이 논문에서는 3DGS를 학습할 때 surface를 쉽게 찾아 meshing 난이도를 낮추기 위한 loss로 제안하지만 그보다 더 핵심은 어떻게 주어진 3DGS에 NeRF에서 쓰던 ray 단위의 적분을 적용할 것이냐다. 메모세팅은 일반 3DGS랑 완벽히 동일함...

Paper/3D vision 2026.01.20

π 3 : Scalable Permutation-Equivariant Visual Geometry Learning (pi3)

내 맘대로 Introduction VGGT가 best paper 받은지 얼마나 됐다고 바로 개선 작업에 착수해서 VGGT를 이겨먹은 모델이 나왔다. VGGT를 잘 뜯어보고 단점을 떼어내고 데이터를 더 먹여서 성능이 높인 것 같다. 들어간 전기와 데이터에 경의를 표한다. 메모가장 먼저 VGGT의 단점으로 꼽은 것은 reference view의 필요성이다. DUST3R도 그렇고 기준 시점을 제외하면 나머지 시점의 output들은 모두 자기 coordinate가 아닌 기준 시점 coordinate로 뱉어야 한다. 따라서 기준 시점과 멀찍이 있을 수록 어렵기 때문에 성능이 기준 시점 선정에 따라 불안정하다는 것을 꼬집는다.그래서 하고자 하는 것은 VGGT에서 기준 시점이라는 개념을 삭제해버리는 것.결론을 먼저..

Paper/3D vision 2025.08.13

Deformable Beta Splatting

내 맘대로 Introduction 캬~ 진정한 의미의 3DGS 파생 연구가 나온 것 같다. 3DGS의 활용이 아니라 3DGS의 개선을 고민한 논문인데 단순히 3DGS가 사용한 방법론의 단점을 개선한 수준이 아니라 3DGS 의 컨셉 자체의 단점을 개선한 레벨이라 보다 깊은 논문이다. 개인적으로 굉장히 좋은 논문이라고 생각한다. 학술적으로, 수학적으로 의미가 짙은 논문이라 찐 논문인 것 같다. 핵심은 언제나 bell shape을 유지할 수 밖에 없는, 그리고 범위가 (-inf, inf)로 열린 공간이 Gaussian kernel을 갖고는 flat, sharp geometry를 표현하는 것이 어려울 수 밖에 없다는 문제를 지적하며, bell shape 이상의 모양 자유도를 갖고 [0,1] bound인 beta..

Paper/3D vision 2025.06.09

Large Steps in Inverse Rendering of Geometry

내 맘대로 Introduction 이 논문은 diff.rendering으로 target geometry를 역추정할 때 (DMTet 같은 느낌) 단순히 gradient를 vertex에 흘려보내기만 한다면 위 그림의 (b)처럼 망가지는데, 어떻게 regularization하면 효과적으로 최적화할 수 있을지 방법론을 소개하는 논문이다. 기존 방식은 vertex gradient와 laplacian regularizer 간의 trade-off 지점을 정하는 방식으로 완충했는데, 이 논문은 수학적으로 조금 더 나은 방법을 계산한다. gradient와 regularizer가 싸우도록하는 것이 아니라 gradient 자체를 regularize하는 방식이다. 구체적인 수학은 나도 모름. 메모mesh M이 주어졌을 때 ..

Paper/3D vision 2025.04.29

Towards Realistic Example-based Modeling via 3D Gaussian Stitching

내 맘대로 Introduction 이전 SeamlessNeRF의 3DGS 버전이라고 보면 된다. SeamlessNeRF가 잘 학습된 TensoRF 모델을 위치를 지정해서 merging하는 방법론. NeRF보다 3DGS는 explicit하기 때문에 딱봐도 더 난이도가 낮아보이고 성능도 더 뛰어날 것으로 보인다. 단순히 color tone만 matching하는 것을 넘어서 gradient를 사용하는 컨셉을 그대로 가져오되 형식을 3DGS에 맞도록 변경한 것이 핵심. GUI까지 꾸며서 개발한 것을 보아 연구성 논문으로 시작한 것은 아닌 것 같다. 메모전처리1) 합칠 대상이 되는 2개의 3DGS 복원 완료된 결과를 GUI에 띄워서 bounding box로 cropping -> 유효 3DGS를 손으로 일단 정..

Paper/3D vision 2025.04.18

SeamlessNeRF: Stitching Part NeRFs with Gradient Propagation

내 맘대로 Introduction 요즘 3DGS을 seamless integration하는 방법을 좀 알아보고 있는데, 2023년 NeRF에서 구현한 논문이 있길래 참고 삼아 읽었다. 각기 다른 대상을 담은 NeRF MLP (정확히는 TesorRF Vector-matrix)가 주어졌을 때, 이를 두 개를 합쳐 마치 하나였던 것처럼 렌더링하는 방법론이다. 핵심은 color tone을 업데이트해서 자연스럽게 이어붙이는 과정. 단순히 color tone만 업데이트하면 잘 안될 것 같은데, gradient를 이용한 loss로 보강한 것이 핵심 메모1) 기본적으로 TensorRF를 backbone으로 쓴다. TensorRF는 vector와 matrix로 공간을 표현하는 representation을 쓰기 때문에 유..

Paper/3D vision 2025.04.16

Equivariant Point Network for 3D Point Cloud Analysis

내 맘대로 Introduction 논문 ETCH 에서 핵심으로 인용했던 SE3 equivariant network의 본체다. point cloud는 이미지랑 달리 3차원에 존재하기 때문에 rotation, translation이 발생할 수 있고, 이에 따라 point feature가 다르게 뽑히는 문제가 있다. 이를 해결하기 위해서 주어진 point cloud에서 feature를 뽑을 때, 어떻게 회전/이동 상태에 상관없이 feature를 뽑을 수 있을지 고민한 논문.  pinscreen에서 쓴 논문으로, 이전에 6D rotation representation을 소개한 논문도 그렇고 3차원 회전을 다루는데 진심인 그룹 같다. 이 논문도 어떤 실용성, 우수성보다 수학적 전개를 중심으로 하는 논문이라서 더 ..

Paper/3D vision 2025.03.21

VGGT: Visual Geometry Grounded Transformer

내 맘대로 Introduction Meta가 요즘 Visual geometry group이랑 연구를 활발히 하는 것 같은데, 아무튼 meta에서 DUST3R와 결을 같이 하는 3D geometry estimation 논문을 공개했다. 아카이브 공개가 3월 14일이니 일주일도 안된 논문. head에 따라 camera parameter, point map, depth map, feature point 등 동시에 예측할 수 있고, 수백장을 동시처리하는 성능을 보인다고 한다. 핵심은 DUST3R와 거의 유사하지만, backbone을 transformer 1개로 묶어버림으로써 N장 처리 능력을 확보하고, 어떤 구조가 좋을지 고민했다는 점이 차이점. 메모이미지 N장을 DINOv2를 통해 token화 하고 입력으로..

Paper/3D vision 2025.03.19

GSTAR: Gaussian Surface Tracking and Reconstruction

내 맘대로 Introduction RGB-D multiview video 셋업에서 tracked 3DGS 복원하는 논문. tracking이 꼈다는 것은 당연히 dynamic 시나리오. 보통 sequence를 다룰 때 이전 프레임에서 초기화한 mesh(혹은 3DGS) topology가 변하지 않는다는 가정 하에 다음 프레임에서 correspondence를 찾아가는 방식이지만, 이 논문은 다음 프레임에서 topology가 변할 수 있음을 추가한 것이 눈에 띈다.  예를 들어, 첫 프레임에서 모자를 쓰고 있었다가 어느 프레임에서 모자를 벗었다면, 모자로 가려졌던 부분은 기존 topology로 아무리 매칭을 해본들 없던 부분이라 못 찾는다. 이런 문제를 짚으면서 topology가 변해야 하는 부분을 인식하고 해..

Paper/3D vision 2025.01.22

Cafca: High-quality Novel View Synthesis of Expressive Faces from Casual Few-shot Captures

내 맘대로 Introduction 이 논문은 Preface ++이라고 봐도 무방하다. 저자 라인도 똑같고 데이터도 똑같으며, 약간의 차이는 learnable latent가 함축해야 되는 정보량을 줄이고 decouple해서 성능을 조금 더 올리고 animatable하게 바꿨다는 점이다.  많은 사람 이미지로 학습시킨 NeRF prior model을 기반으로 few shot neural rendering을 잘하자는 논문. 메모그림만 봐도 preface와 거의 동일하다는 걸 볼 수 있음기존 preface에서 per-subject latent code W 하나만 conditional으로 제공해서 prior NeRF를 학습시켰다면caface에서는 per-suject identity code, expression ..

Paper/3D vision 2024.12.23