Paper/3D vision 46

MeshAnything: Artist-Created Mesh Generation with Autoregressive Transformers

내 맘대로 Introduction point cloud to mesh 알고리즘. 어떻게 보면 poisson recon이라고 볼 수 있겠지만, point 중 버릴 건 버리고 어떻게 face를 형성해야 "실제 사람이 만든 mesh"처럼 만들어질 지 학습한 논문이다. 실제 사람이 만든 mesh의 경우, face가 과도하게 많지 않고 단순할 곳은 단순하게 자세할 곳은 자세하게 조절된 형태다.  주어진 어지러운 point cloud에서 모든 point를 face로 묶어내는 것이 아니라 선별적으로 묶어서 vertex 수는 적지만 표현력이 뛰어난 mesh로 정리해내는게 주 목적이다.  핵심 아이디어는 Objaverse, shapenet처럼 대규모 mesh 데이터로부터 평균적인 face 형성 규칙을 학습시킨 VAE를 ..

Paper/3D vision 2024.06.19

Dynamic Gaussians Mesh: Consistent Mesh Reconstruction from Monocular Videos

내 맘대로 Introduction monocular video에서 canonical Gaussian + Mesh를 얻어내는 방법이다. 핵심은 3DGS + deformation field를 수렴시키는 것으로 기존 컨셉과 동일한데, 3DGS densification, pruning을 최대한 발산하지 않도록 poisson solver+Marching cube를 붙여 억제한 것이 차이점이다. 다르게 말하면 3DGS를 point cloud로 보고 poisson solver 특성을 이용해서 서로 간의 위치가 smooth하도록 억제하면서 densification되도록 한 것이다.  추가로 marching cube까지 붙여서 복원된 mesh face와 3DGS 위치가 인접하도록 강제하면서 더욱 더 smooth하면서 m..

Paper/3D vision 2024.04.26

Multi-View Mesh Reconstruction with Neural Deferred Shading

내 맘대로 Introduction 이름 그대로 deferred shading을 neural network로 대체한 것이다. deferred shading이란 내용 자체는 geometry -> rendering 과정에서 pixel 값을 직접 계산하는 것이 아니라 geometry -> position,normal,depth -> rendering 순서로 계산하는 방식을 말한다. 직접 바로 계산하는 pixel shading과 달리 중간 산물을 만들고, 중간 산물로 shading을 하는 식으로 "지연"시켰다는 의미로 deferred shading이라고 불린다. 이 내용을 가져와서 multiview image에서 geometry를 만들어내는데, estimated geometry -> position, normal..

Paper/3D vision 2024.04.22

DUSt3R: Geometric 3D Vision Made Easy

내 맘대로 Introduction 새로운 컨셉의 3D recon. 논문이다. intrinsic을 모를 때도 사용이 가능한 image to 3D point 형태의 모델인데 Croco 와 같이 binocular image로 학습된 backbone을 사용해서 네트워크가 geometry를 알아서 배워서 바로 lifting할 수 있도록 했다. 이게 되냐? 싶지만 데이터를 850만 장이나 사용해서 커버했다. 아이디어는 scene coordinate라는 형태로 이미 연구가 되었던 분야이므로 새롭진 않으나 엄청나게 데이터를 많이 먹이면 가능하다는 것을 보여준 것이 의미가 있다. 또, 가능하다는 것이 입증되었으니 기존 SfM, MVS와 같이 카메라 파라미터에 엄청 의존하는 방식에서 벗어나서 데이터 빨로 recon.할 수..

Paper/3D vision 2024.03.12

Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data

내 맘대로 Introduction 요즘 segment anything 이후로 anything을 붙이는 것이 유행이 돼버린 것 같다. 이 논문은 대규모 데이터를 먹여 monodepth 성능을 끌어올린 논문이다. MiDAS와 사실 거의 비슷한 논문이라고 할 수 있는데 6200만장에 달하는 unlabeled data를 먹여서 성능을 어떻게 끌어올릴 수 있을지 고민한 차이점이 있다. 핵심 아이디어는, DinoV2 + depth를 teacher로 두어서 unlabeled data를 pseudo labeled data로 만들어 사용하는 것과,feature가 DinoV2 feature를 닮도록 regularization을 가해서 semantic prior를 잃지 않도록 하는 내용이다. 새로운 loss나 이론적인 내용..

Paper/3D vision 2024.01.24

Hierarchical Scene Coordinate Classification and Regression for Visual Localization

내 맘대로 Introduction 최근 scene coordinate regression이라는 흥미로운 분야를 보고 좀 찾아보기 시작했는데, 이 논문이 많이 인용되어 있길래 읽었다. 입력 이미지의 camera intrinsic과 depth ambiguity는 신경쓰지 않고 2D image to 3D point로 바로 regression하는 task다. 말이 되나 싶지만 요즘 data 빨로 2D-to abs.3D 컨셉의 논문이 워낙 잘되는게 많다 보니 이것도 되나보다. 더욱이 요즘 foundation model같이 데이터를 무한정 먹고 학습된 모델에서는 어이없을 정도로 잘 되는 결과도 있다. 따라서 직관적으로는 이해가 안되지만 데이터가 지배하는 시대에 데이터로 해결된다는 것을 보였기에 조금 다시 볼 필요가..

Paper/3D vision 2023.12.19

COLMAP-Free 3D Gaussian Splatting

내 맘대로 Introduction 또 나왔다. Gaussian splatting SLAM. 대신 RGB만 대상으로 한다고 명확히 적혀있고 depth 대신 monodepth pseudo GT를 쓴다. 조금 더 progressive optimization을 섬세하게 한 느낌. 이론적 내용보다 구현을 되게 잘했지 않을까 싶다. 내용은 이전 논문들과 완전히 동일하다. 카메라 포즈가 같이 최적화되도록 열어둔 것. 이 논문도 간단히 기록하고 넘어간다. 메모하며 읽기 1) t-1, t 두 프레임 간의 gaussian을 최적화해서 초기값을 계속 잡아주는 local 3d gs 2) ~~ t frame 까지의 gaussian과 카메라 포즈를 전체 업데이트하는 global 3d gs로 나뉜다. 생략 설명이 길지만 한줄 요약..

Paper/3D vision 2023.12.18

Gaussian Splatting SLAM

내 맘대로 Introduction 이 논문은 제목이 곧 내용이다. 이전 SplaTAM, GS-SLAM 이랑 같은 내용이다. 3d gaussian으로 view synthesis와 SLAM 두 목적 다 달성하겠다는 논문. 같은 아이디어인데 논문 게재가 되지 않았기 때문에 중복 아이디어 논문이 많다. 발 빠르게 낸 논문인데 이미 같은 아이디어 논문이 2개나 있다. 핵심 내용도 똑같이 카메라 포즈와 3d gaussian과 같이 학습시키는 방법이다. 카메라 포즈에 대한 jacobian을 직접 수식 계산했다는 점엔서는 GS-SLAM이랑 비슷하지만 큰 틀에서는 그냥 3d gaussian splatting을 SLAM에 갖다 붙이기 때문에 큰 차이 없다. 다른 논문들은 RGBD 입력을 활용하고 이 논문은 RGB만 사용한..

Paper/3D vision 2023.12.18

SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM

내 맘대로 Introduction 이 논문은 GS-SLAM 과 유사하게 3d gaussian을 갖고 SLAM을 동시에 하는 논문이다. 큰 그림에서는 동일한 내용이고, 디테일한 부분에서 3d gaussian을 단순화하거나 densification rule을 다르게 정의하는 부분에서 차이를 보일 뿐이다. 입력도 똑같이 RGB-D 즉, 믿을만한 Depth가 존재해야 한다. 3d gaussian의 위치를 depth를 이용해 강하게 잡아줌으로써 카메라 포즈를 동시에 찾을 수 있는 가능성을 높인다. 핵심 내용은 점진적으로 쌓아나가는 과정에서 camera tracking, densification, map update 총 3가지 과정을 순차적으로 진행하는 식으로 구성했다는 점과 rendered color, depth..

Paper/3D vision 2023.12.11

GS-SLAM: Dense Visual SLAM with 3D Gaussian Splatting

내 맘대로 Introduction 이 논문은 제목에서 짐작할 수 있다시피 3D gaussian과 SLAM을 엮은 것이다. 기존 SLAM이 camera pose랑 scene point cloud를 동시에 획득해나가는 과정이었다면 camera pose와 scene gaussian을 동시에 획득해나가는 과정을 담았다. 하나 아쉬운 점은 제목만 봐서는 Visual SLAM이니 RGB 이미지만 쓰는 것 같지만 까보면 RGB-D SLAM이다. 센서에서 들어오는 Depth 정보를 전적으로 신뢰하면서 이런저런 보정을 해나가는 방식이라 기대에는 살짝 못미치는 내용이었던 것 같다. 핵심 아이디어는 Depth 정보를 이용해 3d gaussian의 유효성을 판단하는 기준을 넣었다는 것이다. 내가 평소에도 생각했던 것이 3d ..

Paper/3D vision 2023.11.23