Paper/3D vision 105

Revising Densification in Gaussian Splatting

내 맘대로 Introduction 메타에서 나온 논문인데 기존 3DGS의 고질병인 1) densification이 제멋대로여서 성능/메모리 이슈 있음 2) pruning을 opacity의 주기적 초기화로만 처리해서 학습에 충격이 가해짐 -> 성능 문제로 이어짐 3) threshold가 사용되는데 gradient-threshold여서 직관적이지 않음. -> 튜닝이 어려움. 위 3가지를 완화하는 방법론을 소개하는 논문이다. 3DGS를 처음 읽었을 때 내가 바로 느꼈던 문제점인데 바로 해결에 착수한 논문이라 신기하면서 반갑다. 핵심 아이디어는 3) threshold를 pixel error 기반으로 다시 만들어 직관적 튜닝이 가능하도록, 2) opacity를 0으로 초기화하지 않고 매번 찔끔찔끔 줄이도록 하는 ..

Paper/3D vision 2024.04.22

RadSplat: Radiance Field-Informed Gaussian Splatting for Robust Real-Time Rendering with 900+ FPS

내 맘대로 Introduction Gaussian splatting 나왔을 때 누군가는 이미 학습된 NeRF를 3DGS로 옮길 것 같다고 생각했었는데 구글이 했다. 사전학습된 NeRF MLP를 이용해서 3DGS를 학습시키는 방법론을 소개하는 논문이다. 사실 이미지랑 포즈가 있으면 학습시킬 수 있는 것이 3DGS이니까 NeRF가 이미 있다면 못할 이유가 전혀 없다. 이 자체로는 contribution이 부족하다 보니 pruning 쪽에서 한 입, 속도에서 한 입 해서 논문으로 정리했다. 핵심 아이디어는 NeRF의 alpha 값을 갖고 GS의 초기 위치를 잡는 것, NeRF의 color 갖고 GS supervision을 계속 걸어주는 것이다. 가장 직관적이고 심플하다. 누구보다 빠르게 구현한 것이 논문으로 ..

Paper/3D vision 2024.04.15

DUSt3R: Geometric 3D Vision Made Easy

내 맘대로 Introduction 새로운 컨셉의 3D recon. 논문이다. intrinsic을 모를 때도 사용이 가능한 image to 3D point 형태의 모델인데 Croco 와 같이 binocular image로 학습된 backbone을 사용해서 네트워크가 geometry를 알아서 배워서 바로 lifting할 수 있도록 했다. 이게 되냐? 싶지만 데이터를 850만 장이나 사용해서 커버했다. 아이디어는 scene coordinate라는 형태로 이미 연구가 되었던 분야이므로 새롭진 않으나 엄청나게 데이터를 많이 먹이면 가능하다는 것을 보여준 것이 의미가 있다. 또, 가능하다는 것이 입증되었으니 기존 SfM, MVS와 같이 카메라 파라미터에 엄청 의존하는 방식에서 벗어나서 데이터 빨로 recon.할 수..

Paper/3D vision 2024.03.12

Mesh-based Gaussian Splatting for Real-time Large-scale Deformation

내 맘대로 Introduction 요즘 부쩍 mesh랑 3d gaussian을 엮으려는 시도가 많은 것 같다. 3d gaussian splatting이 기존 graphics tool에 그냥 갖다붙이기가 가능한 형태인 만큼 mesh랑 엮어서 세트로 가져갈 수 있게 하려는 것 같다. 이 논문은 3d gaussian들을 mesh face에 구속한 형태로 splatting해서 mesh deformation이 gaussian deformation을 직접 결정하게 하는 논문이다. mesh deformation은 control point를 이용하는 방법이든 손으로 하든 명확히 정의가 되어있으므로, 여기에 얹기만 하면 3d gaussian도 자연스럽게 deformation이 가능해진다는 논리다. 핵심 아이디어는 3d ..

Paper/3D vision 2024.02.18

Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data

내 맘대로 Introduction 요즘 segment anything 이후로 anything을 붙이는 것이 유행이 돼버린 것 같다. 이 논문은 대규모 데이터를 먹여 monodepth 성능을 끌어올린 논문이다. MiDAS와 사실 거의 비슷한 논문이라고 할 수 있는데 6200만장에 달하는 unlabeled data를 먹여서 성능을 어떻게 끌어올릴 수 있을지 고민한 차이점이 있다. 핵심 아이디어는, DinoV2 + depth를 teacher로 두어서 unlabeled data를 pseudo labeled data로 만들어 사용하는 것과,feature가 DinoV2 feature를 닮도록 regularization을 가해서 semantic prior를 잃지 않도록 하는 내용이다. 새로운 loss나 이론적인 내용..

Paper/3D vision 2024.01.24

Street Gaussians for Modeling Dynamic Urban Scenes

내 맘대로 Introduction 논문보다 프로젝트 보고서에 가깝다. 그냥 주어진 데이터셋에서 gaussian splatting 돌려보았고, tracker 활용해서 차량 분리해보았다. 그럼에도 불구하고 기록하는 이유는, 후반부 time parameter를 넣어 4D 로 확장할 때 기존 논문들과 달리 fourier transform을 썼다는 점이 독특했기 때문이다. 메모하며 읽기 lidar point가 풍부하게 주어진 상황이다. sequence 충분히 촘촘하고 point density도 충분하다. 이 상황에서 3D bbox detector + tracker를 붙여 배경과 물체(차량)을 구분해서 GS로 복원한다. 이 때 물체는 움직이므로 time dimension까지 고려해서 4D로 구현하고 배경은 3D g..

Paper/3D vision 2024.01.23

UniSDF: Unifying Neural Representations for High-Fidelity 3D Reconstruction of Complex Scenes with Reflections

내 맘대로 Introduction ENVIDR, Neuralangelo 와 같이 반사 빛이 있는 물체의 복원을 어떻게 할 수 있을지 고민한 논문이다. 이름에서도 예측할 수 있다시피 VolSDF와 같은 NeRF 기반 아이디어이다. 핵심 아이디어는 기존 논문들이 specular,diffuse parameterization을 사용한 것과 달리, 그냥 아예 반사광만 따로 표현하는 MLP를 추가해버린 것이다. 어떻게 보면 수학 모델링이 들어가지 않았기 때문에 무식하다고 볼 수도 있지만, simple yet effective! 간단한 아이디어 하나로 훌륭한 결과를 냈기에 좋은 논문이라고 생각한다. 오히려 성능이 좋은 이유가, 모든 물체가 반사광 모델링이 필요한 것이 아닌데 일괄적으로 parameterization ..

Paper/3D vision 2024.01.23

Compact 3D Gaussian Representation for Radiance Field

내 맘대로 Introduction 이 논문은 3DGS의 문제점인 저장용량 문제를 풀고자 한 논문이다. 저장 용량을 줄이는다는 것은 성능은 유지하면서 Gaussian의 개수를 줄인다는 말이고, 개수가 줄어들면 필연적으로 렌더링 속도도 늘어나기 때문에 결국 속도와 저장 용량 문제를 같이 푸는 것이 된다. LightGaussian과 유사한 부분이 있다고 볼 수 있는데, gaussian pruning을 visibility check로 보강한 것이 아니라 learnable mask를 통해 보강한 것은 완전히 다른 부분이고 codebook을 이용해 저장 용량을 줄이는 방식도 VQ가 아닌 R-VQ로 한 부분이 다르기 때문에 차이는 분명한 것 같다. 개인적으로 설명이 더 친절하게 되어 있어서 이 논문이 참고하기 좋음...

Paper/3D vision 2024.01.16

PhysGaussian: Physics-Integrated 3D Gaussians for Generative Dynamics

내 맘대로 Introduction 개인적으로 역작이라고 생각하는 논문이 나왔다. 기계공학에서 접했던 mechanics 수식을 이용해 학습 완료된 3d gaussian은 simulation하는 논문이다. 컨셉은 dynamic 3D GS 같이 느껴지지만 time 축에 따라 학습을 추가로 시키는 것이 아니다. static 3D GS를 만드는 것까지는 기존 논문과 아무런 차이가 없고 그대로 사용하되, mechanics를 이용해 각 gaussian들이 힘을 받았을 때 어떻게 이동할지를 계산해서 time에 따른 변화를 "부여"하는 것이다. 학습이 아니라 직접 옮기는 방법이다. 진짜 시뮬레이션. 따라서 데이터를 추가로 video로 얻을 필요도 없고 그냥 기존 3D GS처럼 데이터 얻고 학습만 시키면 끝이다. 시뮬레이..

Paper/3D vision 2023.12.20

Hierarchical Scene Coordinate Classification and Regression for Visual Localization

내 맘대로 Introduction 최근 scene coordinate regression이라는 흥미로운 분야를 보고 좀 찾아보기 시작했는데, 이 논문이 많이 인용되어 있길래 읽었다. 입력 이미지의 camera intrinsic과 depth ambiguity는 신경쓰지 않고 2D image to 3D point로 바로 regression하는 task다. 말이 되나 싶지만 요즘 data 빨로 2D-to abs.3D 컨셉의 논문이 워낙 잘되는게 많다 보니 이것도 되나보다. 더욱이 요즘 foundation model같이 데이터를 무한정 먹고 학습된 모델에서는 어이없을 정도로 잘 되는 결과도 있다. 따라서 직관적으로는 이해가 안되지만 데이터가 지배하는 시대에 데이터로 해결된다는 것을 보였기에 조금 다시 볼 필요가..

Paper/3D vision 2023.12.19