Paper/3D vision 103

ResFields : Residual Neural Fields for Spatio-temporal Signals

내 맘대로 Introduction 이 논문은 제목과 첫 인트로 그림만 봐서는 D-NeRF, DyNeRF HexPlane 등 time dimension을 추가한 NeRF 느낌이지만, 사실 핵심은 그게 아니다. 물론 time dimension에 대해서 주로 테스트한 것은 맞다. 핵심 아이디어는 네트워크 크기(파라미터 수)를 늘리지 않으면서 네트워크의 capacity는 늘리는 방법이다. 네트워크 크기가 커지면 학습이 느려짐과 동시에 렌더링 속도도 느려진다는 것은 이미 밝혀져있다. 하지만 네트워크 크기를 늘리지 않으면 네크워크가 표현할 수 있는 한계치가 있어 성능을 어느 정도 포기해야 한다. 이 논문에서는 네트워크 크기는 그대로 두되, 매 layer마다 residual weight를 두어 capacity를 늘리..

Paper/3D vision 2023.11.17

HelixSurf: A Robust and Efficient Neural Implicit Surface Learning of Indoor Scenes with Iterative Intertwined Regularization

내 맘대로 Introduction 이 논문은 제목에서는 indoor 공간으로 한정했지만 컨셉 자체는 MVS와 neural rendering을 합쳐서 surface reconstruction 속도/성능을 끌어올리는 것이다. MVS를 돌릴 때 초기화에 neural rendering 현상태 값을 쓰고, neural rendering 학습시킬 때 MVS 결과를 쓰는 식으로 상호 보완적인 형태를 구현했다. MVS와 neural rendering 각각에서는 기존 SOTA를 가져와서 사용했기 때문에 contribution이 명확하지 않으나, 엮어서 학습하는 파이프라인 자체가 contribution이다. 또한 MVS를 학습 중간에 쓸 수 있는 형태로 재구현했다는 점이 의미가 있다. 논문을 읽어보면 ACMP를 기본으로 ..

Paper/3D vision 2023.11.15

K-Planes: Explicit Radiance Fields in Space, Time, and Appearance

내 맘대로 Introduction 이 논문이 이전 논문 HexPlane 과 완전 동일한 주제로 동일한 학회 CVPR2023에 공개된 논문이다. 다루는 task는 똑같이 dynamic scene neural rendering인데 방법도 똑같다. 사실 그림까지 비슷해서 표절 논문이라고 맨처음에 생각할 정도였다. 교신 저자가 angjoo kanazawa이니... 그런 짓을 할 것 같진 않고 정말 유연히 같은 아이디어로 나온 논문이라고 봐야할 것 같다. x,y,z,t 4차원 정보를 encoding해서 NeRF를 학습시킬 때 메모리 이슈와 성능 이슈로 plane represenation을 선택했고 xy,yz,zx,xt,yt,zt 총 6개 평면을 사용했다. (완전 HexPlane과 동일하고 심지어 용어도 겹침 ㅋㅋ..

Paper/3D vision 2023.11.14

HexPlane: A Fast Representation for Dynamic Scenes

내 맘대로 Introduction 이 논문은 time dimension까지 추가해서 dynamic scene 복원을 하는 NeRF인데 TensoRF와 같이 데이터 표현법을 plane을 활용한 방식으로 변형해서 속도까지 향상시킨 논문이다. 기존 방식들에서 multi-plane, multi-grid 등 많은 형태가 있는데 이것들을 time dimension으로 확장시켰다고 보는 것이 맞을 것 같다. 3차원 x,y,z는 xy-yz-zx와 같이 나눴고 time은 완전 independent dimension이긴 하지만 앞선 spatial plane에서 하나 빠진 dimension과 엮어 xt, yt, zt로 나눴다. 따라서 이 6개의 평면을 조합하면 x,y,z,t 4차원 표현이 연속적으로 가능하게 되는 것이다. ..

Paper/3D vision 2023.11.14

Dynamic 3D Gaussians : Tracking by Persistent Dynamic View Synthesis

내 맘대로 Introduction 이 논문은 제목만 봐서는 3d gaussian splatting에 time dimension을 추가하는 논문 같지만 그런 내용이 아니다. 멀티 카메라 세팅에서 첫 프레임을 일단 static scene 복원하듯이 복원해서 3d gaussian들을 확보해두고, 고정한 뒤에 이를 t+1, t+2, t+3 ...에 대해 progressively optimize하는 논문이다. 달성하고자 하는 task는 다음과 같다. progressively optimize를 하는 과정에서 각 3d gaussian의 움직임을 파악할 수 있게 되는데 이 움직임을 전부 연결하면 trajectory가 되므로 특정 object의 dense trajectory를 얻을 수 있다. particle level ..

Paper/3D vision 2023.11.14

Deformable 3D Gaussians for High-Fidelity Monocular Dynamic Scene Reconstruction

내 맘대로 Introduction 4D gaussian에 이어 dynamic 3D GS 논문이다. 뭐가 먼저 나왔는지는 모르겠지만 NeRF에서 그랬듯 time dimension을 추가하는 방향으로 생각하는게 모든 사람이 똑같은 것 같다. 이 논문은 내가 생각하기에 계란 후라이도 아니고 반숙 후라이 논문이라고 부를 수 있을 정도로 3DGS 논문 나오자마자 바로 가스불 켜서 가장 간단한 아이디어 붙여서 구현한 논문인 것 같다. 아이디어적 contribution은 크게 없어보이고 그냥 누구보다 빠르게 구현해서 논문화했다는 점이 존경스러울 뿐이다. NeRF에서 그랬듯이 time, t 를 encoding해서 사용하는 방식을 택했는데 이 time encoding MLP가 implicit 한 방식인데 explicit..

Paper/3D vision 2023.11.14

Hierarchical Prior Mining for Non-local Multi-View Stereo

내 맘대로 Introduction 이 논문은 ACMM, ACMP, ACMMP의 저자의 후속 연구로 봐도 무방할 것 같다. 2저자로 Qinshan Xu가 있는 것과 논문 구조, 그림만 봐도 거의 ACMP++이다. 핵심 아이디어는 patchmatch stereo pipeline을 그대로 가져가되 neighbor를 정의하는 방식을 좀 더 dynamic하게 변경해서 좁게 보아야 할 때는 좁게, 멀리 보아야 할 때는 멀리 볼 수 있도록 했다. 이렇게 변경함으로써 얻는 장점은, 정적으로 neighbor를 정의할 경우, 멀리까지 탐색해야 할 때도 근처에서 탐색하면 local minima에 빠질 위험이 늘어나는데 동적으로 탐색하기 때문에 이런 문제가 완화된다. 또한 ACMP에서 최종 1번만 수행했던 planar pri..

Paper/3D vision 2023.11.09

ACMP - Planar Prior Assisted PatchMatch Multi-View Stereo

내 맘대로 Introduction 이 논문은 이전 논문 [ACMM]의 확장판이다. 정확히는 ACMM + planar prior를 이용한 추가 optimization이 끼는 구조로 뒤에 이어 붙이는 식의 확장이다. 핵심 아이디어는 다음과 같다. ACMM을 돌리면 textureless region을 제외한 웬만한 영역에서 3d point가 잘 나와주는데 이걸 reprojection에서 이미지에 내려찍은 뒤, anchor처럼 이용하여 2d triangulation을 한다. 그리고 가정하길, 2d triangulation으로 얻어진 삼각형 하나하나는 평면으로 간주되다는 것이다. 이러한 가정을 cost function에 추가해서 다시 한 번 최적화를 돌려주는 것이다. 이걸 이용해서 비어있던 공간이 완벽하게 채워지..

Paper/3D vision 2023.11.08

ACMM - Multi-Scale Geometric Consistency Guided Multi-View Stereo

내 맘대로 Introduction 이 논문은 MVS 논문인데 이전에 간단히 기록했던 2015년 patchmatch stereo 기반 MVS 논문 [link] 의 확장판으로 2019년 비교적 최근에 등장한 논문이다. 주목할만한 점은 딥러닝이 판을 치기 시작한지 한참 지난 시간임에도 딥러닝 하나 없이 훌륭한 성능을 달성한 것이다. 기본에 충실하게 logic을 검토하면서 MVS 파이프라인을 구현한게 존경할 만하다. 코드가 방대한 양이 아니라 고작 h, cpp 2쌍으로 끝나도록 간결하게 구현했는데 성능이 좋은 것도 주목할 만 하다. 핵심 아이디어는 기존 patchmatch stereo에서 neighbor 영역을 정의할 때, red-black region으로 나누기 + 마름모꼴로 정의했는데 red-black re..

Paper/3D vision 2023.11.08

Massively Parallel Multiview Stereopsis by Surface Normal Diffusion

내 맘대로 Introduction 이 논문 역시 꽤 오래된 2015년 논문인데 Patchmatch stereo의 multiview 버전이다. 핵심적인 아이디어는 patchmatch stereo와 완전히 동일하고 중간 중간 neighbor pixel을 정의하는 방법을 좀 더 넓은 범위를 효과적으로 보도록 변경한 것이 있다. patchmatch stereo의 아쉬운 부분이 multiview 특성 상 더 많은 시점 정보로 인해 보완되어 전체적인 성능은 많이 올라가 보인다. MVS의 기초와 같은 논문이어서 기록을 위해 정리하고자 한다. 메모하며 읽기 앞의 patchmatch stereo recap은 생략. 완전 동일하다. 전체 최적화 과정에서 사용하는 cost function을 가져온 것이라 그냥 똑같은 것. ..

Paper/3D vision 2023.11.07