Paper 257

Score Jacobian Chaining: Lifting Pretrained 2D Diffusion Models for 3D Generation

내 맘대로 Introduction 이 논문은 DreamFusion의 상위 호환(?) 정도 되는 논문으로 볼 수 있다. DreamFusion과 같은 시기에 제출된 논문이지만 DreamFusion이 arxiv에 올라온 이후에 제출된 논문이라 시간적으로는 DreamFusion 후속 연구에 가깝다. 후속 연구답게 목표로 하는 task는 text-to-3D이며 기존 2D diffusion model을 이용하여 3D로 어떻게 lifting하는지가 주 관심사다. 핵심 아이디어는 DreamFusion에서 소개한 SDS loss를 더 면밀히 파고들어 수학적으로 전개한 SJC(Score Jacobian Chaining) loss를 소개한다. 사실 SDS loss를 참고한 모양처럼 보이지만 별도로 연구했는데 공교롭게 먼저 ..

Paper/Generation 2023.11.22

GaussianDreamer: Fast Generation from Text to 3D Gaussian Splatting with Point Cloud Priors

내 맘대로 Introduction 또 발견했다. 계란 후라이 논문. 3D GS가 NeRF를 일각에서 너무 효과적으로 대체하다보니, NeRF를 붙여서 열심히 text-to-3D를 구현하던 사람들이 다 3D GS로 넘어오는 것 같다. 이 논문도 text-to-3D를 타겟으로 하는 논문인데, novelty가 있다기 보다 어떻게 2D, 3D diffusion model과 3D GS를 엮었는지 보여주는 테크니컬 리포트에 가깝다. 물리적으로 찾아낸 SfM 결과에서 시작한 것이 아니라 generation 모델로 얻어낸 결과에서 시작하는 컨셉을 보여주는 논문이다. 큰 틀에서는 이전에 봤던 DreamGaussian 과 동일하다고 볼 수 있다. 그래도 나름 차이점이라고 할 수 있는 핵심 아이디어는 DreamGaussian..

Paper/Generation 2023.11.22

From Coarse to Fine: Robust Hierarchical Localization at Large Scale

내 맘대로 Introduction 이 논문은 2019 CVPR논문이니 나온지는 꽤 됐고 지금 보면 그렇게 신선하다고 할 순 없지만, sarlin 팬이 되어버려 찾아읽었다. https://github.com/cvg/Hierarchical-Localization/tree/master GitHub - cvg/Hierarchical-Localization: Visual localization made easy with hloc Visual localization made easy with hloc. Contribute to cvg/Hierarchical-Localization development by creating an account on GitHub. github.com SIFT가 아닌 keypoint/d..

Paper/3D vision 2023.11.21

DreamGaussian : Generative Gaussian Splatting for Efficient 3D Content Creation

내 맘대로 Introduction 이 논문은 DreamFusion 과 같이 text/image-to-3D를 목표로 하는 논문으로 NeRF를 썼던 dreamfusion을 3d gaussian splatting을 쓰는 버전으로 확장한 컨셉이다. 3D gaussian splatting을 사용하면서 문제가 많이 쉬워졌기 때문에 컨셉은 비슷한데 성능이 더 뛰어난 것 같다. 성능의 핵심은 prior를 제공해주는 2D diffusion model의 성능이다. freeze된 2D diffusion model에 rendered image를 넣어 계산하는 SDS loss가 핵심이기 때문에 2D diffusion model이 잘 학습되어있어야 한다. 내가 볼 때 또 다른 핵심은 간단하긴 하지만 3d gaussian to m..

Paper/Generation 2023.11.20

ResFields : Residual Neural Fields for Spatio-temporal Signals

내 맘대로 Introduction 이 논문은 제목과 첫 인트로 그림만 봐서는 D-NeRF, DyNeRF HexPlane 등 time dimension을 추가한 NeRF 느낌이지만, 사실 핵심은 그게 아니다. 물론 time dimension에 대해서 주로 테스트한 것은 맞다. 핵심 아이디어는 네트워크 크기(파라미터 수)를 늘리지 않으면서 네트워크의 capacity는 늘리는 방법이다. 네트워크 크기가 커지면 학습이 느려짐과 동시에 렌더링 속도도 느려진다는 것은 이미 밝혀져있다. 하지만 네트워크 크기를 늘리지 않으면 네크워크가 표현할 수 있는 한계치가 있어 성능을 어느 정도 포기해야 한다. 이 논문에서는 네트워크 크기는 그대로 두되, 매 layer마다 residual weight를 두어 capacity를 늘리..

Paper/3D vision 2023.11.17

SPIn-NeRF: Multiview Segmentation and Perceptual Inpainting with Neural Radiance Fields

내 맘대로 Introduction 이 논문은 NeRF로 이미 복원한 scene에서 선택적으로 특정 물체를 지우는 방법에 대해 생각한 논문이다. NeRF MLP가 implicit function이 un-interpretable이기 때문에 이미 학습 완료된 scene에서 특정 물체만 분리해낸다는 생각 자체가 사실 불가능한 것이라 이론적으로 풀진 않았고, 파이프라인으로 풀었다. 입력 이미지가 주어졌을 때 제거하고자 하는 물체를 모든 이미지에 대해서 마스킹한 뒤, NeRF를 다시 학습시키는 방법이다. 이 때 단순 마스킹할 경우 당연히 망가질 것이기 때문에 2d inpainting 알고리즘으로 빈 mask 영역을 채워서 복원한다. 개인적으로 task를 풀기 위해 이것저것 섞은 조립형 논문이라서 그렇게 매력적으로 ..

Paper/Generation 2023.11.16

HelixSurf: A Robust and Efficient Neural Implicit Surface Learning of Indoor Scenes with Iterative Intertwined Regularization

내 맘대로 Introduction 이 논문은 제목에서는 indoor 공간으로 한정했지만 컨셉 자체는 MVS와 neural rendering을 합쳐서 surface reconstruction 속도/성능을 끌어올리는 것이다. MVS를 돌릴 때 초기화에 neural rendering 현상태 값을 쓰고, neural rendering 학습시킬 때 MVS 결과를 쓰는 식으로 상호 보완적인 형태를 구현했다. MVS와 neural rendering 각각에서는 기존 SOTA를 가져와서 사용했기 때문에 contribution이 명확하지 않으나, 엮어서 학습하는 파이프라인 자체가 contribution이다. 또한 MVS를 학습 중간에 쓸 수 있는 형태로 재구현했다는 점이 의미가 있다. 논문을 읽어보면 ACMP를 기본으로 ..

Paper/3D vision 2023.11.15

K-Planes: Explicit Radiance Fields in Space, Time, and Appearance

내 맘대로 Introduction 이 논문이 이전 논문 HexPlane 과 완전 동일한 주제로 동일한 학회 CVPR2023에 공개된 논문이다. 다루는 task는 똑같이 dynamic scene neural rendering인데 방법도 똑같다. 사실 그림까지 비슷해서 표절 논문이라고 맨처음에 생각할 정도였다. 교신 저자가 angjoo kanazawa이니... 그런 짓을 할 것 같진 않고 정말 유연히 같은 아이디어로 나온 논문이라고 봐야할 것 같다. x,y,z,t 4차원 정보를 encoding해서 NeRF를 학습시킬 때 메모리 이슈와 성능 이슈로 plane represenation을 선택했고 xy,yz,zx,xt,yt,zt 총 6개 평면을 사용했다. (완전 HexPlane과 동일하고 심지어 용어도 겹침 ㅋㅋ..

Paper/3D vision 2023.11.14

HexPlane: A Fast Representation for Dynamic Scenes

내 맘대로 Introduction 이 논문은 time dimension까지 추가해서 dynamic scene 복원을 하는 NeRF인데 TensoRF와 같이 데이터 표현법을 plane을 활용한 방식으로 변형해서 속도까지 향상시킨 논문이다. 기존 방식들에서 multi-plane, multi-grid 등 많은 형태가 있는데 이것들을 time dimension으로 확장시켰다고 보는 것이 맞을 것 같다. 3차원 x,y,z는 xy-yz-zx와 같이 나눴고 time은 완전 independent dimension이긴 하지만 앞선 spatial plane에서 하나 빠진 dimension과 엮어 xt, yt, zt로 나눴다. 따라서 이 6개의 평면을 조합하면 x,y,z,t 4차원 표현이 연속적으로 가능하게 되는 것이다. ..

Paper/3D vision 2023.11.14

Dynamic 3D Gaussians : Tracking by Persistent Dynamic View Synthesis

내 맘대로 Introduction 이 논문은 제목만 봐서는 3d gaussian splatting에 time dimension을 추가하는 논문 같지만 그런 내용이 아니다. 멀티 카메라 세팅에서 첫 프레임을 일단 static scene 복원하듯이 복원해서 3d gaussian들을 확보해두고, 고정한 뒤에 이를 t+1, t+2, t+3 ...에 대해 progressively optimize하는 논문이다. 달성하고자 하는 task는 다음과 같다. progressively optimize를 하는 과정에서 각 3d gaussian의 움직임을 파악할 수 있게 되는데 이 움직임을 전부 연결하면 trajectory가 되므로 특정 object의 dense trajectory를 얻을 수 있다. particle level ..

Paper/3D vision 2023.11.14