Paper/Generation

ReconFusion: 3D Reconstruction with Diffusion Priors

침닦는수건 2024. 5. 22. 13:08
반응형

내 맘대로 Introduction

 

CAT3D 의 이전 작. 하위호환이라고 할 수 있다. diffusion model을 이용한 multi view image 생성 + NeRF로 3D recon이 포함된 내용. 

 

핵심 아이디어는 3d recon을 위한 NeRF 외에 pixel-NeRF를 붙여서 rendered feature를 만들고, 이를 diffusion model의 입력으로 활용하는 식으로 3d consistent novel view image 생성을 유도함.

 

내용은 엄청 간단함.

 

메모

이것도 그림으로 설명이 끝남.

1) 크게 Zip-NeRF를 학습시키는 거임

2) 부족한 novel view 이미지는, pixel-NeRF로 찍어낸 feature map + input 이미지를 받는 diffusion model에서 얻어옴

3) diffusion 을 3D consistent한 생성으로 유도하기 위해 CLIP feature를 추가하고, Pixel-NeRF를 이용했다는 점이 핵심.




Diffusion model은 당연히 기존 LDM 가져와서 일단 시작

ZERO1to3처럼 view condition을 넣어줘야 하는데

view point를 넣어주는 것은 물론

1) CLIP feature

2) pixel NeRF를 이용한 view dependent- rendered feature 추가


loss는 diffusion loss

pixel NeRF도 학습되긴 해야 하니까 rendering loss

총 NeRF가 2개 학습되는 형태다.

최종 결과 만드는 NeRF , diffusion을 돕는 NeRF

최종 결과를 만드는 NeRF는 zip nerf임

reconstruction loss와 더불어 anti-aliasing이 들어있는 기본 NeRF 구조라고 보면 됨.

최종 렌더링된 결과가 diffusion 생성 결과랑 같도록 연결 짓는 diffusion loss를 하나 더 추가

(이름 이 diffusion loss라 헷갈릴 수 있는데, 그냥 렌더링 결과가 생성 결과랑 같도록 유도하면서 diffusion model 학습을 더 강화하는 것)

생성할 novel view는 너무 극단적으로 위치를 옮기면 당연히 안된다.

input view들과 overlap이 많도록 해야 하는데 이를 안전하게 구현하기 위해서 input view camera trajectory를 보고 이 사이에서 뽑아낸 뒤 pertubation하는 식이라고 한다.
반응형