Paper/Generation

Zero-1-to-3: Zero-shot One Image to 3D Object

침닦는수건 2024. 4. 29. 17:45
반응형

내 맘대로 Introduction

 

지금 보면 LoRA, ControlNet, IPAdapter 등 SD 모델에 컨디션을 부여하는 방법론이 소개가 되었기 때문에 간단해 보이지만, 연구 당시에 2022년이라는 사실을 감안해서 보면 색다른 시도였다고 생각한다. 

 

핵심 내용은 SD 모델이 갖고 있는 latent space 안에서 geometric consistent generation을 할 수 있도록 view point condition을 갖고 fine tuning하는 것이다. 

 

입력이 이미지 + camera view point가 되고 출력이 해당 view point에서 보면 새로운 이미지다. 

 

메모

컨셉이 간단하기 때문에 내용도 간단함.

SD 모델에 컨디션으로 들어가던 것을 camera pose로 한정하고 튜닝하면 된다. 

SD latent space가 워낙 크니까 이 안에 geometric consistent 생성을 유도할 정보는 충분하다. 

이를 잘 꺼내 쓸 수 있도록 하는 것만 하면 됨



그대로 쓰면, 먹은 데이터가 정면이 많아서 정면으로만 생성하려고 함.

학습 loss는 SDS loss 혹은 Score based loss다. 늘 쓰는 방식.

condition embedding은 두 종류

1) CLIP (image) + R + T concat한 형태로 SD에 넣어줌

2) SD 중간 중간 denoised image 뒤에 channel-wise 원본 이미지 concat.




view consistent 생성한 뒤 어떻게 사용할 수 있느냐? 당연히 3D RECON이다. 

각 multi view image를 생성한 뒤에 NeRF 방식으로 RECON하면 된다. 이 때 LOSS를 NeRF 처럼 color로 해도 됐겠지만 생성된 이미지도 neural image 이므로 SJC 방식으로 loss를 연결해주면 학습이 가능함. end to end recon이 가능함.
이 논문은 중요한게 앞의 SD 성능이 높아질수록 이에 비례해서 좋아지는 구조니까 어디다 가져다 붙이느냐다. 요즘 좋은 SD에 붙인 버전이 계속 업데이트되는 듯.
반응형