NeRF in the Wild: Neural Radiance Fields for Unconstrained Photo Collections
내 맘대로 Introduction
Photo Tourism이 등장했을 당시 그 임팩트가 굉장히 강했는데 그 후광을 조금 이용한 느낌이 든다. in the wild라는 단어를 집어넣은 것으로부터 알 수 있듯이 각잡고 static scene에 대해서 카메라로 찍는 세팅이 아니라, 다른 카메라, 다른 위치, 다른 빛, 다른 시간에서 촬영된 이미지를 조합해서 고정된 한 대상을 복원해내는 것을 목표로 하는 논문이다.
빛, 장애물, 색감 차이 등이 존재하는 환경에서 NeRF를 어떻게 학습시킬지 소개한다. 핵심 아이디어는 빛, 장애물, 색감 차이를 내포하는 latent code를 이미지마다 부여하고 NeRF와 같이 optimization하여 latent code와 NeRF가 각각 개별적인 것과 공통적인 것을 학습하도록 분리했다.
핵심 내용
이미지마다 appearance embedding과 trasient embedding이 추가된 것이 핵심이고 나머진 NeRF와 크게 다를 것이 없다. appearance embedding은 빛, 색감 등 서로 다른 이미지 간 표현 차이를 내포하게 되고, trasient embedding은 장애물 정보를 내포하게 된다.
appearance가 개입하는 부분은 의미는 크지만 수식은 간단하다. 이미지 별로 특정 길이의 learnable code를 부여하고 color network 입력으로 같이 넣어주는 것이 전부다.
trasient가 개입하는 부분이 조금 복잡하다. 똑같이 이미지 별로 특정 길이의 learnable code를 부여하고 color network 입력으로 넣어주는 것은 동일하지만 uncertainty를 만들어 내기 위해 bayesian learning framework를 추가했기 때문이다. 단순히 uncertainty라고 이름 붙인 값을 동시에 추정하도록 만들기만 해서는 추정된 color와 uncertainty 간의 관계가 전혀 없기 때문에 color-uncertainty binding을 위해 복잡하게 추가했다고 보면 되겠다.
bayesian learning framework를 간단히 추정 값(여기선 color)을 얻고 싶은 것 뿐만 아니라 그 추정에 대한 uncertainty를 얻고자 할 때 쓰는 방법 중 하나인데 추정값(color)이 gaussian distribution을 따른다고 가정함으로 시작한다. 각설하고 그 컨셉만 가져와서 loss function을 디자인했다.
위와 같이 loss function을 디자인해서 학습을 시키면, trasient color는 gaussian을 따르는 값으로, 그 노이즈는 β의 제곱을 따르도록 유도된다. (디테일이 궁금하다면 bayesian deep learning을 공부하길 추천!, edwith에 마침 좋은 강의가 있다.)
종합해보면 static+trasient color는 위와 같이 정리할 수 있는데,
uncertainty modeling을 위해 추가한 loss와 함께 학습하면 끝난다.
Results
우선 trasient part는 장애물 부분을 잘 분리해서 학습했고 uncertainty 역시 bayesian framework를 이용한 덕인지 transient 영역에 대응되도록 잘 학습되었다.
기존 NeRF를 그대로 학습했을 때보다 당연히 정확도가 높으며 그 정성적 평가는 density 값으로 만든 depth를 보아 알 수 있다.
latent code 또한 의도대로 빛이나 색감 차이를 내포하도록 잘 학습되었으며, static한 부분도 latent code가 빛, 색감 차이를 분담해줘서인지 geometry, color에만 집중해서 학습되었다고 한다.