Paper/Neural rendering

ConsistentNeRF: Enhancing Neural Radiance Fields with 3D Consistency for Sparse View Synthesis

침닦는수건 2023. 7. 17. 12:14
반응형

내 맘대로 Introduction

NeRF 류 알고리즘의 핵심이 multiview의 힘을 쓴다는 것인데 당연하게도 multiview constraints가 강할수록 학습이 잘 될 것이다. 두 가지 방법으로 multiview constraint를 알고리즘에게 강화해줄 수 있을텐데 첫번째는 카메라 포즈를 더 정확히 주는 것 두번째는 학습할 때 multiview 관련 support를 제공해주는 것이다. 이 논문은 후자를 시도해보았다. 

 

개인적으로 틀린 말 하나없고 성능도 좋았다고 하니 다 납득했는데 그저 그랬다. 특별할 것까진 없어서 contribution이 무엇인지 뚜렷하게 보이지 않고 학습 시간 측면에서 trade-off가 있을 것 같아서 전체 이득인지는 모르겠다. 

 

메모하며 읽기


(Sec 3.1 background는 NeRF 설명하는 부분이라 패스)

Multiview consistency도 사실 그냥 알고 있는 내용이라 패스할까 하다가 notation 때문에 짚고 넘어간다.

시점 A의 (i,j)가 시점 B의 (m,n) 과 카메라 포즈+depth를 이용해 warping했을 때 color가 맞아 떨어져야 한단 소리다.


복잡하게 쓰여있지만 결국 left image to right image warping에 관한 수식이다. intrinsic, extrinsic 곱한다는 이야기를 이렇게 길게 써놨다. 

warping할 때 depth가 필요한데 ray 별 depth를 계산하는 것은 NeRF에서 sum 한 번이면 계산할 수 있으니 사실 상 주어진 값이다.

그렇게 warp(i,j) - (m.n) 차이를 계산하고 일정 threshold 미만인 곳만 mask를 생성해서 loss 가중치를 높게 적용해주고 이상일 경우 가중치를 낮춰주는 식으로 multiview constraint를 네트워크에게 강화했다. (진짜 간단....)
warp(i,j) - warp(m,n)으로 loss를 구성하면 둘 다 0으로 가버릴 수도 있으니 GT 랑 supervision을 매겼다는 소리같다. 당연한 소리;

(여기서 조금 멀리 갔다 싶었는데...)

MiDAS라는 monodepth 알고리즘에서 나온 scale invariant depth를 supervision으로 추가해준다.

scale이 없는 GT이기 때문에 predicted depth에서 scale을 제거해준 뒤 supervision을 걸었다. 

전제 조건이 MiDAS가 scale은 없지만 그래도 형상의 relative depth는 정확하게 표현한다는 것이다. 

 

반응형