Paper/3D vision

MonoSDF: Exploring Monocular Geometric Cues for Neural Implicit Surface Reconstruction

침닦는수건 2023. 10. 17. 20:42
반응형

내 맘대로 Introduction

monoSDF는 3D surface reconstruction인데 IDR 기반으로 하되, omnidepth에서 나오는 scaless depth와 normal을 pseudo GT처럼 활용해서 넣어주는 형태다. Omnidepth가 꽤나 정확한 depth, normal을 뱉어준다는 것을 전제로 하기 때문에 이미지를 많이 촬영하지 않아도 이 데이터의 힘으로 학습이 잘 되는 경향이 있다. 따라서 이미지가 좀 적어도 성능 좋게 복원할 수 있다는 것이 장점이다. 

 

메모하며 읽기

전체 흐름은 위와 같다. 주목해야할 점은 D와 N으로 적혀있는 Omnidepth output을 supervision으로 추가했다는 점과 다양한 represenation을 다 테스트해보았다는 점이다. 전체 파이프라인은 IDR 혹은 NeuS와 동일하다.

앞에 section 3.2까지는 data represenation 종류나 NeRF 컨셉 자체를 recap하는 것이라 특이 사항 없다. SDF 모델링할 때 사용한 수식은 IDR 을 참고했다. 
주요 파트는 새로 추가된 scaleless depth와 normal을 어떻게 rendered depth와 rendered normal의 supervision으로 활용했는지이다. 

먼저 depth는, rendered depth를 normalization해서 scaless depth와 직접 L2 loss를 사용한다. 여기서 normalization에 사용되는 mean과 std는 least square로 풀어낸 값이다. 이미지마다 존재하는 값이므로 2*N개 존재한다. (learnable 아니다.) 계산방식은 다음과 같다. 



matrix로 표현했을 때 단순하게 수식(21)와 같이 계산할 수 있으므로 연산량이 크게 늘진 않는 것 같다.

normal은 direction 값일 뿐이므로 직접 L1 loss로 rendered normal와 비교하고, cosine similarity로도 비교한다.
보면 depth와 normal 이 도와주는 loss는 비중을 10%, 5%로 낮게 설정해야 잘된다.

data representation은 여러가지 디자인 초이스가 있는데 실제로 해보면 원래 하던대로 MLP로 하는 것이나 Multi resolution feature grid를 쓰는게 잘 됐다고 보고한다.


반응형