반응형
내 맘대로 Introduction
얼굴 한정 VolSDF 류 논문인데 3DMM을 동시에 활용함으로써 성능 향상과 필요 이미지 감소, 속도를 개선한 논문이다. SMPL 기반 clothed human modeling에서 자주 쓰이는 기법의 얼굴 버전이라는 생각이 든다. 3DMM 초기화를 이용해 coarse 복원 이후 model coverage를 벗어난 디테일을 보충하는 fine 복원 과정으로 구성되어 있다.
메모하며 읽기
|
Neural rendering 쓸 것이며 corase to fine 컨셉이다. notation을 초반에 이렇게 던지고 시작하는데 깔끔하긴 하나 눈에 들어오진 않는 것 같다. 논문 쓸 때 이렇게 쓰지 말아야지. |
|
coarse 에 해당하는 부분인데 갖고 있는 모든 사람 얼굴 데이터를 다 써서 미리 학습해두는 단계다. 각 사람마다 learnable shape code와 learnable color code를 발급하고 위와 같은 구조로 생긴 Neural rendering 파이프라인으로 학습을 반복하는데, deformation net와 template net은 사람이 바뀌어도 교체하지 않는 식으로 학습한다. 이렇게 되면 deformation network는 ID-dependent (개인 차를 반영) feature를 생성하게 되고, template net은 ID-independent (개인 차 없이 일반적인) feature를 생성하게 된다. template network가 사실 핵심인 것 같다. 네트워크 capacity가 충분했다면 deformation network에서 사람 별 detail을 다 표현해서 끝날 문제였겠지만 표현력이 부족했기 때문에 뒤에 single person refinement가 따라 붙었겠지. template network가 coarse 복원의 핵심, deformation net이 fine 복원의 1차전 느낌이다. |
입력만 종류가 많아졌을 뿐 VolSDF의 rendering network와 완전 동일하다. |
|
역시나 deformation net으로는 부족해서 추가했다고 한다. 따라서 앞선 coarse 결과를 이어 받아 이번엔 한 사람만 타겟으로 복원을 한 번 더 한다. 구조는 이전과 거의 유사하며 deformation net 역할을 하던 녀석이 displacement net으로 변경되었고 xyz translation을 예측하는 것이 아니라 SDF residual을 예측하도록 설정되었다. 이렇게 학습을 돌리면 detail을 더 살린 복원을 할 수 있을 뿐더러 coarse 결과에서 시작하기 때문에 빠르다. SDF residual은 역시나 작아야 좋기 때문에 regularization이 들어간다. |
|
loss가 많지만 핵심은 VolSDF color loss 이며 eikonal loss + regularization losses 다. 특별한 것은 없다. 즉, 복원 성능의 향상은 coarse to fine 컨셉 + 데이터의 양으로부터 온 것이고 수학적으로 인한 것은 없다. |
1) view point가 부족하면 성능 드랍이 일반적으로 심한데 학습할 때 view point 별로 그룹핑해서 stage 1을 학습시켜 두었기 때문에 조금 더 강건함 2) (사실 1과 같은 말인 것 같은데) 이미지 수가 적어도 성능이 잘 나온다고 한다. |
|
|
반응형