I M Avatar: Implicit Morphable Head Avatars from Videos
내 맘대로 Introduction
PiFU + deformation field 컨셉으로 dynamic object recontruction하는 논문의 얼굴 버전이다. 전신과 대비해서 움직임의 폭이 적고 다양성도 적은 편이어서 난이도가 조금 더 낮은 편이라 성능은 더 뛰어나 보인다.
deformation field는 3DMM이라는 얼굴 모델의 basis를 적극 활용했고 ray marching을 통해 surface point를 찾아내는 것은 똑같다. ray marching 과정에서 gradient가 끊기는 것을 연결하기 위해 사용한 수식은 SelfRecon과 사실상 동일하다는 점이 눈에 띄는데 SelfRecon의 얼굴 버전으로 보아도 큰 무리가 없을 것 같다..
핵심 아이디어
먼저 비디오 입력에 대해서 기준 프레임을 잡고 3DMM 피팅을 한 번 수행한다. pose/expression 파라미터를 얻어둔 상태가 사전 준비 단계다.
기본적으로 네트워크의 실체는 MLP다. occupancy를 찾는 PiFU류 MLP라고 생각하면 될 것 같다. PiFU와 같이 0~1 값을 사용하며 0.5가 surface를 구성하는 occupancy 값을 추정하며 기준 프레임에만 존재하는 1개의 MLP다.
학습 방법은 다음과 같다. 먼저 deformation을 먼저 정의해두었다. 3DMM + deformation network로 기준 프레임에서 다른 프레임으로 deformation(혹은 warping)이 가능하도록 만들어 둔다는 아이디어다. 여기서 deformation network는 3DMM의 blend shape basis의 update를 예측한다. 네트워크로 하여금 기준 프레임에 미리 피팅했던 3DMM을 얼마나 변형시켜야 다른 프레임 상태가 될 지 예측하도록 한다. 이를 이용해 타 프레임 정보를 기준 프레임으로 옮겨와서 학습은 기준 프레임에서만 하겠다는 의도다.
deformation network가 pose/expression 파라미터를 변경하는 것에 그치지 않고 blend shape basis까지 업데이트하는 방식이 독특하긴 한데 기존 3DMM이 갖고 있는 blend shape basis는 discrete하게 정해진 표현력을 갖고 있기 때문에 이를 MLP 통해 continuous한 레벨로 확장하기 위해서라고 한다.
다른 프레임 (deformed space)에서 ray를 하나 정의하고, ray marching을 이용해 해당 ray가 surface에 부딪히는 point를 찾아 deformation을 이용해서 기준 프레임으로 옮겨오는 순서를 거친다. 이 때 학습 중간에는 surface point를 옮겨왔을 때 기준 프레임의 surface 위로 옮겨지지 않을 수 있기 때문에 SNARF에서 사용한 방식대로 최적화로 surface point를 찾아준다고 한다.
위 deformation 과정에서 graph가 꼬이게 되는데 (loop를 끼니까 iterative gradient가 생긴다) 이를 해결 하고 위해 SelfRecon과 같은 내용의 위 수식을 사용하여 꼬인 것을 풀어준다.
supervision을 pixel color가 메인이다. 기준 프레임에서 occupnacy와 normal을 갖고 color를 계산한 다음 다른 프레임으로 deformation해서 다른 프레임의 pixel color 모두와 비교해서 일치하도록 한다. 계산은 기준 프레임에서 하고 비교는 다른 프레임에서 하는 식인 것이다.
occupancy를 직접 활용한 mask loss를 추가로 이용하기도 한다. 기준 프레임에서 occupancy를 계산한 다음 다른 프레임으로 옮겨가져가 마스크화하고 다른 프레임에서의 마스크와 비교하는 식이다.
마지막으로 FLAME loss는 선택적인 것인데 만약 다른 프레임에서도 3DMM 파라미터를 갖고 있다면 이를 활용해서 deformation network 학습을 도울 수 있다는 뜻이다.
Results