Paper/Human

DPHMs: Diffusion Parametric Head Models for Depth-based Tracking

침닦는수건 2024. 7. 15. 14:30
반응형

내 맘대로 Introduction

 

이 논문은 NPHM의 활용에 해당하는 논문이라고 볼 수 있다. 이상적으로 잘 학습되어 있는 NPHM이 존재한다면, 이를 depth iuput에 fitting했을 때 품질 좋은 mesh가 나와야 한다. 하지만 NPHM은 watertight high quality mesh를 이용해 학습한 모델이다 보니 depth input 같이 noise가 심한 경우 fitting이 잘 안된다. 결과적으로 mesh도 입력 영상과는 다른 값이 나오게 된다.

 

DPHM은 이를 해결하기 위해서 NPHM id, expression latent를 denoising한다는 컨셉의 diffusion model을 갖다 붙인다. NPHM으로만 찾아낸 id, expression latent가 초기값이 되고 denoising을 거쳐 나오는 값이 최종값이 된다. 

 

솔직히 말하면 이 방식이 효과적인지는 잘 모르겠다. 안그래도 SCAN 개수에 의해 space가 결정되므로, 데이터 규모에 의존적인 NPHM 모델인데 학습에 어마어마한 데이터 규모가 기본적으로 보장되어야 하는 diffusion model을 갖다 붙인 것이니 generalization은 잘 될지 모르겠다. 결국 NPHM fitting과 큰 차이는 없을 것 같은 기분.

 

메모



Depth camera로 찍은 depth, normal sequence가 주어졌을 때 NPHM을 이용하여 canonical head mesh를 찾아내는 논문.

expression도 당연히 같이 나오긴 한다.

방법론은 단순히 NPHM fitting하고 끝나는 것이 아니라, diffusion 을 이용한 denoising 처리를 한 번 해줌으로써 더 정확한 id, expression latent들을 찾아낸다는 것.





NPHM을 그대로 가져다 쓰진 않았다. 

NPHM은 canonical to deformed 방향의 forward인데

이걸 뒤집어서 deformed to canonical로 방향을 backward로 바꿨다.

-> monoNPHM을 썼다는 것과 다를 바 없다.
-> 시기적으로 monoNPHM 나오기 전이라 겹친 듯.



NPHM 복붙. 이런 식의 분량 채우기는 언제 봐도 별로 인듯.



id, expr latent를 받아 canonical -> deformed로 변형하는 것이 아니라

deformed -> canonical로 변형하도록 수정

mono NPHM과 완벽히 동일함.



diffusion 복붙.


given Depth/Normal 에서 id, expr latent Z를 찾아내는 문제를 확률식으로 보면 10과 같은데 이를 bayer rule로 나눠보다 보면

수식(12)과 같이 gradient 계산을 할 수 있다. 

이 때 gradient.log(z)들은 diffusion에서 말하는 score와 모양이 같으므로, 저 값을 계산할 때 diffusion MLP로 처리했다는 뜻. 


맨 앞의 given id, I|Z는 NPHM을 학습시킬 때 쓰는 loss를 의미하므로 그대로 사용하고

나머지만 diffusion model, eps로 바꿔치기 해서 학습했다. 
-----------
-> scratch부터 학습하면 망가졌을테니, NPHM 파트 사전 학습하고 나서 학습했을 것 같다. freeze 한 것 같기도.



약간의 향상이 있어보이긴 하지만 방법론이 엄청 좋은 것 같진 않다. 그랬구나! 하고 끝나는 논문이었다.
반응형