Paper/Human

[Human] PaMIR: Parametric Model-Conditioned ImplicitRepresentation for Image-based Human Reconstruction

침닦는수건 2023. 3. 9. 18:08
반응형

* 이전 기록 방식이 난잡하기도 하고 길이가 길어 이 글부터는 분량을 좀 줄이고 핵심 아이디어라고 생각되는 부분 외에는 생략하기로 했다. 

PaMIR: Parametric Model-Conditioned Implicit Representation for Image-based Human Reconstruction

 

내 맘대로 Introduction

PaMIR는 간단히 말해 PiFU 에 3D volume aligned feature를 추가한 것이다. pixel aligned feature 만 쓰는 PiFU에, 이미지에 미리 SMPL 모델을 피팅해두고 피팅된 모델을 둘러싼 공간을 3D convolution으로 feature화 해서 같이 쓰는 식이다. 

PiFu가 위와 같은 식으로 정리할 수 있다면, PaMIR는 아래와 같은 식으로 정리할 수 있다. 그게 전부다.

 

핵심 아이디어

Introduction에서 언급한 컨셉이 전부고 나머지는 크게 두드러지지 않는 것 같다. 위 그림의 위 절반을 보면 PiFU인 것이고 아래 절반이 추가된 것이다. 입력 이미지에 GCMR이라는 SMPL pose/shape 파라미터 추정 알고리즘을 적용해서 mesh를 얻어내고 이를 voxelization하고 3D feature화해서 사용한다. 결과도 똑같이 0~1 occupancy이다.

 

contribution이라고 주장하는 부분이 depth-ambiguity-aware reconstruction loss인데 생각보다 간단하다. 지금 GCMR로 얻어낸 noisy mesh에서 시작하지만 구조상 noisy mesh가 정확하다고 믿고 가는 모양이다. 이 상황에서 reconsturction loss를 GT mesh를 이용해서 제공할 경우, noisy mesh vs GT mesh 사이의 간극, 즉 GCMR의 성능 차이를 PaMIR가 온전히 다 담당해야 하게 된다. 이는 성능에 안 좋은 영향을 줄 것은 분명하다.

 

따라서 noisy mesh vs GT mesh 간의 차이는 미리 사전에 계산해둘 수 있으므로 offset을 계산해두고, 네트워크 출력이 나오면 이를 offset 만큼 옮겨준 다음에 GT mesh와 비교하도록 해준다는 말이다. 이름이 depth ambiguity aware 라고 적혀있는 건 weak perspective camera를 가정하는 상황에서 GCMR은 depth ambiguity를 감수할 수 밖에 없어서 noisy해지는 것인데 이를 보정해준다는 느낌이라 그렇게 붙인 것 같다. 

 

(6)에서 ∆pi (사실상 ∆zi) 가 offset에 해당하는 녀석이고 이를 계산하는 방식은 SMPL vertex 4개를 기준으로 어떻게 계산해서 구했다고 적어둔 것이다. 

 

body reference optimization이라고 적은 부분은 사실 크게 도움이 되는 부분인지는 모르겠다. 내용인 즉슨 PaMIR가 모든 데이터에 대해서 잘 학습되었다고 가정한다면, PaMIR가 다시 GCMR이 계산한 pose/shape 파라미터를 보정하는데 쓰일 수 있다는 것이다.

 

 

GCMR이 내뱉은 파라미터로 만든 SMPL의 vertex를 PaMIR에 던져준다면 surface point이기 때문에 occupancy가 0.5가 나와야 이상적이라는 것을 알 수 있다. 따라서 PaMIR를 고정해두고 pose/shape 파라미터를 최적화로 업데이트할 수 있다는 내용이다.

 

geometry를 얻는 것에 집중하는 논문이긴 하지만 마지막에 RGB 값을 추정하도록 변형만 해주어서 color도 같이 얻어낸다.

수식이 좀 독특해보이긴 하는데 내용은, 지금 보고있는 이미지에서 관찰이 가능한 부분이면 이미지 color를 이용해 supervision을 제공하고, 안 보이는 부분이라면 GT mesh color를 이용해 supervision을 제공한다는 뜻이다.

 

이렇게 되면 관찰 가능한 부분의 occupancy를 더욱 분명하게 높이는데도 도움이 되고 관찰 불가능한 부분의 색은 이미지를 보고 맞추지 않도록 분리하는데 도움이 된다. 완성도를 높이기 위해 GT mesh color가 강력한 것은 맞기 때문에 (14)를 보면 C'으로만 구성된 term을 추가해두었다. 

 

Results

 

반응형