[Human] PyMAF: 3D Human Pose and Shape Regression with Pyramidal Mesh Alignment Feedback Loop

Paper/Human

[Human] PyMAF: 3D Human Pose and Shape Regression with Pyramidal Mesh Alignment Feedback Loop

침닦는수건 2023. 4. 12. 00:17

PyMAF: 3D Human Pose and Shape Regression

with Pyramidal Mesh Alignment Feedback Loop

내 맘대로 Introduction

이 논문은 한마디로 SMPLify, HMR, SPIN과 같이 single image 에 SMPL을 어떻게 잘 fitting하느냐에 관한 논문이다. optimization based, regression based 많은 연구들이 있어서 주제 자체는 새롭지 않지만 그 성능이 압도적이어서 ICCV 2021 Oral까지 받은 논문이 되겠다.

HMR 같이 regression based 논문이며 입력은 single image, 출력은 SMPL 파라미터다. 차이점은 기존 regression based 알고리즘은 이미지 전체를 압축한 global descriptor를 이용해 파라미터를 추정했는데 PyMAF는 이미지 해상도와 같은 feature map을 만들어두고, 현재 fitting된 결과를 2차원으로 투영했을 때 겹치는 위치의 feature만 선별적으로 사용했다.

feature map 상에서 몇몇 위치에서만 feature를 뽑아서 썼다는 차이 뿐이지만 성능 차이가 너무 컸다.

핵심 내용

아이디어는 정말 간단하기 때문에 그림만 봐도 이해하기 쉽다. 먼저 이미지는 Encoder를 통해 feature map이 된다. coarse resolution으로 압축되는데 이는 점점 deconvolution을 통해 원본 fine resolution까지 상승한다.

먼저 첫번째 coarse resolution, ϕ0은 초기화에 해당하는 feature map이다. 아직 SMPL 파라미터 추정을 하지 않았기 때문에 feature map 전체에서 격자 형태로 feature를 뽑아 concatenate하여 regression에 사용할 feature ϕp0를 만든다. (아마 격자 형태는 SMPL vertex 개수 6890개와 같을 것 같다.)

그리곤 ϕp0 와 Θ0 (zero들)을 입력으로 HMR과 같이 현 이미지에 가장 적합한 SMPL 파라미터를 추정한다. 여기까진 그냥 HMR이다.

그 다음 상위 resolution이 핵심인데, coarse resolution에서 추정한 결과가 있으니 그 결과로 SMPL을 fitting하고 vertex를 이미지로 projection한다. 그러면 위 그림에서 주황색 점처럼 현 fitting 결과과 대응되는 이미지 픽셀들을 찾을 수 있는데 이번엔 격자 형태로 뽑은 feature를 쓰는 것이 아니라 이 대응되는 픽셀 위치에서 뽑은 feature를 concatenate하여 사용하는 것이다. 이것을 coarse-to-fine resolution이 다 끝날 때까지 반복하면 된다. (간단!)

학습에 사용한 loss function은 HMR과 동일하다. vertex 위치 K를 GT K와 직접 비교하는 term, skeleton joint, J를 비교하는 term, SMPL 파라미터를 비교하는 term이 메인이다.

현 fitting된 SMPL을 이미지로 projection하는 과정이 추가된 것인데 이 효과를 극대화하기 위해 Auxiliary Pixel-wise Supervision라고 이름 붙인 loss를 보조로 추가했다.

그 의미는 3차원 GT와 그것을 2차원으로 projection한 2차원 GT까지 갖고 있다고 했을 때, 현 fitting된 SMPL을 2차원으로 projection한 결과와 비교한 것이다. SMPL은 각 vertex 마다 part index, P를 갖고 있는데 2차원 GT 상에 part index와 2차원 projection 상에 part index가 같은지, UV coordinate은 같은지 비교한 것이다.

이 효과가 꽤 크다고 한다.

Results

정량적, 정성적으로 기존 베이스라인 대비 매우 뛰어난 결과를 보여주고 있다.

다른 논문에서 말로는 iterative method지만 사실상 형태만 iterative지 실제로 이전 단계 추정 결과가 다음 단계에 강력한 초기값을 제공해주도록 유도하는 부분은 부족했는데, 이 논문은 feature sampling에서 직접적으로 유도하기 때문에 iterative method의 효과가 매우 크다고 한다.

저작자표시 비영리 변경금지 (새창열림)

'Paper > Human' 카테고리의 다른 글

NeuFace: Realistic 3D Neural Face Rendering from Multi-view Images (0)	2023.06.30
Sampling is Matter: Point-guided 3D Human Mesh Reconstruction (0)	2023.06.26
[Human] Animatable Neural Radiance Fields for Modeling Dynamic Human Bodies (0)	2023.04.08
[Human] Neural Body: Implicit Neural Representations with Structured Latent Codes for Novel View Synthesis of Dynamic Humans (0)	2023.04.07
[Human] MetaAvatar: Learning Animatable Clothed Human Models from Few Depth Images (0)	2023.04.05

현재글[Human] PyMAF: 3D Human Pose and Shape Regression with Pyramidal Mesh Alignment Feedback Loop

CODERNER