Paper/Human

AG3D: Learning to Generate 3D Avatars from 2D Image Collections

침닦는수건 2024. 5. 2. 17:46
반응형

내 맘대로 Introduction

 

제목에서도 느껴지듯이 EG3D의 human 버전 확장판이라고 볼 수 있다. EG3D 확장답게 3D GAN + Multi-planes을 차용한 구조를 사용한다. 핵심 아이디어는 3D 데이터 없이 많은 2D 데이터를 먹여서 generator를 학습시키는 것이다. discriminator도 여러개 붙이고 super resolution module까지 붙여서 조금 조잡한 느낌이 나지만 그래도 준수한 논문.

 

메모


1) 3D generator가 canonical SDF 예측하도록 함

2) pose-conditioned deformation 후 volume rendering

3) rgb, normal 2레벨에서 discriminator 적용

4) super resolution 붙여서 고화질에서도 rgb, normal discrimination 적용.

3D generator

1) canonical space volume, position x와 noise를 입력으로 받아 residual SDF를 출력함

2) SMPL 피팅 결과를 prior로 가져가기 때문에 residual SDF를 출력함

3) normal은 gradient(SDF)로 계산

4) color도 계산.

--- 
사실 상 NeuS 시리즈랑 똑같은 과정.

deformation 가하는 방식은 LBS 방식

SMPL bone + bone transformation matrix를 가져와서 사용

네트워크는 query point를 받아서 skinning weight matrix를 추정하는 방식으로 학습됨.


여기서 추정된 skinning weight로 transformation matrix를 최종 계산하고 이를 앞서 canonical space에서 구한 normal에서 반영해줌. (수식5)

--------------
수식(4)는 근데 analytic하게 inverse가 풀리는 문제가 아니기 때문에 때문에 gradient 계산이 어렵다. 따라서 SNARF 논문에서 사용한 방식대로 approximation해서 학습함. 

Volume rendering은 그냥 기존 방식 그대로임.

VolSDF, NeuS랑 동일.
super resolution 모듈은 순전히 메모리 사용량 때문에 추가된 것.

Multi plane structure를 쓰긴 했다만 파라미터가 적지 않고, 많은 discriminator 때문에 메모리 사용량이 엄청 크다. 

따라서 저해상도 밖에 못하는데 성능과의 trade-off를 완화하기 위해서 이걸 붙임.



1) 전체 이미지 RGB discrimination

2) face 영역만 keypoint 이용해서 crop한 뒤 RGB discrimination

3-4) 1-2)를 normal로만 바꿔서 반복.

5) Volume rendering의 국룰, eikonal loss 추가.
반응형