Paper/Human

StructLDM: Structured Latent Diffusion for 3D Human Generation

침닦는수건 2024. 4. 17. 11:20
반응형

내 맘대로 Introduction

 

이 논문은 3D Human avatar가 있을 때 texture를 업데이트해서 착장을 바꾼다거나 pose를 바꾸는 식으로 외형을 변형시키는 논문이다. 입력이 이미지가 아니라는 점. 

 

핵심 아이디어는 texture는 uv map diffussion으로 다양화, pose 변화는 NeRF representation을 이용해 feature에 반영하는 부분이다. 그리고 각각 신체 파트 별로 나누어서 접근하는 divde-and-conquer 전략이다.

 

방대한 SMPL까지 존재하는 데이터셋에서만 적용 가능하다는 것이 단점.

 

메모



1) SMPL 파트 별로 uv map상으로 encoding (xyzrgb 입력으로 받을 듯)

2) NeRF 방식으로 feature rendering ( ray와 최인접한 uv값을 평균내서 weighted sum하는 방식)

3) feature to image 학습

uv feature로 인코딩하는 방식은 79번 논문 그냥 가져다 쓴 것 같음. 길게 써놨지만


(a) 대신 (b) 썼다라고 길게 적어둔 것

uv feature to image로 변환하는 중간 과정에 NeRF를 끼워넣음. 3D mesh가 있으니 충분히 가능한 방식.

1) 특정 시점 이미지 만들고 학습하기 용이함. 같은 데이터로 무한 학습 가능.
2) 3d consistency 유지에 유리함.
rendered feature to image. 화려한 단어를 붙였지만 그냥 Transposed CNN 붙인 것.
별개로 uv map 을 입력으로 받는 diffusion model을 학습시켜 둠. texture 교환하는 방법!
반응형