Paper/Human

SIFU: Side-view Conditioned Implicit Function for Real-world Usable Clothed Human Reconstruction

침닦는수건 2024. 4. 30. 16:25
반응형

내 맘대로 Introduction

 

제목에서 알 수 있다시피 PiFU 컨셉의 후속 연구, single image to 3d avatar. SIFU 라는 이름이 사부를 중국어로 읽은 것과 비슷한 점을 살려서 은근히 중국 티를 팍팍 낸 논문.

 

핵심 아이디어는 기존 방식은 front to left/right/back 과정에서 geometric guidance가 하나도 없었기에 성능이 떨어졌다는 것을 지적하면서 left/right/back SMPLX rendered normal 이라도 넣어주는 식으로 보강한 점이다. 구조적으로 front 입력에서 Q를 뽑고 left/right/back 에서 K,V를 뽑는 식의 cross attention을 사용함으로써 어느 뷰가 우선순위가 높은지 확실히 정해준다. 

 

아이디어는 간단하지만 좋은 접근 방식인 듯.

 

메모


1) front image + side/back SMPLX normal image에서 feature를 뽑음

2) feature 다 모아서 MLP 후 occupancy 예측

3) marching cube로 mesh화 후 uv mapping으로 texture 분리

4) diffusion model prior로 texture map 업데이트.

1) front 가 query, side/back 이 key, value를 제공하는 식의 cross attention architecture.

2) 후에 front + avt(side/back) 이 concat되는 형태로 최종 feature.

각 view 별로 decoder를 따로 둠. 

front <-> left
front <-> right
front <-> back

cross attention.

수식(4)처럼

front를 기준으로 front 1 + left 1/3 + right 1/3 + back 1/3 들어가는 식의 feature도 뽑음

추가적으로 SMPLX vertex에 대해 수식(4)를 이용해 feature를 모은 뒤, 

수식(5)처럼 query point, x에 대해서 nearest face feature를 평균내는 식으로 한 번 더 aggregation한 feature를 계산해둠. 

(SMPLX과 binding을 강하게 하기 위함인 듯)

SMPLX로 계산한 normal, sdf로 추가 사용.
학습은 기존 PiFU 하듯이 표면 근처에서 sampling 많이 , 표면 멀리에서는 조금 하는 방식으로 occupancy loss

surface 근처에서 color loss를 주는 방식.

이렇게 복원하면 side/back texture가 좀 뭉개지긴 함. 아무래도 observation이 적으니. 이를 diffusion model 힘으로 보강함.

marching cube 후 mesh -> UV texture map 뗘냄. (최적화 대상이 됨)

1) 여러 view 로 임의 렌더링 

2) 각 view diffusion model 태워서 denoise 

이 때 front view 이미지에서 뽑은 text feature로 condition을 줌.

+ consistency 유지해야 하니까 각 view에서 diffusion 과정을 진행할 때 key view를 선정하고 key view token을 propagation하는 식으로 함.

예를 들어 side/back diffusion 과정에서 front view token을 사용하도록 매 iteration마다 초기화해주는 방식.

무작위로 side에서 token을 쓰기도, front에서 쓰기도 하면서 서로 token consistency가 유지되도록 유도함.





propagation은 target view token마다 key view token에서 nearest token을 찾아서 대체해주는 식. 

2 iteration 단위로 찾아서 평균내는 식으로 step-wise으로도 봄.
반응형