Paper/Generation

Champ: Controllable and Consistent Human Image Animation with 3D Parametric Guidance

침닦는수건 2024. 4. 19. 14:50
반응형

내 맘대로 Introduction

 

Animate Anyone 이랑 타겟하는 문제가 같다. 입력 이미지 1장 주어지고 pose guidance 여러개 주어졌을 때 해당 이미지 내 사람이 주어진 동작을 하는 영상을 만들어내는 것인데 이 논문의 차이점은 pose guidance를 openpose keypoint가 아닌 SMPL로 확장했다는 점이다. 이전에 dense pose uv map을 쓰는 논문도 있었던 것 같은데 아주 단순한 아이디어를 빠르게 구현한 논문 같다. 

 

vertex 위치를 쓰는 것이 아니라 depth, normal, semantic, keypoint 쓸 수 있는 걸 다 썼다. 

 

메모


animate anyone이랑 구조가 거의 동일하다. openpose keypoint map 들어가던 곳을 SMPL rendering으로 얻은 온갖 2D map으로 바꾼 것 뿐이다. PSA라고 적혀있는 것은 별다른 것이 아니라 모든 frame에 대해 shape parameter를 공유하도록 피팅했다는 얘기.
https://shubham-goel.github.io/4dhumans/  위 ICCV23 논문 써서 이미지에 대응 되는 SMPL 파라미터 뽑음. 렌더링해서 depth, normal, semantic label, keypoint 얻어두기 

모든 프레임 간 shape parameter는 공유되도록 SMPL 파라미터를 구했다는데, 이건 4D human이 tracker가 붙어있는 알고리즘이라 거기서 알아서 해주는 것 같다... (그리고 이건 당연히 해야하는 것.)
4종류의 guidance는 하나로 합쳐지는 과정을 거쳐야 함.


depth, normal, semantic, keypoint 각각 마다 self-attention F가 붙음. 

attention 활성화되는 부분을 시각화해보면 

위와 같이 생겼는데 depth는 형상, normal은 사람의 방향, semantic은 inter-occlusion, keypoint는 얼굴,손에 집중하게 만든다고 한다.
각 self-attention F를 통해 나온 4개의 값은 그냥 더함

네트워크는 animate anyone(animateDiff) 가져다 썼다. self attention으로 각 guidance encoding하고 합친 부분만 구조가 달라짐.

VAE CLIP은 원래 있던 것.
큼직한 것들은 전부다 고정. self attention 추가한 부분이랑 reference image 뽑아주는 ReferenceNet만 업데이트 됨.
중요하지 않은 내용.

 

반응형