Paper/Human

Cross-view and Cross-pose Completion for 3D Human Understanding

침닦는수건 2024. 11. 14. 11:57
반응형

내 맘대로 Introduction

 

CVPR 2024에 나온 Croco human data 버전이다. 드래프트가 arxiv에 공개되었을 때 읽어봤었는데 CVPR2024에 나왔다. Croco라는 논문이 geometry를 타겟으로 하긴 했지만 워낙 좋은 컨셉이다 보니 도메인을 사람으로 한정한 내용이다. 사실 알고리즘적으로 더 뛰어난 내용이 있다기 보다 사람 데이터로 하면 어떤지 실험해본 테크니컬 리포트에 가깝다.

 

기존 Croco와 달리 human은 non-static object이기 때문에 view point가 달라지는 것 뿐만 아니라 pose가 달라지는 것도 포함되기에 이름에 cross-pose가 추가되었을 뿐 구조와 방식은 동일하다. 데이터가 바뀐 것.

 

결과적으로 MAE에 때려넣은 것보다 좋은 성능을 보이므로 이런 cross attention을 사용하는 self-supervise 학습 방법론이 효과적이라는 걸 두 번째로 보여준 논문이라는데 의미가 있다. 

 

메모

구조적, 알고리즘적 내용은 완전히 Croco와 100% 같기 때문에, Croco를 읽어봤다면 논문은 크게 안 읽어도 그냥 이해가 된다. (생략)



데이터 구성이 위와 같이 multiview-temporal 데이터 이므로 2가지 방향의 데이터 pairing이 가능. loss가 위처럼 나뉘어져있지만 그냥 batch 안에 다 섞여있다는 얘기.



마스킹을 사람 영역에서 특정 비율로 이루어지도록 했다는데 크게 중요하진 않은 듯. 아래 ablation을 보면정말 미약한 상승 정도다.



synthetic도 잔뜩

video 데이터도 잔뜩 썼다.


오히려 눈여겨 볼 점은 MAE와 비교했을 때 성능이 더 좋다는 점 + MAE는 오히려 휴먼 데이터만 쓰면 성능이 떨어졌다는 현상이다. 

-> 왠지 spiens가 (차이가 있긴하지만) dinov2에 비해서 feature가 그렇게 앞서진 않는 점과 무슨 연관이 있지 않을까.
확실하게 random보다는 도움이 크게 되고

또 하나는 완전 self supervised보다 2d keypoint로 하는 것도 좋다는 것
->이건 sapiens에서 pose estimation으로 튜닝된 feature가 semantic 정보가 더 뛰어나게 나오는 결과로 미루어보아. feature localziation이 잘되어서 그런 것 같다.
반응형