반응형
내 맘대로 Introduction
CVPR 2024에 나온 Croco human data 버전이다. 드래프트가 arxiv에 공개되었을 때 읽어봤었는데 CVPR2024에 나왔다. Croco라는 논문이 geometry를 타겟으로 하긴 했지만 워낙 좋은 컨셉이다 보니 도메인을 사람으로 한정한 내용이다. 사실 알고리즘적으로 더 뛰어난 내용이 있다기 보다 사람 데이터로 하면 어떤지 실험해본 테크니컬 리포트에 가깝다.
기존 Croco와 달리 human은 non-static object이기 때문에 view point가 달라지는 것 뿐만 아니라 pose가 달라지는 것도 포함되기에 이름에 cross-pose가 추가되었을 뿐 구조와 방식은 동일하다. 데이터가 바뀐 것.
결과적으로 MAE에 때려넣은 것보다 좋은 성능을 보이므로 이런 cross attention을 사용하는 self-supervise 학습 방법론이 효과적이라는 걸 두 번째로 보여준 논문이라는데 의미가 있다.
메모
구조적, 알고리즘적 내용은 완전히 Croco와 100% 같기 때문에, Croco를 읽어봤다면 논문은 크게 안 읽어도 그냥 이해가 된다. (생략) 데이터 구성이 위와 같이 multiview-temporal 데이터 이므로 2가지 방향의 데이터 pairing이 가능. loss가 위처럼 나뉘어져있지만 그냥 batch 안에 다 섞여있다는 얘기. 마스킹을 사람 영역에서 특정 비율로 이루어지도록 했다는데 크게 중요하진 않은 듯. 아래 ablation을 보면정말 미약한 상승 정도다. |
synthetic도 잔뜩 video 데이터도 잔뜩 썼다. |
오히려 눈여겨 볼 점은 MAE와 비교했을 때 성능이 더 좋다는 점 + MAE는 오히려 휴먼 데이터만 쓰면 성능이 떨어졌다는 현상이다. -> 왠지 spiens가 (차이가 있긴하지만) dinov2에 비해서 feature가 그렇게 앞서진 않는 점과 무슨 연관이 있지 않을까. |
확실하게 random보다는 도움이 크게 되고 또 하나는 완전 self supervised보다 2d keypoint로 하는 것도 좋다는 것 ->이건 sapiens에서 pose estimation으로 튜닝된 feature가 semantic 정보가 더 뛰어나게 나오는 결과로 미루어보아. feature localziation이 잘되어서 그런 것 같다. |
반응형