내 맘대로 Introduction single image에서 multi person detection하는 논문. SMPLX 파라미터를 찾는 방식으로 검출해내는데 카메라로부터 거리까지 추정하는 절대적 검출이라는 것이 차이점이다. 대규모 데이터를 먹은 DinoV2를 backbone으로 쓰기 때문에 generalization도 좀 더 잘되는 것 같고 실제로 해봤을 때 기존 ROMP 같은 논문들보다 안정성이 뛰어나다. 메모 1) human patch detection (어느 patch에 사람 머리가 있는지) 2) offset regression (patch 내에서 디테일한 위치) 3) Cross attention 기반 regression ( human param + distance) 파라미터 dimension ..