Paper/Others

DualPM: Dual Posed-Canonical Point Maps for 3D Shape and Pose Reconstruction

침닦는수건 2025. 11. 10. 17:51
반응형

내 맘대로 Introduction

 

point map representation이 인기를 얻으면서 누군가는 canonical point map을 다룰 것이라고 바로 생각했었는데, 역시나 있다. 정말 naive하게 camera space point를 예측함과 동시에 canonical space point를 픽셀 별로 예측하는 걸 추가한 것. 새로운 formulation 없이 output에 추가되었다는 것은 좀 아쉬운 점. GT가 존재해야만 풀 수 있는 문제이므로, 일반화할 수 없는게 아쉽다. 뭔가 self-supervised 요소를 넣어서 풀었다면 확장이 가능하니까 더 좋았을 것 같은데... 누군가 곧 하겠지

 

deformed-canonical 구도에서 주 대상은 역사적으로 사람이었는데, 사람은 변화 자유도가 너무 높을 뿐더러 학습시킬 만큼 충분한 4D 데이터셋이 없다. 따라서 사족 동물 synthetic 데이터로 간소화해서 컨셉만 보여준 논문이라고 보면 된다.

 

메모


DINOv2 feature로 시작해서, 픽셀 별로 canonical point 먼저 예측하고, 이게 다시 입력으로 들어가서 deformed point를 예측하게되는 순서. 

이 때 visible point만 하는게 아니라 occluded point도 다루고 싶어했기 대문에 point를 2N개 예측하도록 했다. (2N인 이유는 들어갔다 나왔다. surface에 2번 부딪힌다는 가정이기 때문)


내용은 진짜 이게 끝이다. multiview image에서 correspondence끼리는 canonical point가 같아야 된다는 건 당연한 사실.

뒤에 이걸 loss로 쓰진 않는다.





canonical Q 먼저 찾고 그걸 입력으로 써서 deformed P 찾고. 

GT가 있으니 그냥 l2 loss다.


가려진 점도 추정해야 canonical space가 더 밀도있게 찾아진다. 

visible region만 추정하면 deformed space야 잘 찾아지겠지만 반쪽짜리 canonical point가 얻어질 것.

adaptive하게 추정하는 것은 아니고 2N개 를 추가 추정하는 것으로 열어두고 (거리순으로 정렬된 형태로) opacity를 0-1로 같이 추정해서 알아서 도태되도록 설정함.

정말 naive


2N이니까 xyz xyz in out 총 6채널이고 opacity 1개 총 7개값을 예측하도록 설정했다. 


데이터는 위에 보다시피 말이다.


사실 좋은 표현법인지는 모르겠다. 
반응형