https://github.com/NVlabs/RADIO
GitHub - NVlabs/RADIO: Official repository for "AM-RADIO: Reduce All Domains Into One"
Official repository for "AM-RADIO: Reduce All Domains Into One" - NVlabs/RADIO
github.com
궁극의 vision foundation model이 나온 것 같아서 직접 feature를 뽑아서 관찰해봤다.
결과
위 결과는 입력 이미지 6개를 전부 RADIOv2.5를 돌린 뒤, 다같이 PCA를 통해 3채널로 dimension reduction한 뒤 RGB로 mapping해서 시각화 한 결과다. 쉬운 말로 색깔이 비슷할 수록 해당 위치 feature가 유사한 것이다.
독특한 점은 DINOv2의 경우, 해상도가 달라지더라도 feature space가 크게 달라지지 않는데 (interpolation해도 그래서 쓸만함) RADIOv2.5는 해상도에 따라 아예 feature space가 전혀 달라진다. 따라서 입력 해상도가 다르다면 같은 이미지더라도 다른 feature가 뽑히는 특징이 있다. (이게 어떤 단점으로 작용할지...)
Technical report에서도 분석했듯이, 이게 DINOv2나 CLIP은 224x224 해상도 위주로 학습되었고, SAM은 1024x1024 해상도 위주로 학습되었다보니 positional embedding을 비롯한 세팅이 아무래도 각 해상도에 bias 되어있는 것 때문인 것 같다. 처음부터 학습하는 것이 아니라 distillation으로 학습하는 방식이다 보니 어쩔 수 없이 224와 1024쪽에 bias가 있고, RADIOv2.5는 그 중간 어딘가를 최적 해상도로 수렴된 것 같다.
내가 볼 땐 768x768이 사용하기 괜찮은 최소 해상도일 것 같고, 최대는 1024x1024인 것 같다. 1024를 넘어갈 경우, teacher의 한계를 넘어선 것이기 때문에 학습이 잘 안된 범위에 들어선다.
'About me > What I did' 카테고리의 다른 글
Face UV tracker (0) | 2025.01.19 |
---|---|
Curriculum Vitae (2024.07.28 updated) (0) | 2024.07.28 |
Github.io (0) | 2023.10.01 |
Curriculum Vitae (2023.10.01 updated) (0) | 2023.10.01 |
Curriculum Vitae (2023.01.01 updated) (0) | 2023.01.01 |