내 맘대로 Introduction 제목과 대문 사진만 봐도 드디어 나올게 나왔나 싶은 Human foundation model. 네이버랩스 유럽에서 Croco-man이라는 이름으로 human foundation model을 CVPR24에 시도하긴 했지만 스케일에서 압도적이다. 300만장의 사람 사진 + A100 1024장으로 18일 동안 학습... 해상도도 1024x1024에다 파라미터 수가 20억개가 넘는다. 핵심 내용은 사실 없다. Masked autoencoder (MAE) 방식을 토씨 하나 안 빼놓고 그대로 적용한 것이다. 대신 데이터가 human으로 한정되고 엄청나게 많이 때려넣었다는 것이 유일한 차이. 그래도 개인적으로 논문이라기 보다 테크니컬 리포트에 가까운 것 같다. MAE 방식으로 hu..