반응형
내 맘대로 Introduction
제목과 대문 사진만 봐도 드디어 나올게 나왔나 싶은 Human foundation model. 네이버랩스 유럽에서 Croco-man이라는 이름으로 human foundation model을 CVPR24에 시도하긴 했지만 스케일에서 압도적이다. 300만장의 사람 사진 + A100 1024장으로 18일 동안 학습... 해상도도 1024x1024에다 파라미터 수가 20억개가 넘는다.
핵심 내용은 사실 없다. Masked autoencoder (MAE) 방식을 토씨 하나 안 빼놓고 그대로 적용한 것이다. 대신 데이터가 human으로 한정되고 엄청나게 많이 때려넣었다는 것이 유일한 차이. 그래도 개인적으로 논문이라기 보다 테크니컬 리포트에 가까운 것 같다. MAE 방식으로 human 데이터만 모아서 pretraining 시키면 효과가 좋다는 사실을 보여주는 리포트.
따라할 수 있는 수준이 아니어서 독보적인 것 같다.
메모
스케일 싸움을 시작하는 것 같다. 기존 224 해상도에서 벗어나 과감히 메모리, 전기 팡팡쓰면서 1024 해상도로 처음 시도. 데이터양도 300만장 |
정말 새로운 내용은 없다. 데이터를 300만장 사람 n명 있는 사진으로만 모았고, MAE 방식으로 0.3~2B 파라미터 수를 갖는 ViT 하나를 학습시켜본 것이다. 위 예시가 다른 기타 MAE 논문보다 잘돼보이는 이유는 해상도가 1024기 때문. |
|
foundation model 힘을 보여주기 위해 human-centric task 총 4개를 downstream 으로 보여줌. 설계는 출력 채널과 loss만 건들고 그대로 쓴다. |
|
최대한 convetional loss로만 구성해서, 일부러 간단히 구현한 것 같다. 대충 loss 한 두개만 붙여도 잘된다는 걸 보여주는 느낌으로. |
|
|
|
반응형