내 맘대로 Introduction이 논문은 MAE의 많은 후속 연구와 같이 어떻게 하면 self-supervised learning을 효과적으로 이미지에 적용할 수 있을지 고민한 논문이다. 여느 논문들과 달리 MAE를 연구한 그룹에서 낸 후속 연구격이라 신뢰도가 높다. 저자에 LeCun이 들어있는 것도 한 몫한다. 많은 데이터를 사용하는 학습이고 모델이 transformer다 보니 연산량도 작지 않기 때문에, 성능 뿐만 아니라 학습에 걸리는 시간도 문제인데 이 두 가지 문제를 해결하고자 한 듯하다. 핵심 아이디어는 어찌 보면 간단하다. 1) random masking 대신 patch masking을 하고 patch 단위로 비교 2) 비교할 때 복원한 이미지 상의 pixel loss가 아닌 feature..