내 맘대로 Introduction 너무 유명한 논문이라서 이제 와서 읽고 기록해두는 것이 민망하지만 간단히 적어두고자 한다. 이 논문은 OpenAI에서 CLIP이라는 이름으로 발표한 image encoder/text encoder 논문이다. image embedding 결과가 text embedding과 같도록 설계된 환경에서 학습된 두 encoder를 제공함으로써 주어진 image에서 text embedding을, text에서 image embedding을 얻어내는 효과를 노린다. 아이디어에 핵심이 있다기 보다 엄청나게 방대한 데이터를 먹여 범용적인 embedding space를 구축했다는 것이 핵심이다. 추후 CLIP embedding을 이용한 활용 논문이 쏟아졌는데, 해당 논문들에서 CLIP의 우수..