내 맘대로 Introduction우연히 발견한 논문인데, 오랜만에 원론적인 고민을 한 사람을 만난 것 같다. 이 논문은 "이미지가 비슷하다"를 집요하게 파고 들어 비슷함에 대한 metric을 만들고자 했다. 우리가 흔히 LPIPS나 CLIP/DINO/SAM 등 foundation model feature의 cosine similarity로 이미지의 비슷함을 가늠하곤 했는데 이 사람은 이게 효과적임을 인정함과 동시에 의문을 품었다. 비슷하긴 한데 어떻게 비슷한건데? 결국 사람이 보기에 비슷한 거랑 일치해야 하는거 아니야? 라고. 그래서 이 사람은 SD에서 같은 category로 만들어 낸 무수한 이미지 triplet을 갖고 "진짜" 사람한테 시켜서 데이터를 구성한 뒤, 이 데이터를 갖고 각 feature ..