내 맘대로 Introduction알리바바에서 낸 Virtual try on 논문. 알리바바가 VTON 기술에 힘을 싣고 있는 것 같다. 사람 + 옷 이미지 생성 관련 논문을 주로 쓰는 듯. 데이터도 적극적으로 모으고, 찍고 관리하는 것 같다. 데이터 규모에서 비빌 수가 없어서 성능 차이가 더 커지는 듯. 이 역시 조립형 논문이다. SD1.5 + AnimateDiff temporal module + CLIP 을 섞어서 VTON 이미지를 만들어 내는 논문. 다만 temporal module을 끼면서 영역을 비디오로 확장했다는 점이 차이. 메모VVT 하나만 존재했던 cloth-video 데이터셋의 한계를 느끼고1) 9700 쌍2) 832 624 의 고해상도데이터셋을 쇼핑몰로부터 제공받아 새로 만들었다. non..