Paper/Generation

ViViD: Video Virtual Try-on using Diffusion Models

침닦는수건 2024. 5. 23. 10:40
반응형

내 맘대로 Introduction

알리바바에서 낸 Virtual try on 논문. 알리바바가 VTON 기술에 힘을 싣고 있는 것 같다. 사람 + 옷 이미지 생성 관련 논문을 주로 쓰는 듯. 데이터도 적극적으로 모으고, 찍고 관리하는 것 같다. 데이터 규모에서 비빌 수가 없어서 성능 차이가 더 커지는 듯.

 

이 역시 조립형 논문이다. SD1.5 + AnimateDiff temporal module + CLIP 을 섞어서 VTON 이미지를 만들어 내는 논문. 다만 temporal module을 끼면서 영역을 비디오로 확장했다는 점이 차이.

 

메모


VVT 하나만 존재했던 cloth-video 데이터셋의 한계를 느끼고

1) 9700 쌍
2) 832 624 의 고해상도

데이터셋을 쇼핑몰로부터 제공받아 새로 만들었다. non-commercial use로 공개될 듯.

openpose와 densepose, part segmentation이 제공된다.

조립형 논문 답게 입력, 구조만 보면 된다. 중간 알고리즘은 다 갖다 붙인 것.

1) 입력
video, masked video, mask, denspose 총 4개 24frame 단위로 끊어서 들어감.

2) 구조
CLIP + trainable Unet으로 옷 정보 추출

SD Unet으로 모델 정보 추출

self attention + temporal attention으로 합침

Garment Encoder
- SD 1.5 Unet으로 시작
- CLIP으로 부족한 옷 fine detail 잡으려고 추가
- 밑 freezed SD1.5 Unet 의 self attention module에 정보 제공


Pose encoder
- 그냥 얇은 CNN

Temporal Module
- AnimateDiff에 나오는 방식이랑 동일
- width, height 채널을 batch로 몰아 넣고 time 채널에 맞춰 self attention.
학습은 전체를 한 번에 학습함. 

데이터셋을 활용할 때 기존 image-cloth 데이터셋도 같이 씀

image 24개 모아서 video 입력처럼 넣되 temporal module을 얼림. (업데이트를 안함)

--------
이건 temporal consistency 측면에서 방해가 될만한 행동인 것 같은데 좀 생각해볼 여지가 있을 듯.
A100 GPU로 5일 걸림.

반응형