ViViD: Video Virtual Try-on using Diffusion Models

Paper/Generation

ViViD: Video Virtual Try-on using Diffusion Models

침닦는수건 2024. 5. 23. 10:40

내 맘대로 Introduction

알리바바에서 낸 Virtual try on 논문. 알리바바가 VTON 기술에 힘을 싣고 있는 것 같다. 사람 + 옷 이미지 생성 관련 논문을 주로 쓰는 듯. 데이터도 적극적으로 모으고, 찍고 관리하는 것 같다. 데이터 규모에서 비빌 수가 없어서 성능 차이가 더 커지는 듯.

이 역시 조립형 논문이다. SD1.5 + AnimateDiff temporal module + CLIP 을 섞어서 VTON 이미지를 만들어 내는 논문. 다만 temporal module을 끼면서 영역을 비디오로 확장했다는 점이 차이.

메모

VVT 하나만 존재했던 cloth-video 데이터셋의 한계를 느끼고

1) 9700 쌍
2) 832 624 의 고해상도

데이터셋을 쇼핑몰로부터 제공받아 새로 만들었다. non-commercial use로 공개될 듯.

openpose와 densepose, part segmentation이 제공된다.


	조립형 논문 답게 입력, 구조만 보면 된다. 중간 알고리즘은 다 갖다 붙인 것. 1) 입력 video, masked video, mask, denspose 총 4개 24frame 단위로 끊어서 들어감. 2) 구조 CLIP + trainable Unet으로 옷 정보 추출 SD Unet으로 모델 정보 추출 self attention + temporal attention으로 합침

Garment Encoder
- SD 1.5 Unet으로 시작
- CLIP으로 부족한 옷 fine detail 잡으려고 추가
- 밑 freezed SD1.5 Unet 의 self attention module에 정보 제공

Pose encoder
- 그냥 얇은 CNN

Temporal Module
- AnimateDiff에 나오는 방식이랑 동일
- width, height 채널을 batch로 몰아 넣고 time 채널에 맞춰 self attention.

학습은 전체를 한 번에 학습함.

데이터셋을 활용할 때 기존 image-cloth 데이터셋도 같이 씀

image 24개 모아서 video 입력처럼 넣되 temporal module을 얼림. (업데이트를 안함)

--------
이건 temporal consistency 측면에서 방해가 될만한 행동인 것 같은데 좀 생각해볼 여지가 있을 듯.

A100 GPU로 5일 걸림.

저작자표시 비영리 변경금지

'Paper > Generation' 카테고리의 다른 글

GP-VTON: Towards General Purpose Virtual Try-on via Collaborative Local-Flow Global-Parsing Learning (0)	2024.05.29
StableVITON: Learning Semantic Correspondence with Latent Diffusion Model for Virtual Try-On (0)	2024.05.28
ReconFusion: 3D Reconstruction with Diffusion Priors (0)	2024.05.22
CAT3D: Create Anything in 3D with Multi-View Diffusion Models (0)	2024.05.22
Improving Diffusion Models for Authentic Virtual Try-on in the Wild (0)	2024.05.07

현재글ViViD: Video Virtual Try-on using Diffusion Models

CODERNER