Paper/Generation

Style-Based Global Appearance Flow for Virtual Try-On (a.k.a Flow-Style-VTON)

침닦는수건 2024. 6. 25. 16:40
반응형

내 맘대로 Introduction

 

2022년 Diffusion을 활용하기 전 VTON 논문으로 이제는 오래됐다고 (2년 지났지만...) 볼 만한 논문. 하지만 2023년 GP-VTON도 그렇고 flow를 활용한 VTON 논문만이 갖는 장점을 확실히 있는 것 같다. Diffusion model이 아무리 잘 만든다 한들 사전 학습된 latent space로부터 최대한 유사한 이미지를 만들어내는 방식이다 보니 입력과 멀어지는 경우가 종종 있는데 flow는 입력을 직접 활용하는 방법이다 보니 확실히 장점이 있다.

 

단순 기록용으로 적는다.

 

메모



문제 정의는 똑같고, 핵심 아이디어는 
1) semantic information 잔뜩 먹고 사전 학습된 flow 기반 네트워크를 teacher로 두고, semantic information 안 쓰는 flow 기반 네트워크를 학습시키기 (입력 단순화 하기)

2) 사전 학습된 네트워크를 활용하여 데이터 뻥튀기 하기.



사전 학습된 flow 기반 네트워크는 segmentation map + openpose + densepose를 입력으로 먹고 학습된 아이.




설명이 길지만, coarse to fine, grid_sample용 flow를 예측한다는 내용

입력 : 옷 이미지, 사람 이미지
출력 : flow
출력 2: 최종 옷입은 이미지

sampling이라고 표현되는 S가 F.grid_sample

1) 생성 완료된 옷+사람 <=> GT 간의 perceptual loss를 주 loss로 사용함. 

-> pixel by pixel로 하지 않은 이유는 옷이 non-rigid 하다보니까 조금 다르게 generation된 것은 변형 가능한 범위라고 판단해주기 위함인 것 같음.

-> 아니면 해봤는데 구렸거나

2) flow smoothness loss

3) teacher network의 distillation loss
-> 이건 사실 숫자 싸움을 이기기 위한 트릭에 가까운 듯 함
-> network 구조에 제한이 생기는 것이라서 오히려 단점에 가깝다고 생각함.

------------------------
코드 보니까 아니다. 

이미지 pixel to pixel l1 loss도 사용함. 적어두지 않았음.


반응형