Paper/Generation 41

ToonCrafter: Generative Cartoon Interpolation

내 맘대로 Introduction frame interpolation을 diffusion model로 푼 논문. 결국 이미지 생성이기 때문에 Stable diffusion tuning 영역을 크게 벗어나지 않은 논문이긴 한데 도메인을 굉장히 잘 잡았다. 만화 도메인이기 때문에 결과 사진이 사람들의 이목을 끄는데 충분했고, 실제 만화를 그리는 만화가들이 매 프레임을 그려내는 것은 힘들어 하고 있다는 문제점을 쉽게 연상할 수 있기 때문에 이 연구가 타당하다는 것을 암묵적으로 알게 만들었다.  핵심 아이디어는 tuning 과정에서 다른 논문들과 달리 SD decoder까지 튜닝 영역에 넣었다는 것이다. 이유는 latent image로 encoding하면서 발생하는 lossy compression 을 완화하고자..

Paper/Generation 2024.06.05

AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning (ICLR 2024 ver.)

내 맘대로 Introduction AnimateDiff가 맨 처음 본 논문 형태로 그대로 CVPR된 줄 알았는데, 다시 보니 reject 됐었나보다. ICLR 2024에 포맷팅 변경 + 추가 튜닝 경험들을 녹여서 다시 냈고 spot light paper로 accept됐다. (학회 별로 극과 극을 달리는 평가를 보면 진짜 리뷰의 퀄리티가 이제는 바닥을 치는 듯.) 아무튼 새로 업데이트된 내용이 좀 있길래 추가 정리한다. 메모이전에 리뷰한 바가 있으니, 차이점 부분만 언급하면 다음과 같다.1) 기존 motion module에 LoRa를 추가해서 fine tuning용 데이터가 있을 시 해당 데이터에 특화된 motion module로 업데이트할 수 있도록 함2) domain adaptation용 LoRa도 추..

Paper/Generation 2024.06.04

GP-VTON: Towards General Purpose Virtual Try-on via Collaborative Local-Flow Global-Parsing Learning

내 맘대로 Introduction 2022~2023 나온 논문이라서 조금 옛 것(이젠 1년만 지나도...)이지만 요즘 나오는 Virtual Try-on는 전부 다 diffusion인데 반해 이 논문은 그래도 warping + generation으로 방식이 차이가 있어서 기록해둔다. diffusion으로 넘어온 이후 이제는 굳이 다루지 않아도 되는 부분들이 있지만 그냥 간단히 기록해둔다. 메모큰 컨셉은 옷 파트 별로 warping field를 예측 한 뒤, warped image를 기준으로 generation하는 것이다.어설프게 나마 초기값을 잡아줘서 generation 난이도를 확 낮추는 것.DGT 학습 방식은 옷을 넣어입냐 빼입냐, 같은 차이를 반영하도록 유도하는 학습 방식.말이 길다. 하지만 핵심은 ..

Paper/Generation 2024.05.29

StableVITON: Learning Semantic Correspondence with Latent Diffusion Model for Virtual Try-On

내 맘대로 Introduction Virtual try on, CVPR2024에서 가장 유명세를 탄 논문. SD Freeze하고 각종 컨디션으로 fine tuning하는 방법이 고정되어 있으므로 구조적 특성은 크게 없다. 하지만 fine tuning의 핵심인 cross attention 과정에서 어떻게 하면 attention을 옷 위치로 유도할 수 있을지 augmentation과 loss function을 고민한 점이 눈에 띄는 논문. 깔끔한 코드 공개로 확인도 쉬우니 신뢰성이 높다. 메모1) 입력masked imagemask denposeCLIP(cloth)VAE(cloth)noise(model)독특하게 SD encoder만 붙여서 tuning을 했다. decoder는 왜 안 썼을까. 메모리 문제였나...

Paper/Generation 2024.05.28

ViViD: Video Virtual Try-on using Diffusion Models

내 맘대로 Introduction알리바바에서 낸 Virtual try on 논문. 알리바바가 VTON 기술에 힘을 싣고 있는 것 같다. 사람 + 옷 이미지 생성 관련 논문을 주로 쓰는 듯. 데이터도 적극적으로 모으고, 찍고 관리하는 것 같다. 데이터 규모에서 비빌 수가 없어서 성능 차이가 더 커지는 듯. 이 역시 조립형 논문이다. SD1.5 + AnimateDiff temporal module + CLIP 을 섞어서 VTON 이미지를 만들어 내는 논문. 다만 temporal module을 끼면서 영역을 비디오로 확장했다는 점이 차이. 메모VVT 하나만 존재했던 cloth-video 데이터셋의 한계를 느끼고1) 9700 쌍2) 832 624 의 고해상도데이터셋을 쇼핑몰로부터 제공받아 새로 만들었다. non..

Paper/Generation 2024.05.23

ReconFusion: 3D Reconstruction with Diffusion Priors

내 맘대로 Introduction CAT3D 의 이전 작. 하위호환이라고 할 수 있다. diffusion model을 이용한 multi view image 생성 + NeRF로 3D recon이 포함된 내용.  핵심 아이디어는 3d recon을 위한 NeRF 외에 pixel-NeRF를 붙여서 rendered feature를 만들고, 이를 diffusion model의 입력으로 활용하는 식으로 3d consistent novel view image 생성을 유도함. 내용은 엄청 간단함. 메모이것도 그림으로 설명이 끝남.1) 크게 Zip-NeRF를 학습시키는 거임2) 부족한 novel view 이미지는, pixel-NeRF로 찍어낸 feature map + input 이미지를 받는 diffusion model에..

Paper/Generation 2024.05.22

CAT3D: Create Anything in 3D with Multi-View Diffusion Models

내 맘대로 Introduction Diffusion model로 multiview image를 생성해낸 뒤, NeRF를 붙여 복원해내는 기존 방식들의 상위 호환 버전 논문이라고 할 수 있다. diffusion model의 성능이 껑충 뛰어오른 것도 성능 향상의 한 이유라고 볼 수 있겠지만, novel view synthesis 과정에서 diffusion model을 활용하는 아이디어가 깔끔하고 좋았다.  주어진 모든 view를 noise없이 넣고, novel view는 noise로 넣어서 diffusion 하는 방식. novel view에만 집중할 수 있도록 구성했다. 구조적으로 3D self attention이 효과가 좋았다는 것을 밝혔다. 메모사실 그림으로 설명이 끝난다.multiview image로..

Paper/Generation 2024.05.22

Improving Diffusion Models for Authentic Virtual Try-on in the Wild

내 맘대로 Introduction virtual-try-on을 diffusion 모델 써서 하는 논문. 요즘 나오는 conditioned image generation의 추세를 따라, IP-Adapter + SDXL + CLIP + ControlNet를 섞은 논문.  SD1.5 혹은 SDXL이 워낙 강력하다보니 frozen SD를 갖다 붙이는 식의 방식이 레시피의 핵심이 되었고, 자연스레 생성형 논문은 알고리즘적 진일보가 contribution이라기 보다 어떤 식의 조합이 효과적인지 밝히는 실험적 진일보가 contribution인 것 같다. 이 논문은 어떤 pretrained network들을 어떻게 조합해야 원하는대로 virtual try on 이미지를 생성할 수 있는지 조합 레시피를 설명하는 논문. ..

Paper/Generation 2024.05.07

InstantID: Zero-shot Identity-Preserving Generation in Seconds

내 맘대로 Introduction IPadapter + ControlNet을 붙여서 face-identity 유지 잘 되는 SD model 만드는 방법론을 제시한 논문. 알고리즘적 발전보다는 조립을 어떻게 하니까 잘 되더라 발견한데 의의가 있는 논문으로 약간 조립형 논문 같아 보인다.  핵심 아이디어는 Face embedding을 기존 face detection + ReID를 잘하는 모델을 가져와서 쓴 것이다. 이외 facial condition을 keypoint 5개만 쓴다거나 text embedding 대신 ID embedding을 ControlNet에 넣어주거나 하는 트릭은 경험치 정도의 의미가 있는 것 같다. 메모1) Face detector + ReID 모델 + MLP 조합으로 Face embe..

Paper/Generation 2024.04.30

Zero-1-to-3: Zero-shot One Image to 3D Object

내 맘대로 Introduction 지금 보면 LoRA, ControlNet, IPAdapter 등 SD 모델에 컨디션을 부여하는 방법론이 소개가 되었기 때문에 간단해 보이지만, 연구 당시에 2022년이라는 사실을 감안해서 보면 색다른 시도였다고 생각한다.  핵심 내용은 SD 모델이 갖고 있는 latent space 안에서 geometric consistent generation을 할 수 있도록 view point condition을 갖고 fine tuning하는 것이다.  입력이 이미지 + camera view point가 되고 출력이 해당 view point에서 보면 새로운 이미지다.  메모컨셉이 간단하기 때문에 내용도 간단함.SD 모델에 컨디션으로 들어가던 것을 camera pose로 한정하고 튜닝하..

Paper/Generation 2024.04.29