Paper 249

M&M VTO: Multi-Garment Virtual Try-On and Editing

내 맘대로 Introduction Google에서 낸 VTON 논문. 상하의 신발을 동시에 넣을 수 있도록 한 것과 text guided layout 변경이 가능하도록 condition을 추가한 논문. 학습이 전체적으로 끝난 이후에 한 사람에 대해서 person feature 최적화를 따로 post processing처럼 돌려주는데 이 모듈의 힘으로 identity, detail preserving이 더 잘 된다.  사람마다 최적화한 person feature는 따로 저장해두고 사용 (명 당 6MB 정도라고 함) 하는 방식이다.  어떻게든 잘되게 만든 방법 같기도. 메모위 흐름 그대로 사람 이미지 에 각종 상하의 이미지가 들어가는 구조. 그림을 조금 다르게 그렸을 뿐 SD 쓰는게 맞다.학습용 데이터는 v..

Paper/Generation 2024.06.11

AnyDoor: Zero-shot Object-level Image Customization

내 맘대로 Introduction 신선하고 결과물이 좋은 생성형 모델 논문들은 알리바바가 요즘은 꼭 껴있는 것 같다. 알리바바가 대형 온라인 마켓을 갖고 있다보니 이런 commercial object 사진들을 보유하고 있는 거대기업이라서 그런 것 같기도. 알고리즘보다 데이터 규모에서 따라갈 수 없을 것 같다는 격차를 느낀다... 알고리즘 성능 속에 데이터 힘이 차지하는 부분이 얼마나 될까. 이 논문은 이미지에 box, contour 등을 그리면 해당 위치로 원하는 object를 옮겨 inpainting해주는 논문이다. object teleporation의 영역이기 때문에 활용하기에 따라 virtual try on 부터 scene editing, shape editing 같은 것이 가능해지는 범용적 알고리..

Paper/Generation 2024.06.07

ToonCrafter: Generative Cartoon Interpolation

내 맘대로 Introduction frame interpolation을 diffusion model로 푼 논문. 결국 이미지 생성이기 때문에 Stable diffusion tuning 영역을 크게 벗어나지 않은 논문이긴 한데 도메인을 굉장히 잘 잡았다. 만화 도메인이기 때문에 결과 사진이 사람들의 이목을 끄는데 충분했고, 실제 만화를 그리는 만화가들이 매 프레임을 그려내는 것은 힘들어 하고 있다는 문제점을 쉽게 연상할 수 있기 때문에 이 연구가 타당하다는 것을 암묵적으로 알게 만들었다.  핵심 아이디어는 tuning 과정에서 다른 논문들과 달리 SD decoder까지 튜닝 영역에 넣었다는 것이다. 이유는 latent image로 encoding하면서 발생하는 lossy compression 을 완화하고자..

Paper/Generation 2024.06.05

AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning (ICLR 2024 ver.)

내 맘대로 Introduction AnimateDiff가 맨 처음 본 논문 형태로 그대로 CVPR된 줄 알았는데, 다시 보니 reject 됐었나보다. ICLR 2024에 포맷팅 변경 + 추가 튜닝 경험들을 녹여서 다시 냈고 spot light paper로 accept됐다. (학회 별로 극과 극을 달리는 평가를 보면 진짜 리뷰의 퀄리티가 이제는 바닥을 치는 듯.) 아무튼 새로 업데이트된 내용이 좀 있길래 추가 정리한다. 메모이전에 리뷰한 바가 있으니, 차이점 부분만 언급하면 다음과 같다.1) 기존 motion module에 LoRa를 추가해서 fine tuning용 데이터가 있을 시 해당 데이터에 특화된 motion module로 업데이트할 수 있도록 함2) domain adaptation용 LoRa도 추..

Paper/Generation 2024.06.04

gDNA: Towards Generative Detailed Neural Avatars

내 맘대로 Introduction pose, shape 파라미터 넣으면 naked human body는 얻을 수 있다. SMPL이 대표적인 예. 여기서 detail 파라미터가 만약 존재한다면 clothed human body까지 얻을 수 있지 않을까?  위 질문으로 시작한 논문 같다. 3D SCAN 데이터 대량을 활용해서 SMPL 위에 얹은 deformation (cloth) 파라미터를 학습시킨 내용이다.  결과적으로 pose, shape, detail 파라미터를 넣으면 clothed human body mesh가 나온다. 메모1) detail 파라미터 + shape 파라미터 넣으면 Canonical volume (3D) 상의 occupancy랑 normal을 뱉어주는 네트워크를 학습시키는 것이다. 2)..

Paper/Human 2024.05.30

GP-VTON: Towards General Purpose Virtual Try-on via Collaborative Local-Flow Global-Parsing Learning

내 맘대로 Introduction 2022~2023 나온 논문이라서 조금 옛 것(이젠 1년만 지나도...)이지만 요즘 나오는 Virtual Try-on는 전부 다 diffusion인데 반해 이 논문은 그래도 warping + generation으로 방식이 차이가 있어서 기록해둔다. diffusion으로 넘어온 이후 이제는 굳이 다루지 않아도 되는 부분들이 있지만 그냥 간단히 기록해둔다. 메모큰 컨셉은 옷 파트 별로 warping field를 예측 한 뒤, warped image를 기준으로 generation하는 것이다.어설프게 나마 초기값을 잡아줘서 generation 난이도를 확 낮추는 것.DGT 학습 방식은 옷을 넣어입냐 빼입냐, 같은 차이를 반영하도록 유도하는 학습 방식.말이 길다. 하지만 핵심은 ..

Paper/Generation 2024.05.29

StableVITON: Learning Semantic Correspondence with Latent Diffusion Model for Virtual Try-On

내 맘대로 Introduction Virtual try on, CVPR2024에서 가장 유명세를 탄 논문. SD Freeze하고 각종 컨디션으로 fine tuning하는 방법이 고정되어 있으므로 구조적 특성은 크게 없다. 하지만 fine tuning의 핵심인 cross attention 과정에서 어떻게 하면 attention을 옷 위치로 유도할 수 있을지 augmentation과 loss function을 고민한 점이 눈에 띄는 논문. 깔끔한 코드 공개로 확인도 쉬우니 신뢰성이 높다. 메모1) 입력masked imagemask denposeCLIP(cloth)VAE(cloth)noise(model)독특하게 SD encoder만 붙여서 tuning을 했다. decoder는 왜 안 썼을까. 메모리 문제였나...

Paper/Generation 2024.05.28

Neural Cloth Simulation

내 맘대로 Introduction SMPL + garment mesh sequence가 주어졌을 때, garment의 변형을 학습해서 unseen pose에서의 garment deformation을 예측할 수 있도록 하는 논문. SMPL pose 파라미터에 의존적으로 변형 가능하도록 하므로 SMPL + Garmet binding이라고 보면 된다.  옷마다 따로 학습해야 하는 것이고, SMPL sequence + Garment mesh sequence가 주어져있어야 한다. 다른 말로 모든 vertex가 추적 가능한 상태여야 한다. garmet vertex, x가 매시점 tracking되어 있다는 것을 전제로 하기 때문이다.  사실 상 vision task라기 보다는 graphics task다.  메모문제를..

Paper/Human 2024.05.28

HumanRF: High-Fidelity Neural Radiance Fields for Humans in Motion (a.k.a Dataset ActorHQ)

내 맘대로 Introduction 160대로 구성된 돔 형태의 카메라 시스템에서 8명의 배우가 100초 정도의 모션을 찍은 데이터를 공개한다. 데이터셋 공개가 주목적이고 뒤에 따라 붙는 temporal NeRF는 human이라는 특성을 딱히 쓰진 않고 Instant-NGP + time dimension으로 구현함. 데이터가 있으니 이를 활용한 복원 알고리즘 구현까지 해본 것 같다. 참고해야 할 점은 TensorRF + InstantNGP를 구현해낸 코드. 그리고 실험을 되게 한 눈에 파악하기 쉽도록 잘 했는데 정리 방식을 기억할 만 하다. 메모전체 파이프라인은 간단하다.1) feature volume 표현법을 InstantNGP와 같이 hash grid로 표현을 하되, TensorRF의 vector-ma..

Paper/Human 2024.05.28

ViViD: Video Virtual Try-on using Diffusion Models

내 맘대로 Introduction알리바바에서 낸 Virtual try on 논문. 알리바바가 VTON 기술에 힘을 싣고 있는 것 같다. 사람 + 옷 이미지 생성 관련 논문을 주로 쓰는 듯. 데이터도 적극적으로 모으고, 찍고 관리하는 것 같다. 데이터 규모에서 비빌 수가 없어서 성능 차이가 더 커지는 듯. 이 역시 조립형 논문이다. SD1.5 + AnimateDiff temporal module + CLIP 을 섞어서 VTON 이미지를 만들어 내는 논문. 다만 temporal module을 끼면서 영역을 비디오로 확장했다는 점이 차이. 메모VVT 하나만 존재했던 cloth-video 데이터셋의 한계를 느끼고1) 9700 쌍2) 832 624 의 고해상도데이터셋을 쇼핑몰로부터 제공받아 새로 만들었다. non..

Paper/Generation 2024.05.23