'Paper/Generation' 카테고리의 글 목록

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

내 맘대로 Introduction 이 논문은 진짜 여러모로 유명하다. diffusion이 생성형 시장을 독식하고 있는 와중에 일각에서 autoregressive transformer로 돌파하려는 시도가 있었다. 근데 눈에 띄는 성과를 거두지 못하고 연산량 문제도 있어서 "굳이?"라는 시선을 받고 말았는데 이 논문을 기점으로 diffusion을 넘어설 수 있지 않을까란 기대가 생겼다. 또 유명한 이유는 1저자의 도덕성 문제로 대서특필된 바 있다. bytedance에 금전적인 피해를 끼치고 다른 실험들을 망치면서까지 실험해서 낸 논문으로 별명이 붙었다. 핵심은 image token을 flatten에서 1D로 처리하는 것이 아니라 coarse to fine token으로 만들어서 접근한 것. + autoreg..

Paper/Generation 2025.03.26

Arc2Face: A Foundation Model for ID-ConsistentHuman Faces

내 맘대로 Introduction arcface 논문을 낸 그룹에서 후속 연구 느낌으로 낸 논문. arcface가 Face ID embedding을 훌륭하게 해주는 네트워크인 점을 이용해서 arcface embedding을 condition으로 사용하는 face 전용 diffusion model을 만들었다. diffusion model을 학습시킬만큼의 높은 자유도 ID embedding이 확보되어야 하므로 Webface42M + FFHQ + CelebHQ를 섞어서 arcface부터 large scale로 다시 학습시키고, 그것을 다시 diffusion model 학습에 활용했다. SD의 새로운 버전이라고 볼 수도 있어서 기존 controlnet 같은 trick이 다 가능하다는 점도 눈에 띈다. 메모앞서..

Paper/Generation 2024.10.08

Michelangelo: Conditional 3D Shape Generation based on Shape-Image-Text Aligned Latent Representation

내 맘대로 Introduction MeshAnything 코드를 뜯어보다가 이 논문의 encoder를 사용하는 것을 보고 읽어보았는데 아이디어가 좋은 것 같다. 다루는 문제는 image to mesh 혹은 text to mesh 문제인데 image/text latent에서 바로 mesh로 가는 방식 대신 중간 매개체로 3D shape latent를 구해놓는 것이 핵심이다. 또한 3D shape latent가 image/text latent와의 유사성을 유지하도록 강제함으로써 기존 방대한 양으로 구해둔 image/text prior도 취할 수 있도록 했다. image/text보다 mesh에 더 가까운 차원인 3D shape latent로부터 diffusion해서 mesh를 만들기 때문에 divide-an..

Paper/Generation 2024.08.30

Production-Ready Face Re-Aging for Visual Effects

내 맘대로 Introduction 이 디즈니 논문 이해하려고, StyleFlow, SAM 도 읽었다... SAM 논문에서 image to styleGAN latent w + condition 주는 방법을 제안하고 준수한 성능을 보였지만, 조금 네트워크가 복잡하고 (pretrained network가 덕지덕지) 약간의 artifact(배경이 달라지거나, 헤어스타일이 바뀌는 것 등)가 생기는 문제가 있다. 이는 latent만 찾아주고 이미지를 생성하는 것은 전적으로 pretrained styleGAN2 generator에게 맡겨버리기 때문이다. 이 논문에서는 다 떼고 앞선 SAM으로 데이터를 만들고, generator를 따로 학습하는 한다. 이 때 generator가 얼굴에만 집중할 수 있도록 얼굴 마..

Paper/Generation 2024.07.24

Only a Matter of Style: Age Transformation Using a Style-Based Regression Model

내 맘대로 Introduction 2020년 StyleFlow 에서 styleGAN latent space를 잘만 컨트롤하면 원하는 condition을 넣어 원하는 이미지를 생성할 수 있다는 가능성을 보여준 이후, 2021년 이 가능성을 aging condition으로 특화한 논문이다. StyleFlow는 z->w 과정에서 condition을 주어 이미지를 생성하는 것이므로, 시작이 random gaussian noise다. 따라서 condition만 만족하고 나머지는 랜덤이다. 얼굴이나 스타일 안경, 이런건 랜덤 생성이다. 이 SAM 이라는 논문은 image->w로 가는 네트워크를 학습한다. 따라서 image + condition -> w를 학습해서 image 특성은 유지하되 condition이 추가..

Paper/Generation 2024.07.24

StyleFlow: Attribute-conditioned Exploration of StyleGAN-Generated Images using Conditional Continuous Normalizing Flows

내 맘대로 Introduction 디즈니에서 만든 aging 네트워크 논문을 읽다가, 핵심 참조 논문이어서 여기까지 내려왔다. 이 논문은 2020년 논문으로 StyleGAN2가 폭발적인 인기를 얻던 시절, StyleGAN2 latent space를 해석하는 논문이다. 다른 말로, styleGAN2의 latent space에서 원하는 조건을 만족하는 latent를 찾아내고 결과적으로 원하는 이미지를 생성하도록 유도하는 방법을 설명한다. 마치 요즘 diffusion model에 IPAdapter나 controlnet을 붙여서 conditioned image generation을 하는 것과 같다. StyleGAN2 버전 condition 주는 방법이다. 핵심 아이디어는 pre-trained styleGAN의 ..

Paper/Generation 2024.07.24

RePaint: Inpainting using Denoising Diffusion Probabilistic Models

내 맘대로 Introduction 이 논문은 제목에서 바로 알 수 있다시피 DDPM 즉, diffusion model을 이용해서 이미지 inpainting하는 방법을 설명한다. 특이한 것은 별도의 튜닝이나 재학습, loss 추가 이런 것이 없다. 기존 학습 완료된 DDPM을 "어떻게 활용하면" 아무런 수정없이 inpainting 문제를 풀 수 있는지 아이디어를 설명하는 논문이다.간단하지만 효과적이고 납득 또한 가능한 방법. inference 시간만 늘어나는 단점이 있다. 메모위 그림이 직관적으로 바로 설명을 해버린다. denoising 과정에서 나온 noisy image 상에서 masked region은 그대로 냅두고, 그 외 영역은 깨끗한 이미지 + noise로 forward noising으로 채우는 ..

Paper/Generation 2024.07.03

Style-Based Global Appearance Flow for Virtual Try-On (a.k.a Flow-Style-VTON)

내 맘대로 Introduction 2022년 Diffusion을 활용하기 전 VTON 논문으로 이제는 오래됐다고 (2년 지났지만...) 볼 만한 논문. 하지만 2023년 GP-VTON도 그렇고 flow를 활용한 VTON 논문만이 갖는 장점을 확실히 있는 것 같다. Diffusion model이 아무리 잘 만든다 한들 사전 학습된 latent space로부터 최대한 유사한 이미지를 만들어내는 방식이다 보니 입력과 멀어지는 경우가 종종 있는데 flow는 입력을 직접 활용하는 방법이다 보니 확실히 장점이 있다. 단순 기록용으로 적는다. 메모문제 정의는 똑같고, 핵심 아이디어는 1) semantic information 잔뜩 먹고 사전 학습된 flow 기반 네트워크를 teacher로 두고, semantic in..

Paper/Generation 2024.06.25

UV-IDM: Identity-Conditioned Latent Diffusion Model for Face UV-Texture Generation

내 맘대로 Introduction 이 논문은 위 사진처럼 얼굴에 사용할 texture만 생성하는 모델이다. BFM model topolgy를 이용하는 방식이고, BFM texture generation 모델이라고 보면 된다. 궁극적으로 하고자 하는 바는 single image가 들어왔을 때 그 안에 있는 사람의 얼굴 texture를 복원해내는 것이다. occlusion 때문에 가려진 부분의 texture는 알 수 없기 때문에 보이는 부분의 texture 외에는 generation으로 커버하겠다는 컨셉. 이를 풀기 위해선 주어진 이미지 내 얼굴의 자세, texture 외 여러 특징들을 알고 있어야 하는데 각각은 pretrained network들을 가져와서 쓰는 식으로 풀었다. 따라서 이 논문은 전처..

Paper/Generation 2024.06.17

M&M VTO: Multi-Garment Virtual Try-On and Editing

내 맘대로 Introduction Google에서 낸 VTON 논문. 상하의 신발을 동시에 넣을 수 있도록 한 것과 text guided layout 변경이 가능하도록 condition을 추가한 논문. 학습이 전체적으로 끝난 이후에 한 사람에 대해서 person feature 최적화를 따로 post processing처럼 돌려주는데 이 모듈의 힘으로 identity, detail preserving이 더 잘 된다. 사람마다 최적화한 person feature는 따로 저장해두고 사용 (명 당 6MB 정도라고 함) 하는 방식이다. 어떻게든 잘되게 만든 방법 같기도. 메모위 흐름 그대로 사람 이미지 에 각종 상하의 이미지가 들어가는 구조. 그림을 조금 다르게 그렸을 뿐 SD 쓰는게 맞다.학습용 데이터는 v..

Paper/Generation 2024.06.11

CODERNER

Paper/Generation 42

티스토리툴바