Paper/Generation 41

IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models

내 맘대로 Introduction 크게 보면 ControlNet이랑 마찬가지로 학습된 Diffusion model에 condition을 가하는 방법론인데 차이점이 존재한다. 1) 특별한 2D conditioned map이 아니라 이미지 자체를 condition으로 넣을 수 있다. CLIP(image)를 conditioned map으로 씀. 2) cross attention layer만 추가한 수준이라 원 모델을 훨씬 덜 건드린다. 3) 기존 text feature와 상호 조절이 가능하다. (controlnet은 입력에 넣는 것이라 text랑 상호 조절은 안됨) 다른 표현으로는 prompt를 건드는 수준이다. 위와 같이 장점이 명확하기 때문에 최근에는 controlnet보다 더 자주 쓰는 방법인 것 같다...

Paper/Generation 2024.04.19

Adding Conditional Control to Text-to-Image Diffusion Models (a.k.a ControlNet)

내 맘대로 Introduction ControlNet은 워낙 유명해서 논문을 보지 않았어도 무슨 역할을 하는 기술인지 알 수 밖에 없다. 이제 개인, 팀 단위의 학습 범위를 넘어선 Stable Diffusion trained model들은 재학습이나 튜닝 조차 손대기 어려운데 SD 모델을 고정해둔 채로 원하는 condition을 만족한 이미지를 생성하도록 튜닝하는 방법론이다. 핵심 아이디어는 모델 전체는 고정해두고 입력을 latent로 변환해주는 encoder 부분만 손을 대는 것이다. encoder는 전체에 비하면 아주 작은 부분일 뿐이지만 source를 만드는 역할이라 비중은 상당한 부분이기 때문이다. 메모 내용은 사실 위 그림 한장이 끝이다. 1) 입력을 받는 부분의 copy를 만들고 원래 것은 고..

Paper/Generation 2024.04.19

Champ: Controllable and Consistent Human Image Animation with 3D Parametric Guidance

내 맘대로 Introduction Animate Anyone 이랑 타겟하는 문제가 같다. 입력 이미지 1장 주어지고 pose guidance 여러개 주어졌을 때 해당 이미지 내 사람이 주어진 동작을 하는 영상을 만들어내는 것인데 이 논문의 차이점은 pose guidance를 openpose keypoint가 아닌 SMPL로 확장했다는 점이다. 이전에 dense pose uv map을 쓰는 논문도 있었던 것 같은데 아주 단순한 아이디어를 빠르게 구현한 논문 같다. vertex 위치를 쓰는 것이 아니라 depth, normal, semantic, keypoint 쓸 수 있는 걸 다 썼다. 메모 animate anyone이랑 구조가 거의 동일하다. openpose keypoint map 들어가던 곳을 SMPL..

Paper/Generation 2024.04.19

VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis

내 맘대로 Introduction long audio + single image 로부터 long video를 만들어 내는 내용. 목적 자체는 가상 대화를 활성화할 수 있게 하는 것이다. 소리만 갖고 전화하는 것을 넘어서 적절하게 생성된 이미지로 영상통화를 하는 것처럼 만들어 낸다는 것이 궁극적 목표다. 그 초기 연구라고 보면 될듯. 기존 연구는 소리랑 매치가 안되거나, 얼굴이 부자연스럽거나, 몸동작은 빠져있고, 자세 표현의 다양성이 부족하다는 것 등 하나씩 빠지는 점이 있지만 이 논문은 소리, 표정, 몸동작, 다양성까지 다 커버하는 것을 목표로 한다. 핵심은 역시나 diffusion이다. 메모 1) 소리에서 SMPL 파라미터 만들기 2) 입력 이미지에서 SMPL reference(특히 texture) 잡..

Paper/Generation 2024.04.19

[ICLR 2022] LoRA: Low-Rank Adaptation of Large Language Models

내 맘대로 Introduction LoRA도 워낙 유명한 논문이라 읽지 않았더라도 내용은 알고 있었다. 위 그림 한 장으로 모든 것을 설명할 수 있는 간단한 알고리즘인데, 초거대 모델을 downstream task 별로 fine tuning하는 공수가 만들다 보니 이를 간소화하기 위해 제안된 adapter다. downstream task 별로 fine tuned 모델을 따로 두는 것이 아니라 original model + tuned adapter를 여러 개 보유 하는식으로 분리해서 저장 용량도 줄이고 연산 병렬화에도 유리하도록 했다. original model 한 번 forward할 때 가벼운 adapter만 여러개 forward 같이 하고 연결만 해주면 많은 downstream task 처리가 가능해지..

Paper/Generation 2024.02.07

[ICLR 2021] Improved Denoising Diffusion Probabilistic Models

내 맘대로 Introduction 이 논문은 DDPM의 분석 보고서라고 볼 수 있다. DDPM이라는 논문에서 제시한 파라미터 하나 하나를 뜯어보면서 어떻게 바꿨을 때 향상이 있었는지 보여주고, trade-off 관계가 있다면 경향이 어떤지 보여주는 논문이다. 정말 보고서와 같은 논문인다. 핵심적인 아이디어는 따라서 없다. 사실 이제는 쓸모 없는 내용도 많아서 그냥 대충 읽어도 될 것 같다. 말이 너무 많다ㅠ 메모하며 읽기 DDPM을 분석하는 논문답게 DDPM 수식을 상당히 자세하게 recap하고 시작한다. 첫번째로 주목한 점은 DDPM 은 reverse process distribution을 찾아나갈 때 mean 값만 집중하지 std값은 특정값으로 가정해버리면서 버린다는 점이다. (실험적으로 특별하지 않..

Paper/Generation 2024.01.31

[ICLR 2021] Denoising Diffusion Implicit Models (a.k.a DDIM)

내 맘대로 Introduction 이 논문은 DDPM이 전개한 식 (w/ Markov chain 가정)을 관찰한 결과, non-Markovian 식으로도 전개할 수 있다는 것을 발견하고 식을 정립한 논문이다. 이전 time stamp만이 현재 time stamp 결과를 결정하는 관계 (markovian)에서 원본 이미지 + 이전 time stamp가 현재 time stamp를 결정하는 관계로 모델링하면서 문제를 다르게 풀었다. 이 논문이 역작으로 꼽히는 이유는 모델링 방법을 바꿨음에도 수식을 전개하다보면 결국 DDPM과 같은 결론을 얻게 된다는 것을 증명했고, 본인들이 전개한 식의 특수 케이스가 DDPM 식이라는 것도 밝혀냈다. 한마디로 DDPM을 부분 집합으로 보게 만들어 버릴만한 더 큰 집합을 찾아낸..

Paper/Generation 2024.01.31

AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

내 맘대로 Introduction 이 논문을 한마디로 표현하면, specific tuning이 아니라 general tuning을 하는 방법을 소개했다 생각한다. task가 motion인데 이렇게 표현하는 것이 좀 과장하는 것 같지만, 큰 그림에서 A도 motion을 갖게 하고, B도 motion을 갖게 하려면 기존에는 A,B 각각 별도로 tuning을 했어야 하는데 A, B에 둘 다 적용 가능한 tuner를 만드는 방법을 보여줬으니 general tuning 방법을 소개했다고 보인다. 간단히 말해 조금 크고 무거운 LoRA를 만들어서 여러 대상을 tuning하는 느낌이다. 개인적으로 task가 motion인데, motion을 자유롭게 컨트롤할 수 없다는 점은 아쉬웠다. 똑같은 생각을 한 사람이 있기 때..

Paper/Generation 2024.01.22

DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

내 맘대로 Introduction 이 논문은 CVPR 2023에서 무려 best paper를 받은 google 논문이다. 한마디로 요약하면, 학습 완료된 text-to-image generation model을 fine-tuning하는 방법을 소개한다. 예를 들어, 위 사진처럼 내 웰시코기 애완견 이미지를 생성하는 모델로 fine tuning하고 싶을 때, 입력 이미지 3~5 장 정도 넣어 학습하는 방법이다. LoRA와 더불어 fine tuning 정석 기법 중 하나로 여겨지고 있다. 핵심 내용은 unique identifier를 넣어서 tuning 대상이 어떤 것인지 명확히 지정하는 방법, 그 와중에 다른 대상에 대한 생성 결과는 원래대로 유지되도록 하는 방법 2가지다. 메모하며 읽기 단순히 새로운 f..

Paper/Generation 2024.01.22