Paper/Generation 35

[ICLR 2021] Improved Denoising Diffusion Probabilistic Models

내 맘대로 Introduction 이 논문은 DDPM의 분석 보고서라고 볼 수 있다. DDPM이라는 논문에서 제시한 파라미터 하나 하나를 뜯어보면서 어떻게 바꿨을 때 향상이 있었는지 보여주고, trade-off 관계가 있다면 경향이 어떤지 보여주는 논문이다. 정말 보고서와 같은 논문인다. 핵심적인 아이디어는 따라서 없다. 사실 이제는 쓸모 없는 내용도 많아서 그냥 대충 읽어도 될 것 같다. 말이 너무 많다ㅠ 메모하며 읽기 DDPM을 분석하는 논문답게 DDPM 수식을 상당히 자세하게 recap하고 시작한다. 첫번째로 주목한 점은 DDPM 은 reverse process distribution을 찾아나갈 때 mean 값만 집중하지 std값은 특정값으로 가정해버리면서 버린다는 점이다. (실험적으로 특별하지 않..

Paper/Generation 2024.01.31

[ICLR 2021] Denoising Diffusion Implicit Models (a.k.a DDIM)

내 맘대로 Introduction 이 논문은 DDPM이 전개한 식 (w/ Markov chain 가정)을 관찰한 결과, non-Markovian 식으로도 전개할 수 있다는 것을 발견하고 식을 정립한 논문이다. 이전 time stamp만이 현재 time stamp 결과를 결정하는 관계 (markovian)에서 원본 이미지 + 이전 time stamp가 현재 time stamp를 결정하는 관계로 모델링하면서 문제를 다르게 풀었다. 이 논문이 역작으로 꼽히는 이유는 모델링 방법을 바꿨음에도 수식을 전개하다보면 결국 DDPM과 같은 결론을 얻게 된다는 것을 증명했고, 본인들이 전개한 식의 특수 케이스가 DDPM 식이라는 것도 밝혀냈다. 한마디로 DDPM을 부분 집합으로 보게 만들어 버릴만한 더 큰 집합을 찾아낸..

Paper/Generation 2024.01.31

AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

내 맘대로 Introduction 이 논문을 한마디로 표현하면, specific tuning이 아니라 general tuning을 하는 방법을 소개했다 생각한다. task가 motion인데 이렇게 표현하는 것이 좀 과장하는 것 같지만, 큰 그림에서 A도 motion을 갖게 하고, B도 motion을 갖게 하려면 기존에는 A,B 각각 별도로 tuning을 했어야 하는데 A, B에 둘 다 적용 가능한 tuner를 만드는 방법을 보여줬으니 general tuning 방법을 소개했다고 보인다. 간단히 말해 조금 크고 무거운 LoRA를 만들어서 여러 대상을 tuning하는 느낌이다. 개인적으로 task가 motion인데, motion을 자유롭게 컨트롤할 수 없다는 점은 아쉬웠다. 똑같은 생각을 한 사람이 있기 때..

Paper/Generation 2024.01.22

DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

내 맘대로 Introduction 이 논문은 CVPR 2023에서 무려 best paper를 받은 google 논문이다. 한마디로 요약하면, 학습 완료된 text-to-image generation model을 fine-tuning하는 방법을 소개한다. 예를 들어, 위 사진처럼 내 웰시코기 애완견 이미지를 생성하는 모델로 fine tuning하고 싶을 때, 입력 이미지 3~5 장 정도 넣어 학습하는 방법이다. LoRA와 더불어 fine tuning 정석 기법 중 하나로 여겨지고 있다. 핵심 내용은 unique identifier를 넣어서 tuning 대상이 어떤 것인지 명확히 지정하는 방법, 그 와중에 다른 대상에 대한 생성 결과는 원래대로 유지되도록 하는 방법 2가지다. 메모하며 읽기 단순히 새로운 f..

Paper/Generation 2024.01.22

Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation

내 맘대로 Introduction 과거에 everybody dance now라는 논문이 GAN을 이용해서 pose retargeted image를 만드는 기술을 보인 바 있는데, 이 논문은 그 컨셉을 "모든 대상, 모든 자세"로 확장한 generalized 버전이라고 볼 수 있다. 다시 말해 임의의 사람 이미지 1장을 넣으면 그 사람이 다른 자세를 취한 이미지를 얻을 수 있다. 핵심 아이디어는 잘 학습된 stable diffusion weight를 가져와서 CLIP feature와 이미지 feature, pose feature를 이용해 finetuning하는 것이다. 재미 하나로 스포트 라이트를 받을 논문이다. 메모하며 읽기 전체 파이프라인은 stable diffusion의 denoising Unet을 ..

Paper/Generation 2023.12.11

Text-to-3D using Gaussian Splatting

내 맘대로 Introduction 이 논문도 제목에서 바로 알 수 있듯이 text to 3d 문제를 gaussian splatting 써서 풀어보고자 한 논문이다. 3D GS 논문 공개되자 마자 계란 후라이식 논문으로 SDS loss 갖다 붙이는 text-to-3d 컨셉들이 하도 많이 나오니 최초라고 주장하는 논문이 몇갠지 모르겠다. 이 논문 역시 거의 완성된 요리에 계란 후라이 얹고 새로운 요리인 척 하는 논문 중 하나다. 핵심 아이디어는 2d diffusion model의 SDS loss로 3D GS를 학습시킨다는 컨셉으로 완전 동일하다. 초기 3d gaussian 위치를 잡아 줄 때 3d diffusion model, text-to-pcd model을 썼다는 점에서는 GaussianDreamer 와..

Paper/Generation 2023.12.05

Score Jacobian Chaining: Lifting Pretrained 2D Diffusion Models for 3D Generation

내 맘대로 Introduction 이 논문은 DreamFusion의 상위 호환(?) 정도 되는 논문으로 볼 수 있다. DreamFusion과 같은 시기에 제출된 논문이지만 DreamFusion이 arxiv에 올라온 이후에 제출된 논문이라 시간적으로는 DreamFusion 후속 연구에 가깝다. 후속 연구답게 목표로 하는 task는 text-to-3D이며 기존 2D diffusion model을 이용하여 3D로 어떻게 lifting하는지가 주 관심사다. 핵심 아이디어는 DreamFusion에서 소개한 SDS loss를 더 면밀히 파고들어 수학적으로 전개한 SJC(Score Jacobian Chaining) loss를 소개한다. 사실 SDS loss를 참고한 모양처럼 보이지만 별도로 연구했는데 공교롭게 먼저 ..

Paper/Generation 2023.11.22

GaussianDreamer: Fast Generation from Text to 3D Gaussian Splatting with Point Cloud Priors

내 맘대로 Introduction 또 발견했다. 계란 후라이 논문. 3D GS가 NeRF를 일각에서 너무 효과적으로 대체하다보니, NeRF를 붙여서 열심히 text-to-3D를 구현하던 사람들이 다 3D GS로 넘어오는 것 같다. 이 논문도 text-to-3D를 타겟으로 하는 논문인데, novelty가 있다기 보다 어떻게 2D, 3D diffusion model과 3D GS를 엮었는지 보여주는 테크니컬 리포트에 가깝다. 물리적으로 찾아낸 SfM 결과에서 시작한 것이 아니라 generation 모델로 얻어낸 결과에서 시작하는 컨셉을 보여주는 논문이다. 큰 틀에서는 이전에 봤던 DreamGaussian 과 동일하다고 볼 수 있다. 그래도 나름 차이점이라고 할 수 있는 핵심 아이디어는 DreamGaussian..

Paper/Generation 2023.11.22

DreamGaussian : Generative Gaussian Splatting for Efficient 3D Content Creation

내 맘대로 Introduction 이 논문은 DreamFusion 과 같이 text/image-to-3D를 목표로 하는 논문으로 NeRF를 썼던 dreamfusion을 3d gaussian splatting을 쓰는 버전으로 확장한 컨셉이다. 3D gaussian splatting을 사용하면서 문제가 많이 쉬워졌기 때문에 컨셉은 비슷한데 성능이 더 뛰어난 것 같다. 성능의 핵심은 prior를 제공해주는 2D diffusion model의 성능이다. freeze된 2D diffusion model에 rendered image를 넣어 계산하는 SDS loss가 핵심이기 때문에 2D diffusion model이 잘 학습되어있어야 한다. 내가 볼 때 또 다른 핵심은 간단하긴 하지만 3d gaussian to m..

Paper/Generation 2023.11.20

SPIn-NeRF: Multiview Segmentation and Perceptual Inpainting with Neural Radiance Fields

내 맘대로 Introduction 이 논문은 NeRF로 이미 복원한 scene에서 선택적으로 특정 물체를 지우는 방법에 대해 생각한 논문이다. NeRF MLP가 implicit function이 un-interpretable이기 때문에 이미 학습 완료된 scene에서 특정 물체만 분리해낸다는 생각 자체가 사실 불가능한 것이라 이론적으로 풀진 않았고, 파이프라인으로 풀었다. 입력 이미지가 주어졌을 때 제거하고자 하는 물체를 모든 이미지에 대해서 마스킹한 뒤, NeRF를 다시 학습시키는 방법이다. 이 때 단순 마스킹할 경우 당연히 망가질 것이기 때문에 2d inpainting 알고리즘으로 빈 mask 영역을 채워서 복원한다. 개인적으로 task를 풀기 위해 이것저것 섞은 조립형 논문이라서 그렇게 매력적으로 ..

Paper/Generation 2023.11.16