Paper/Generation 35

CAT3D: Create Anything in 3D with Multi-View Diffusion Models

내 맘대로 Introduction Diffusion model로 multiview image를 생성해낸 뒤, NeRF를 붙여 복원해내는 기존 방식들의 상위 호환 버전 논문이라고 할 수 있다. diffusion model의 성능이 껑충 뛰어오른 것도 성능 향상의 한 이유라고 볼 수 있겠지만, novel view synthesis 과정에서 diffusion model을 활용하는 아이디어가 깔끔하고 좋았다.  주어진 모든 view를 noise없이 넣고, novel view는 noise로 넣어서 diffusion 하는 방식. novel view에만 집중할 수 있도록 구성했다. 구조적으로 3D self attention이 효과가 좋았다는 것을 밝혔다. 메모사실 그림으로 설명이 끝난다.multiview image로..

Paper/Generation 2024.05.22

Improving Diffusion Models for Authentic Virtual Try-on in the Wild

내 맘대로 Introduction virtual-try-on을 diffusion 모델 써서 하는 논문. 요즘 나오는 conditioned image generation의 추세를 따라, IP-Adapter + SDXL + CLIP + ControlNet를 섞은 논문.  SD1.5 혹은 SDXL이 워낙 강력하다보니 frozen SD를 갖다 붙이는 식의 방식이 레시피의 핵심이 되었고, 자연스레 생성형 논문은 알고리즘적 진일보가 contribution이라기 보다 어떤 식의 조합이 효과적인지 밝히는 실험적 진일보가 contribution인 것 같다. 이 논문은 어떤 pretrained network들을 어떻게 조합해야 원하는대로 virtual try on 이미지를 생성할 수 있는지 조합 레시피를 설명하는 논문. ..

Paper/Generation 2024.05.07

InstantID: Zero-shot Identity-Preserving Generation in Seconds

내 맘대로 Introduction IPadapter + ControlNet을 붙여서 face-identity 유지 잘 되는 SD model 만드는 방법론을 제시한 논문. 알고리즘적 발전보다는 조립을 어떻게 하니까 잘 되더라 발견한데 의의가 있는 논문으로 약간 조립형 논문 같아 보인다.  핵심 아이디어는 Face embedding을 기존 face detection + ReID를 잘하는 모델을 가져와서 쓴 것이다. 이외 facial condition을 keypoint 5개만 쓴다거나 text embedding 대신 ID embedding을 ControlNet에 넣어주거나 하는 트릭은 경험치 정도의 의미가 있는 것 같다. 메모1) Face detector + ReID 모델 + MLP 조합으로 Face embe..

Paper/Generation 2024.04.30

Zero-1-to-3: Zero-shot One Image to 3D Object

내 맘대로 Introduction 지금 보면 LoRA, ControlNet, IPAdapter 등 SD 모델에 컨디션을 부여하는 방법론이 소개가 되었기 때문에 간단해 보이지만, 연구 당시에 2022년이라는 사실을 감안해서 보면 색다른 시도였다고 생각한다.  핵심 내용은 SD 모델이 갖고 있는 latent space 안에서 geometric consistent generation을 할 수 있도록 view point condition을 갖고 fine tuning하는 것이다.  입력이 이미지 + camera view point가 되고 출력이 해당 view point에서 보면 새로운 이미지다.  메모컨셉이 간단하기 때문에 내용도 간단함.SD 모델에 컨디션으로 들어가던 것을 camera pose로 한정하고 튜닝하..

Paper/Generation 2024.04.29

IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models

내 맘대로 Introduction 크게 보면 ControlNet이랑 마찬가지로 학습된 Diffusion model에 condition을 가하는 방법론인데 차이점이 존재한다. 1) 특별한 2D conditioned map이 아니라 이미지 자체를 condition으로 넣을 수 있다. CLIP(image)를 conditioned map으로 씀. 2) cross attention layer만 추가한 수준이라 원 모델을 훨씬 덜 건드린다. 3) 기존 text feature와 상호 조절이 가능하다. (controlnet은 입력에 넣는 것이라 text랑 상호 조절은 안됨) 다른 표현으로는 prompt를 건드는 수준이다. 위와 같이 장점이 명확하기 때문에 최근에는 controlnet보다 더 자주 쓰는 방법인 것 같다...

Paper/Generation 2024.04.19

Adding Conditional Control to Text-to-Image Diffusion Models (a.k.a ControlNet)

내 맘대로 Introduction ControlNet은 워낙 유명해서 논문을 보지 않았어도 무슨 역할을 하는 기술인지 알 수 밖에 없다. 이제 개인, 팀 단위의 학습 범위를 넘어선 Stable Diffusion trained model들은 재학습이나 튜닝 조차 손대기 어려운데 SD 모델을 고정해둔 채로 원하는 condition을 만족한 이미지를 생성하도록 튜닝하는 방법론이다. 핵심 아이디어는 모델 전체는 고정해두고 입력을 latent로 변환해주는 encoder 부분만 손을 대는 것이다. encoder는 전체에 비하면 아주 작은 부분일 뿐이지만 source를 만드는 역할이라 비중은 상당한 부분이기 때문이다. 메모 내용은 사실 위 그림 한장이 끝이다. 1) 입력을 받는 부분의 copy를 만들고 원래 것은 고..

Paper/Generation 2024.04.19

Champ: Controllable and Consistent Human Image Animation with 3D Parametric Guidance

내 맘대로 Introduction Animate Anyone 이랑 타겟하는 문제가 같다. 입력 이미지 1장 주어지고 pose guidance 여러개 주어졌을 때 해당 이미지 내 사람이 주어진 동작을 하는 영상을 만들어내는 것인데 이 논문의 차이점은 pose guidance를 openpose keypoint가 아닌 SMPL로 확장했다는 점이다. 이전에 dense pose uv map을 쓰는 논문도 있었던 것 같은데 아주 단순한 아이디어를 빠르게 구현한 논문 같다. vertex 위치를 쓰는 것이 아니라 depth, normal, semantic, keypoint 쓸 수 있는 걸 다 썼다. 메모 animate anyone이랑 구조가 거의 동일하다. openpose keypoint map 들어가던 곳을 SMPL..

Paper/Generation 2024.04.19

VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis

내 맘대로 Introduction long audio + single image 로부터 long video를 만들어 내는 내용. 목적 자체는 가상 대화를 활성화할 수 있게 하는 것이다. 소리만 갖고 전화하는 것을 넘어서 적절하게 생성된 이미지로 영상통화를 하는 것처럼 만들어 낸다는 것이 궁극적 목표다. 그 초기 연구라고 보면 될듯. 기존 연구는 소리랑 매치가 안되거나, 얼굴이 부자연스럽거나, 몸동작은 빠져있고, 자세 표현의 다양성이 부족하다는 것 등 하나씩 빠지는 점이 있지만 이 논문은 소리, 표정, 몸동작, 다양성까지 다 커버하는 것을 목표로 한다. 핵심은 역시나 diffusion이다. 메모 1) 소리에서 SMPL 파라미터 만들기 2) 입력 이미지에서 SMPL reference(특히 texture) 잡..

Paper/Generation 2024.04.19

[ICLR 2022] LoRA: Low-Rank Adaptation of Large Language Models

내 맘대로 Introduction LoRA도 워낙 유명한 논문이라 읽지 않았더라도 내용은 알고 있었다. 위 그림 한 장으로 모든 것을 설명할 수 있는 간단한 알고리즘인데, 초거대 모델을 downstream task 별로 fine tuning하는 공수가 만들다 보니 이를 간소화하기 위해 제안된 adapter다. downstream task 별로 fine tuned 모델을 따로 두는 것이 아니라 original model + tuned adapter를 여러 개 보유 하는식으로 분리해서 저장 용량도 줄이고 연산 병렬화에도 유리하도록 했다. original model 한 번 forward할 때 가벼운 adapter만 여러개 forward 같이 하고 연결만 해주면 많은 downstream task 처리가 가능해지..

Paper/Generation 2024.02.07