Paper/Generation 47

DIFIX 3D+: Improving 3D Reconstructions with Single-Step Diffusion Models

내 맘대로 Introduction CVPR2025에서 많이 샤라웃됐던 논문. 아주 실용적인 목적을 사용성도 좋게 만들었고 성능도 좋아서 내가 봐도 눈에 띈다. 아주 좋은 컨셉의 좋은 논문. 핵심 내용은 3DGS가 부족한 렌더링 결과를 보일 때가 많은데, 부족한 렌더링 결과를 diffusion prior를 이용해 realistic하게 복원하는 것이다. 이게 가능하다면 부족한 렌더링 결과를 모델로 보정한 뒤, 다시 한번 3DGS 최적화를 돌리면 3DGS를 개선할 수 있다. 단순히 이미지만 취득하고 싶을 경우에는 postprocessing 개념으로 뒤에 붙이기만 해도 된다. 한마디로 좋은 결과물 3DGS 결과물을 얻고 싶을 때 활용하기 좋은 도구로써 아주 의미가 있다. 메모불완전 3DGS 렌더링 이미지를..

Paper/Generation 2025.08.13

Text-to-Image GAN with Pretrained Representations

내 맘대로 Introduction이 논문도 이전 P2D 와 같이 discriminator가 pretrained model 기반으로 구성한 논문. 아쉽게도 초점이 T2I 모델을 GAN 기반으로 만들고 성능을 높여다는데 있다. pretrained model의 효과에 대해 분석하는 것이 아니라. 그래서 내 입장에선 참고 정도만 하기 좋은 논문이었다. 메모성능으로 compete하는 방향으로 논문 방향을 정했다. 모델 구조를 어떻게 짰는지 설명 시작. 성능에 초점을 맞추고 있기 때문에 성능 gap을 조금이라도 올리기 위해서 네트워크 구조를 최적화했음을 먼저 설명한다.아쉽지만 내 관심사는 아니어서 설명 패스.이것도 마찬가지.이 논문에서는 P2D와 다르게 네임드 모델들을 전부 다 붙여봤다. 이 결과는 좀 유의미한 것..

Paper/Generation 2025.08.13

P2D: Plug and Play Discriminator for accelerating GAN frameworks

내 맘대로 Introduction 요근래 3DGS + 3DGAN을 합친 논문들이 눈에 띄던 중 하나의 궁금증이 생겼었다. DINOv2 같이 좋은 feature extractor를 generator 쪽 말고 discriminator 쪽에도 쓰면 더 좋아지나? 생각해냈을 때 오... 그럴 듯한데? 라고 생각하고 곧장 논문 거리인가 뒤져보았는데 역시 있었다. 이 논문과 다음 포스팅으로 정리할 TIGER라는 논문 2개가 대표적으로 최근에 나와 같은 고민을 한 듯하다. 어찌 보면 삽질 시작하기 전에 미리 확인해준 사람들이 있어서 다행인 것 같다. 핵심 내용은 discriminator에 pretrained backbone을 추가했을 때 GAN 학습 양상이 어떻게 변화하는지 관찰하는 것이다. 결론부터 말하면 이 논..

Paper/Generation 2025.08.13

FaceLift: Single Image to 3D Head with View Generation and GS-LRM

내 맘대로 Introduction 이 논문 역시 Adobe에서 낸 것인데 인턴 기간 중 작성된 것으로, 아직 어디 publish된 것 같진 않다. 내용 측면에서 GS-LRM의 힘을 크게 받았고, 입력 단의 multiview human image를 잘 생성하는 diffusion model을 만들었다 정도에 머물러서 이 역시 technical report에 가까운 느낌이다. 하지만 역시나 완성도는 매우 높아보인다. GS-LRM이 대단하긴하구나. 일단 Adobe의 synthetic은 더 이상 synthetic이라고 안 봐도 될 것 같다. 퀄리티가 확실히 다르다. 데이터가 최고구나. 메모우측 그림은 GS-LRM이다.아예 적고 시작한다. SD Tuning + GS-LRM이라고.인턴 기간이 매우 짧았을텐데, 그 ..

Paper/Generation 2025.05.29

GS-LRM: Large Reconstruction Modelfor 3D Gaussian Splatting (Tech. report)

내 맘대로 Introduction이 GS-LRM은 Adobe에서 만든거라 완성도가 매우 높지만 코드가 공개되지 않았기 때문에 유명세까지는 이어지지 않은 숨은 고수 같은 느낌이다. 논문으로써 바라보면, transformer + MLP(to-GS primitives)를 multiview setting에서 학습한 foundation model을 만든 것이라 technical report에 가깝다. 논문을 읽다 보면 저자들도 acceptance 여부보다는 report 느낌으로 남겨놓았다는 인상이 남는다. 내용은 매우 간결하다. 구현도 매우 간결. 하지만 학습 데이터 양에서 압도적인 수준을 보여주는 듯 하다. 단순히 보면 DUST3R 같은건데, GS primitives가 pixel마다 출력으로 나온다고 보면 됨...

Paper/Generation 2025.05.29

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

내 맘대로 Introduction 이 논문은 진짜 여러모로 유명하다. diffusion이 생성형 시장을 독식하고 있는 와중에 일각에서 autoregressive transformer로 돌파하려는 시도가 있었다. 근데 눈에 띄는 성과를 거두지 못하고 연산량 문제도 있어서 "굳이?"라는 시선을 받고 말았는데 이 논문을 기점으로 diffusion을 넘어설 수 있지 않을까란 기대가 생겼다. 또 유명한 이유는 1저자의 도덕성 문제로 대서특필된 바 있다. bytedance에 금전적인 피해를 끼치고 다른 실험들을 망치면서까지 실험해서 낸 논문으로 별명이 붙었다. 핵심은 image token을 flatten에서 1D로 처리하는 것이 아니라 coarse to fine token으로 만들어서 접근한 것. + autoreg..

Paper/Generation 2025.03.26

Arc2Face: A Foundation Model for ID-ConsistentHuman Faces

내 맘대로 Introduction arcface 논문을 낸 그룹에서 후속 연구 느낌으로 낸 논문. arcface가 Face ID embedding을 훌륭하게 해주는 네트워크인 점을 이용해서 arcface embedding을 condition으로 사용하는 face 전용 diffusion model을 만들었다.  diffusion model을 학습시킬만큼의 높은 자유도 ID embedding이 확보되어야 하므로 Webface42M + FFHQ + CelebHQ를 섞어서 arcface부터 large scale로 다시 학습시키고, 그것을 다시 diffusion model 학습에 활용했다. SD의 새로운 버전이라고 볼 수도 있어서 기존 controlnet 같은 trick이 다 가능하다는 점도 눈에 띈다. 메모앞서..

Paper/Generation 2024.10.08

Michelangelo: Conditional 3D Shape Generation based on Shape-Image-Text Aligned Latent Representation

내 맘대로 Introduction MeshAnything 코드를 뜯어보다가 이 논문의 encoder를 사용하는 것을 보고 읽어보았는데 아이디어가 좋은 것 같다. 다루는 문제는 image to mesh 혹은 text to mesh 문제인데 image/text latent에서 바로 mesh로 가는 방식 대신 중간 매개체로 3D shape latent를 구해놓는 것이 핵심이다. 또한 3D shape latent가 image/text latent와의 유사성을 유지하도록 강제함으로써 기존 방대한 양으로 구해둔 image/text prior도 취할 수 있도록 했다.  image/text보다 mesh에 더 가까운 차원인 3D shape latent로부터 diffusion해서 mesh를 만들기 때문에 divide-an..

Paper/Generation 2024.08.30

Production-Ready Face Re-Aging for Visual Effects

내 맘대로 Introduction 이 디즈니 논문 이해하려고, StyleFlow, SAM 도 읽었다...  SAM 논문에서 image to styleGAN latent w + condition 주는 방법을 제안하고 준수한 성능을 보였지만, 조금 네트워크가 복잡하고 (pretrained network가 덕지덕지) 약간의 artifact(배경이 달라지거나, 헤어스타일이 바뀌는 것 등)가 생기는 문제가 있다.  이는 latent만 찾아주고 이미지를 생성하는 것은 전적으로 pretrained styleGAN2 generator에게 맡겨버리기 때문이다.  이 논문에서는 다 떼고 앞선 SAM으로 데이터를 만들고, generator를 따로 학습하는 한다. 이 때 generator가 얼굴에만 집중할 수 있도록 얼굴 마..

Paper/Generation 2024.07.24

Only a Matter of Style: Age Transformation Using a Style-Based Regression Model

내 맘대로 Introduction 2020년 StyleFlow 에서 styleGAN latent space를 잘만 컨트롤하면 원하는 condition을 넣어 원하는 이미지를 생성할 수 있다는 가능성을 보여준 이후, 2021년 이 가능성을 aging condition으로 특화한 논문이다.  StyleFlow는 z->w 과정에서 condition을 주어 이미지를 생성하는 것이므로, 시작이 random gaussian noise다. 따라서 condition만 만족하고 나머지는 랜덤이다. 얼굴이나 스타일 안경, 이런건 랜덤 생성이다. 이 SAM 이라는 논문은 image->w로 가는 네트워크를 학습한다. 따라서 image + condition -> w를 학습해서 image 특성은 유지하되 condition이 추가..

Paper/Generation 2024.07.24