Paper/Generation

Text-to-Image GAN with Pretrained Representations

침닦는수건 2025. 8. 13. 16:59
반응형

내 맘대로 Introduction

이 논문도 이전 P2D 와 같이 discriminator가 pretrained model 기반으로 구성한 논문. 아쉽게도 초점이 T2I 모델을 GAN 기반으로 만들고 성능을 높여다는데 있다. pretrained model의 효과에 대해 분석하는 것이 아니라. 그래서 내 입장에선 참고 정도만 하기 좋은 논문이었다.

 

메모

성능으로 compete하는 방향으로 논문 방향을 정했다. 



모델 구조를 어떻게 짰는지 설명 시작. 성능에 초점을 맞추고 있기 때문에 성능 gap을 조금이라도 올리기 위해서 네트워크 구조를 최적화했음을 먼저 설명한다.

아쉽지만 내 관심사는 아니어서 설명 패스.
이것도 마찬가지.
이 논문에서는 P2D와 다르게 네임드 모델들을 전부 다 붙여봤다. 

이 결과는 좀 유의미한 것 같음.



결론부터 보면 CLIP 이후 DINO를 같이 썼을 때 성능이 좋았다고 함.

개인적으로 semantic feature를 잘 뽑기로 실험적으로 검증된 CLIP과 DINO가 역시나 좋은 결과를 보였다는 점에서 feature extractor가 짱짱할 수록 discriminator가 도움받는 건 확실하다는 증명인 것 같다. 

금쪽이 discriminator 지만 좋은 backbone 붙여주는 건 여전히 좋다는 것.


일부 Diffusion model도 제칠 수 있다는 점이 인상적. 
반응형