Paper 287

DIFIX 3D+: Improving 3D Reconstructions with Single-Step Diffusion Models

내 맘대로 Introduction CVPR2025에서 많이 샤라웃됐던 논문. 아주 실용적인 목적을 사용성도 좋게 만들었고 성능도 좋아서 내가 봐도 눈에 띈다. 아주 좋은 컨셉의 좋은 논문. 핵심 내용은 3DGS가 부족한 렌더링 결과를 보일 때가 많은데, 부족한 렌더링 결과를 diffusion prior를 이용해 realistic하게 복원하는 것이다. 이게 가능하다면 부족한 렌더링 결과를 모델로 보정한 뒤, 다시 한번 3DGS 최적화를 돌리면 3DGS를 개선할 수 있다. 단순히 이미지만 취득하고 싶을 경우에는 postprocessing 개념으로 뒤에 붙이기만 해도 된다. 한마디로 좋은 결과물 3DGS 결과물을 얻고 싶을 때 활용하기 좋은 도구로써 아주 의미가 있다. 메모불완전 3DGS 렌더링 이미지를..

Paper/Generation 2025.08.13

π 3 : Scalable Permutation-Equivariant Visual Geometry Learning (pi3)

내 맘대로 Introduction VGGT가 best paper 받은지 얼마나 됐다고 바로 개선 작업에 착수해서 VGGT를 이겨먹은 모델이 나왔다. VGGT를 잘 뜯어보고 단점을 떼어내고 데이터를 더 먹여서 성능이 높인 것 같다. 들어간 전기와 데이터에 경의를 표한다. 메모가장 먼저 VGGT의 단점으로 꼽은 것은 reference view의 필요성이다. DUST3R도 그렇고 기준 시점을 제외하면 나머지 시점의 output들은 모두 자기 coordinate가 아닌 기준 시점 coordinate로 뱉어야 한다. 따라서 기준 시점과 멀찍이 있을 수록 어렵기 때문에 성능이 기준 시점 선정에 따라 불안정하다는 것을 꼬집는다.그래서 하고자 하는 것은 VGGT에서 기준 시점이라는 개념을 삭제해버리는 것.결론을 먼저..

Paper/3D vision 2025.08.13

Text-to-Image GAN with Pretrained Representations

내 맘대로 Introduction이 논문도 이전 P2D 와 같이 discriminator가 pretrained model 기반으로 구성한 논문. 아쉽게도 초점이 T2I 모델을 GAN 기반으로 만들고 성능을 높여다는데 있다. pretrained model의 효과에 대해 분석하는 것이 아니라. 그래서 내 입장에선 참고 정도만 하기 좋은 논문이었다. 메모성능으로 compete하는 방향으로 논문 방향을 정했다. 모델 구조를 어떻게 짰는지 설명 시작. 성능에 초점을 맞추고 있기 때문에 성능 gap을 조금이라도 올리기 위해서 네트워크 구조를 최적화했음을 먼저 설명한다.아쉽지만 내 관심사는 아니어서 설명 패스.이것도 마찬가지.이 논문에서는 P2D와 다르게 네임드 모델들을 전부 다 붙여봤다. 이 결과는 좀 유의미한 것..

Paper/Generation 2025.08.13

P2D: Plug and Play Discriminator for accelerating GAN frameworks

내 맘대로 Introduction 요근래 3DGS + 3DGAN을 합친 논문들이 눈에 띄던 중 하나의 궁금증이 생겼었다. DINOv2 같이 좋은 feature extractor를 generator 쪽 말고 discriminator 쪽에도 쓰면 더 좋아지나? 생각해냈을 때 오... 그럴 듯한데? 라고 생각하고 곧장 논문 거리인가 뒤져보았는데 역시 있었다. 이 논문과 다음 포스팅으로 정리할 TIGER라는 논문 2개가 대표적으로 최근에 나와 같은 고민을 한 듯하다. 어찌 보면 삽질 시작하기 전에 미리 확인해준 사람들이 있어서 다행인 것 같다. 핵심 내용은 discriminator에 pretrained backbone을 추가했을 때 GAN 학습 양상이 어떻게 변화하는지 관찰하는 것이다. 결론부터 말하면 이 논..

Paper/Generation 2025.08.13

3DGH: 3D Head Generation with Composable Hair and Face

내 맘대로 IntroductionGGHEAD, GSGAN, CSG-GAN을 보면서 아무것도 없는 pointcloud에서 시작할 것이 아니라 UV가 됐든 mesh가 됐든 머리통을 초기값으로 시작하면 훨씬 잘될텐데 라는 생각으로 한 번 뭐 해볼까 싶었는데 찾아보니 바로 있었다. 역시 사람 생각하는 것 다 똑같고 빠르다. 이건 심지어 메타에서 인턴이 쓴 것이라 퀄리티가 높음. 핵심은 UV texel 별로 3DGS를 generation하는 3DGAN을 학습시킨 것. 이 때 face에 해당하는 UV map 외에 hair 파트에 해당하는 UV map을 추가로 디자인해서 따로 따로 생성할 수 있도록 했다는 점. 결과적으로 같은 얼굴에 다른 헤어스타일을 만들어낼 수 있게 된다. 구현적으로 Neural Jacobian..

Paper/Human 2025.08.06

GSGAN: Adversarial Learning for Hierarchical Generation of 3D Gaussian Splats

내 맘대로 Introduction CGS-GAN 코드를 보니 뭔가 안쓰이는 코드도 구현되어 있고, dummy 값으로 채워넣는 부분도 있어서 뭐지 싶었는데, GSGAN 코드를 그대로 복붙하고 수정해서 쓴거더라. 사실 이 논문의 코드를 분석하고 개선한 뒤, 데이터셋까지 큐레이션한게 CSG-GAN이었다. 이 논문이 시간적으로 앞섰을 뿐 아니라 그냥 기반이 된 논문. 읽어보니 디테일한 노하우들은 다 GSGAN에서 나왔다. 개인적으로 저자의 이력을 보니, 몇 년 전부터 GAN을 다루시는 분인 것 같은데 그 경험 덕인지 이미지 대비 난이도가 높은 3D GAN 프레임워크를 잘 디자인하신 것 같다. 단독 저자인 것도 인상적. 한국 분이시기도 해서 얘기 나눌 기회가 있었음 좋겠다. 논문 핵심은 generator 자체..

Paper/Human 2025.08.04

CGS-GAN: 3D Consistent Gaussian Splatting GANsfor High Resolution Human Head Synthesis

내 맘대로 Introduction GGHead도 대단하다고 생각했는데 이에 뒤이어 곧바로 GSGAN이랑 이 논문이 나왔다. 3D GS GAN을 만든 것인데 이전보다 pose variation에 강건하고 3d consistency가 더 확보된다는 점이 차이다. 학습 데이터는 동일하나 섬세한 gradient handling과 네트워크 구조 변화로 성능 점프를 이뤘다는게 멋지다. 핵심은 렌더링을 multiview로 해서 loss를 계산하되, averaged gradient로 업데이트해서 안정성을 높이고 기존 카메라 정보를 넣어주던 부분을 과감히 빼버린 것이다. camera-biased generation에서 완전 3D aware generation으로 넘어가게 한 느낌. 이런 사소한 차이를 관찰을 통해 알아..

Paper/Human 2025.07.30

Cameras as Relative Positional Encoding

내 맘대로 Introductiontransformer가 텍스트에서 이미지로 넘어오고, 이미지에서 3D로 넘어가고 있는 시점에서 positional embedding에 대한 관심도 자연스레 늘고 있다. absolute-relative-rotary 등등 절대적 정보와 상대적 정보를 동시에 담는 방식이 효과가 좋다는 것이 밝혀져 있는데 이 논문은 3D 공간에서 어떻게 담을 것인지 절대+상대 정보를 고민한 논문이다. 대표적으로 raymap, 즉 이미지의 각 픽셀을 intrinsic,extrinsic으로 back-projection했을 때 생성할 수 있는 ray vector를 encoding값으로 쓰는 것이 있는데 너무 naive하기도 하고 scale, translation, rotation에 취약하기 때문에 ..

Paper/Others 2025.07.18

Rectified Point Flow: Generic Point Cloud Pose Estimation

내 맘대로 Introduction 이 논문은 여러개의 object part pointcloud가 주어졌을 때, 하나를 기준으로 나머지 pcd들이 조립되듯이 정렬되는 걸 목표로 한다. 구현을 이렇게 했지만 풀고자 했던 문제를 point cloud generative model이 형상과 구조, 의미를 파악할 수 있음을 보이는데 있다. 어떻게 보면 입력을 pointcloud로 바꾼 diffusion model로 볼 수 있지만 내 생각엔 좋은 insight를 주는 컨셉 논문인 것 같다. ICP나 여느 registration 논문은 overlapped region에 의존해서 정렬을 하기 때문에 완전 떨어진 pointcloud끼리는 의미론적으로 정렬할 수 밖에 없다. 이 부분을 파고 들어서 minimal over..

Paper/Others 2025.07.14

Parallel Sequence Modeling via Generalized Spatial Propagation Network (a.k.a GSPN)

내 맘대로 Introduction드디어 나왔나?! 쓰기도 쉽고 이해하기도 간단한 transformer 대체재? trasnformer의 핵심 attention meschanism은 효과적이지만 그 연산량이 O(N^2) 이기 때문에 높은 해상도로 학습하는건 기업의 전유물이 된지 오래다. 내로라 할 backbone들 중 개인이 공개한 경우는 거의 없다. 전기랑 GPU 값을 견딜 수 없기 때문이다. 기업에서도 하긴 한다만 부담이 있는 것도 팩트. 그래서 mamba를 비롯한 attention layer를 대체하는 연구에 관심이 많이 쏠리는데, 이번에 NVIDIA에서 깔끔한 논문을 하나 냈다. 개인적으로 mamba는 몇 번 읽어봤지만 아직도 완벽하게 이해가 안간 반면 이 논문은 그냥 바로 이해가 가능해서 좋았다. ..

Paper/Others 2025.07.08