Paper 195

Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation

내 맘대로 Introduction 과거에 everybody dance now라는 논문이 GAN을 이용해서 pose retargeted image를 만드는 기술을 보인 바 있는데, 이 논문은 그 컨셉을 "모든 대상, 모든 자세"로 확장한 generalized 버전이라고 볼 수 있다. 다시 말해 임의의 사람 이미지 1장을 넣으면 그 사람이 다른 자세를 취한 이미지를 얻을 수 있다. 핵심 아이디어는 잘 학습된 stable diffusion weight를 가져와서 CLIP feature와 이미지 feature, pose feature를 이용해 finetuning하는 것이다. 재미 하나로 스포트 라이트를 받을 논문이다. 메모하며 읽기 전체 파이프라인은 stable diffusion의 denoising Unet을 ..

Paper/Generation 2023.12.11

SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM

내 맘대로 Introduction 이 논문은 GS-SLAM 과 유사하게 3d gaussian을 갖고 SLAM을 동시에 하는 논문이다. 큰 그림에서는 동일한 내용이고, 디테일한 부분에서 3d gaussian을 단순화하거나 densification rule을 다르게 정의하는 부분에서 차이를 보일 뿐이다. 입력도 똑같이 RGB-D 즉, 믿을만한 Depth가 존재해야 한다. 3d gaussian의 위치를 depth를 이용해 강하게 잡아줌으로써 카메라 포즈를 동시에 찾을 수 있는 가능성을 높인다. 핵심 내용은 점진적으로 쌓아나가는 과정에서 camera tracking, densification, map update 총 3가지 과정을 순차적으로 진행하는 식으로 구성했다는 점과 rendered color, depth..

Paper/3D vision 2023.12.11

Mip-Splatting: Alias-free 3D Gaussian Splatting

내 맘대로 Introduction 또 중요한 의미를 갖는 3D GS 파생 연구가 나온 것 같다. Mip-NeRF와 같이 aliasing 문제를 풀어서 성능을 끌어올리는 컨셉의 gaussian splatting 논문이다. 현재 3D GS 기술을 분석하길 3D to 2D gaussian projection 이후에 픽셀 해상도 단위로 discretize해서 사용하는 부분에서 성능 저하 여지가 많다고 지적한다. 이러한 문제는 학습할 때와 다른 focal length, 다른 카메라 거리일 때 두드러지는 현상과 일맥상통한다. 핵심 아이디어는 2d gaussian projection은 실제로 물리적으로 projection(검정색 선)되는데 실제로 구현적으로 픽셀 단위로 끊어지게 되는 projection(빨간색 선)과..

Text-to-3D using Gaussian Splatting

내 맘대로 Introduction 이 논문도 제목에서 바로 알 수 있듯이 text to 3d 문제를 gaussian splatting 써서 풀어보고자 한 논문이다. 3D GS 논문 공개되자 마자 계란 후라이식 논문으로 SDS loss 갖다 붙이는 text-to-3d 컨셉들이 하도 많이 나오니 최초라고 주장하는 논문이 몇갠지 모르겠다. 이 논문 역시 거의 완성된 요리에 계란 후라이 얹고 새로운 요리인 척 하는 논문 중 하나다. 핵심 아이디어는 2d diffusion model의 SDS loss로 3D GS를 학습시킨다는 컨셉으로 완전 동일하다. 초기 3d gaussian 위치를 잡아 줄 때 3d diffusion model, text-to-pcd model을 썼다는 점에서는 GaussianDreamer 와..

Paper/Generation 2023.12.05

LightGaussian: Unbounded 3D Gaussian Compression with 15x Reduction and 200+ FPS

내 맘대로 Introduction 또 하나의 3D GS 후속 연구 중 한걸음 나아간 논문이 나왔다. 제목에서 볼 수 있다시피, 기존 3D GS 대비 성능 드랍 없이 속도를 훨씬 빠르게 한 논문이다. 핵심 아이디어는 1) gaussian pruning (filtering) logic을 추가해서 절대적으로 3D GS 수를 줄인 것 (내가 하고 싶었던 것이다.) 2) gaussian parameter를 quantize해서 용량 자체를 물리적으로 줄인 것. 이 두 개를 조합하니 성능은 오르고 속도는 빨라지는 결과를 얻을 수 있었다. 2)에 해당하는 내용은 둘째 치고 1)에서 pruning한 방법이 주요 포인트다. 메모하며 읽기 크게 3가지 과정으로 구성된다. 1) gaussian pruning - multivi..

Depth-Regularized Optimization for 3D Gaussian Splatting in Few-Shot Images

내 맘대로 Introduction 그림만 봐도 익숙한 냄새가 팍팍 나는 논문이다. DS-NeRF가 순식간에 등장한 것처럼 Depth를 prior로 이용한 3D GS 논문이 뚝딱하고 나왔다. 컨셉 자체나 아이디어 자체가 DS-NeRF와 동일하기 때문에 논문 자체가 처음 읽지만 익숙한 느낌이다. NeRF의 경우, SfM/MVS point cloud를 아예 안 쓰는 구조였다보니 depth prior를 sfm/mvs point로 주었지만, 3D GS는 애초에 SfM 혹은 MVS point cloud를 초기값으로 쓰다보니 더 강한 depth prior를 주기 위해 mono depth를 활용했다는 점이 차이점이다. up-to-scale depth 문제 같은 경우, SfM point가 존재해서 대충 least squ..

SuGaR: Surface-Aligned Gaussian Splatting for Efficient 3D Mesh Reconstruction and High-Quality Mesh Rendering

내 맘대로 Introduction 곧 나오지 않을까 했는데 역시나 나왔다. 3D gaussian으로부터 geometry를 뽑아내는 연구. DreamGaussian과 같이 무식하게 voxel 공간 잡고 marching cube 돌리는 방식말고 방법론부터 새로 고민한 연구가 나왔다. 개인적으로 3D gaussian이 geometry에 맞아떨어지게 수렴하는 것이 보장되지 않는다는 점이 단점이라고 생각했었는데 3d gaussian to mesh 문제를 풀면서 이 문제까지 한 번에 푼 점에서 박수를 쳐주고 싶었다. 논문 자체는 결과 사진이 많이 차있어서 분량 대비 내용이 간단하다. 3d gaussian이 학습되는 과정에서 surface에 나란히 정렬되도록 regularization을 가하는 부분과 poisson ..

GS-SLAM: Dense Visual SLAM with 3D Gaussian Splatting

내 맘대로 Introduction 이 논문은 제목에서 짐작할 수 있다시피 3D gaussian과 SLAM을 엮은 것이다. 기존 SLAM이 camera pose랑 scene point cloud를 동시에 획득해나가는 과정이었다면 camera pose와 scene gaussian을 동시에 획득해나가는 과정을 담았다. 하나 아쉬운 점은 제목만 봐서는 Visual SLAM이니 RGB 이미지만 쓰는 것 같지만 까보면 RGB-D SLAM이다. 센서에서 들어오는 Depth 정보를 전적으로 신뢰하면서 이런저런 보정을 해나가는 방식이라 기대에는 살짝 못미치는 내용이었던 것 같다. 핵심 아이디어는 Depth 정보를 이용해 3d gaussian의 유효성을 판단하는 기준을 넣었다는 것이다. 내가 평소에도 생각했던 것이 3d ..

Paper/3D vision 2023.11.23

Score Jacobian Chaining: Lifting Pretrained 2D Diffusion Models for 3D Generation

내 맘대로 Introduction 이 논문은 DreamFusion의 상위 호환(?) 정도 되는 논문으로 볼 수 있다. DreamFusion과 같은 시기에 제출된 논문이지만 DreamFusion이 arxiv에 올라온 이후에 제출된 논문이라 시간적으로는 DreamFusion 후속 연구에 가깝다. 후속 연구답게 목표로 하는 task는 text-to-3D이며 기존 2D diffusion model을 이용하여 3D로 어떻게 lifting하는지가 주 관심사다. 핵심 아이디어는 DreamFusion에서 소개한 SDS loss를 더 면밀히 파고들어 수학적으로 전개한 SJC(Score Jacobian Chaining) loss를 소개한다. 사실 SDS loss를 참고한 모양처럼 보이지만 별도로 연구했는데 공교롭게 먼저 ..

Paper/Generation 2023.11.22

GaussianDreamer: Fast Generation from Text to 3D Gaussian Splatting with Point Cloud Priors

내 맘대로 Introduction 또 발견했다. 계란 후라이 논문. 3D GS가 NeRF를 일각에서 너무 효과적으로 대체하다보니, NeRF를 붙여서 열심히 text-to-3D를 구현하던 사람들이 다 3D GS로 넘어오는 것 같다. 이 논문도 text-to-3D를 타겟으로 하는 논문인데, novelty가 있다기 보다 어떻게 2D, 3D diffusion model과 3D GS를 엮었는지 보여주는 테크니컬 리포트에 가깝다. 물리적으로 찾아낸 SfM 결과에서 시작한 것이 아니라 generation 모델로 얻어낸 결과에서 시작하는 컨셉을 보여주는 논문이다. 큰 틀에서는 이전에 봤던 DreamGaussian 과 동일하다고 볼 수 있다. 그래도 나름 차이점이라고 할 수 있는 핵심 아이디어는 DreamGaussian..

Paper/Generation 2023.11.22