Paper 249

UniSDF: Unifying Neural Representations for High-Fidelity 3D Reconstruction of Complex Scenes with Reflections

내 맘대로 Introduction ENVIDR, Neuralangelo 와 같이 반사 빛이 있는 물체의 복원을 어떻게 할 수 있을지 고민한 논문이다. 이름에서도 예측할 수 있다시피 VolSDF와 같은 NeRF 기반 아이디어이다. 핵심 아이디어는 기존 논문들이 specular,diffuse parameterization을 사용한 것과 달리, 그냥 아예 반사광만 따로 표현하는 MLP를 추가해버린 것이다. 어떻게 보면 수학 모델링이 들어가지 않았기 때문에 무식하다고 볼 수도 있지만, simple yet effective! 간단한 아이디어 하나로 훌륭한 결과를 냈기에 좋은 논문이라고 생각한다. 오히려 성능이 좋은 이유가, 모든 물체가 반사광 모델링이 필요한 것이 아닌데 일괄적으로 parameterization ..

Paper/3D vision 2024.01.23

AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

내 맘대로 Introduction 이 논문을 한마디로 표현하면, specific tuning이 아니라 general tuning을 하는 방법을 소개했다 생각한다. task가 motion인데 이렇게 표현하는 것이 좀 과장하는 것 같지만, 큰 그림에서 A도 motion을 갖게 하고, B도 motion을 갖게 하려면 기존에는 A,B 각각 별도로 tuning을 했어야 하는데 A, B에 둘 다 적용 가능한 tuner를 만드는 방법을 보여줬으니 general tuning 방법을 소개했다고 보인다. 간단히 말해 조금 크고 무거운 LoRA를 만들어서 여러 대상을 tuning하는 느낌이다. 개인적으로 task가 motion인데, motion을 자유롭게 컨트롤할 수 없다는 점은 아쉬웠다. 똑같은 생각을 한 사람이 있기 때..

Paper/Generation 2024.01.22

DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

내 맘대로 Introduction 이 논문은 CVPR 2023에서 무려 best paper를 받은 google 논문이다. 한마디로 요약하면, 학습 완료된 text-to-image generation model을 fine-tuning하는 방법을 소개한다. 예를 들어, 위 사진처럼 내 웰시코기 애완견 이미지를 생성하는 모델로 fine tuning하고 싶을 때, 입력 이미지 3~5 장 정도 넣어 학습하는 방법이다. LoRA와 더불어 fine tuning 정석 기법 중 하나로 여겨지고 있다. 핵심 내용은 unique identifier를 넣어서 tuning 대상이 어떤 것인지 명확히 지정하는 방법, 그 와중에 다른 대상에 대한 생성 결과는 원래대로 유지되도록 하는 방법 2가지다. 메모하며 읽기 단순히 새로운 f..

Paper/Generation 2024.01.22

Compact 3D Gaussian Representation for Radiance Field

내 맘대로 Introduction 이 논문은 3DGS의 문제점인 저장용량 문제를 풀고자 한 논문이다. 저장 용량을 줄이는다는 것은 성능은 유지하면서 Gaussian의 개수를 줄인다는 말이고, 개수가 줄어들면 필연적으로 렌더링 속도도 늘어나기 때문에 결국 속도와 저장 용량 문제를 같이 푸는 것이 된다. LightGaussian과 유사한 부분이 있다고 볼 수 있는데, gaussian pruning을 visibility check로 보강한 것이 아니라 learnable mask를 통해 보강한 것은 완전히 다른 부분이고 codebook을 이용해 저장 용량을 줄이는 방식도 VQ가 아닌 R-VQ로 한 부분이 다르기 때문에 차이는 분명한 것 같다. 개인적으로 설명이 더 친절하게 되어 있어서 이 논문이 참고하기 좋음...

Paper/3D vision 2024.01.16

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

내 맘대로 Introduction language model 이해하려고 보기 시작한 논문 중 두번째. 이 역시 나온지 오래 돼서 지금 보면 뭐 간단해보이기만 하는 논문 같다만, 기존 GPT1 방식처럼 문장을 왼쪽에서 오른쪽으로 다루는 방식에서 양방향으로 다루는 방식이 더 효과적이라는 것을 보이고 fine tuning 시에 네트워크를 추가하거나 구조를 변경하지 않아도 그대로 적용할 수 있도록 간단히 했다. 더불어서 학습 방법론에서도 단순히 다음 단어를 예측하도록 하는 것이 아니라, masked language modeling 일명 가려진 단어 맞추기로 변경했다. masked image modeling을 먼저 알고 보니 여기서 시작됐구나 싶었다. 메모하며 읽기 pre-training 때부터 두 문장 단위로 ..

Paper/Others 2024.01.05

Improving Language Understanding by Generative Pre-Training (a.k.a GPT 1)

내 맘대로 Introduction 꽤 오래된 논문이지만 LM 논문들을 쫓아가는 과정에서 시발점과 같은 논문이라 읽었다. GPT1.0이라고 불리는 논문인데, 대규모의 unlabeled text data를 어떻게 활용할 수 있는지 그 방법론을 설명한다. unlabled data vs labeled data 불균형이 엄청 큰 상황에서 unlabeled data를 버릴 순 없으니 pre-training으로 사용하자는 컨셉인데 이전에는 이게 의미가 있는지 고민하던 시기였다. 그 시점에서 충분히 의미있다고 증명해낸 논문이다. 내용은 간단하다. unlabeled data로 pre-training하고 labeled data로 fine-tuning하면 어떤 task든 성능이 뛴다는 것을 증명해낸 것이다. 다시 말해 사전..

Paper/Others 2024.01.05

Relightable Gaussian Codec Avatars

내 맘대로 Introduction Meta에서 낸 3D gaussian 활용 논문인데 결과가 압도적이다. 머리카락, 안구, 피부결까지 보일 정도로 고해상도 아바타를 만들어낼 수 있는 기술이다. 다만, 110대의 DSLR으로 촬영한 이미지들이 있어야만 하고 사람마다 학습을 따로 따로 해야하기 때문에 범용성에서는 아쉬운 점이 있다. 하지만 촬영 대상에 한해서는 여느 알고리즘과도 비교할 수 없을 정도로 정밀한 렌더링 결과를 보여준다. 심지어 촬영 때 calibrated light source까지 바꿔가면서 촬영했기 때문에 빛 변화도 같이 렌더링할 수 있다. 핵심 아이디어는 기존 머리 모델 (+안구 모델)의 texel 하나하나에 3d gaussian을 할당하고 VAE를 학습시키는 것이다. VAE로 만든 late..

Paper/Human 2023.12.22

PhysGaussian: Physics-Integrated 3D Gaussians for Generative Dynamics

내 맘대로 Introduction 개인적으로 역작이라고 생각하는 논문이 나왔다. 기계공학에서 접했던 mechanics 수식을 이용해 학습 완료된 3d gaussian은 simulation하는 논문이다. 컨셉은 dynamic 3D GS 같이 느껴지지만 time 축에 따라 학습을 추가로 시키는 것이 아니다. static 3D GS를 만드는 것까지는 기존 논문과 아무런 차이가 없고 그대로 사용하되, mechanics를 이용해 각 gaussian들이 힘을 받았을 때 어떻게 이동할지를 계산해서 time에 따른 변화를 "부여"하는 것이다. 학습이 아니라 직접 옮기는 방법이다. 진짜 시뮬레이션. 따라서 데이터를 추가로 video로 얻을 필요도 없고 그냥 기존 3D GS처럼 데이터 얻고 학습만 시키면 끝이다. 시뮬레이..

Paper/3D vision 2023.12.20

Hierarchical Scene Coordinate Classification and Regression for Visual Localization

내 맘대로 Introduction 최근 scene coordinate regression이라는 흥미로운 분야를 보고 좀 찾아보기 시작했는데, 이 논문이 많이 인용되어 있길래 읽었다. 입력 이미지의 camera intrinsic과 depth ambiguity는 신경쓰지 않고 2D image to 3D point로 바로 regression하는 task다. 말이 되나 싶지만 요즘 data 빨로 2D-to abs.3D 컨셉의 논문이 워낙 잘되는게 많다 보니 이것도 되나보다. 더욱이 요즘 foundation model같이 데이터를 무한정 먹고 학습된 모델에서는 어이없을 정도로 잘 되는 결과도 있다. 따라서 직관적으로는 이해가 안되지만 데이터가 지배하는 시대에 데이터로 해결된다는 것을 보였기에 조금 다시 볼 필요가..

Paper/3D vision 2023.12.19

COLMAP-Free 3D Gaussian Splatting

내 맘대로 Introduction 또 나왔다. Gaussian splatting SLAM. 대신 RGB만 대상으로 한다고 명확히 적혀있고 depth 대신 monodepth pseudo GT를 쓴다. 조금 더 progressive optimization을 섬세하게 한 느낌. 이론적 내용보다 구현을 되게 잘했지 않을까 싶다. 내용은 이전 논문들과 완전히 동일하다. 카메라 포즈가 같이 최적화되도록 열어둔 것. 이 논문도 간단히 기록하고 넘어간다. 메모하며 읽기 1) t-1, t 두 프레임 간의 gaussian을 최적화해서 초기값을 계속 잡아주는 local 3d gs 2) ~~ t frame 까지의 gaussian과 카메라 포즈를 전체 업데이트하는 global 3d gs로 나뉜다. 생략 설명이 길지만 한줄 요약..

Paper/3D vision 2023.12.18