Paper 193

MultiMAE: Multi-modal Multi-task Masked Auto encoders

내 맘대로 Introduction masked image modeling 기법을 활용해서 transformer를 pretraining하는 방법이 유명해진 이후로 나온 논문이다. 이종 입력들, 이미지나 depth, normal 등,을 동시에 입력으로 받아 자가 학습하는 방법론을 설명한다. 내용 자체는 Masked auto encoder를 그대로 가져오면서 입력 개수와 출력 개수를 늘린 것이니 별 것 없어 보이지만 실제로 전혀 다른 이종 입력이 pretrain 레벨에서도 도움이 된다는 것을 보여줬다는 것에 의미가 있다. multimodal pretraining의 입문 같은 논문. 메모 설명할 내용은 별로 없다. MAE를 구성하는 건데 각각 다른 입력, 다른 encoder에서 나온 token을 받는 식으로 구..

Paper/Others 2024.04.16

RadSplat: Radiance Field-Informed Gaussian Splatting for Robust Real-Time Rendering with 900+ FPS

내 맘대로 Introduction Gaussian splatting 나왔을 때 누군가는 이미 학습된 NeRF를 3DGS로 옮길 것 같다고 생각했었는데 구글이 했다. 사전학습된 NeRF MLP를 이용해서 3DGS를 학습시키는 방법론을 소개하는 논문이다. 사실 이미지랑 포즈가 있으면 학습시킬 수 있는 것이 3DGS이니까 NeRF가 이미 있다면 못할 이유가 전혀 없다. 이 자체로는 contribution이 부족하다 보니 pruning 쪽에서 한 입, 속도에서 한 입 해서 논문으로 정리했다. 핵심 아이디어는 NeRF의 alpha 값을 갖고 GS의 초기 위치를 잡는 것, NeRF의 color 갖고 GS supervision을 계속 걸어주는 것이다. 가장 직관적이고 심플하다. 누구보다 빠르게 구현한 것이 논문으로 ..

DUSt3R: Geometric 3D Vision Made Easy

내 맘대로 Introduction 새로운 컨셉의 3D recon. 논문이다. intrinsic을 모를 때도 사용이 가능한 image to 3D point 형태의 모델인데 Croco 와 같이 binocular image로 학습된 backbone을 사용해서 네트워크가 geometry를 알아서 배워서 바로 lifting할 수 있도록 했다. 이게 되냐? 싶지만 데이터를 850만 장이나 사용해서 커버했다. 아이디어는 scene coordinate라는 형태로 이미 연구가 되었던 분야이므로 새롭진 않으나 엄청나게 데이터를 많이 먹이면 가능하다는 것을 보여준 것이 의미가 있다. 또, 가능하다는 것이 입증되었으니 기존 SfM, MVS와 같이 카메라 파라미터에 엄청 의존하는 방식에서 벗어나서 데이터 빨로 recon.할 수..

Paper/3D vision 2024.03.12

Drivable 3D Gaussian Avatars

내 맘대로 Introduction 이 논문은 3d scan 내지 mesh가 주어졌을 때 3d gaussian과 엮어서 avatar로 만드는 방법을 적는다. 그냥 scan to animatable avatar로 가도 되지만 novelty가 떨어져 realistic rendering을 같이 가져간다는 컨셉으로 3d gaussian을 추가한 것 같다. 핵심 아이디어는 scan 내지 mesh를 tetrahedron으로 쪼개고, 그 안에 3d gaussian을 가두는 것이다. tetrahedron을 변형할 경우, barycentric coordinate로 표현된 내부 3d gs들이 따라움직일 것이므로, deformed avatar rendering이 자동으로 따라온다는 내용이다. 자잘하게 skeleton, fac..

Paper/Human 2024.02.18

Mesh-based Gaussian Splatting for Real-time Large-scale Deformation

내 맘대로 Introduction 요즘 부쩍 mesh랑 3d gaussian을 엮으려는 시도가 많은 것 같다. 3d gaussian splatting이 기존 graphics tool에 그냥 갖다붙이기가 가능한 형태인 만큼 mesh랑 엮어서 세트로 가져갈 수 있게 하려는 것 같다. 이 논문은 3d gaussian들을 mesh face에 구속한 형태로 splatting해서 mesh deformation이 gaussian deformation을 직접 결정하게 하는 논문이다. mesh deformation은 control point를 이용하는 방법이든 손으로 하든 명확히 정의가 되어있으므로, 여기에 얹기만 하면 3d gaussian도 자연스럽게 deformation이 가능해진다는 논리다. 핵심 아이디어는 3d ..

Gaussian Head Avatar: Ultra High-fidelity Head Avatar via Dynamic Gaussians

내 맘대로 Introduction 제목에서도 할 수 있다시피 gaussian splatting을 이용해서 head 복원을 하는데, expression을 자유자재로 바꿀 수 있도록 아바탕 형태로 복원하는 것을 목표로 한다. head의 경우 body와 달리 자유도가 낮기 때문에 복원이 쉽다는 장점이 있지만 사람의 identity를 결정하는 주요한 부분이므로 복원 퀄리티가 압도적으로 높아야 한다. 이 논문은 expression을 바꿀 수 있는 것에도 주목했지만 어떻게 퀄리티를 끌어올릴지도 고민한 논문이다. 핵심 아이디어는 NeuS로 강력한 초기값 계산 -> 3d gaussian splatting -> rendering -> super resolution 이다. 부족한 퀄리티를 강력한 초기화랑 super res..

Paper/Human 2024.02.17

Rig3DGS: Creating Controllable Portraits from Casual Monocular Videos

내 맘대로 Introduction 이 논문은 Adobe research 과제로 나온 논문 같은데 왠지 곧 CVPR에 나올 것 같다. 하고자 하는 것은 head mesh model +3d gaussian splatting을 합쳐서 animatable head rendering을 가능하도록 만드는 것이다. 머리를 제외한 대부분 형상(배경, 몸 등)이 고정되어 있다는 전제하에 머리를 가누거나 돌리는 이미지 렌더링을 할 수 있다. 핵심 아이디어는 특별하진 않은데, FLAME이라는 head mesh model vertex를 시작으로 densification하는 것 + vertex prior를 이용해 regularization을 가하는 방식이다. 가장 심플하게 생각할 수 있느 아이디어라고 생각하는데 가장 빠르게 구..

Paper/Human 2024.02.13

[ICLR 2022] LoRA: Low-Rank Adaptation of Large Language Models

내 맘대로 Introduction LoRA도 워낙 유명한 논문이라 읽지 않았더라도 내용은 알고 있었다. 위 그림 한 장으로 모든 것을 설명할 수 있는 간단한 알고리즘인데, 초거대 모델을 downstream task 별로 fine tuning하는 공수가 만들다 보니 이를 간소화하기 위해 제안된 adapter다. downstream task 별로 fine tuned 모델을 따로 두는 것이 아니라 original model + tuned adapter를 여러 개 보유 하는식으로 분리해서 저장 용량도 줄이고 연산 병렬화에도 유리하도록 했다. original model 한 번 forward할 때 가벼운 adapter만 여러개 forward 같이 하고 연결만 해주면 많은 downstream task 처리가 가능해지..

Paper/Generation 2024.02.07

Learning Transferable Visual Models From Natural Language Supervision (a.k.a CLIP)

내 맘대로 Introduction 너무 유명한 논문이라서 이제 와서 읽고 기록해두는 것이 민망하지만 간단히 적어두고자 한다. 이 논문은 OpenAI에서 CLIP이라는 이름으로 발표한 image encoder/text encoder 논문이다. image embedding 결과가 text embedding과 같도록 설계된 환경에서 학습된 두 encoder를 제공함으로써 주어진 image에서 text embedding을, text에서 image embedding을 얻어내는 효과를 노린다. 아이디어에 핵심이 있다기 보다 엄청나게 방대한 데이터를 먹여 범용적인 embedding space를 구축했다는 것이 핵심이다. 추후 CLIP embedding을 이용한 활용 논문이 쏟아졌는데, 해당 논문들에서 CLIP의 우수..

Paper/Others 2024.02.06