분류 전체보기 538

AG3D: Learning to Generate 3D Avatars from 2D Image Collections

내 맘대로 Introduction 제목에서도 느껴지듯이 EG3D의 human 버전 확장판이라고 볼 수 있다. EG3D 확장답게 3D GAN + Multi-planes을 차용한 구조를 사용한다. 핵심 아이디어는 3D 데이터 없이 많은 2D 데이터를 먹여서 generator를 학습시키는 것이다. discriminator도 여러개 붙이고 super resolution module까지 붙여서 조금 조잡한 느낌이 나지만 그래도 준수한 논문. 메모1) 3D generator가 canonical SDF 예측하도록 함2) pose-conditioned deformation 후 volume rendering3) rgb, normal 2레벨에서 discriminator 적용4) super resolution 붙여서 고화질..

Paper/Human 2024.05.02

InstantID: Zero-shot Identity-Preserving Generation in Seconds

내 맘대로 Introduction IPadapter + ControlNet을 붙여서 face-identity 유지 잘 되는 SD model 만드는 방법론을 제시한 논문. 알고리즘적 발전보다는 조립을 어떻게 하니까 잘 되더라 발견한데 의의가 있는 논문으로 약간 조립형 논문 같아 보인다.  핵심 아이디어는 Face embedding을 기존 face detection + ReID를 잘하는 모델을 가져와서 쓴 것이다. 이외 facial condition을 keypoint 5개만 쓴다거나 text embedding 대신 ID embedding을 ControlNet에 넣어주거나 하는 트릭은 경험치 정도의 의미가 있는 것 같다. 메모1) Face detector + ReID 모델 + MLP 조합으로 Face embe..

Paper/Generation 2024.04.30

SIFU: Side-view Conditioned Implicit Function for Real-world Usable Clothed Human Reconstruction

내 맘대로 Introduction 제목에서 알 수 있다시피 PiFU 컨셉의 후속 연구, single image to 3d avatar. SIFU 라는 이름이 사부를 중국어로 읽은 것과 비슷한 점을 살려서 은근히 중국 티를 팍팍 낸 논문. 핵심 아이디어는 기존 방식은 front to left/right/back 과정에서 geometric guidance가 하나도 없었기에 성능이 떨어졌다는 것을 지적하면서 left/right/back SMPLX rendered normal 이라도 넣어주는 식으로 보강한 점이다. 구조적으로 front 입력에서 Q를 뽑고 left/right/back 에서 K,V를 뽑는 식의 cross attention을 사용함으로써 어느 뷰가 우선순위가 높은지 확실히 정해준다.  아이디어는 간..

Paper/Human 2024.04.30

Zero-1-to-3: Zero-shot One Image to 3D Object

내 맘대로 Introduction 지금 보면 LoRA, ControlNet, IPAdapter 등 SD 모델에 컨디션을 부여하는 방법론이 소개가 되었기 때문에 간단해 보이지만, 연구 당시에 2022년이라는 사실을 감안해서 보면 색다른 시도였다고 생각한다.  핵심 내용은 SD 모델이 갖고 있는 latent space 안에서 geometric consistent generation을 할 수 있도록 view point condition을 갖고 fine tuning하는 것이다.  입력이 이미지 + camera view point가 되고 출력이 해당 view point에서 보면 새로운 이미지다.  메모컨셉이 간단하기 때문에 내용도 간단함.SD 모델에 컨디션으로 들어가던 것을 camera pose로 한정하고 튜닝하..

Paper/Generation 2024.04.29

GaussianAvatars: Photorealistic Head Avatars with Rigged 3D Gaussians

내 맘대로 Introduction Multiview video 입력을 받아 FLAME 연계 3D Gaussian spaltting 학습하는 논문. 조금 나이브한 부분이 초기화할 때만 3D FLAME face 3D Gaussian 간의 binding을 하고 densification, pruning할 때는 딱히 face 위에 있도록 강제한다는게 없다. regularization term으로만 face와 거리가 가깝게 유도할 뿐이다. 따라서 명시적으로 mesh와 align을 강제하지 않기 때문에 deformation 시 약점을 보일 것 같다.  정말 간단함. 메모1) multivew video 각 frame마다 FLAME을 fitting 함2) FLAME vertex마다 face 중심에 3DGS 생성 (no..

Paper/Human 2024.04.29

PhysAvatar: Learning the Physics of Dressed 3D Avatars from Visual Observations

내 맘대로 Introduction multiview video 입력을 받아 animatable avatar를 복원하는 내용이 큰 골조인데, 매 프레임 reconstruction 결과를 tracking할 수 있도록 연결하고 전체 tracked avatar를 갖고 옷의 변형을 역추정하는 것이 핵심인 논문이다. 다시 말하면 multiview reconstruction -> tracking -> physical parameter estimation -> animation 순서다.  tracking이 용이하게 만들기 위해서 첫 프레임에서 만든 mesh (아마 NeRF 같은 걸로 복원했을 것으로 추정) face에 3D Gaussian을 할당하는 방식을 활용했다. position과 rotation이 face에 고정되..

Paper/Human 2024.04.29

Dynamic Gaussians Mesh: Consistent Mesh Reconstruction from Monocular Videos

내 맘대로 Introduction monocular video에서 canonical Gaussian + Mesh를 얻어내는 방법이다. 핵심은 3DGS + deformation field를 수렴시키는 것으로 기존 컨셉과 동일한데, 3DGS densification, pruning을 최대한 발산하지 않도록 poisson solver+Marching cube를 붙여 억제한 것이 차이점이다. 다르게 말하면 3DGS를 point cloud로 보고 poisson solver 특성을 이용해서 서로 간의 위치가 smooth하도록 억제하면서 densification되도록 한 것이다.  추가로 marching cube까지 붙여서 복원된 mesh face와 3DGS 위치가 인접하도록 강제하면서 더욱 더 smooth하면서 m..

Paper/3D vision 2024.04.26

Does Gaussian Splatting need SFM Initialization?

내 맘대로 Introduction 이 논문의 목적은 단 하나다. Gaussian splatting의 초기화를 어떻게 하는 것이 좋을까.  COLMAP을 쓰는게 정말 효과적일까? 그냥 random initialization은 의미가 없나? NeRF를 써서 초기화하는건 훨씬 더 좋은가?를 궁금해하고 그것을 실험을 증명해본 논문이다.  새로운 초기화 기법을 제안한게 아니다 보니 테크니컬 리포트 같이 결과를 공유하는데 의의가 있는 보고용 논문이다.  메모이부분은 딱히 중요한 내용이 없음.3DGS가 랜덤 초기화로 시작해서는 NeRF에 대비해서 수렴하는게 어렵다는 내용. 랜덤 초기화는 어떤가?결론은 복원하고자 하는 물체, 공간을 충분히 덮는 크기의 volume을 잡기만 했다면 random init.도 plausib..

Paper/3D vision 2024.04.26

DiffusionAvatars: Deferred Diffusion for High-fidelity 3D Head Avatars

내 맘대로 Introduction multiview + video 입력을 받아 3D animatable head avatar를 만드는 논문. NPHM (implicit head model) 에 feature를 할당하고, differentiable renderer를 통해 depth, normal, rendered feature를 만든 뒤 이를 diffusion하는 방식이다. 사실 특별한 내용은 아닌데 뒤에 rendered image에서 바로 loss를 계산하는 것이 아니라 diffusion 통과 후 loss를 계산하는 식으로 바꿔서 diffusion prior를 학습에 응용했다는 것이 차이점이다.  NPHM 같은 impliti head model을 굳이 큰 이유는 뚜렷하지 않음. 그냥 continuous ..

Paper/Human 2024.04.25

COCO bounding box format, scale factor

COCO bounding box format은 document를 보면 (x,y,w,h)을 따른다고 적혀있다. 순서대로 사각형의 left top (x, y) 값과 사각형의 (width, height)라는 뜻이다.  그런데 실제로 보면 값이 다음과 같이 0~1 값으로 normalize 되어있는 것을 볼 수 있다.45 0.479492 0.688771 0.955609 0.595545 0.736516 0.247188 0.498875 0.47641750 0.637063 0.732938 0.494125 0.51058345 0.339438 0.418896 0.678875 0.781549 0.646836 0.132552 0.118047 0.096937549 0.773148 0.129802 0.0907344 0.09722..

Knowhow/Vision 2024.04.25