분류 전체보기 496

PhysAvatar: Learning the Physics of Dressed 3D Avatars from Visual Observations

내 맘대로 Introduction multiview video 입력을 받아 animatable avatar를 복원하는 내용이 큰 골조인데, 매 프레임 reconstruction 결과를 tracking할 수 있도록 연결하고 전체 tracked avatar를 갖고 옷의 변형을 역추정하는 것이 핵심인 논문이다. 다시 말하면 multiview reconstruction -> tracking -> physical parameter estimation -> animation 순서다.  tracking이 용이하게 만들기 위해서 첫 프레임에서 만든 mesh (아마 NeRF 같은 걸로 복원했을 것으로 추정) face에 3D Gaussian을 할당하는 방식을 활용했다. position과 rotation이 face에 고정되..

Paper/Human 2024.04.29

Dynamic Gaussians Mesh: Consistent Mesh Reconstruction from Monocular Videos

내 맘대로 Introduction monocular video에서 canonical Gaussian + Mesh를 얻어내는 방법이다. 핵심은 3DGS + deformation field를 수렴시키는 것으로 기존 컨셉과 동일한데, 3DGS densification, pruning을 최대한 발산하지 않도록 poisson solver+Marching cube를 붙여 억제한 것이 차이점이다. 다르게 말하면 3DGS를 point cloud로 보고 poisson solver 특성을 이용해서 서로 간의 위치가 smooth하도록 억제하면서 densification되도록 한 것이다.  추가로 marching cube까지 붙여서 복원된 mesh face와 3DGS 위치가 인접하도록 강제하면서 더욱 더 smooth하면서 m..

Paper/3D vision 2024.04.26

Does Gaussian Splatting need SFM Initialization?

내 맘대로 Introduction 이 논문의 목적은 단 하나다. Gaussian splatting의 초기화를 어떻게 하는 것이 좋을까.  COLMAP을 쓰는게 정말 효과적일까? 그냥 random initialization은 의미가 없나? NeRF를 써서 초기화하는건 훨씬 더 좋은가?를 궁금해하고 그것을 실험을 증명해본 논문이다.  새로운 초기화 기법을 제안한게 아니다 보니 테크니컬 리포트 같이 결과를 공유하는데 의의가 있는 보고용 논문이다.  메모이부분은 딱히 중요한 내용이 없음.3DGS가 랜덤 초기화로 시작해서는 NeRF에 대비해서 수렴하는게 어렵다는 내용. 랜덤 초기화는 어떤가?결론은 복원하고자 하는 물체, 공간을 충분히 덮는 크기의 volume을 잡기만 했다면 random init.도 plausib..

DiffusionAvatars: Deferred Diffusion for High-fidelity 3D Head Avatars

내 맘대로 Introduction multiview + video 입력을 받아 3D animatable head avatar를 만드는 논문. NPHM (implicit head model) 에 feature를 할당하고, differentiable renderer를 통해 depth, normal, rendered feature를 만든 뒤 이를 diffusion하는 방식이다. 사실 특별한 내용은 아닌데 뒤에 rendered image에서 바로 loss를 계산하는 것이 아니라 diffusion 통과 후 loss를 계산하는 식으로 바꿔서 diffusion prior를 학습에 응용했다는 것이 차이점이다.  NPHM 같은 impliti head model을 굳이 큰 이유는 뚜렷하지 않음. 그냥 continuous ..

Paper/Human 2024.04.25

COCO bounding box format, scale factor

COCO bounding box format은 document를 보면 (x,y,w,h)을 따른다고 적혀있다. 순서대로 사각형의 left top (x, y) 값과 사각형의 (width, height)라는 뜻이다.  그런데 실제로 보면 값이 다음과 같이 0~1 값으로 normalize 되어있는 것을 볼 수 있다.45 0.479492 0.688771 0.955609 0.595545 0.736516 0.247188 0.498875 0.47641750 0.637063 0.732938 0.494125 0.51058345 0.339438 0.418896 0.678875 0.781549 0.646836 0.132552 0.118047 0.096937549 0.773148 0.129802 0.0907344 0.09722..

Knowhow/Vision 2024.04.25

PointAvatar: Deformable Point-based Head Avatars from Videos

내 맘대로 Introduction point cloud를 이용하여 head avatar를 표현하되, 3DMM shape,pose parameter에 binding되게 만들어서 animation이 가능하도록 복원하는 것을 목표로 하는 논문이다. 3DGS가 발표되기 이전 논문.  핵심 아이디어는 3DMM vertex와 대응되도록 point cloud를 생성한 뒤, 3DMM LBS 를 통해 변형해가면서 렌더링하는 것이다. 지금 보면 3DGS와 매우 유사한 논문. 다만 isotropic gaussian이라는 점이 차이.  메모1) canonical point cloud canonical FLAME 대응 관계 만들기2) canonical point cloud + offset  == ..

Paper/Human 2024.04.24

PSAvatar: A Point-based Morphable Shape Model for Real-Time Head Avatar Animation with 3D Gaussian Splatting

내 맘대로 Introduction FLAME vertex + 얼굴 표면 normal 따라 추가 point 에 3DGS을 할당해서 얼굴 아바타를 복원한 논문이다. 크게 보면 3DGS 복원 논문인데 3DGS 하나하나가 FLAME 모델 vertex이거나 FLAME 모델 특정 표면에 binding 되어 있는 형태이기 때문에 pose, expression parameter에 따라 변형이 가능하다는 점이 장점이다. 그래서 Morphable! 핵심 아이디어는 3DGS의 기준이 되는 point들을 model vertex만 쓴 것이 아니라 얼굴 주변 point까지 확장했다는 점이다. 안경, 머리 표현력을 훨씬 좋을 것 같음. densification은 안하는 듯? 메모 기존에는 위 그림에서 파란점들에만 3DGS를 할당하..

Paper/Human 2024.04.23

Multi-View Mesh Reconstruction with Neural Deferred Shading

내 맘대로 Introduction 이름 그대로 deferred shading을 neural network로 대체한 것이다. deferred shading이란 내용 자체는 geometry -> rendering 과정에서 pixel 값을 직접 계산하는 것이 아니라 geometry -> position,normal,depth -> rendering 순서로 계산하는 방식을 말한다. 직접 바로 계산하는 pixel shading과 달리 중간 산물을 만들고, 중간 산물로 shading을 하는 식으로 "지연"시켰다는 의미로 deferred shading이라고 불린다. 이 내용을 가져와서 multiview image에서 geometry를 만들어내는데, estimated geometry -> position, normal..

Paper/3D vision 2024.04.22

Learning Personalized High Quality Volumetric Head Avatars from Monocular RGB Videos

내 맘대로 Introduction 2023 CVPR monoavatar라는 논문으로 video to implicit head avatar 논문이다. 3DMM(FLAME) + NeRF representation으로 다양한 표정의 얼굴 이미지를 찍어낼 수 있다. 핵심 아이디어는 FLAME vertex 마다 learnable feature를 할당 -> NeRF 방식으로 compositing해서 픽셀화하는 방식으로 학습시키는 것이다. 이제는 좀 알려진 방식이지만 2023년이므로 이게 첫 시작이었지 싶다. 또, CNN(UV map) feature를 쓰는 것인 3DMM 이용할 때 효과적이라는 것을 밝힘. 메모 0) 배경 제거, 3DMM 피팅, camera pose 찾기 1) CNN(Ref. uv map - defo..

Paper/Human 2024.04.22

Multi-HMR: Multi-Person Whole-Body Human Mesh Recovery in a Single Shot

내 맘대로 Introduction single image에서 multi person detection하는 논문. SMPLX 파라미터를 찾는 방식으로 검출해내는데 카메라로부터 거리까지 추정하는 절대적 검출이라는 것이 차이점이다. 대규모 데이터를 먹은 DinoV2를 backbone으로 쓰기 때문에 generalization도 좀 더 잘되는 것 같고 실제로 해봤을 때 기존 ROMP 같은 논문들보다 안정성이 뛰어나다. 메모 1) human patch detection (어느 patch에 사람 머리가 있는지) 2) offset regression (patch 내에서 디테일한 위치) 3) Cross attention 기반 regression ( human param + distance) 파라미터 dimension ..

Paper/Human 2024.04.22