Paper/Human 92

Learning an Animatable Detailed 3D Face Model from In-The-Wild Images

내 맘대로 Introductionsingle image to 3d animatable avatar. 일종의 HMR 처럼, 3DMM FLAME 모델 파라미터를 추정하는 backbone인데 In-the-wild 이미지를 학습 데이터로 사용했기 때문에 데이터 양에서 강점이 있다. 더불어 모델 파라미터만 추정하는 것이 아니라, light, albedo, subject-specifi detail (displacement map) 같은 것을 같이 추정하도록 설계한 것이 차이점. 핵심은 3DMM FLAME 파라미터가 미처 표현하지 못하는 subject-specific detail을 추정하도록 네트워크를 설계한 점과, 이 둘이 각각 다른 feature를 사용하도록 분리했다는 점이다. 직관적으로 표정이나 뚱뚱한 정도가 ..

Paper/Human 2024.05.07

Instant Volumetric Head Avatars (a.k.a INSTA)

내 맘대로 Introduction monocular head video to animatable implicit head avatar. 같은 문제를 푸는 논문이 워낙 많아서 입력, 출력은 여느 논문과 같다. 이 논문은 비교적 나온지 오래된 논문이고 InstantNGP랑 같은 원리로 가속했고, 3DMM expression parameter를 컨디션으로 주었다.  핵심 아이디어는 역시나 expression parameter를 컨디션으로 주고 deformation field를 계한 뒤, 알짜 학습은 canonical space에서만 한다는 것. 그리고 grid hasing을 이용해 가속했다는 점. 참고 포인트는 deformation field를 "예측"한 것이 아니라 3DMM tracking 결과를 이용해서 ..

Paper/Human 2024.05.03

AvatarMAV: Fast 3D Head Avatar Reconstruction Using Motion-Aware Neural Voxels

내 맘대로 Introduction monocular video로부터 NeRF 컨셉 기반의 implicit animatable head avatar를 만드는 방법. 역시나 표정 변화를 위해 3DMM을 활용했다.  핵심 아이디어는 3DMM expression coefficient 1개 1개마다 voxel basis를 붙여서 3D 공간을 더 잘 표현함과 동시에 3DMM과는 implicit하게 엮여있도록 유지했다는 점이다. 단순한 아이디어이지만 SIGGRAPH 게재 논문이고 속도 개선과 성능 개선이 둘 다 돋보이는 논문. 메모NeRF 컨셉인데 기본 표현 구조는 voxel grid (feature volume)을 사용함. 이는 메모리 사용량과 속도 때문.1) canonical apperance voxel grid..

Paper/Human 2024.05.03

SNARF: Differentiable Forward Skinning for Animating Non-Rigid Neural Implicit Shapes

내 맘대로 Introduction3D mesh + joint set이 sequence로 있을 때 skinning weight를 찾아내는 방법이다. 각 frame mesh마다 correspodence를 찾는 일이 쉽지 않기 때문에 일단 explicit mesh (vertex)를 이용해 correspondence를 찾진 않고 implicit field를 이용해 correspondence를 찾는다. 그리고 correspondence를 기반으로 forward skinning을 수행한 뒤 loss를 먹여 skinning weight를 업데이트하는 방식. 말이 길었는데 진짜 skinning weight 자동으로 찾는 논문이다. backward skinning이 아니라 forward skinning을 사용한 이유가 ..

Paper/Human 2024.05.02

AG3D: Learning to Generate 3D Avatars from 2D Image Collections

내 맘대로 Introduction 제목에서도 느껴지듯이 EG3D의 human 버전 확장판이라고 볼 수 있다. EG3D 확장답게 3D GAN + Multi-planes을 차용한 구조를 사용한다. 핵심 아이디어는 3D 데이터 없이 많은 2D 데이터를 먹여서 generator를 학습시키는 것이다. discriminator도 여러개 붙이고 super resolution module까지 붙여서 조금 조잡한 느낌이 나지만 그래도 준수한 논문. 메모1) 3D generator가 canonical SDF 예측하도록 함2) pose-conditioned deformation 후 volume rendering3) rgb, normal 2레벨에서 discriminator 적용4) super resolution 붙여서 고화질..

Paper/Human 2024.05.02

SIFU: Side-view Conditioned Implicit Function for Real-world Usable Clothed Human Reconstruction

내 맘대로 Introduction 제목에서 알 수 있다시피 PiFU 컨셉의 후속 연구, single image to 3d avatar. SIFU 라는 이름이 사부를 중국어로 읽은 것과 비슷한 점을 살려서 은근히 중국 티를 팍팍 낸 논문. 핵심 아이디어는 기존 방식은 front to left/right/back 과정에서 geometric guidance가 하나도 없었기에 성능이 떨어졌다는 것을 지적하면서 left/right/back SMPLX rendered normal 이라도 넣어주는 식으로 보강한 점이다. 구조적으로 front 입력에서 Q를 뽑고 left/right/back 에서 K,V를 뽑는 식의 cross attention을 사용함으로써 어느 뷰가 우선순위가 높은지 확실히 정해준다.  아이디어는 간..

Paper/Human 2024.04.30

GaussianAvatars: Photorealistic Head Avatars with Rigged 3D Gaussians

내 맘대로 Introduction Multiview video 입력을 받아 FLAME 연계 3D Gaussian spaltting 학습하는 논문. 조금 나이브한 부분이 초기화할 때만 3D FLAME face 3D Gaussian 간의 binding을 하고 densification, pruning할 때는 딱히 face 위에 있도록 강제한다는게 없다. regularization term으로만 face와 거리가 가깝게 유도할 뿐이다. 따라서 명시적으로 mesh와 align을 강제하지 않기 때문에 deformation 시 약점을 보일 것 같다.  정말 간단함. 메모1) multivew video 각 frame마다 FLAME을 fitting 함2) FLAME vertex마다 face 중심에 3DGS 생성 (no..

Paper/Human 2024.04.29

PhysAvatar: Learning the Physics of Dressed 3D Avatars from Visual Observations

내 맘대로 Introduction multiview video 입력을 받아 animatable avatar를 복원하는 내용이 큰 골조인데, 매 프레임 reconstruction 결과를 tracking할 수 있도록 연결하고 전체 tracked avatar를 갖고 옷의 변형을 역추정하는 것이 핵심인 논문이다. 다시 말하면 multiview reconstruction -> tracking -> physical parameter estimation -> animation 순서다.  tracking이 용이하게 만들기 위해서 첫 프레임에서 만든 mesh (아마 NeRF 같은 걸로 복원했을 것으로 추정) face에 3D Gaussian을 할당하는 방식을 활용했다. position과 rotation이 face에 고정되..

Paper/Human 2024.04.29

DiffusionAvatars: Deferred Diffusion for High-fidelity 3D Head Avatars

내 맘대로 Introduction multiview + video 입력을 받아 3D animatable head avatar를 만드는 논문. NPHM (implicit head model) 에 feature를 할당하고, differentiable renderer를 통해 depth, normal, rendered feature를 만든 뒤 이를 diffusion하는 방식이다. 사실 특별한 내용은 아닌데 뒤에 rendered image에서 바로 loss를 계산하는 것이 아니라 diffusion 통과 후 loss를 계산하는 식으로 바꿔서 diffusion prior를 학습에 응용했다는 것이 차이점이다.  NPHM 같은 impliti head model을 굳이 큰 이유는 뚜렷하지 않음. 그냥 continuous ..

Paper/Human 2024.04.25

PointAvatar: Deformable Point-based Head Avatars from Videos

내 맘대로 Introduction point cloud를 이용하여 head avatar를 표현하되, 3DMM shape,pose parameter에 binding되게 만들어서 animation이 가능하도록 복원하는 것을 목표로 하는 논문이다. 3DGS가 발표되기 이전 논문.  핵심 아이디어는 3DMM vertex와 대응되도록 point cloud를 생성한 뒤, 3DMM LBS 를 통해 변형해가면서 렌더링하는 것이다. 지금 보면 3DGS와 매우 유사한 논문. 다만 isotropic gaussian이라는 점이 차이.  메모1) canonical point cloud canonical FLAME 대응 관계 만들기2) canonical point cloud + offset  == ..

Paper/Human 2024.04.24