Paper/Human 88

Neural Cloth Simulation

내 맘대로 Introduction SMPL + garment mesh sequence가 주어졌을 때, garment의 변형을 학습해서 unseen pose에서의 garment deformation을 예측할 수 있도록 하는 논문. SMPL pose 파라미터에 의존적으로 변형 가능하도록 하므로 SMPL + Garmet binding이라고 보면 된다.  옷마다 따로 학습해야 하는 것이고, SMPL sequence + Garment mesh sequence가 주어져있어야 한다. 다른 말로 모든 vertex가 추적 가능한 상태여야 한다. garmet vertex, x가 매시점 tracking되어 있다는 것을 전제로 하기 때문이다.  사실 상 vision task라기 보다는 graphics task다.  메모문제를..

Paper/Human 2024.05.28

HumanRF: High-Fidelity Neural Radiance Fields for Humans in Motion (a.k.a Dataset ActorHQ)

내 맘대로 Introduction 160대로 구성된 돔 형태의 카메라 시스템에서 8명의 배우가 100초 정도의 모션을 찍은 데이터를 공개한다. 데이터셋 공개가 주목적이고 뒤에 따라 붙는 temporal NeRF는 human이라는 특성을 딱히 쓰진 않고 Instant-NGP + time dimension으로 구현함. 데이터가 있으니 이를 활용한 복원 알고리즘 구현까지 해본 것 같다. 참고해야 할 점은 TensorRF + InstantNGP를 구현해낸 코드. 그리고 실험을 되게 한 눈에 파악하기 쉽도록 잘 했는데 정리 방식을 기억할 만 하다. 메모전체 파이프라인은 간단하다.1) feature volume 표현법을 InstantNGP와 같이 hash grid로 표현을 하되, TensorRF의 vector-ma..

Paper/Human 2024.05.28

3D Face Reconstruction with the Geometric Guidance of Facial Part Segmentation (3DDFA v3)

내 맘대로 Introduction3DMM (여기선 FLAME 안쓰고 BFM, FaceVerse 씀, 아마 서양인 데이터 bias 때문이지 않을까.)  을 이미지에 fitting하는 논문. HMR의 face version인데, 3DDFA version3인 셈이다.  핵심 아이디어는 기존 논문들이 keypoint에 집중하던 걸 확장해서 segmentation mask를 이용한 fitting이다. segmentation mask를 사용하는 아이디어 자체는 흔하지만 기존 방식과 다르게 단순히 렌더링 결과만 놓고 pixel by pixel로 비교하는 것이 아니라, 새로운 loss를 제안해서 풀었다.  (2d segmentation -> 3d lifting ) (segmented 3d model) mesh geo..

Paper/Human 2024.05.17

Towards Metrical Reconstruction of Human Faces (a.k.a MICA)

내 맘대로 Introduction 이 논문은 2022년도 논문이라 최신 내용과는 거리가 멀지만, 최신 3DMM을 활용한 논문들이 fitted FLAME 모델을 전제로 하는 만큼 preprocessing에서 자주 언급되기에 한 번 짚고 넘어간다.  single image가 주어졌을 때 FLAME shape,expression,jaw 파라미터를 추정하는 backbone + 비디오가 주어지면 fitting하면서  head pose + color까지 추가로 찾는 논문이다. 기타 논문에서 많이 활용되는 만큼 성능은 좋아 보인다. 메모1) ArcFace라는 pretrained face recognition network를 가져와서 backbone으로 활용. 마지막 resblock 3개 빼고는 freeze됨.2) 마..

Paper/Human 2024.05.10

Global-correlated 3D-decoupling Transformer for Clothed Avatar Reconstruction

내 맘대로 Introduction PIFU랑 동일한 task를 다루지만 backbone을 ViT로 변경하고, xy, yz, zx triplane을 형성하는 식으로 feature representation을 변경한 논문. 후에 이미지에 fitting 된 SMPL face를 이용해 feature interpolation하는 식으로 body prior를 추가한 점이 또 있음. 전반적으로 backbone 탐색과 feature representation 변경이 차이점이고 PIFU 시리즈 논문이라고 봐도 될 것 같다. 메모사실 그림만 봐도 이해가 됨...1) image latent 생성2) 정면은 self attention, side/top view는 cross attention으로 feature plane 생성3..

Paper/Human 2024.05.08

POCO: 3D Pose and Shape Estimation with Confidence

내 맘대로 Introduction top-down 방식의 HMR 논문들의 공통점은 추정값에 대한 confidence가 없다는 것이다. keypoint는 애초에 heatmap으로 추정하기 때문에 confidence를 쉽게 얻어낼 수 있지만 파라미터를 추정하는 HMR 시리즈는 confidence를 얻어내기 어렵다. 생각해보면 당연히 필요한 것이었는데 명확히 방법론이 없어서 구현되지 못했던 내용. 조건은 기존 HMR에 그대로 갖다 붙일 수 있도록 구현해야하는 것 + confidence가 실제 uncertainty를 잘 반영할 것 2가지다. 핵심은 생각보다 간단하다. 그냥 uncertainty(혹은 confidence)를 추정하는 네트워크를 추가하고 loss term의 분모에다 갖다 붙이는 것이다. 그러면 po..

Paper/Human 2024.05.07

Learning an Animatable Detailed 3D Face Model from In-The-Wild Images

내 맘대로 Introductionsingle image to 3d animatable avatar. 일종의 HMR 처럼, 3DMM FLAME 모델 파라미터를 추정하는 backbone인데 In-the-wild 이미지를 학습 데이터로 사용했기 때문에 데이터 양에서 강점이 있다. 더불어 모델 파라미터만 추정하는 것이 아니라, light, albedo, subject-specifi detail (displacement map) 같은 것을 같이 추정하도록 설계한 것이 차이점. 핵심은 3DMM FLAME 파라미터가 미처 표현하지 못하는 subject-specific detail을 추정하도록 네트워크를 설계한 점과, 이 둘이 각각 다른 feature를 사용하도록 분리했다는 점이다. 직관적으로 표정이나 뚱뚱한 정도가 ..

Paper/Human 2024.05.07

Instant Volumetric Head Avatars (a.k.a INSTA)

내 맘대로 Introduction monocular head video to animatable implicit head avatar. 같은 문제를 푸는 논문이 워낙 많아서 입력, 출력은 여느 논문과 같다. 이 논문은 비교적 나온지 오래된 논문이고 InstantNGP랑 같은 원리로 가속했고, 3DMM expression parameter를 컨디션으로 주었다.  핵심 아이디어는 역시나 expression parameter를 컨디션으로 주고 deformation field를 계한 뒤, 알짜 학습은 canonical space에서만 한다는 것. 그리고 grid hasing을 이용해 가속했다는 점. 참고 포인트는 deformation field를 "예측"한 것이 아니라 3DMM tracking 결과를 이용해서 ..

Paper/Human 2024.05.03

AvatarMAV: Fast 3D Head Avatar Reconstruction Using Motion-Aware Neural Voxels

내 맘대로 Introduction monocular video로부터 NeRF 컨셉 기반의 implicit animatable head avatar를 만드는 방법. 역시나 표정 변화를 위해 3DMM을 활용했다.  핵심 아이디어는 3DMM expression coefficient 1개 1개마다 voxel basis를 붙여서 3D 공간을 더 잘 표현함과 동시에 3DMM과는 implicit하게 엮여있도록 유지했다는 점이다. 단순한 아이디어이지만 SIGGRAPH 게재 논문이고 속도 개선과 성능 개선이 둘 다 돋보이는 논문. 메모NeRF 컨셉인데 기본 표현 구조는 voxel grid (feature volume)을 사용함. 이는 메모리 사용량과 속도 때문.1) canonical apperance voxel grid..

Paper/Human 2024.05.03

SNARF: Differentiable Forward Skinning for Animating Non-Rigid Neural Implicit Shapes

내 맘대로 Introduction3D mesh + joint set이 sequence로 있을 때 skinning weight를 찾아내는 방법이다. 각 frame mesh마다 correspodence를 찾는 일이 쉽지 않기 때문에 일단 explicit mesh (vertex)를 이용해 correspondence를 찾진 않고 implicit field를 이용해 correspondence를 찾는다. 그리고 correspondence를 기반으로 forward skinning을 수행한 뒤 loss를 먹여 skinning weight를 업데이트하는 방식. 말이 길었는데 진짜 skinning weight 자동으로 찾는 논문이다. backward skinning이 아니라 forward skinning을 사용한 이유가 ..

Paper/Human 2024.05.02