Paper/Human 88

High-Quality Single-Shot Capture of Facial Geometry

내 맘대로 Introduction 압도적인 썸네일...이게 2010년 수준인게 말이되나 싶을 정도로 압도적이다. 지금 기술력으로도 터무니없을 정도로 고수준의 복원 알고리즘. 디즈니에서 만들었고 코드 공개는 없다. 따라서 그냥 마스터 피스처럼 구경만 할 수 있는 논문. 핵심 아이디어는 1) 엄청 정확한 캘리브레이션 2) 스테레오 pair로 묶어서 엄청 정확한 disparity 계산 이다. 특히 2)에서 coarse-to-fine을 넘어서 coarse-to-fine-fine-fine으로 될때까지 0.01mm 움직이면서 튜닝하는게 압도적.  물론 DSLR로 대충 찍은 12M 픽셀 정도가 아니라 초초고해상도 이미지가 받쳐주어야겠지만, NCC 만으로 이정도로 disparity 계산해낸 것이 대단하다.  메모카메라..

Paper/Human 2024.07.19

DPHMs: Diffusion Parametric Head Models for Depth-based Tracking

내 맘대로 Introduction 이 논문은 NPHM의 활용에 해당하는 논문이라고 볼 수 있다. 이상적으로 잘 학습되어 있는 NPHM이 존재한다면, 이를 depth iuput에 fitting했을 때 품질 좋은 mesh가 나와야 한다. 하지만 NPHM은 watertight high quality mesh를 이용해 학습한 모델이다 보니 depth input 같이 noise가 심한 경우 fitting이 잘 안된다. 결과적으로 mesh도 입력 영상과는 다른 값이 나오게 된다. DPHM은 이를 해결하기 위해서 NPHM id, expression latent를 denoising한다는 컨셉의 diffusion model을 갖다 붙인다. NPHM으로만 찾아낸 id, expression latent가 초기값이 되고 de..

Paper/Human 2024.07.15

Dense Semantic and Topological Correspondence of 3D Faces without Landmarks

내 맘대로 Introduction template mesh와 SCAN이 있을 때 보통 registration은 keypoint를 이용한 rigid ICP 후  non-rigid ICP를 돌리는 것이 일반적이다. 하지만 keypoint를 뽑아내는 전처리가 필요하고 이 정확도에 따라서 성능이 좌지우지되는 부분이 있다. 이 논문은 ECCV 2018년 논문으로 조금 되긴 했지만, 딥러닝 붐 이후로도 뚝심있게 여전히 최적화 노하우를 소개한다. Keypoint 없이 그냥 registration하는 ICP 노하우이자, topology까지 최대한 유사하게 맞추면서 fitting하는 노하우를 소개한다.  얼굴같이 geometry가 사람마다 유사한 mesh여서 가능한 기법. 메모시작은 역시나 ICP다. 얼굴만 대상으로 하..

Paper/Human 2024.07.11

MonoNPHM: Dynamic Head Reconstruction from Monocular Videos

내 맘대로 Introduction NPHM 이 나온지 1년만에 같은 저자가 NPHM++과 같이 새 논문을 내었다. 제목도 그렇고 마치 주어진 비디오의 정보를 이용해서head model을 만드는 것 같지만 아니다. 모델은 NPHM처럼 따로 존재하고, 이걸 모든 비디오 프레임을 이용해 동시에 최적화+트래킹한 뒤, canonical model만 꺼내는 식으로 얻어내는 것이다.  핵심은 NPHM과 같은 모델을 학습한 것. 그럼 NPHM을 가져다 쓴 것이냐? 새로 학습했다. 그 생각엔 크게 없다. apperance(color)를 표현하는 texture space를 추가하고 싶어서 새로 한 것 같은데, 사실 비디오에 fitting할 때 keypoint만 갖고도 할 수 있으니 NPHM으로도 같은 결과물을 얻어낼 순 ..

Paper/Human 2024.07.11

Learning Neural Parametric Head Models

내 맘대로 Introduction 이 논문은 head parametric model을 implicit function 형태로 만든 논문이다. 어떻게 보면 imGHUM 과 맥락을 같이 한다고 볼 수 있지만 기존의 explicit mesh model을 implicit하게 변형하는게 아니라 애초에 처음부터 3D SCAN 데이터를 갖고 새로 만드는 것이기 때문에 차이점이 명확하게 있다.  PCA 기반 방식의 smoothing되고, 지나치게 평준화된 결과에서 벗어나 implicit function 형태 (deformable NeRF MLP들)로 표현함으로써 좀 더 디테일한 표현이 가능하게 됐고, 해상도 또한 자유롭게 조절할 수 있게 되었다.  아무래도 파라미터가 PCA 파라미터가 아니므로, 파라미터를 직관적으로 ..

Paper/Human 2024.07.11

Reconstruction of Personalized 3D Face Rigs from Monocular Video

내 맘대로 Introduction 개인적으로 또 역작이라고 생각하는 논문을 발견했다. 2016년 ACM에 게재된 논문이라 오래 되긴 했지만 그 깊이와 성능은 오히려 요즘 쏟아져 나오는 논문들을 부끄럽게 만들기 충분한 수준인 것 같다. 이 당시에는 디테일을 설명하지 않아도 모두가 이해하고 수준이어서 그런지 디테일이 빠져있어, 조금 논문이 어렵게 느껴지지만 그럼에도 불구하고 아이디어가 좋다는게 느껴진다.  monoculde video로 부터 animatable head를 복원해내는 논문인데, 위 사진에서도 볼 수 있다시피 주름까지 잡아내는 정확도를 자랑한다. 더 대단한 건 딥러닝 한 방울도 들어가지 않은 최적화로 푼 논문이라는 점. 핵심 아이디어는 coarse-medium-fine 3 layer를 이용한 3..

Paper/Human 2024.07.10

ImFace: A Nonlinear 3D Morphable Face Model with Implicit Neural Representations

내 맘대로 Introduction3D SCAN이 주어졌을 때, 이를 표현하는 implict morphable model을 만드는 방법. 3D SCAN -> canonicalize template mesh 간의 관계를 expression, identity parameter를 condition으로 학습해둔 뒤, 나중에 inference할 때는 3D SCAN query point 대신 voxel의 모든 query point를 inference 해서 결과를 얻어냄. (학습 시에도 3D SCAN query point만 사용하는게 아니라 voxel 모든 query point를 사용함) 일반적으로 canonical to deformed 방향으로 파라미터를 찾는데, 이 논문은 deformed to canonical이라..

Paper/Human 2024.07.09

Preface: A Data-driven Volumetric Prior for Few-shot Ultra High-resolution Face Synthesis

내 맘대로 Introduction 제목 그대로 2~3장 갖고 4K 해상도 NeRF 학습시키는 방법. 핵심 아이디어는 사람 1450 명으로 사전 학습시킨 prior model, NeRF를 초기값으로 쓰는 것. 초기값이 엄청 정확하게 잡아주기 때문에 4K 이미지 몇장으로 튜닝만 하면 큰 노력없이 위와 같은 결과를 얻을 수 있다고 보여줬다.  어떻게 보면 head NeRF foundation model급 초기값이 존재하면 문제가 쉬워진다고 보여준 것. 역시 데이터, 데이터, 데이터. 그나저나 이 논문 쓰려고 1450명이나 스캔 뜬 건 아닐텐데, 무슨 일을 하려고 스캔 떴을까 궁금하다. 메모그냥 무식하게 2~3장으로 학습하면 당연히 overfitting 돼서 novel view synthesis가 안된다. 왼쪽..

Paper/Human 2024.07.08

EMOPortraits: Emotion-enhanced Multimodal One-shot Head Avatars

내 맘대로 Introduction 올해 CVPR 2024에 나온 논문으로, 극단적인 표정이 포함된 데이터셋공개 + MegaPortraits 업그레이드를 엮어서 낸 논문. 사실 상 MegaPortraits++으로 같은 저자다. 내용도 MegaPortraits의 요소 요소 하나를 분석해가며, 무슨 단점이 있었고 무슨 문제가 있었고 상세하게 설명하면서 이를 어떻게 보강했는지 설명한다. MegaPortraits 자체는 표정을 바꿔주는 네트워크인데, condition으로 주어지는 것이 speech (audio)와 driver라고 불리는 다른 표정의 얼굴 사진이다.  MegaPortrait라는 논문을 모르면 이 논문을 읽는 의미가 굳이 없고, 데이터셋이 어떻게 구성됐는지만 이해하면 되는 수준이라서 나도 다 읽진 않..

Paper/Human 2024.07.08

Face Reconstruction in the Wild

내 맘대로 Introduction 2011년 논문. 오래돼도 이제 너무 오래된 논문이긴 하지만 눈에 띄어서 읽어봤다. 이 당시 기술치고 결과물이 육안으로 보았을 때 그럴 듯 해보이고 문제 정의가 꽤 괜찮았다고 생각한다. 이 당시 photo tourism이나 Build rome in a day 같은 in-the-wild 이미지 긁어 모아 reconstruction하는 논문이 대세였기 때문에 이를 face로 확장하고자 했던 것 같다. non-rigid한 대상을 같은 방식으로 복원할 수 없었기에 기존 논문들과 완전히 다른 방식으로 구현했다. 이 당시 딥러닝은 커녕, face mesh model 조차 없었던 시기였기 때문에 PCA를 주로 활용해서 구현했는데, 이렇게 생각해서 만들 수 있구나 하고 조금 감탄한 논..

Paper/Human 2024.07.07