Paper 249

Only a Matter of Style: Age Transformation Using a Style-Based Regression Model

내 맘대로 Introduction 2020년 StyleFlow 에서 styleGAN latent space를 잘만 컨트롤하면 원하는 condition을 넣어 원하는 이미지를 생성할 수 있다는 가능성을 보여준 이후, 2021년 이 가능성을 aging condition으로 특화한 논문이다.  StyleFlow는 z->w 과정에서 condition을 주어 이미지를 생성하는 것이므로, 시작이 random gaussian noise다. 따라서 condition만 만족하고 나머지는 랜덤이다. 얼굴이나 스타일 안경, 이런건 랜덤 생성이다. 이 SAM 이라는 논문은 image->w로 가는 네트워크를 학습한다. 따라서 image + condition -> w를 학습해서 image 특성은 유지하되 condition이 추가..

Paper/Generation 2024.07.24

StyleFlow: Attribute-conditioned Exploration of StyleGAN-Generated Images using Conditional Continuous Normalizing Flows

내 맘대로 Introduction 디즈니에서 만든 aging 네트워크 논문을 읽다가, 핵심 참조 논문이어서 여기까지 내려왔다. 이 논문은 2020년 논문으로 StyleGAN2가 폭발적인 인기를 얻던 시절, StyleGAN2 latent space를 해석하는 논문이다. 다른 말로, styleGAN2의 latent space에서 원하는 조건을 만족하는 latent를 찾아내고 결과적으로 원하는 이미지를 생성하도록 유도하는 방법을 설명한다. 마치 요즘 diffusion model에 IPAdapter나 controlnet을 붙여서 conditioned image generation을 하는 것과 같다. StyleGAN2 버전 condition 주는 방법이다. 핵심 아이디어는 pre-trained styleGAN의 ..

Paper/Generation 2024.07.24

High-Quality Passive Facial Performance Capture using Anchor Frames

내 맘대로 Introduction High-Quality Single-Shot Capture of Facial Geometry 2010년 논문을 그대로 multiview video 입력으로 어떻게 확장할 수 있는지 고민해서 나온 2011년 디즈니 논문. 핵심 방법론은 2010년 논문이랑 똑같은데, 여기서 다루는 contribution은 각 reconstruction마다 tracking을 해서 하나의 topology로 엮는 것이다.  optical flow를 또 disparity만큼이나 고도로 계산해서 모든 픽셀이 tracking이 되도록 설계했고, 이를 바탕으로 3D point가 모든 frame에 대해서 공통으로 사용되게 했다.  완성도가 너무 높다. 2011년인데. 메모1) 기존 알고리즘으로 매 프레임..

Paper/Human 2024.07.19

High-Quality Single-Shot Capture of Facial Geometry

내 맘대로 Introduction 압도적인 썸네일...이게 2010년 수준인게 말이되나 싶을 정도로 압도적이다. 지금 기술력으로도 터무니없을 정도로 고수준의 복원 알고리즘. 디즈니에서 만들었고 코드 공개는 없다. 따라서 그냥 마스터 피스처럼 구경만 할 수 있는 논문. 핵심 아이디어는 1) 엄청 정확한 캘리브레이션 2) 스테레오 pair로 묶어서 엄청 정확한 disparity 계산 이다. 특히 2)에서 coarse-to-fine을 넘어서 coarse-to-fine-fine-fine으로 될때까지 0.01mm 움직이면서 튜닝하는게 압도적.  물론 DSLR로 대충 찍은 12M 픽셀 정도가 아니라 초초고해상도 이미지가 받쳐주어야겠지만, NCC 만으로 이정도로 disparity 계산해낸 것이 대단하다.  메모카메라..

Paper/Human 2024.07.19

As-Rigid-As-Possible Surface Modeling

내 맘대로 Introductionregistration에서 무조건 사용하는 non-rigid ICP의 핵심 원리가 나와있는 논문. ARAP이라고 불리기도 하는데, 2007년 논문이다. 이젠 15년도 더 된 논문인데 아직까지 사용되고, 이것만 한게 없다고 하는 논문. 임팩트가 참 좋은 것 같다. 논문도 깔끔함. mesh deformation 시에 mesh가 stretching, shear같은 non-linear deformation을 당연히 겪게 되는데 이를 그냥 열린 문제로 최적화하면 형상이 일그러진다. 핵심 아이디어는 stretching, shear가 발생하더라도 국소적으로 face와 그 주변 face들만 보면 rigid하게 움직인다는 것이다. 마치 자전거 체인이 각 분절은 쇠라서 고정되어 있지만 전체..

Paper/Others 2024.07.16

DPHMs: Diffusion Parametric Head Models for Depth-based Tracking

내 맘대로 Introduction 이 논문은 NPHM의 활용에 해당하는 논문이라고 볼 수 있다. 이상적으로 잘 학습되어 있는 NPHM이 존재한다면, 이를 depth iuput에 fitting했을 때 품질 좋은 mesh가 나와야 한다. 하지만 NPHM은 watertight high quality mesh를 이용해 학습한 모델이다 보니 depth input 같이 noise가 심한 경우 fitting이 잘 안된다. 결과적으로 mesh도 입력 영상과는 다른 값이 나오게 된다. DPHM은 이를 해결하기 위해서 NPHM id, expression latent를 denoising한다는 컨셉의 diffusion model을 갖다 붙인다. NPHM으로만 찾아낸 id, expression latent가 초기값이 되고 de..

Paper/Human 2024.07.15

Dense Semantic and Topological Correspondence of 3D Faces without Landmarks

내 맘대로 Introduction template mesh와 SCAN이 있을 때 보통 registration은 keypoint를 이용한 rigid ICP 후  non-rigid ICP를 돌리는 것이 일반적이다. 하지만 keypoint를 뽑아내는 전처리가 필요하고 이 정확도에 따라서 성능이 좌지우지되는 부분이 있다. 이 논문은 ECCV 2018년 논문으로 조금 되긴 했지만, 딥러닝 붐 이후로도 뚝심있게 여전히 최적화 노하우를 소개한다. Keypoint 없이 그냥 registration하는 ICP 노하우이자, topology까지 최대한 유사하게 맞추면서 fitting하는 노하우를 소개한다.  얼굴같이 geometry가 사람마다 유사한 mesh여서 가능한 기법. 메모시작은 역시나 ICP다. 얼굴만 대상으로 하..

Paper/Human 2024.07.11

MonoNPHM: Dynamic Head Reconstruction from Monocular Videos

내 맘대로 Introduction NPHM 이 나온지 1년만에 같은 저자가 NPHM++과 같이 새 논문을 내었다. 제목도 그렇고 마치 주어진 비디오의 정보를 이용해서head model을 만드는 것 같지만 아니다. 모델은 NPHM처럼 따로 존재하고, 이걸 모든 비디오 프레임을 이용해 동시에 최적화+트래킹한 뒤, canonical model만 꺼내는 식으로 얻어내는 것이다.  핵심은 NPHM과 같은 모델을 학습한 것. 그럼 NPHM을 가져다 쓴 것이냐? 새로 학습했다. 그 생각엔 크게 없다. apperance(color)를 표현하는 texture space를 추가하고 싶어서 새로 한 것 같은데, 사실 비디오에 fitting할 때 keypoint만 갖고도 할 수 있으니 NPHM으로도 같은 결과물을 얻어낼 순 ..

Paper/Human 2024.07.11

Learning Neural Parametric Head Models

내 맘대로 Introduction 이 논문은 head parametric model을 implicit function 형태로 만든 논문이다. 어떻게 보면 imGHUM 과 맥락을 같이 한다고 볼 수 있지만 기존의 explicit mesh model을 implicit하게 변형하는게 아니라 애초에 처음부터 3D SCAN 데이터를 갖고 새로 만드는 것이기 때문에 차이점이 명확하게 있다.  PCA 기반 방식의 smoothing되고, 지나치게 평준화된 결과에서 벗어나 implicit function 형태 (deformable NeRF MLP들)로 표현함으로써 좀 더 디테일한 표현이 가능하게 됐고, 해상도 또한 자유롭게 조절할 수 있게 되었다.  아무래도 파라미터가 PCA 파라미터가 아니므로, 파라미터를 직관적으로 ..

Paper/Human 2024.07.11

Reconstruction of Personalized 3D Face Rigs from Monocular Video

내 맘대로 Introduction 개인적으로 또 역작이라고 생각하는 논문을 발견했다. 2016년 ACM에 게재된 논문이라 오래 되긴 했지만 그 깊이와 성능은 오히려 요즘 쏟아져 나오는 논문들을 부끄럽게 만들기 충분한 수준인 것 같다. 이 당시에는 디테일을 설명하지 않아도 모두가 이해하고 수준이어서 그런지 디테일이 빠져있어, 조금 논문이 어렵게 느껴지지만 그럼에도 불구하고 아이디어가 좋다는게 느껴진다.  monoculde video로 부터 animatable head를 복원해내는 논문인데, 위 사진에서도 볼 수 있다시피 주름까지 잡아내는 정확도를 자랑한다. 더 대단한 건 딥러닝 한 방울도 들어가지 않은 최적화로 푼 논문이라는 점. 핵심 아이디어는 coarse-medium-fine 3 layer를 이용한 3..

Paper/Human 2024.07.10