분류 전체보기 538

DPHMs: Diffusion Parametric Head Models for Depth-based Tracking

내 맘대로 Introduction 이 논문은 NPHM의 활용에 해당하는 논문이라고 볼 수 있다. 이상적으로 잘 학습되어 있는 NPHM이 존재한다면, 이를 depth iuput에 fitting했을 때 품질 좋은 mesh가 나와야 한다. 하지만 NPHM은 watertight high quality mesh를 이용해 학습한 모델이다 보니 depth input 같이 noise가 심한 경우 fitting이 잘 안된다. 결과적으로 mesh도 입력 영상과는 다른 값이 나오게 된다. DPHM은 이를 해결하기 위해서 NPHM id, expression latent를 denoising한다는 컨셉의 diffusion model을 갖다 붙인다. NPHM으로만 찾아낸 id, expression latent가 초기값이 되고 de..

Paper/Human 2024.07.15

Trimesh to Open3d TriangleMesh

python에서 mesh 읽고 쓸 때, 대표적으로 사용하는 Trimesh와 open3d. 이 둘 간의 mesh 변환을 할 때 약간의 주의 사항이 있다. 단순히 vertex와 face 구성만 변환한다면 trimesh에서 as_open3d 라는 함수를 지원해주므로 간단하지만, texture까지 옮길 때는 조금 차이가 있다. def trimesh2open3d(mesh_path, texture_path): mesh = trimesh.load_mesh(mesh_path) vertices = mesh.vertices faces = mesh.faces uvs = mesh.visual.uv uvs[:,1] = 1-uvs[:,1] triangles_uvs = [] for i in range(3): triangles_uv..

Knowhow/Vision 2024.07.12

Dense Semantic and Topological Correspondence of 3D Faces without Landmarks

내 맘대로 Introduction template mesh와 SCAN이 있을 때 보통 registration은 keypoint를 이용한 rigid ICP 후  non-rigid ICP를 돌리는 것이 일반적이다. 하지만 keypoint를 뽑아내는 전처리가 필요하고 이 정확도에 따라서 성능이 좌지우지되는 부분이 있다. 이 논문은 ECCV 2018년 논문으로 조금 되긴 했지만, 딥러닝 붐 이후로도 뚝심있게 여전히 최적화 노하우를 소개한다. Keypoint 없이 그냥 registration하는 ICP 노하우이자, topology까지 최대한 유사하게 맞추면서 fitting하는 노하우를 소개한다.  얼굴같이 geometry가 사람마다 유사한 mesh여서 가능한 기법. 메모시작은 역시나 ICP다. 얼굴만 대상으로 하..

Paper/Human 2024.07.11

MonoNPHM: Dynamic Head Reconstruction from Monocular Videos

내 맘대로 Introduction NPHM 이 나온지 1년만에 같은 저자가 NPHM++과 같이 새 논문을 내었다. 제목도 그렇고 마치 주어진 비디오의 정보를 이용해서head model을 만드는 것 같지만 아니다. 모델은 NPHM처럼 따로 존재하고, 이걸 모든 비디오 프레임을 이용해 동시에 최적화+트래킹한 뒤, canonical model만 꺼내는 식으로 얻어내는 것이다.  핵심은 NPHM과 같은 모델을 학습한 것. 그럼 NPHM을 가져다 쓴 것이냐? 새로 학습했다. 그 생각엔 크게 없다. apperance(color)를 표현하는 texture space를 추가하고 싶어서 새로 한 것 같은데, 사실 비디오에 fitting할 때 keypoint만 갖고도 할 수 있으니 NPHM으로도 같은 결과물을 얻어낼 순 ..

Paper/Human 2024.07.11

Learning Neural Parametric Head Models

내 맘대로 Introduction 이 논문은 head parametric model을 implicit function 형태로 만든 논문이다. 어떻게 보면 imGHUM 과 맥락을 같이 한다고 볼 수 있지만 기존의 explicit mesh model을 implicit하게 변형하는게 아니라 애초에 처음부터 3D SCAN 데이터를 갖고 새로 만드는 것이기 때문에 차이점이 명확하게 있다.  PCA 기반 방식의 smoothing되고, 지나치게 평준화된 결과에서 벗어나 implicit function 형태 (deformable NeRF MLP들)로 표현함으로써 좀 더 디테일한 표현이 가능하게 됐고, 해상도 또한 자유롭게 조절할 수 있게 되었다.  아무래도 파라미터가 PCA 파라미터가 아니므로, 파라미터를 직관적으로 ..

Paper/Human 2024.07.11

Reconstruction of Personalized 3D Face Rigs from Monocular Video

내 맘대로 Introduction 개인적으로 또 역작이라고 생각하는 논문을 발견했다. 2016년 ACM에 게재된 논문이라 오래 되긴 했지만 그 깊이와 성능은 오히려 요즘 쏟아져 나오는 논문들을 부끄럽게 만들기 충분한 수준인 것 같다. 이 당시에는 디테일을 설명하지 않아도 모두가 이해하고 수준이어서 그런지 디테일이 빠져있어, 조금 논문이 어렵게 느껴지지만 그럼에도 불구하고 아이디어가 좋다는게 느껴진다.  monoculde video로 부터 animatable head를 복원해내는 논문인데, 위 사진에서도 볼 수 있다시피 주름까지 잡아내는 정확도를 자랑한다. 더 대단한 건 딥러닝 한 방울도 들어가지 않은 최적화로 푼 논문이라는 점. 핵심 아이디어는 coarse-medium-fine 3 layer를 이용한 3..

Paper/Human 2024.07.10

Open3D OBJ texture 안 보일 때, enable_post_processing=True로 해결 안 될 때, texture가 검정색으로 뜰 때 확인 사항

Open3d 에서 OBJ를 확인할 때 가장 번거로운 문제가 texture가 제멋대로 처리될 때다. 대표적으로 아래 그림처럼 texture가 있음에도 검정색으로 뜬다거나, 회색으로 뜨는 상황이 있다.   검색해보면 o3d.io.read_triangle_mesh(..., enable_post_processing=True)로 설정하면 해결된다고 하는데, 이렇게 해결되지 않는게 진짜 머리 터진다. 원인이야 많이 있겠지만, 내 경험 상 이런 경우 문제는 크게 4가지로 나뉘는 것 같다. 매번 까먹고 다시 구르는게 억울해서 메모 해둔다.  *enable_post_processing=True 무지성으로 쓰지 말자.홈페이지 보면 위와 같은 작업을 수행한다고 하는데, 저 첫 줄의 triangulate meshes with..

Trouble/Vision 2024.07.09

ImFace: A Nonlinear 3D Morphable Face Model with Implicit Neural Representations

내 맘대로 Introduction3D SCAN이 주어졌을 때, 이를 표현하는 implict morphable model을 만드는 방법. 3D SCAN -> canonicalize template mesh 간의 관계를 expression, identity parameter를 condition으로 학습해둔 뒤, 나중에 inference할 때는 3D SCAN query point 대신 voxel의 모든 query point를 inference 해서 결과를 얻어냄. (학습 시에도 3D SCAN query point만 사용하는게 아니라 voxel 모든 query point를 사용함) 일반적으로 canonical to deformed 방향으로 파라미터를 찾는데, 이 논문은 deformed to canonical이라..

Paper/Human 2024.07.09

Preface: A Data-driven Volumetric Prior for Few-shot Ultra High-resolution Face Synthesis

내 맘대로 Introduction 제목 그대로 2~3장 갖고 4K 해상도 NeRF 학습시키는 방법. 핵심 아이디어는 사람 1450 명으로 사전 학습시킨 prior model, NeRF를 초기값으로 쓰는 것. 초기값이 엄청 정확하게 잡아주기 때문에 4K 이미지 몇장으로 튜닝만 하면 큰 노력없이 위와 같은 결과를 얻을 수 있다고 보여줬다.  어떻게 보면 head NeRF foundation model급 초기값이 존재하면 문제가 쉬워진다고 보여준 것. 역시 데이터, 데이터, 데이터. 그나저나 이 논문 쓰려고 1450명이나 스캔 뜬 건 아닐텐데, 무슨 일을 하려고 스캔 떴을까 궁금하다. 메모그냥 무식하게 2~3장으로 학습하면 당연히 overfitting 돼서 novel view synthesis가 안된다. 왼쪽..

Paper/Human 2024.07.08

EMOPortraits: Emotion-enhanced Multimodal One-shot Head Avatars

내 맘대로 Introduction 올해 CVPR 2024에 나온 논문으로, 극단적인 표정이 포함된 데이터셋공개 + MegaPortraits 업그레이드를 엮어서 낸 논문. 사실 상 MegaPortraits++으로 같은 저자다. 내용도 MegaPortraits의 요소 요소 하나를 분석해가며, 무슨 단점이 있었고 무슨 문제가 있었고 상세하게 설명하면서 이를 어떻게 보강했는지 설명한다. MegaPortraits 자체는 표정을 바꿔주는 네트워크인데, condition으로 주어지는 것이 speech (audio)와 driver라고 불리는 다른 표정의 얼굴 사진이다.  MegaPortrait라는 논문을 모르면 이 논문을 읽는 의미가 굳이 없고, 데이터셋이 어떻게 구성됐는지만 이해하면 되는 수준이라서 나도 다 읽진 않..

Paper/Human 2024.07.08