Paper/Human 92

ImFace: A Nonlinear 3D Morphable Face Model with Implicit Neural Representations

내 맘대로 Introduction3D SCAN이 주어졌을 때, 이를 표현하는 implict morphable model을 만드는 방법. 3D SCAN -> canonicalize template mesh 간의 관계를 expression, identity parameter를 condition으로 학습해둔 뒤, 나중에 inference할 때는 3D SCAN query point 대신 voxel의 모든 query point를 inference 해서 결과를 얻어냄. (학습 시에도 3D SCAN query point만 사용하는게 아니라 voxel 모든 query point를 사용함) 일반적으로 canonical to deformed 방향으로 파라미터를 찾는데, 이 논문은 deformed to canonical이라..

Paper/Human 2024.07.09

Preface: A Data-driven Volumetric Prior for Few-shot Ultra High-resolution Face Synthesis

내 맘대로 Introduction 제목 그대로 2~3장 갖고 4K 해상도 NeRF 학습시키는 방법. 핵심 아이디어는 사람 1450 명으로 사전 학습시킨 prior model, NeRF를 초기값으로 쓰는 것. 초기값이 엄청 정확하게 잡아주기 때문에 4K 이미지 몇장으로 튜닝만 하면 큰 노력없이 위와 같은 결과를 얻을 수 있다고 보여줬다.  어떻게 보면 head NeRF foundation model급 초기값이 존재하면 문제가 쉬워진다고 보여준 것. 역시 데이터, 데이터, 데이터. 그나저나 이 논문 쓰려고 1450명이나 스캔 뜬 건 아닐텐데, 무슨 일을 하려고 스캔 떴을까 궁금하다. 메모그냥 무식하게 2~3장으로 학습하면 당연히 overfitting 돼서 novel view synthesis가 안된다. 왼쪽..

Paper/Human 2024.07.08

EMOPortraits: Emotion-enhanced Multimodal One-shot Head Avatars

내 맘대로 Introduction 올해 CVPR 2024에 나온 논문으로, 극단적인 표정이 포함된 데이터셋공개 + MegaPortraits 업그레이드를 엮어서 낸 논문. 사실 상 MegaPortraits++으로 같은 저자다. 내용도 MegaPortraits의 요소 요소 하나를 분석해가며, 무슨 단점이 있었고 무슨 문제가 있었고 상세하게 설명하면서 이를 어떻게 보강했는지 설명한다. MegaPortraits 자체는 표정을 바꿔주는 네트워크인데, condition으로 주어지는 것이 speech (audio)와 driver라고 불리는 다른 표정의 얼굴 사진이다.  MegaPortrait라는 논문을 모르면 이 논문을 읽는 의미가 굳이 없고, 데이터셋이 어떻게 구성됐는지만 이해하면 되는 수준이라서 나도 다 읽진 않..

Paper/Human 2024.07.08

Face Reconstruction in the Wild

내 맘대로 Introduction 2011년 논문. 오래돼도 이제 너무 오래된 논문이긴 하지만 눈에 띄어서 읽어봤다. 이 당시 기술치고 결과물이 육안으로 보았을 때 그럴 듯 해보이고 문제 정의가 꽤 괜찮았다고 생각한다. 이 당시 photo tourism이나 Build rome in a day 같은 in-the-wild 이미지 긁어 모아 reconstruction하는 논문이 대세였기 때문에 이를 face로 확장하고자 했던 것 같다. non-rigid한 대상을 같은 방식으로 복원할 수 없었기에 기존 논문들과 완전히 다른 방식으로 구현했다. 이 당시 딥러닝은 커녕, face mesh model 조차 없었던 시기였기 때문에 PCA를 주로 활용해서 구현했는데, 이렇게 생각해서 만들 수 있구나 하고 조금 감탄한 논..

Paper/Human 2024.07.07

An Anatomically-Constrained Local Deformation Model for Monocular Face Capture

내 맘대로 Introduction 이 논문 역시 요즘 보고 있는 디즈니 시리즈 논문 중 하나. 2016년 나온 논문으로 시간은 좀 됐지만, 지금 다시 봐도 성능이 매우 좋긴 하다. Local Anatomically-Constrained Facial Performance Retargeting 에서 다루는 핵심의 95%는 사실 이 논문에서 나온 내용이고 위 논문은 오히려 이 논문의 활용에 가까운 논문. bone, bone normal + thickness로 face mesh를 정의하는 것 + patch 단위로 deformation하는 방식 자체는 이 논문에서 나왔다.  이 논문 역시 일반 이미지 입력이 주어졌을 때 face mesh를 복원하는 것이 아니라, face capture system을 이용하여 웬만..

Paper/Human 2024.07.04

Local Anatomically-Constrained Facial Performance Retargeting

내 맘대로 Introduction 이 논문은 사람 A의 표정을 사람 B로 옮겨주는 리타게팅 논문인데, 다루는 문제가 조금 특별하다. 완전히 모르는 표정, 완전히 모르는 사람 B로 옮기는 것이 아니라 이미 웬만한 건 다 알고 있는 상태다. 사람 A와 B의 mesh(with topology)도 알고 있고, 같은 표정을 지은 SCAN도 이미 알고 있다. 예를 들면 사람 A의 웃는 표정, 사람 B의 웃는 표정. 그럼 이미 알고 있는데 사람 A to 사람 B 표정 옮기기가 왜 필요한가? 여기서 집중하는 점은 "같은 표정일지라도 사람 A의 표현력으로 웃는 사람 B"를 만들고 싶은 것이다. 사람마다 얼굴 근육 길이나 조절 능력이 다르기 때문에 같은 표정을 지으라고 해서 누구는 입꼬리가 더 올라가고 누구는 덜 올라가고..

Paper/Human 2024.07.02

High-Resolution Neural Face Swapping for Visual Effects

내 맘대로 Introduction 딥페이크가 한창 유행할 시기, 2020년 디즈니에서도 연구했던 face swap 2D model이다. 이제는 4년 전 알고리즘이라 아주 낡은 기술이 됐다. 앞선 논문 읽다가 래퍼런스 달려있길래 그냥 간단히 읽어봤는데, 구석에 두긴 아까워서 초간단 메모만 남겨둔다. 메모디즈니 연구팀은 예전부터 Auto encoder 구조를 엄청 좋아하는 것 같다. 개인적으로 엄청 효과적인 구조라고 생각하긴 하지만 이런 방식 논문이 자주 등장한다.identity에 상관없이 human to latent로 보내는 encoder를 하나 shared weight로 학습해두고decoder는 일부만 shared weight, 나머지는 사람 specific하게 N개를 따로 두는 구조.1) 데이터를 10..

Paper/Human 2024.07.01

Learning Dynamic 3D Geometry and Texture for Video Face Swapping

내 맘대로 Introduction 디즈니에서 만든 face swap 논문. face swap이라는 문제 자체는 워낙 오래되었고 레드오션이기 때문에 문제를 조금 확장해서 풀었다. face swap을 2D image level에서 벗어나 3D geometry 획득까지 엮어서 풀었다. 그리고 기존 방식들은 generalized model이었는데 이 경우, generalized model로 만들 수는 있으나 N=2로 한정함으로써 두 사람 간의 swap에 집중하도록 설계했다.  결과적으로 두 사람 간의 face swap 이미지만 얻어내는 것이 아니라 3D geometry까지 얻어내서 추후 다른 작업들의 가능성을 열었다. geometry를 늘리거나 수축시키는 변형이나 texture editing 같은 것이 기존 디..

Paper/Human 2024.07.01

Shape Transformers: Topology-Independent 3D Shape Models Using Transformers

내 맘대로 Introduction deformable mesh는 보통 template mesh에서 출발한다. 그 말인 즉, topology가 맨 처음 설계 당시에 정해지면 끝까지 모든 mesh가 같은 topology를 따라간다는 뜻이다. 한 번 topology가 고정되면 설령 같은 대상을 표현하는 mesh라도 서로 비교가 불가능해지는 문제가 있다. 예를 들어, 사람 1명 SCAN에 서로 다른 topology를 가진 mesh를 fitting했다면 결과물은 거의 동일하겠지만 topology가 다르므로 두 mesh는 비교하기가 어렵다. 어느 vertex가 어느 vertex와 대응되는지, normal을 비슷한지 비교할 수 없다. 이 논문은 이러한 문제점을 푸는 하나의 방법을 제시한다. 3D SCAN을 공통으로 ..

Paper/Human 2024.06.28

Continuous Landmark Detection with 3D Queries

내 맘대로 Introduction 디즈니 리서치에 있는 chandran 이라는 사람 논문. 이전 Anatomically Constrained Implicit Face Models 논문 보고 되게 자유롭게 생각하는 능력도 뛰어나고, 구현력도 뛰어난 사람이라는 생각이 들었는데 다른 논문들도 아이디어나 완성도가 엄청 빛나는 논문들이라서 반했다. 2023년, 2024년 논문을 폭발적으로 쏟아내고 있는데 이 속도로 이 정도 완성도 논문을 쓴다는 것이 경이로울 정도다. 앞으로 이 저자의 논문 전부를 읽어볼 예정인데, 가장 먼저 잡힌 논문 이 논문의 아이디어도 엄청 빛난다. face keypoint detection은 고일 대로 고인 분야여서 더 이상 연구 분야로 잡기엔 정말 박터지는 분야인데, 성능을 끌어올리는 것..

Paper/Human 2024.06.28