Paper 248

Preface: A Data-driven Volumetric Prior for Few-shot Ultra High-resolution Face Synthesis

내 맘대로 Introduction 제목 그대로 2~3장 갖고 4K 해상도 NeRF 학습시키는 방법. 핵심 아이디어는 사람 1450 명으로 사전 학습시킨 prior model, NeRF를 초기값으로 쓰는 것. 초기값이 엄청 정확하게 잡아주기 때문에 4K 이미지 몇장으로 튜닝만 하면 큰 노력없이 위와 같은 결과를 얻을 수 있다고 보여줬다.  어떻게 보면 head NeRF foundation model급 초기값이 존재하면 문제가 쉬워진다고 보여준 것. 역시 데이터, 데이터, 데이터. 그나저나 이 논문 쓰려고 1450명이나 스캔 뜬 건 아닐텐데, 무슨 일을 하려고 스캔 떴을까 궁금하다. 메모그냥 무식하게 2~3장으로 학습하면 당연히 overfitting 돼서 novel view synthesis가 안된다. 왼쪽..

Paper/Human 2024.07.08

EMOPortraits: Emotion-enhanced Multimodal One-shot Head Avatars

내 맘대로 Introduction 올해 CVPR 2024에 나온 논문으로, 극단적인 표정이 포함된 데이터셋공개 + MegaPortraits 업그레이드를 엮어서 낸 논문. 사실 상 MegaPortraits++으로 같은 저자다. 내용도 MegaPortraits의 요소 요소 하나를 분석해가며, 무슨 단점이 있었고 무슨 문제가 있었고 상세하게 설명하면서 이를 어떻게 보강했는지 설명한다. MegaPortraits 자체는 표정을 바꿔주는 네트워크인데, condition으로 주어지는 것이 speech (audio)와 driver라고 불리는 다른 표정의 얼굴 사진이다.  MegaPortrait라는 논문을 모르면 이 논문을 읽는 의미가 굳이 없고, 데이터셋이 어떻게 구성됐는지만 이해하면 되는 수준이라서 나도 다 읽진 않..

Paper/Human 2024.07.08

Face Reconstruction in the Wild

내 맘대로 Introduction 2011년 논문. 오래돼도 이제 너무 오래된 논문이긴 하지만 눈에 띄어서 읽어봤다. 이 당시 기술치고 결과물이 육안으로 보았을 때 그럴 듯 해보이고 문제 정의가 꽤 괜찮았다고 생각한다. 이 당시 photo tourism이나 Build rome in a day 같은 in-the-wild 이미지 긁어 모아 reconstruction하는 논문이 대세였기 때문에 이를 face로 확장하고자 했던 것 같다. non-rigid한 대상을 같은 방식으로 복원할 수 없었기에 기존 논문들과 완전히 다른 방식으로 구현했다. 이 당시 딥러닝은 커녕, face mesh model 조차 없었던 시기였기 때문에 PCA를 주로 활용해서 구현했는데, 이렇게 생각해서 만들 수 있구나 하고 조금 감탄한 논..

Paper/Human 2024.07.07

Grounding Image Matching in 3D with MASt3R (a.k.a MASt3R)

내 맘대로 Introduction 네이버랩스 유럽에서 얼마 전에 냈던 DUSt3R의 리마스터 버전 같은 논문. 내용 측면에서는 크게 달라진 점이 있다기 보다 feature matching까지 추가한 확장판이다. DUSt3R + addiontal head 느낌. pointmap을 뱉어주던 기존 DUSt3R의 마지막 부분에 feature descriptor를 뽑는 head를 추가했다. 이외에는 feature matching을 brute-force nearest neighbor로 하면 너무 오래 걸리니, 어떻게 속도를 빠르게 할 수 있을지 노하우를 기록한 내용. loss도 특별하지는 않다.  메모짙은 회색만 보면 DUSt3R과 똑같다. 네트워크도 pretrained model을 가져왔을 것이므로 100% 동일..

Paper/3D vision 2024.07.05

An Anatomically-Constrained Local Deformation Model for Monocular Face Capture

내 맘대로 Introduction 이 논문 역시 요즘 보고 있는 디즈니 시리즈 논문 중 하나. 2016년 나온 논문으로 시간은 좀 됐지만, 지금 다시 봐도 성능이 매우 좋긴 하다. Local Anatomically-Constrained Facial Performance Retargeting 에서 다루는 핵심의 95%는 사실 이 논문에서 나온 내용이고 위 논문은 오히려 이 논문의 활용에 가까운 논문. bone, bone normal + thickness로 face mesh를 정의하는 것 + patch 단위로 deformation하는 방식 자체는 이 논문에서 나왔다.  이 논문 역시 일반 이미지 입력이 주어졌을 때 face mesh를 복원하는 것이 아니라, face capture system을 이용하여 웬만..

Paper/Human 2024.07.04

RePaint: Inpainting using Denoising Diffusion Probabilistic Models

내 맘대로 Introduction 이 논문은 제목에서 바로 알 수 있다시피 DDPM 즉, diffusion model을 이용해서 이미지 inpainting하는 방법을 설명한다. 특이한 것은 별도의 튜닝이나 재학습, loss 추가 이런 것이 없다. 기존 학습 완료된 DDPM을 "어떻게 활용하면" 아무런 수정없이 inpainting 문제를 풀 수 있는지 아이디어를 설명하는 논문이다.간단하지만 효과적이고 납득 또한 가능한 방법. inference 시간만 늘어나는 단점이 있다. 메모위 그림이 직관적으로 바로 설명을 해버린다. denoising 과정에서 나온 noisy image 상에서 masked region은 그대로 냅두고, 그 외 영역은 깨끗한 이미지 + noise로 forward noising으로 채우는 ..

Paper/Generation 2024.07.03

Local Anatomically-Constrained Facial Performance Retargeting

내 맘대로 Introduction 이 논문은 사람 A의 표정을 사람 B로 옮겨주는 리타게팅 논문인데, 다루는 문제가 조금 특별하다. 완전히 모르는 표정, 완전히 모르는 사람 B로 옮기는 것이 아니라 이미 웬만한 건 다 알고 있는 상태다. 사람 A와 B의 mesh(with topology)도 알고 있고, 같은 표정을 지은 SCAN도 이미 알고 있다. 예를 들면 사람 A의 웃는 표정, 사람 B의 웃는 표정. 그럼 이미 알고 있는데 사람 A to 사람 B 표정 옮기기가 왜 필요한가? 여기서 집중하는 점은 "같은 표정일지라도 사람 A의 표현력으로 웃는 사람 B"를 만들고 싶은 것이다. 사람마다 얼굴 근육 길이나 조절 능력이 다르기 때문에 같은 표정을 지으라고 해서 누구는 입꼬리가 더 올라가고 누구는 덜 올라가고..

Paper/Human 2024.07.02

High-Resolution Neural Face Swapping for Visual Effects

내 맘대로 Introduction 딥페이크가 한창 유행할 시기, 2020년 디즈니에서도 연구했던 face swap 2D model이다. 이제는 4년 전 알고리즘이라 아주 낡은 기술이 됐다. 앞선 논문 읽다가 래퍼런스 달려있길래 그냥 간단히 읽어봤는데, 구석에 두긴 아까워서 초간단 메모만 남겨둔다. 메모디즈니 연구팀은 예전부터 Auto encoder 구조를 엄청 좋아하는 것 같다. 개인적으로 엄청 효과적인 구조라고 생각하긴 하지만 이런 방식 논문이 자주 등장한다.identity에 상관없이 human to latent로 보내는 encoder를 하나 shared weight로 학습해두고decoder는 일부만 shared weight, 나머지는 사람 specific하게 N개를 따로 두는 구조.1) 데이터를 10..

Paper/Human 2024.07.01

Learning Dynamic 3D Geometry and Texture for Video Face Swapping

내 맘대로 Introduction 디즈니에서 만든 face swap 논문. face swap이라는 문제 자체는 워낙 오래되었고 레드오션이기 때문에 문제를 조금 확장해서 풀었다. face swap을 2D image level에서 벗어나 3D geometry 획득까지 엮어서 풀었다. 그리고 기존 방식들은 generalized model이었는데 이 경우, generalized model로 만들 수는 있으나 N=2로 한정함으로써 두 사람 간의 swap에 집중하도록 설계했다.  결과적으로 두 사람 간의 face swap 이미지만 얻어내는 것이 아니라 3D geometry까지 얻어내서 추후 다른 작업들의 가능성을 열었다. geometry를 늘리거나 수축시키는 변형이나 texture editing 같은 것이 기존 디..

Paper/Human 2024.07.01

Shape Transformers: Topology-Independent 3D Shape Models Using Transformers

내 맘대로 Introduction deformable mesh는 보통 template mesh에서 출발한다. 그 말인 즉, topology가 맨 처음 설계 당시에 정해지면 끝까지 모든 mesh가 같은 topology를 따라간다는 뜻이다. 한 번 topology가 고정되면 설령 같은 대상을 표현하는 mesh라도 서로 비교가 불가능해지는 문제가 있다. 예를 들어, 사람 1명 SCAN에 서로 다른 topology를 가진 mesh를 fitting했다면 결과물은 거의 동일하겠지만 topology가 다르므로 두 mesh는 비교하기가 어렵다. 어느 vertex가 어느 vertex와 대응되는지, normal을 비슷한지 비교할 수 없다. 이 논문은 이러한 문제점을 푸는 하나의 방법을 제시한다. 3D SCAN을 공통으로 ..

Paper/Human 2024.06.28