Paper/Human 88

MoSAR: Monocular Semi-Supervised Model for Avatar Reconstruction using Differentiable Shading

내 맘대로 Introduction 더하기 더하기 더하기 논문. 3d reconstruction 더하기 + texturemap inpainting 더하기 + lighting condition estimation 더하기. 결과적으로 이미지가 들어갔을 때 해당하는 3D MESH + diffuse, specular, albedo, lighting 등등 렌더링에 필요한 모든 파라미터가 추정된다. 듣기만 해도 어마어마하게 데이터가 필요해 보이는데 역시 890명의 light stage dataset를 자체구축해서 사용했다.  더불어서 렌더링에 필요한 모든 요소가 결과물로 나오기 때문에 differentiable rendering을 통해 photometric loss를 걸어줄 수 있기 때문에 in-the-wild 이미..

Paper/Human 2024.10.15

Face Editing Using Part-Based Optimization of the Latent Space

내 맘대로 Introduction 오랜만에 읽고 마음에 쏙 든 논문. 3D Mesh VAE를 학습한 논문인데 아이디어는 별 것 아닌 것처럼 보이지만 고개를 끄덕이게 되는 simple yet effective 내용. 3D mesh (topology는 정해져있음)를 VAE latent로 encoding하는 과정에서 part 별로 latent를 따로 뽑고, part latent끼리를 영향을 주지 않도록 (다른 part vertex 위치 변화에 간섭하지 않도록) 학습을 해두는 것이 핵심이다. 이렇게 학습을 하면 나중에 vertex를 손으로 수정함 -> 해당 파트 latent만 inverse optimization으로 찾아냄 -> decoding -> 수정된 vertex 위치를 갖는 mesh가 나오는 활용이 가능..

Paper/Human 2024.10.15

Generalizable and Animatable Gaussian Head Avatar (a.k.a GAGAvatar)

내 맘대로 Introduction 단일 이미지로 부터 Gaussian head를 만드는 논문. 3DMM prior를 사용하기 때문에 driving image에서 뽑아낸 3DMM을 사용할 경우, animatable해진다. 학습은 video 데이터셋을 이용해서 자기 자신의 3DMM prior를 사용하지만 inference 시에는 다른 사람 이미지의 3DMM prior를 사용하는 방식이다.  결과가 인상 깊고 될까? 싶은게 돼서 신기하다.  핵심 아이디어는 freezed DinoV2를 encoder로 써서 generality를 출발부터 챙긴 점. feature plane으로부터 front, back side GS 값을 예측하도록 한 점이다. 전면만 예측하면 front view에 치중되는 문제가 있는데 back..

Paper/Human 2024.10.14

Sapiens: Foundation for Human Vision Models

내 맘대로 Introduction 제목과 대문 사진만 봐도 드디어 나올게 나왔나 싶은 Human foundation model. 네이버랩스 유럽에서 Croco-man이라는 이름으로 human foundation model을 CVPR24에 시도하긴 했지만 스케일에서 압도적이다. 300만장의 사람 사진 + A100 1024장으로 18일 동안 학습... 해상도도 1024x1024에다 파라미터 수가 20억개가 넘는다.  핵심 내용은 사실 없다. Masked autoencoder (MAE) 방식을 토씨 하나 안 빼놓고 그대로 적용한 것이다. 대신 데이터가 human으로 한정되고 엄청나게 많이 때려넣었다는 것이 유일한 차이. 그래도 개인적으로 논문이라기 보다 테크니컬 리포트에 가까운 것 같다. MAE 방식으로 hu..

Paper/Human 2024.08.26

iHuman: Instant Animatable Digital Humans From Monocular Videos

내 맘대로 Introduction ExAvatar와 같은 문제, 다른 접근법. 하지만 mesh는 조금 더 빠르고 mesh 품질이 조금 더 좋은 느낌. rigging은 조금 더 부자연스러운 느낌.  video to animatable 문제를 풀기 위해 SMPL에 3DGS를 할당하고 video sequence를 이용해서 3DGS property를 업데이트하는 방식. 수렴이 되면 3DGS가 그럴듯한 렌더링을, SMPL이 다양한 자세를 제공한다.  이 논문의 전제 조건도 ExAvatar와 같이 SMPLX이 fitting되어있다는 것을 깔고 간다. SMPL face마다 할당된 3DGS가 skinning weight를 갖고 있다는 점이 차이점. skinning weight를 추가로 업데이트하기 때문에 보다 자연스러..

Paper/Human 2024.08.20

Neural Face Rigging for Animating and Retargeting Facial Meshes in the Wild

내 맘대로 Introduction 이 논문은 임의의 Face mesh가 들어왔을 때, 3DMM expression mesh를 driving signal로 이용해서 표정을 변화시키는 논문이다. expression feature와 id feature를 뽑아내는 두 개의 encoder, deformation field를 뱉어내는 한개의 decoder로 구성되어 있다. 목적 분명, 구조 깔끔, 방식 깔끔. 되게 좋은 논문이라고 생각한다. 학습을 위해선 3DMM이 fitting된 다양한 표정의 Face mesh가 필요하다.  그림도 잘 그려서 보면 바로 이해된다. 메모1) id encoder  : diffusion net 구조입력 : 무표정 임의의 mesh출력 : id latent2) exp encoder : d..

Paper/Human 2024.08.09

LeGO: Leveraging a Surface Deformation Network for Animatable Stylized Face Generation with One Example

내 맘대로 Introduction 이 논문은 임의의 face mesh를 특정 스타일의 mesh로 바꾸고 (e.g. 고블린) 3DMM 파라미터 갖고 변형이 가능하도록 한 논문. general to general 은 아니고 general input to fine-tuned unique styled output 형태다.  핵심 아이디어는 3DMM 갖고 일반적으로 사람 얼굴 형상 변형에 특화된 backbone을 하나 만들어두고, 대상이 정해지면 그 스타일의 mesh만 갖고 input to styled mesh fine tuning하는 방식. 이 때 데이터가 충분하지 않으니 self-supervised + CLIP을 활용한 점. 3DMM을 강하게 사용하는 방법론이다보니, styled mesh 역시 3DMM을 변형..

Paper/Human 2024.08.09

Expressive Whole-Body 3D Gaussian Avatar

내 맘대로 Introduction 이 논문은 video -> SMPLX(+offset) + LBS. 비디오에서 해당 사람의 animatalbe avatar를 얻어내는 것이 목적.  핵심 아이디어는 1) HybrIK-X + DECA + mmpose를 다 활용한 강한 초기화 (registration) 2) triplane으로 per-vertex offset, isotropic 3DGS 값 찾기 이다. 알고리즘적 진일보보다 기존 알고리즘들 잘 활용하고, 섬세하게 최적화해서 완성도를 높이는데 기여한 논문이라고 생각한다. 논문에 기재된 전처리, 후처리, 최적화 노하우 밑에 한 스텝 한 스텝 보다 높은 완성도를 위해 구른 내용이 있어 보인다.  HybrIK-X, DECA에서 발생하는 noise 뿐만 아니라 mmpo..

Paper/Human 2024.08.06

High-Quality Facial Geometry and Appearance Capture at Home

내 맘대로 Introduction SDF + BRDF NeRF. 디테일이 추가된 차이가 있지 큰 그림에서는 기존 NeRF를 활용한 논문. 하지만 데이터 취득을 플래쉬를 켠 휴대폰으로 독특하게 설정한 점이 돋보인다. 조명을 다루는 것은 세팅이 워낙 필요해서 일반 사용자가 하는 것은 거의 무리라고 여겨졌는데, 핸드폰 조명을 이용했다는 점이 인정받은 것 같다. 내가 생각해도 좋은 시도인 것 같다. 휴대폰으로 25초 정도, 어두운 공간에서 플래쉬를 켠 채 영상을 촬영하는 식이다. 이 때 25초 정도 같은 표정을 최대로 유지해야 한다. 이부분이 좀 맹점이기 때문에 전체 성능이 조금 낮아졌을 듯 하다. 메모어두운 공간에서 플래쉬 켠 채 25초 정도 자기 얼굴을 최대한 같은 표정을 유지한 상태로 촬영한다. 크기만 적..

Paper/Human 2024.07.31

High-Quality Passive Facial Performance Capture using Anchor Frames

내 맘대로 Introduction High-Quality Single-Shot Capture of Facial Geometry 2010년 논문을 그대로 multiview video 입력으로 어떻게 확장할 수 있는지 고민해서 나온 2011년 디즈니 논문. 핵심 방법론은 2010년 논문이랑 똑같은데, 여기서 다루는 contribution은 각 reconstruction마다 tracking을 해서 하나의 topology로 엮는 것이다.  optical flow를 또 disparity만큼이나 고도로 계산해서 모든 픽셀이 tracking이 되도록 설계했고, 이를 바탕으로 3D point가 모든 frame에 대해서 공통으로 사용되게 했다.  완성도가 너무 높다. 2011년인데. 메모1) 기존 알고리즘으로 매 프레임..

Paper/Human 2024.07.19