Paper 248

Neural Jacobian Fields: Learning Intrinsic Mappings of Arbitrary Meshes

내 맘대로 Introduction 앞선 논문들의 핵심 래퍼런스 논문으로 언급된 NJF. 짱도비에서 쓴 논문답게 완성도가 대단하다. 역작 논문.  mesh to mesh deformation을 학습하는건데, face의 R|t를 직접 다 찾아내는게 아니라. R만 찾아내도록 하고 뒤에 Poisson solver를 붙여 최적화로 나머지 위치를 찾아낸다. 네트워크는 오로지 주어진 point feature와 global feature (optional)로부터 각 face가 어떻게 회전될지 그 gradient만 예측하도록 하면 된다. 자유도를 확 낮추고 뒤에서 최적화가 도는 방식이다보니까 효율적이고 성능도 높아 보인다. 수학이 묻어나는 논문이라 이것 역시 정확한 이해는 어려웠지만, 컨셉이 좋아서 기록해둔다. 메모목적..

Paper/3D vision 2024.08.09

Neural Face Rigging for Animating and Retargeting Facial Meshes in the Wild

내 맘대로 Introduction 이 논문은 임의의 Face mesh가 들어왔을 때, 3DMM expression mesh를 driving signal로 이용해서 표정을 변화시키는 논문이다. expression feature와 id feature를 뽑아내는 두 개의 encoder, deformation field를 뱉어내는 한개의 decoder로 구성되어 있다. 목적 분명, 구조 깔끔, 방식 깔끔. 되게 좋은 논문이라고 생각한다. 학습을 위해선 3DMM이 fitting된 다양한 표정의 Face mesh가 필요하다.  그림도 잘 그려서 보면 바로 이해된다. 메모1) id encoder  : diffusion net 구조입력 : 무표정 임의의 mesh출력 : id latent2) exp encoder : d..

Paper/Human 2024.08.09

DiffusionNet: Discretization Agnostic Learning on Surfaces

내 맘대로 Introduction이 논문은 내 머리로는 한 방에 이해할 수가 도저히 없다. 수학, 수학, 수학한 논문이어서 수학 베이스가 약한 나로서는 이해할 방법이 없다. 이를 이해하기 위해서 파고들기엔 뭐를 봐야할 지도 잘 모르는 수준이어서 그냥 컨셉만 익히고 넘어간다.  이 논문의 핵심은 임의의 mesh가 주어졌을 때, vertex들을 어떻게 encoding해야 효과적으로 feature를 뽑아낼 수 있을지 그 방법을 설명하는 것이다. 예시가 사람이라서 human mesh 국한인 것으로 오해할 수 있으나, topology에 오류가 없는 mesh라면 어느 mesh든 적용 가능하다. 핵심 컨셉은 각 vertex를 동일한 가중치로 다루고 여기서 뽑은 feature도 동일하게 쓸 것이 아니라, 사전에 mes..

Paper/3D vision 2024.08.09

LeGO: Leveraging a Surface Deformation Network for Animatable Stylized Face Generation with One Example

내 맘대로 Introduction 이 논문은 임의의 face mesh를 특정 스타일의 mesh로 바꾸고 (e.g. 고블린) 3DMM 파라미터 갖고 변형이 가능하도록 한 논문. general to general 은 아니고 general input to fine-tuned unique styled output 형태다.  핵심 아이디어는 3DMM 갖고 일반적으로 사람 얼굴 형상 변형에 특화된 backbone을 하나 만들어두고, 대상이 정해지면 그 스타일의 mesh만 갖고 input to styled mesh fine tuning하는 방식. 이 때 데이터가 충분하지 않으니 self-supervised + CLIP을 활용한 점. 3DMM을 강하게 사용하는 방법론이다보니, styled mesh 역시 3DMM을 변형..

Paper/Human 2024.08.09

Expressive Whole-Body 3D Gaussian Avatar

내 맘대로 Introduction 이 논문은 video -> SMPLX(+offset) + LBS. 비디오에서 해당 사람의 animatalbe avatar를 얻어내는 것이 목적.  핵심 아이디어는 1) HybrIK-X + DECA + mmpose를 다 활용한 강한 초기화 (registration) 2) triplane으로 per-vertex offset, isotropic 3DGS 값 찾기 이다. 알고리즘적 진일보보다 기존 알고리즘들 잘 활용하고, 섬세하게 최적화해서 완성도를 높이는데 기여한 논문이라고 생각한다. 논문에 기재된 전처리, 후처리, 최적화 노하우 밑에 한 스텝 한 스텝 보다 높은 완성도를 위해 구른 내용이 있어 보인다.  HybrIK-X, DECA에서 발생하는 noise 뿐만 아니라 mmpo..

Paper/Human 2024.08.06

XCiT: Cross-Covariance Image Transformers

내 맘대로 Introduction2021년 나온 논문이긴 한데 Facebook에서 낸 논문으로 아직까지도 잘 인용되는 논문. transformer 구조의 연산량 문제를 해결하는 구조 제안 논문이다.  핵심 아이디어는 NxN self-attention이 겪는 quadratic complexity 문제를 Nxd 수준의 linear complexity 문제로 바꾸는 방법이다. 토큰 개수가 늘어날수록 연산량이 제곱배로 증가하기 때문에 보통 transformer는 이미지 해상도를 제한할 수 밖에 없는데 이 논문은 high resolution 이미지도 transformer로 처리할 수 있도록 self-attention을 변형했다.  아이디어가 간단하지만 굉장히 좋다고 생각한다.  메모기본적으로 self-attent..

Paper/Others 2024.08.06

High-Quality Facial Geometry and Appearance Capture at Home

내 맘대로 Introduction SDF + BRDF NeRF. 디테일이 추가된 차이가 있지 큰 그림에서는 기존 NeRF를 활용한 논문. 하지만 데이터 취득을 플래쉬를 켠 휴대폰으로 독특하게 설정한 점이 돋보인다. 조명을 다루는 것은 세팅이 워낙 필요해서 일반 사용자가 하는 것은 거의 무리라고 여겨졌는데, 핸드폰 조명을 이용했다는 점이 인정받은 것 같다. 내가 생각해도 좋은 시도인 것 같다. 휴대폰으로 25초 정도, 어두운 공간에서 플래쉬를 켠 채 영상을 촬영하는 식이다. 이 때 25초 정도 같은 표정을 최대로 유지해야 한다. 이부분이 좀 맹점이기 때문에 전체 성능이 조금 낮아졌을 듯 하다. 메모어두운 공간에서 플래쉬 켠 채 25초 정도 자기 얼굴을 최대한 같은 표정을 유지한 상태로 촬영한다. 크기만 적..

Paper/Human 2024.07.31

SHIC: Shape-Image Correspondences with no Keypoint Supervision

내 맘대로 Introduction 이 논문은 3D template mesh image object 간의 correspondence를 찾는 논문이다. 3D-2D correspondence를 찾는 문제인데 이때 3D가 template mesh로 semantic하게만 2D와 맞아떨어지는 3D다. 예를 들어 고양이 template mesh와 모든 고양이 이미지 간의 correspondence를 찾는 논문이다.  연구적인 레벨이라서 실용성과는 아직 거리가 있는 논문이긴 한데 활용을 생각해보면, 서로 다른 고양이 이미지 간의 semantic correspondence를 찾을 때 3D template mesh를 매개로 사용하여 찾을 수 있다는 정도가 있다. 핵심 아이디어는 GT를 만들기 힘들기 때문에 이를 SD-D..

Paper/Others 2024.07.30

Production-Ready Face Re-Aging for Visual Effects

내 맘대로 Introduction 이 디즈니 논문 이해하려고, StyleFlow, SAM 도 읽었다...  SAM 논문에서 image to styleGAN latent w + condition 주는 방법을 제안하고 준수한 성능을 보였지만, 조금 네트워크가 복잡하고 (pretrained network가 덕지덕지) 약간의 artifact(배경이 달라지거나, 헤어스타일이 바뀌는 것 등)가 생기는 문제가 있다.  이는 latent만 찾아주고 이미지를 생성하는 것은 전적으로 pretrained styleGAN2 generator에게 맡겨버리기 때문이다.  이 논문에서는 다 떼고 앞선 SAM으로 데이터를 만들고, generator를 따로 학습하는 한다. 이 때 generator가 얼굴에만 집중할 수 있도록 얼굴 마..

Paper/Generation 2024.07.24

Only a Matter of Style: Age Transformation Using a Style-Based Regression Model

내 맘대로 Introduction 2020년 StyleFlow 에서 styleGAN latent space를 잘만 컨트롤하면 원하는 condition을 넣어 원하는 이미지를 생성할 수 있다는 가능성을 보여준 이후, 2021년 이 가능성을 aging condition으로 특화한 논문이다.  StyleFlow는 z->w 과정에서 condition을 주어 이미지를 생성하는 것이므로, 시작이 random gaussian noise다. 따라서 condition만 만족하고 나머지는 랜덤이다. 얼굴이나 스타일 안경, 이런건 랜덤 생성이다. 이 SAM 이라는 논문은 image->w로 가는 네트워크를 학습한다. 따라서 image + condition -> w를 학습해서 image 특성은 유지하되 condition이 추가..

Paper/Generation 2024.07.24