Paper 262

Sapiens: Foundation for Human Vision Models

내 맘대로 Introduction 제목과 대문 사진만 봐도 드디어 나올게 나왔나 싶은 Human foundation model. 네이버랩스 유럽에서 Croco-man이라는 이름으로 human foundation model을 CVPR24에 시도하긴 했지만 스케일에서 압도적이다. 300만장의 사람 사진 + A100 1024장으로 18일 동안 학습... 해상도도 1024x1024에다 파라미터 수가 20억개가 넘는다.  핵심 내용은 사실 없다. Masked autoencoder (MAE) 방식을 토씨 하나 안 빼놓고 그대로 적용한 것이다. 대신 데이터가 human으로 한정되고 엄청나게 많이 때려넣었다는 것이 유일한 차이. 그래도 개인적으로 논문이라기 보다 테크니컬 리포트에 가까운 것 같다. MAE 방식으로 hu..

Paper/Human 2024.08.26

iHuman: Instant Animatable Digital Humans From Monocular Videos

내 맘대로 Introduction ExAvatar와 같은 문제, 다른 접근법. 하지만 mesh는 조금 더 빠르고 mesh 품질이 조금 더 좋은 느낌. rigging은 조금 더 부자연스러운 느낌.  video to animatable 문제를 풀기 위해 SMPL에 3DGS를 할당하고 video sequence를 이용해서 3DGS property를 업데이트하는 방식. 수렴이 되면 3DGS가 그럴듯한 렌더링을, SMPL이 다양한 자세를 제공한다.  이 논문의 전제 조건도 ExAvatar와 같이 SMPLX이 fitting되어있다는 것을 깔고 간다. SMPL face마다 할당된 3DGS가 skinning weight를 갖고 있다는 점이 차이점. skinning weight를 추가로 업데이트하기 때문에 보다 자연스러..

Paper/Human 2024.08.20

The Wave Kernel Signature:A Quantum Mechanical Approach to Shape Analysis (a.k.a WKS)

내 맘대로 Introduction 2010년 전후로 3D point descriptor를 만드는 연구가 인기가 꽤 있었나보다. 이 논문 역시 HKS와 마찬가지로 mesh vertex descriptor를 어떻게 하면 locality, globality 다 만족시켜서 만든 수 있을지 고민한 논문이다. 맨 처음 봤을 때 컨셉을 이번엔 열역학을 넘어서 양자역학에서 가져왔다길래 뇌절 논문인 줄 알았는데 아니었다.  핵심 아이디어는 mesh 형상에 따라 열이 퍼지는 양상을 descriptor로 썼던 HKS와 비슷하게, mesh vertex를 입자 1개로 보고 입자 하나에 집중되는 파동 에너지를 descriptor로 쓰는 것이다. 자세히는 이해를 못했다만 컨셉만 보면, 입자 1개는 주변 입자들과 인력/척력을 주고 ..

Paper/3D vision 2024.08.16

A Concise and Provably Informative Multi-Scale Signature Based on Heat Diffusion (a.k.a HKS)

내 맘대로 Introduction *요즘은 최신 논문을 이해하는 것보다 과거 논문을 이해하는게 더 어려운 것 같다. 기념비적인 논문들은 특히 수학적으로 탄탄하기 때문에 내 부족한 수학 밑천으로는 이해하기가 벅차다. 이 논문도 마찬가지인 논문이고, 사실 상 10% 정도 컨셉 이해에 그쳤다. 정리 수준이 부끄럽지만 그래도 10%라도 잘 기억해보려고 기록해본다.  이 논문은 간단히 말하면, Mesh vertex를 xyz, normal 외에 어떤 property로 표현할 수 있을지 고민한 느낌이다. 다시 말하면 mesh vertex descriptor를 만드는 방법을 설명한다. 3D correspondence나 segmentation에 응용할 수 있는 기본기다. 핵심 아이디어는 열역학에서 나왔다. 열이 어떤 형..

Paper/3D vision 2024.08.16

Neural Jacobian Fields: Learning Intrinsic Mappings of Arbitrary Meshes

내 맘대로 Introduction 앞선 논문들의 핵심 래퍼런스 논문으로 언급된 NJF. 짱도비에서 쓴 논문답게 완성도가 대단하다. 역작 논문.  mesh to mesh deformation을 학습하는건데, face의 R|t를 직접 다 찾아내는게 아니라. R만 찾아내도록 하고 뒤에 Poisson solver를 붙여 최적화로 나머지 위치를 찾아낸다. 네트워크는 오로지 주어진 point feature와 global feature (optional)로부터 각 face가 어떻게 회전될지 그 gradient만 예측하도록 하면 된다. 자유도를 확 낮추고 뒤에서 최적화가 도는 방식이다보니까 효율적이고 성능도 높아 보인다. 수학이 묻어나는 논문이라 이것 역시 정확한 이해는 어려웠지만, 컨셉이 좋아서 기록해둔다. 메모목적..

Paper/3D vision 2024.08.09

Neural Face Rigging for Animating and Retargeting Facial Meshes in the Wild

내 맘대로 Introduction 이 논문은 임의의 Face mesh가 들어왔을 때, 3DMM expression mesh를 driving signal로 이용해서 표정을 변화시키는 논문이다. expression feature와 id feature를 뽑아내는 두 개의 encoder, deformation field를 뱉어내는 한개의 decoder로 구성되어 있다. 목적 분명, 구조 깔끔, 방식 깔끔. 되게 좋은 논문이라고 생각한다. 학습을 위해선 3DMM이 fitting된 다양한 표정의 Face mesh가 필요하다.  그림도 잘 그려서 보면 바로 이해된다. 메모1) id encoder  : diffusion net 구조입력 : 무표정 임의의 mesh출력 : id latent2) exp encoder : d..

Paper/Human 2024.08.09

DiffusionNet: Discretization Agnostic Learning on Surfaces

내 맘대로 Introduction이 논문은 내 머리로는 한 방에 이해할 수가 도저히 없다. 수학, 수학, 수학한 논문이어서 수학 베이스가 약한 나로서는 이해할 방법이 없다. 이를 이해하기 위해서 파고들기엔 뭐를 봐야할 지도 잘 모르는 수준이어서 그냥 컨셉만 익히고 넘어간다.  이 논문의 핵심은 임의의 mesh가 주어졌을 때, vertex들을 어떻게 encoding해야 효과적으로 feature를 뽑아낼 수 있을지 그 방법을 설명하는 것이다. 예시가 사람이라서 human mesh 국한인 것으로 오해할 수 있으나, topology에 오류가 없는 mesh라면 어느 mesh든 적용 가능하다. 핵심 컨셉은 각 vertex를 동일한 가중치로 다루고 여기서 뽑은 feature도 동일하게 쓸 것이 아니라, 사전에 mes..

Paper/3D vision 2024.08.09

LeGO: Leveraging a Surface Deformation Network for Animatable Stylized Face Generation with One Example

내 맘대로 Introduction 이 논문은 임의의 face mesh를 특정 스타일의 mesh로 바꾸고 (e.g. 고블린) 3DMM 파라미터 갖고 변형이 가능하도록 한 논문. general to general 은 아니고 general input to fine-tuned unique styled output 형태다.  핵심 아이디어는 3DMM 갖고 일반적으로 사람 얼굴 형상 변형에 특화된 backbone을 하나 만들어두고, 대상이 정해지면 그 스타일의 mesh만 갖고 input to styled mesh fine tuning하는 방식. 이 때 데이터가 충분하지 않으니 self-supervised + CLIP을 활용한 점. 3DMM을 강하게 사용하는 방법론이다보니, styled mesh 역시 3DMM을 변형..

Paper/Human 2024.08.09

Expressive Whole-Body 3D Gaussian Avatar

내 맘대로 Introduction 이 논문은 video -> SMPLX(+offset) + LBS. 비디오에서 해당 사람의 animatalbe avatar를 얻어내는 것이 목적.  핵심 아이디어는 1) HybrIK-X + DECA + mmpose를 다 활용한 강한 초기화 (registration) 2) triplane으로 per-vertex offset, isotropic 3DGS 값 찾기 이다. 알고리즘적 진일보보다 기존 알고리즘들 잘 활용하고, 섬세하게 최적화해서 완성도를 높이는데 기여한 논문이라고 생각한다. 논문에 기재된 전처리, 후처리, 최적화 노하우 밑에 한 스텝 한 스텝 보다 높은 완성도를 위해 구른 내용이 있어 보인다.  HybrIK-X, DECA에서 발생하는 noise 뿐만 아니라 mmpo..

Paper/Human 2024.08.06

XCiT: Cross-Covariance Image Transformers

내 맘대로 Introduction2021년 나온 논문이긴 한데 Facebook에서 낸 논문으로 아직까지도 잘 인용되는 논문. transformer 구조의 연산량 문제를 해결하는 구조 제안 논문이다.  핵심 아이디어는 NxN self-attention이 겪는 quadratic complexity 문제를 Nxd 수준의 linear complexity 문제로 바꾸는 방법이다. 토큰 개수가 늘어날수록 연산량이 제곱배로 증가하기 때문에 보통 transformer는 이미지 해상도를 제한할 수 밖에 없는데 이 논문은 high resolution 이미지도 transformer로 처리할 수 있도록 self-attention을 변형했다.  아이디어가 간단하지만 굉장히 좋다고 생각한다.  메모기본적으로 self-attent..

Paper/Others 2024.08.06