Paper 248

Face Editing Using Part-Based Optimization of the Latent Space

내 맘대로 Introduction 오랜만에 읽고 마음에 쏙 든 논문. 3D Mesh VAE를 학습한 논문인데 아이디어는 별 것 아닌 것처럼 보이지만 고개를 끄덕이게 되는 simple yet effective 내용. 3D mesh (topology는 정해져있음)를 VAE latent로 encoding하는 과정에서 part 별로 latent를 따로 뽑고, part latent끼리를 영향을 주지 않도록 (다른 part vertex 위치 변화에 간섭하지 않도록) 학습을 해두는 것이 핵심이다. 이렇게 학습을 하면 나중에 vertex를 손으로 수정함 -> 해당 파트 latent만 inverse optimization으로 찾아냄 -> decoding -> 수정된 vertex 위치를 갖는 mesh가 나오는 활용이 가능..

Paper/Human 2024.10.15

Generalizable and Animatable Gaussian Head Avatar (a.k.a GAGAvatar)

내 맘대로 Introduction 단일 이미지로 부터 Gaussian head를 만드는 논문. 3DMM prior를 사용하기 때문에 driving image에서 뽑아낸 3DMM을 사용할 경우, animatable해진다. 학습은 video 데이터셋을 이용해서 자기 자신의 3DMM prior를 사용하지만 inference 시에는 다른 사람 이미지의 3DMM prior를 사용하는 방식이다.  결과가 인상 깊고 될까? 싶은게 돼서 신기하다.  핵심 아이디어는 freezed DinoV2를 encoder로 써서 generality를 출발부터 챙긴 점. feature plane으로부터 front, back side GS 값을 예측하도록 한 점이다. 전면만 예측하면 front view에 치중되는 문제가 있는데 back..

Paper/Human 2024.10.14

Arc2Face: A Foundation Model for ID-ConsistentHuman Faces

내 맘대로 Introduction arcface 논문을 낸 그룹에서 후속 연구 느낌으로 낸 논문. arcface가 Face ID embedding을 훌륭하게 해주는 네트워크인 점을 이용해서 arcface embedding을 condition으로 사용하는 face 전용 diffusion model을 만들었다.  diffusion model을 학습시킬만큼의 높은 자유도 ID embedding이 확보되어야 하므로 Webface42M + FFHQ + CelebHQ를 섞어서 arcface부터 large scale로 다시 학습시키고, 그것을 다시 diffusion model 학습에 활용했다. SD의 새로운 버전이라고 볼 수도 있어서 기존 controlnet 같은 trick이 다 가능하다는 점도 눈에 띈다. 메모앞서..

Paper/Generation 2024.10.08

ArcFace: Additive Angular Margin Loss for DeepFace Recognition

내 맘대로 Introduction 논문에 face가 들어가서 face recognition이 본체인 것 같지만 사실 additive angular margin loss가 본체다. triplet loss와 같이 positive 대상과는 가깝게, negative 대상과는 멀게 embedding해야 하는 상황에서 쓸 수 있는 loss다. 조금 오래 된 논문이기도 한데 뒤늦게 읽었다. 엄청 유명한 방식. log-softmax와 비슷한데, 단순히 값을 input으로 넣는 것이 아니라, learnable embedding N개를 만들어두고, 가까운 embedding과의 "각도"의 cosine 값을 사용한다. 직관적으로 보면 feature 간의 각도를 벌리도록 설계하는 것. 여기다 마진을 조금 더 더해주면 분별력이 ..

Paper/Others 2024.10.07

Improving 2D Feature Representations by 3D-Aware Fine-Tuning

내 맘대로 Introduction요즘 foundation model이 온갖 feature extraction을 대체하고도 남을 정도로 잘 되다보니까 foundation model에서 나온 feature 갖고 노는 법, 업그레이드하는 법 같은 논문이 자주 보이는 것 같다. 이 논문은 DiNOv2를 예시로 썼지만 foundation model에서 나온 2D feature를 3D-aware형태로 튜닝하는 방법론을 설명한다. 2D 이미지를 어마어마하게 먹어서 어느 정도 3D-aware라고 "할 수도" 있겠지만 명시적으로 3D를 보고 배운 것이 아니기 때문에 아쉬운 점이 있다.  3D feature gaussian을 2D feature + camera pose로 학습시킨 뒤, 이를 이용해 다시 각 view의 2D..

Paper/Others 2024.09.11

Michelangelo: Conditional 3D Shape Generation based on Shape-Image-Text Aligned Latent Representation

내 맘대로 Introduction MeshAnything 코드를 뜯어보다가 이 논문의 encoder를 사용하는 것을 보고 읽어보았는데 아이디어가 좋은 것 같다. 다루는 문제는 image to mesh 혹은 text to mesh 문제인데 image/text latent에서 바로 mesh로 가는 방식 대신 중간 매개체로 3D shape latent를 구해놓는 것이 핵심이다. 또한 3D shape latent가 image/text latent와의 유사성을 유지하도록 강제함으로써 기존 방대한 양으로 구해둔 image/text prior도 취할 수 있도록 했다.  image/text보다 mesh에 더 가까운 차원인 3D shape latent로부터 diffusion해서 mesh를 만들기 때문에 divide-an..

Paper/Generation 2024.08.30

Sapiens: Foundation for Human Vision Models

내 맘대로 Introduction 제목과 대문 사진만 봐도 드디어 나올게 나왔나 싶은 Human foundation model. 네이버랩스 유럽에서 Croco-man이라는 이름으로 human foundation model을 CVPR24에 시도하긴 했지만 스케일에서 압도적이다. 300만장의 사람 사진 + A100 1024장으로 18일 동안 학습... 해상도도 1024x1024에다 파라미터 수가 20억개가 넘는다.  핵심 내용은 사실 없다. Masked autoencoder (MAE) 방식을 토씨 하나 안 빼놓고 그대로 적용한 것이다. 대신 데이터가 human으로 한정되고 엄청나게 많이 때려넣었다는 것이 유일한 차이. 그래도 개인적으로 논문이라기 보다 테크니컬 리포트에 가까운 것 같다. MAE 방식으로 hu..

Paper/Human 2024.08.26

iHuman: Instant Animatable Digital Humans From Monocular Videos

내 맘대로 Introduction ExAvatar와 같은 문제, 다른 접근법. 하지만 mesh는 조금 더 빠르고 mesh 품질이 조금 더 좋은 느낌. rigging은 조금 더 부자연스러운 느낌.  video to animatable 문제를 풀기 위해 SMPL에 3DGS를 할당하고 video sequence를 이용해서 3DGS property를 업데이트하는 방식. 수렴이 되면 3DGS가 그럴듯한 렌더링을, SMPL이 다양한 자세를 제공한다.  이 논문의 전제 조건도 ExAvatar와 같이 SMPLX이 fitting되어있다는 것을 깔고 간다. SMPL face마다 할당된 3DGS가 skinning weight를 갖고 있다는 점이 차이점. skinning weight를 추가로 업데이트하기 때문에 보다 자연스러..

Paper/Human 2024.08.20

The Wave Kernel Signature:A Quantum Mechanical Approach to Shape Analysis (a.k.a WKS)

내 맘대로 Introduction 2010년 전후로 3D point descriptor를 만드는 연구가 인기가 꽤 있었나보다. 이 논문 역시 HKS와 마찬가지로 mesh vertex descriptor를 어떻게 하면 locality, globality 다 만족시켜서 만든 수 있을지 고민한 논문이다. 맨 처음 봤을 때 컨셉을 이번엔 열역학을 넘어서 양자역학에서 가져왔다길래 뇌절 논문인 줄 알았는데 아니었다.  핵심 아이디어는 mesh 형상에 따라 열이 퍼지는 양상을 descriptor로 썼던 HKS와 비슷하게, mesh vertex를 입자 1개로 보고 입자 하나에 집중되는 파동 에너지를 descriptor로 쓰는 것이다. 자세히는 이해를 못했다만 컨셉만 보면, 입자 1개는 주변 입자들과 인력/척력을 주고 ..

Paper/3D vision 2024.08.16

A Concise and Provably Informative Multi-Scale Signature Based on Heat Diffusion (a.k.a HKS)

내 맘대로 Introduction *요즘은 최신 논문을 이해하는 것보다 과거 논문을 이해하는게 더 어려운 것 같다. 기념비적인 논문들은 특히 수학적으로 탄탄하기 때문에 내 부족한 수학 밑천으로는 이해하기가 벅차다. 이 논문도 마찬가지인 논문이고, 사실 상 10% 정도 컨셉 이해에 그쳤다. 정리 수준이 부끄럽지만 그래도 10%라도 잘 기억해보려고 기록해본다.  이 논문은 간단히 말하면, Mesh vertex를 xyz, normal 외에 어떤 property로 표현할 수 있을지 고민한 느낌이다. 다시 말하면 mesh vertex descriptor를 만드는 방법을 설명한다. 3D correspondence나 segmentation에 응용할 수 있는 기본기다. 핵심 아이디어는 열역학에서 나왔다. 열이 어떤 형..

Paper/3D vision 2024.08.16