분류 전체보기 562

VideoMAE: Masked Autoencoders are Data-EfficientLearners for Self-Supervised Video Pre-Training (+VideoMAE2)

내 맘대로 Introduction SSL 방법의 인기가 올라가는 시기에 video 데이터에 적용 가능한 masked auto encoding 기법을 고민한 내용이다. 사실 특별하다기 보다 직관적으로 떠올렸을 때 이렇게 하면 될 것 같다... 싶은 방식대로 한 방식이라서 누구보다 빠르게 선점한게 눈에 띈다.  핵심 아이디어는 t frames을 쌓은 뒤, 같은 위치의 이미지 patch를 masking 하고, token화 할 때도 같은 위치 이미지 patch끼리 쌓아서 사용한 점이다. 인접 프레임의 다른 patch를 보고 복붙하듯이 학습될 여지가 더 많으므로 masking ratio를 90%까지 올리는 것이 효과가 좋았다고 발견한 것도 약간의 포인트다. 메모비디오 인접 프레임을 쌓는 방식은 masking한다 ..

Paper/Others 2024.10.21

Learning Implicit Functions for Dense 3D Shape Correspondence of Generic Objects

내 맘대로 Introduction 주제는 관심에서 벗어나도 한참 벗어났지만, 3D dense correspondence라는 관점에서 참고할 만할까 해서 읽은 22년도 논문. 어떻게 하면 효과적으로 semantic embedding을 할 수 있을지 고민한 논문으로 embedding space 상의 거리로 correspondence를 찾아낸다.  뭔가 이것저것 들어가있지만 결국 이것도 VAE와 95% 동일하다. 입력으로 들어간 N point와 별개로 중간에 query point가 따로 들어간다는게 차이일 뿐 거의 동일하다. 서로 다른 shape의 object를 대상으로 하다보니 mutual correspondence가 애초에 불가능하고, 그렇기 때문에 query point로 지정해서 correspondenc..

Paper/Others 2024.10.18

3D Face Modeling via Weakly-supervised Disentanglement Network joint Identity-consistency Prior

내 맘대로 Introduction 찾아보니 linear face model에서 더 나아가기 위해서 Auto encoding 컨셉으로 nonlinear face model을 만들고자 하는 시도가 굉장히 많았던 것 같다. 크고 작은 차이가 있지만 결국 shape latent, expression latent를 어떻게 잘 구하느냐, 어떻게 잘 decoding하느냐, 어떻게 데이터를 구성하느냐 틀을 벗어나지 않는 형태다. 이 논문 역시 똑같이 VAE로 shape/expression latent space를 만들고 decoding하는 논문인데, id가 같은 SCAN들이 그룹핑되어 있는 데이터를 활용해서 shape, expression을 어떻게 decoupling할지를 고민한 내용이 들어갔을 뿐 전체 틀은 같다. ..

Paper/Human 2024.10.18

3D Face Modeling from Diverse Raw Scan Data

내 맘대로 Introduction 이 논문은 3D SCAN을 입력으로 넣으면, 단일 topology mesh로 나오도록 하는 모델이다. 사실 상 pointcloud to mesh에 가까운 논문. 컨셉은 그렇다만 방식은 point grouping은 아니고 scan to latent to mesh 방식이다. scan을 latent로 압축하고 정해진 topology의 mesh를 내뱉는 decoder를 붙인 형태다. 그래서 설명하길 nonlinear face model이라고 설명한다.  2019년 논문으로 시간이 조금 됐지만 그래도 컨셉 자체가 좋은 것 같아서 읽었다. 개선 버전 논문이 나오면 좋을 것 같다는 생각이 들기도 한다.  메모입력은 3D SCAN에서 무작위로 N개 point를 뽑아 flatten한 것..

Paper/Human 2024.10.18

Mixture of Volumetric Primitives for Efficient Neural Rendering

내 맘대로 Introduction 이 논문은 2021년에 나와서 꽤 된 논문이긴 하지만 눈에 띄어서 그냥 읽었다. 핵심은 3D scan sequence (+image)가 주어졌을 때 빠르게 렌더링 가능한 형태로 어떻게 만드느냐 이다.  dynamic scene rendering을 어떻게 할 것이냐를 고민한 논문. 핵심 아이디어는  mesh face 마다 직사각형 형태의 primitives를 할당하고, 나중에 렌더링할 때는 이 primitives만 읽어서 빠르게 렌더링하는 방식이다. 요즘 3DGS가 유행하는데, 사실 같은 컨셉을 보다 일찍 구현한 논문이라고도 볼 수 있겠다. 개인적으로 3DGS의 선구적 증명인 것 같다. 이 논문을 개선해서 3DGS가 탄생했다고 해도 괜찮을 수준. 메모이 당시에는 NeRF가..

Paper/3D vision 2024.10.16

MoSAR: Monocular Semi-Supervised Model for Avatar Reconstruction using Differentiable Shading

내 맘대로 Introduction 더하기 더하기 더하기 논문. 3d reconstruction 더하기 + texturemap inpainting 더하기 + lighting condition estimation 더하기. 결과적으로 이미지가 들어갔을 때 해당하는 3D MESH + diffuse, specular, albedo, lighting 등등 렌더링에 필요한 모든 파라미터가 추정된다. 듣기만 해도 어마어마하게 데이터가 필요해 보이는데 역시 890명의 light stage dataset를 자체구축해서 사용했다.  더불어서 렌더링에 필요한 모든 요소가 결과물로 나오기 때문에 differentiable rendering을 통해 photometric loss를 걸어줄 수 있기 때문에 in-the-wild 이미..

Paper/Human 2024.10.15

Face Editing Using Part-Based Optimization of the Latent Space

내 맘대로 Introduction 오랜만에 읽고 마음에 쏙 든 논문. 3D Mesh VAE를 학습한 논문인데 아이디어는 별 것 아닌 것처럼 보이지만 고개를 끄덕이게 되는 simple yet effective 내용. 3D mesh (topology는 정해져있음)를 VAE latent로 encoding하는 과정에서 part 별로 latent를 따로 뽑고, part latent끼리를 영향을 주지 않도록 (다른 part vertex 위치 변화에 간섭하지 않도록) 학습을 해두는 것이 핵심이다. 이렇게 학습을 하면 나중에 vertex를 손으로 수정함 -> 해당 파트 latent만 inverse optimization으로 찾아냄 -> decoding -> 수정된 vertex 위치를 갖는 mesh가 나오는 활용이 가능..

Paper/Human 2024.10.15

Generalizable and Animatable Gaussian Head Avatar (a.k.a GAGAvatar)

내 맘대로 Introduction 단일 이미지로 부터 Gaussian head를 만드는 논문. 3DMM prior를 사용하기 때문에 driving image에서 뽑아낸 3DMM을 사용할 경우, animatable해진다. 학습은 video 데이터셋을 이용해서 자기 자신의 3DMM prior를 사용하지만 inference 시에는 다른 사람 이미지의 3DMM prior를 사용하는 방식이다.  결과가 인상 깊고 될까? 싶은게 돼서 신기하다.  핵심 아이디어는 freezed DinoV2를 encoder로 써서 generality를 출발부터 챙긴 점. feature plane으로부터 front, back side GS 값을 예측하도록 한 점이다. 전면만 예측하면 front view에 치중되는 문제가 있는데 back..

Paper/Human 2024.10.14

Arc2Face: A Foundation Model for ID-ConsistentHuman Faces

내 맘대로 Introduction arcface 논문을 낸 그룹에서 후속 연구 느낌으로 낸 논문. arcface가 Face ID embedding을 훌륭하게 해주는 네트워크인 점을 이용해서 arcface embedding을 condition으로 사용하는 face 전용 diffusion model을 만들었다.  diffusion model을 학습시킬만큼의 높은 자유도 ID embedding이 확보되어야 하므로 Webface42M + FFHQ + CelebHQ를 섞어서 arcface부터 large scale로 다시 학습시키고, 그것을 다시 diffusion model 학습에 활용했다. SD의 새로운 버전이라고 볼 수도 있어서 기존 controlnet 같은 trick이 다 가능하다는 점도 눈에 띈다. 메모앞서..

Paper/Generation 2024.10.08

ArcFace: Additive Angular Margin Loss for DeepFace Recognition

내 맘대로 Introduction 논문에 face가 들어가서 face recognition이 본체인 것 같지만 사실 additive angular margin loss가 본체다. triplet loss와 같이 positive 대상과는 가깝게, negative 대상과는 멀게 embedding해야 하는 상황에서 쓸 수 있는 loss다. 조금 오래 된 논문이기도 한데 뒤늦게 읽었다. 엄청 유명한 방식. log-softmax와 비슷한데, 단순히 값을 input으로 넣는 것이 아니라, learnable embedding N개를 만들어두고, 가까운 embedding과의 "각도"의 cosine 값을 사용한다. 직관적으로 보면 feature 간의 각도를 벌리도록 설계하는 것. 여기다 마진을 조금 더 더해주면 분별력이 ..

Paper/Others 2024.10.07