분류 전체보기 538

PointAvatar: Deformable Point-based Head Avatars from Videos

내 맘대로 Introduction point cloud를 이용하여 head avatar를 표현하되, 3DMM shape,pose parameter에 binding되게 만들어서 animation이 가능하도록 복원하는 것을 목표로 하는 논문이다. 3DGS가 발표되기 이전 논문.  핵심 아이디어는 3DMM vertex와 대응되도록 point cloud를 생성한 뒤, 3DMM LBS 를 통해 변형해가면서 렌더링하는 것이다. 지금 보면 3DGS와 매우 유사한 논문. 다만 isotropic gaussian이라는 점이 차이.  메모1) canonical point cloud canonical FLAME 대응 관계 만들기2) canonical point cloud + offset  == ..

Paper/Human 2024.04.24

PSAvatar: A Point-based Morphable Shape Model for Real-Time Head Avatar Animation with 3D Gaussian Splatting

내 맘대로 Introduction FLAME vertex + 얼굴 표면 normal 따라 추가 point 에 3DGS을 할당해서 얼굴 아바타를 복원한 논문이다. 크게 보면 3DGS 복원 논문인데 3DGS 하나하나가 FLAME 모델 vertex이거나 FLAME 모델 특정 표면에 binding 되어 있는 형태이기 때문에 pose, expression parameter에 따라 변형이 가능하다는 점이 장점이다. 그래서 Morphable! 핵심 아이디어는 3DGS의 기준이 되는 point들을 model vertex만 쓴 것이 아니라 얼굴 주변 point까지 확장했다는 점이다. 안경, 머리 표현력을 훨씬 좋을 것 같음. densification은 안하는 듯? 메모 기존에는 위 그림에서 파란점들에만 3DGS를 할당하..

Paper/Human 2024.04.23

Multi-View Mesh Reconstruction with Neural Deferred Shading

내 맘대로 Introduction 이름 그대로 deferred shading을 neural network로 대체한 것이다. deferred shading이란 내용 자체는 geometry -> rendering 과정에서 pixel 값을 직접 계산하는 것이 아니라 geometry -> position,normal,depth -> rendering 순서로 계산하는 방식을 말한다. 직접 바로 계산하는 pixel shading과 달리 중간 산물을 만들고, 중간 산물로 shading을 하는 식으로 "지연"시켰다는 의미로 deferred shading이라고 불린다. 이 내용을 가져와서 multiview image에서 geometry를 만들어내는데, estimated geometry -> position, normal..

Paper/3D vision 2024.04.22

Learning Personalized High Quality Volumetric Head Avatars from Monocular RGB Videos

내 맘대로 Introduction 2023 CVPR monoavatar라는 논문으로 video to implicit head avatar 논문이다. 3DMM(FLAME) + NeRF representation으로 다양한 표정의 얼굴 이미지를 찍어낼 수 있다. 핵심 아이디어는 FLAME vertex 마다 learnable feature를 할당 -> NeRF 방식으로 compositing해서 픽셀화하는 방식으로 학습시키는 것이다. 이제는 좀 알려진 방식이지만 2023년이므로 이게 첫 시작이었지 싶다. 또, CNN(UV map) feature를 쓰는 것인 3DMM 이용할 때 효과적이라는 것을 밝힘. 메모 0) 배경 제거, 3DMM 피팅, camera pose 찾기 1) CNN(Ref. uv map - defo..

Paper/Human 2024.04.22

Multi-HMR: Multi-Person Whole-Body Human Mesh Recovery in a Single Shot

내 맘대로 Introduction single image에서 multi person detection하는 논문. SMPLX 파라미터를 찾는 방식으로 검출해내는데 카메라로부터 거리까지 추정하는 절대적 검출이라는 것이 차이점이다. 대규모 데이터를 먹은 DinoV2를 backbone으로 쓰기 때문에 generalization도 좀 더 잘되는 것 같고 실제로 해봤을 때 기존 ROMP 같은 논문들보다 안정성이 뛰어나다. 메모 1) human patch detection (어느 patch에 사람 머리가 있는지) 2) offset regression (patch 내에서 디테일한 위치) 3) Cross attention 기반 regression ( human param + distance) 파라미터 dimension ..

Paper/Human 2024.04.22

Revising Densification in Gaussian Splatting

내 맘대로 Introduction 메타에서 나온 논문인데 기존 3DGS의 고질병인 1) densification이 제멋대로여서 성능/메모리 이슈 있음 2) pruning을 opacity의 주기적 초기화로만 처리해서 학습에 충격이 가해짐 -> 성능 문제로 이어짐 3) threshold가 사용되는데 gradient-threshold여서 직관적이지 않음. -> 튜닝이 어려움. 위 3가지를 완화하는 방법론을 소개하는 논문이다. 3DGS를 처음 읽었을 때 내가 바로 느꼈던 문제점인데 바로 해결에 착수한 논문이라 신기하면서 반갑다. 핵심 아이디어는 3) threshold를 pixel error 기반으로 다시 만들어 직관적 튜닝이 가능하도록, 2) opacity를 0으로 초기화하지 않고 매번 찔끔찔끔 줄이도록 하는 ..

Paper/3D vision 2024.04.22

IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models

내 맘대로 Introduction 크게 보면 ControlNet이랑 마찬가지로 학습된 Diffusion model에 condition을 가하는 방법론인데 차이점이 존재한다. 1) 특별한 2D conditioned map이 아니라 이미지 자체를 condition으로 넣을 수 있다. CLIP(image)를 conditioned map으로 씀. 2) cross attention layer만 추가한 수준이라 원 모델을 훨씬 덜 건드린다. 3) 기존 text feature와 상호 조절이 가능하다. (controlnet은 입력에 넣는 것이라 text랑 상호 조절은 안됨) 다른 표현으로는 prompt를 건드는 수준이다. 위와 같이 장점이 명확하기 때문에 최근에는 controlnet보다 더 자주 쓰는 방법인 것 같다...

Paper/Generation 2024.04.19

Adding Conditional Control to Text-to-Image Diffusion Models (a.k.a ControlNet)

내 맘대로 Introduction ControlNet은 워낙 유명해서 논문을 보지 않았어도 무슨 역할을 하는 기술인지 알 수 밖에 없다. 이제 개인, 팀 단위의 학습 범위를 넘어선 Stable Diffusion trained model들은 재학습이나 튜닝 조차 손대기 어려운데 SD 모델을 고정해둔 채로 원하는 condition을 만족한 이미지를 생성하도록 튜닝하는 방법론이다. 핵심 아이디어는 모델 전체는 고정해두고 입력을 latent로 변환해주는 encoder 부분만 손을 대는 것이다. encoder는 전체에 비하면 아주 작은 부분일 뿐이지만 source를 만드는 역할이라 비중은 상당한 부분이기 때문이다. 메모 내용은 사실 위 그림 한장이 끝이다. 1) 입력을 받는 부분의 copy를 만들고 원래 것은 고..

Paper/Generation 2024.04.19

Champ: Controllable and Consistent Human Image Animation with 3D Parametric Guidance

내 맘대로 Introduction Animate Anyone 이랑 타겟하는 문제가 같다. 입력 이미지 1장 주어지고 pose guidance 여러개 주어졌을 때 해당 이미지 내 사람이 주어진 동작을 하는 영상을 만들어내는 것인데 이 논문의 차이점은 pose guidance를 openpose keypoint가 아닌 SMPL로 확장했다는 점이다. 이전에 dense pose uv map을 쓰는 논문도 있었던 것 같은데 아주 단순한 아이디어를 빠르게 구현한 논문 같다. vertex 위치를 쓰는 것이 아니라 depth, normal, semantic, keypoint 쓸 수 있는 걸 다 썼다. 메모 animate anyone이랑 구조가 거의 동일하다. openpose keypoint map 들어가던 곳을 SMPL..

Paper/Generation 2024.04.19

VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis

내 맘대로 Introduction long audio + single image 로부터 long video를 만들어 내는 내용. 목적 자체는 가상 대화를 활성화할 수 있게 하는 것이다. 소리만 갖고 전화하는 것을 넘어서 적절하게 생성된 이미지로 영상통화를 하는 것처럼 만들어 낸다는 것이 궁극적 목표다. 그 초기 연구라고 보면 될듯. 기존 연구는 소리랑 매치가 안되거나, 얼굴이 부자연스럽거나, 몸동작은 빠져있고, 자세 표현의 다양성이 부족하다는 것 등 하나씩 빠지는 점이 있지만 이 논문은 소리, 표정, 몸동작, 다양성까지 다 커버하는 것을 목표로 한다. 핵심은 역시나 diffusion이다. 메모 1) 소리에서 SMPL 파라미터 만들기 2) 입력 이미지에서 SMPL reference(특히 texture) 잡..

Paper/Generation 2024.04.19