Paper/Human 92

MeGA: Hybrid Mesh-Gaussian Head Avatar for High-Fidelity Rendering and Head Editing

내 맘대로 Introduction주어진 multiview-video + fitted FLAME 들로부터 animatable avatar를 만드는 것은 기존 많은 논문들과 동일한데, 머리카락 부분과 나머지 부분을 분리해서 학습시켜서 머리 바꿔치기가 가능하다는 점과, FLAME을 그대로 안쓰고 UV displacement을 중간 끼워넣어서 geometry가 더정확해지도록 만든 다음 처리했다는 점이 눈에 띈다. 결과가 재밌고 자연스러워서 인정 받은 느낌도 있다.  메모일단 전제 조건은 주어진 1객체마다 학습을 따로 한다는 점. 범용 모델은 아니다. subject A, B가 있으면 A, B 각각 학습하는 식.1) exp+pose parameter 입력으로 받았을 때 subject-specific displace..

Paper/Human 2025.04.04

Arc2Avatar: Generating Expressive 3D Avatars from a Single Image via ID Guidance

내 맘대로 Introduction 이 논문은 arc2face (얼굴 ID embedding으로부터 얼굴 이미지 만들어주는 SD)를 이용해서 3D animatable head를 만드는 논문. 핵심 아이디어는 FLAME 각 vertex마다 3D GS를 할당하고, ID embedding을 condition으로 주는 상태에서 "SDS" loss 만으로 학습시킨 점. text-to-3D에서 주로 쓰는 방법인데, arc2face가 text를 ID embedding으로 바꿔친 논문이다 보니 ID-to-3D가 가능해진 점을 바로 캐치하고 대입한 논문이라고 할 수 있다.  가능성이 아무리 열렸다고 해도 이를 SDS loss 만으로 위 결과를 만들어 내는 것은 쉽지 않았을텐데, 실험의 실험을 거듭한 결과이지 않을까. 논문..

Paper/Human 2025.04.03

LHM: Large Animatable Human Reconstruction Model for Single Image to 3D in Seconds

내 맘대로 Introduction single image에서 3d human avatar 얻어내려는 시도가 워낙 많아서 이제는 이 논문이 저 논문 같고, 저 논문이 이 논문 같다. 방법론은 대개 비슷한 것 같고 누가 누가 더 많은 데이터로 완성도 있게 만들었냐를 경쟁하는 듯 하다. 이 논문 역시 SMPLX query point (feature) + image feauter --> transformer --> per-vertex 3D Gaussian parameter 이런 흐름이다. Feature extractor로 Sapiens에 DINOv2까지 갖다 붙이고 transformer로 decoding 하는 방식.  메모목적이 뚜렷하다.SMPLX per-vertex 3DGS 를 만들건데, LBS로 자세 바꿨을..

Paper/Human 2025.03.25

ETCH: Generalizing Body Fitting to Clothed Humans via Equivariant Tightness

내 맘대로 Introduction Neural ICP랑 결이 비슷하긴 하지만 주어진 SCAN에 딱맞는 registration level의 SMPL를 얻는 것이 아니라, 옷 내부에 있는 skinned body만 얻어내는 논문. 어찌 보면 SMPL 표현력에 딱 맞는 최대 fitting을 찾는 논문이라 볼 수 있겠다. 옷으로 인한 displacement는 애초에 SMPL로 찾는 것이 문제기도 하니까.outer surface를 SMPL로 찾는 것이 맞는 문제인가? 라고 보여주면서 문제 정의 확실하게 하고 시작함. 주어진 각 SCAN point, x에 대해 가장 가까운 SMPL point를 찾아내는 컨셉. NICP랑 방향이 반대라고 할 수 있다.  이 논문은 조금 배경 지식이 필요했다. 각 3D point의 fe..

Paper/Human 2025.03.20

HeadCraft: Modeling High-Detail Shape Variations for Animated 3DMMs

내 맘대로 Introduction NPHM이 고가의 레이저 스캔 장비로 기존 데이터셋과 다르게 머리카락을 포함한 데이터셋을 공개한 것에서 출발해서, FLAME 모델에서 부재하는 hair 표현력을 보강한 논문이다. 한마디로 FLAME에 갖다붙일 수 있는 hair 모델이다. 핵심 아이디어는 3D SCAN - registered FLAME = displacement를 학습 데이터로 사용해서 displacement generative model을 만든 것. 요즘 대세인 UV domain representation을 사용해서 displacement를 2차원으로 다루었다는 것도 눈에 띈다. (확실히 요새 UV가 대세인 것 같다.) 2D UV 도메인으로 오는 순간 CNN의 spatial inductive bias를 ..

Paper/Human 2024.12.27

Topo4D: Topology-Preserving Gaussian Splatting for High-Fidelity 4D Head Capture

내 맘대로 Introduction Multiview video -> uniform topology Gaussian Mesh per frame 논문. 캘리브레이션/싱크 완벽한 카메라 세팅에서 찍은 비디오가 준비된 상황에서 첫 프레임만 MVS+Registration으로 gaussian mesh 초기화하고 이후부터는 tracking 하듯이 움직여서 나머지 프레임을 찾는 방식이다.  기존 방식이 매프레임 registration하고 나서 tracking하는 방식인데 첫프레임만 그렇게 하고 나머지는 최적화로 풀어서 속도가 빠르다는 것도 contribution으로 가져간다.  핵심이 되는 내용은 안정적으로 GS를 매 프레임 최적화할 수 있도록 넣은 scale loss, prior loss 들이다. 마지막에 3DGS ..

Paper/Human 2024.12.26

NICP: Neural ICP for 3D Human Registration at Scale

내 맘대로 Introduction Neural ICP라는 이름에서 바로 느낌 오듯이 기존 ICP 알고리즘에서 distance measure를 neural net으로 대체한 논문이다. euclidean distance로 nearest-neighbor를 찾아 거리를 좁히는 방식인데, nearest match가 잘되었을 때만 효과적이고 잘못되었을 때는 완전히 망가지는 방식이기 때문에 network가 semantic 정보를 기반으로 무조건적 nearest를 좀 걸러주길 기대하는 방식. ICP도 그렇듯 초기화가 굉장히 성능을 좌지우지하는데, 이 역시 아무리 network를 쓴다고 해도 target shape에서 크게 벗어난 초기값에서 시작하는 것을 무리다. 그래서 기존 방식을 stage 1으로 붙이고 제안하는 방..

Paper/Human 2024.12.23

FFHQ-UV: Normalized Facial UV-Texture Dataset for 3D Face Reconstruction

내 맘대로 Introduction 이 논문은 FFHQ 데이터세에 있는 얼굴들의 texture를 뽑아내서 데이터셋화 한 논문이다. 이미지 말고는 주어진 정보가 아무것도 없는 FFHQ 데이터셋에서 정해진 UV 도메인의 texture map을 뽑아내는 것이 목적이기 때문에 이미지 to scan, scan unwrap 등 여러 요소가 끼어들어야 했다. 결과적으로 기존에 등장했던 여러 SOTA 알고리즘을 총집합해서 끄끝낸 만들어낸 데이터셋 내용이다.  데이터셋 논문이다 보니 알고리즘 적인 내용보다 어떻게 처리했는지 디테일 위주다. 메모크게 3단계다.1) 이미지를 InterFaceGAN으로 multiview + 머리 없애고 + 안경 없애고 2) Deep3D 알고리즘을 자체 학습한 것을 돌려 3D Mesh 뽑아내기3..

Paper/Human 2024.12.11

Pixel Codec Avatars

내 맘대로 Introduction Telecommunication을 목표로 하는 메타 연구 중 하나. 사람 1명에 대한 realistic avatar를 만드는 것을 주목적으로 하되, 실제 위 예시처럼 telecommunication 상황에서 real time으로 사용 가능하도록 하는 것도 염두했다. 여러 사람이 있는 장면을 렌더링한다고 하면 실제 머리에 해당하는 pixel은 적은 영역이므로 적은 pixel만 실시간 렌더링해서 연산량을 줄일 수 있도록 NeRF 컨셉을 적용했다고 한다.  핵심 아이디어는 latent to position map(xyz) + feature -> MLP 붙여서 neural rendering 이다. multiface dataset 세팅에서 취득한 초고품질 데이터로 학습을 시켜서 ..

Paper/Human 2024.12.03

Cross-view and Cross-pose Completion for 3D Human Understanding

내 맘대로 Introduction CVPR 2024에 나온 Croco human data 버전이다. 드래프트가 arxiv에 공개되었을 때 읽어봤었는데 CVPR2024에 나왔다. Croco라는 논문이 geometry를 타겟으로 하긴 했지만 워낙 좋은 컨셉이다 보니 도메인을 사람으로 한정한 내용이다. 사실 알고리즘적으로 더 뛰어난 내용이 있다기 보다 사람 데이터로 하면 어떤지 실험해본 테크니컬 리포트에 가깝다. 기존 Croco와 달리 human은 non-static object이기 때문에 view point가 달라지는 것 뿐만 아니라 pose가 달라지는 것도 포함되기에 이름에 cross-pose가 추가되었을 뿐 구조와 방식은 동일하다. 데이터가 바뀐 것. 결과적으로 MAE에 때려넣은 것보다 좋은 성능을 보이..

Paper/Human 2024.11.14