Paper/Human 88

HeadCraft: Modeling High-Detail Shape Variations for Animated 3DMMs

내 맘대로 Introduction NPHM이 고가의 레이저 스캔 장비로 기존 데이터셋과 다르게 머리카락을 포함한 데이터셋을 공개한 것에서 출발해서, FLAME 모델에서 부재하는 hair 표현력을 보강한 논문이다. 한마디로 FLAME에 갖다붙일 수 있는 hair 모델이다. 핵심 아이디어는 3D SCAN - registered FLAME = displacement를 학습 데이터로 사용해서 displacement generative model을 만든 것. 요즘 대세인 UV domain representation을 사용해서 displacement를 2차원으로 다루었다는 것도 눈에 띈다. (확실히 요새 UV가 대세인 것 같다.) 2D UV 도메인으로 오는 순간 CNN의 spatial inductive bias를 ..

Paper/Human 2024.12.27

Topo4D: Topology-Preserving Gaussian Splatting for High-Fidelity 4D Head Capture

내 맘대로 Introduction Multiview video -> uniform topology Gaussian Mesh per frame 논문. 캘리브레이션/싱크 완벽한 카메라 세팅에서 찍은 비디오가 준비된 상황에서 첫 프레임만 MVS+Registration으로 gaussian mesh 초기화하고 이후부터는 tracking 하듯이 움직여서 나머지 프레임을 찾는 방식이다.  기존 방식이 매프레임 registration하고 나서 tracking하는 방식인데 첫프레임만 그렇게 하고 나머지는 최적화로 풀어서 속도가 빠르다는 것도 contribution으로 가져간다.  핵심이 되는 내용은 안정적으로 GS를 매 프레임 최적화할 수 있도록 넣은 scale loss, prior loss 들이다. 마지막에 3DGS ..

Paper/Human 2024.12.26

NICP: Neural ICP for 3D Human Registration at Scale

내 맘대로 Introduction Neural ICP라는 이름에서 바로 느낌 오듯이 기존 ICP 알고리즘에서 distance measure를 neural net으로 대체한 논문이다. euclidean distance로 nearest-neighbor를 찾아 거리를 좁히는 방식인데, nearest match가 잘되었을 때만 효과적이고 잘못되었을 때는 완전히 망가지는 방식이기 때문에 network가 semantic 정보를 기반으로 무조건적 nearest를 좀 걸러주길 기대하는 방식. ICP도 그렇듯 초기화가 굉장히 성능을 좌지우지하는데, 이 역시 아무리 network를 쓴다고 해도 target shape에서 크게 벗어난 초기값에서 시작하는 것을 무리다. 그래서 기존 방식을 stage 1으로 붙이고 제안하는 방..

Paper/Human 2024.12.23

FFHQ-UV: Normalized Facial UV-Texture Dataset for 3D Face Reconstruction

내 맘대로 Introduction 이 논문은 FFHQ 데이터세에 있는 얼굴들의 texture를 뽑아내서 데이터셋화 한 논문이다. 이미지 말고는 주어진 정보가 아무것도 없는 FFHQ 데이터셋에서 정해진 UV 도메인의 texture map을 뽑아내는 것이 목적이기 때문에 이미지 to scan, scan unwrap 등 여러 요소가 끼어들어야 했다. 결과적으로 기존에 등장했던 여러 SOTA 알고리즘을 총집합해서 끄끝낸 만들어낸 데이터셋 내용이다.  데이터셋 논문이다 보니 알고리즘 적인 내용보다 어떻게 처리했는지 디테일 위주다. 메모크게 3단계다.1) 이미지를 InterFaceGAN으로 multiview + 머리 없애고 + 안경 없애고 2) Deep3D 알고리즘을 자체 학습한 것을 돌려 3D Mesh 뽑아내기3..

Paper/Human 2024.12.11

Pixel Codec Avatars

내 맘대로 Introduction Telecommunication을 목표로 하는 메타 연구 중 하나. 사람 1명에 대한 realistic avatar를 만드는 것을 주목적으로 하되, 실제 위 예시처럼 telecommunication 상황에서 real time으로 사용 가능하도록 하는 것도 염두했다. 여러 사람이 있는 장면을 렌더링한다고 하면 실제 머리에 해당하는 pixel은 적은 영역이므로 적은 pixel만 실시간 렌더링해서 연산량을 줄일 수 있도록 NeRF 컨셉을 적용했다고 한다.  핵심 아이디어는 latent to position map(xyz) + feature -> MLP 붙여서 neural rendering 이다. multiface dataset 세팅에서 취득한 초고품질 데이터로 학습을 시켜서 ..

Paper/Human 2024.12.03

Cross-view and Cross-pose Completion for 3D Human Understanding

내 맘대로 Introduction CVPR 2024에 나온 Croco human data 버전이다. 드래프트가 arxiv에 공개되었을 때 읽어봤었는데 CVPR2024에 나왔다. Croco라는 논문이 geometry를 타겟으로 하긴 했지만 워낙 좋은 컨셉이다 보니 도메인을 사람으로 한정한 내용이다. 사실 알고리즘적으로 더 뛰어난 내용이 있다기 보다 사람 데이터로 하면 어떤지 실험해본 테크니컬 리포트에 가깝다. 기존 Croco와 달리 human은 non-static object이기 때문에 view point가 달라지는 것 뿐만 아니라 pose가 달라지는 것도 포함되기에 이름에 cross-pose가 추가되었을 뿐 구조와 방식은 동일하다. 데이터가 바뀐 것. 결과적으로 MAE에 때려넣은 것보다 좋은 성능을 보이..

Paper/Human 2024.11.14

3D Face Tracking from 2D Video through Iterative Dense UV to Image Flow

내 맘대로 Introduction 내용을 보면 densepose의 face 버전 논문이다. 컨셉 자체는 당연히 있을 법한데 face 추세가 3DMM을 활용하는 방식으로 흘러가다보니 그동안 나오지 않아나 보다. 내가 해볼까 했는데... 2024년에 딱 나와버려 아쉽기도 하다. 이미지가 들어갔을 대 face uv map가 출력이다. 근데 방식을 unwrap uv map 에서 image로 가는 flow를 계산하는 방식이다. face unwrap map도 정면 얼굴 구조를 잃지 않을 것이고, 이미지들은 정면 얼굴 위주일 것이기 때문에 optical flow가 심하게 뒤집히는 경우가 적어 합리적인 방식 같다.  Segformer, RAFT 같은 검증된 구조를 차용한 것도 안정적인 성능에 한 몫 한 것 같다. su..

Paper/Human 2024.10.30

Monocular Identity-Conditioned Facial Reflectance Reconstruction

내 맘대로 Introduction 이 논문은 image to reflectance를 풀고자 한 논문이다. UV domain의 결과값을 내뱉는 기타 논문들과 달리 입력 이미지의 pixel마다 어떤 reflectance property를 갖고 있는지 추정한다. 위 그림의 swapping까지가 논문의 결과물이고 이후 mesh로 만드는 과정은 Deep3D와 같은 image to mesh lifting 알고리즘을 붙여야 한다.  핵심 아이디어는 light 데이터가 스튜디오에서 찍을 수 밖에 없어서 부족하니, 일반 이미지에 녹아있는 prior를 가져오겠다는 컨셉이다. 그래서 입력을 받는 encoder가 multi-modal encoder여서 normal 이미지도 받고 diffuse 이미지도 받고 다 받는다.  그리..

Paper/Human 2024.10.25

3D Face Modeling via Weakly-supervised Disentanglement Network joint Identity-consistency Prior

내 맘대로 Introduction 찾아보니 linear face model에서 더 나아가기 위해서 Auto encoding 컨셉으로 nonlinear face model을 만들고자 하는 시도가 굉장히 많았던 것 같다. 크고 작은 차이가 있지만 결국 shape latent, expression latent를 어떻게 잘 구하느냐, 어떻게 잘 decoding하느냐, 어떻게 데이터를 구성하느냐 틀을 벗어나지 않는 형태다. 이 논문 역시 똑같이 VAE로 shape/expression latent space를 만들고 decoding하는 논문인데, id가 같은 SCAN들이 그룹핑되어 있는 데이터를 활용해서 shape, expression을 어떻게 decoupling할지를 고민한 내용이 들어갔을 뿐 전체 틀은 같다. ..

Paper/Human 2024.10.18

3D Face Modeling from Diverse Raw Scan Data

내 맘대로 Introduction 이 논문은 3D SCAN을 입력으로 넣으면, 단일 topology mesh로 나오도록 하는 모델이다. 사실 상 pointcloud to mesh에 가까운 논문. 컨셉은 그렇다만 방식은 point grouping은 아니고 scan to latent to mesh 방식이다. scan을 latent로 압축하고 정해진 topology의 mesh를 내뱉는 decoder를 붙인 형태다. 그래서 설명하길 nonlinear face model이라고 설명한다.  2019년 논문으로 시간이 조금 됐지만 그래도 컨셉 자체가 좋은 것 같아서 읽었다. 개선 버전 논문이 나오면 좋을 것 같다는 생각이 들기도 한다.  메모입력은 3D SCAN에서 무작위로 N개 point를 뽑아 flatten한 것..

Paper/Human 2024.10.18