Paper 191

HumanRF: High-Fidelity Neural Radiance Fields for Humans in Motion (a.k.a Dataset ActorHQ)

내 맘대로 Introduction 160대로 구성된 돔 형태의 카메라 시스템에서 8명의 배우가 100초 정도의 모션을 찍은 데이터를 공개한다. 데이터셋 공개가 주목적이고 뒤에 따라 붙는 temporal NeRF는 human이라는 특성을 딱히 쓰진 않고 Instant-NGP + time dimension으로 구현함. 데이터가 있으니 이를 활용한 복원 알고리즘 구현까지 해본 것 같다. 참고해야 할 점은 TensorRF + InstantNGP를 구현해낸 코드. 그리고 실험을 되게 한 눈에 파악하기 쉽도록 잘 했는데 정리 방식을 기억할 만 하다. 메모전체 파이프라인은 간단하다.1) feature volume 표현법을 InstantNGP와 같이 hash grid로 표현을 하되, TensorRF의 vector-ma..

Paper/Human 2024.05.28

ViViD: Video Virtual Try-on using Diffusion Models

내 맘대로 Introduction알리바바에서 낸 Virtual try on 논문. 알리바바가 VTON 기술에 힘을 싣고 있는 것 같다. 사람 + 옷 이미지 생성 관련 논문을 주로 쓰는 듯. 데이터도 적극적으로 모으고, 찍고 관리하는 것 같다. 데이터 규모에서 비빌 수가 없어서 성능 차이가 더 커지는 듯. 이 역시 조립형 논문이다. SD1.5 + AnimateDiff temporal module + CLIP 을 섞어서 VTON 이미지를 만들어 내는 논문. 다만 temporal module을 끼면서 영역을 비디오로 확장했다는 점이 차이. 메모VVT 하나만 존재했던 cloth-video 데이터셋의 한계를 느끼고1) 9700 쌍2) 832 624 의 고해상도데이터셋을 쇼핑몰로부터 제공받아 새로 만들었다. non..

Paper/Generation 2024.05.23

ReconFusion: 3D Reconstruction with Diffusion Priors

내 맘대로 Introduction CAT3D 의 이전 작. 하위호환이라고 할 수 있다. diffusion model을 이용한 multi view image 생성 + NeRF로 3D recon이 포함된 내용.  핵심 아이디어는 3d recon을 위한 NeRF 외에 pixel-NeRF를 붙여서 rendered feature를 만들고, 이를 diffusion model의 입력으로 활용하는 식으로 3d consistent novel view image 생성을 유도함. 내용은 엄청 간단함. 메모이것도 그림으로 설명이 끝남.1) 크게 Zip-NeRF를 학습시키는 거임2) 부족한 novel view 이미지는, pixel-NeRF로 찍어낸 feature map + input 이미지를 받는 diffusion model에..

Paper/Generation 2024.05.22

CAT3D: Create Anything in 3D with Multi-View Diffusion Models

내 맘대로 Introduction Diffusion model로 multiview image를 생성해낸 뒤, NeRF를 붙여 복원해내는 기존 방식들의 상위 호환 버전 논문이라고 할 수 있다. diffusion model의 성능이 껑충 뛰어오른 것도 성능 향상의 한 이유라고 볼 수 있겠지만, novel view synthesis 과정에서 diffusion model을 활용하는 아이디어가 깔끔하고 좋았다.  주어진 모든 view를 noise없이 넣고, novel view는 noise로 넣어서 diffusion 하는 방식. novel view에만 집중할 수 있도록 구성했다. 구조적으로 3D self attention이 효과가 좋았다는 것을 밝혔다. 메모사실 그림으로 설명이 끝난다.multiview image로..

Paper/Generation 2024.05.22

3D Face Reconstruction with the Geometric Guidance of Facial Part Segmentation (3DDFA v3)

내 맘대로 Introduction3DMM (여기선 FLAME 안쓰고 BFM, FaceVerse 씀, 아마 서양인 데이터 bias 때문이지 않을까.)  을 이미지에 fitting하는 논문. HMR의 face version인데, 3DDFA version3인 셈이다.  핵심 아이디어는 기존 논문들이 keypoint에 집중하던 걸 확장해서 segmentation mask를 이용한 fitting이다. segmentation mask를 사용하는 아이디어 자체는 흔하지만 기존 방식과 다르게 단순히 렌더링 결과만 놓고 pixel by pixel로 비교하는 것이 아니라, 새로운 loss를 제안해서 풀었다.  (2d segmentation -> 3d lifting ) (segmented 3d model) mesh geo..

Paper/Human 2024.05.17

FeatUp: A Model-Agnostic Framework for Features at Any Resolution

내 맘대로 Introduction 기본 아이디어가 학습 잘 된 backbone에서 나오는 feature들을 고해상도로 변환할 수 없을까? 라는 질문에서 시작된다. DinoV2 같은 foundation backbone을 가져와서 사용하는 것이 흔한 요즘, 224x224로 제한된 해상도는 활용에 걸림돌이 되곤 한다. 이러한 답답함을 완화하기 위해서 뒤에 갖다 붙일 수 있는 feature upsampler를 만들고자 했다.  upsample -> down sample 원본 feature 방식으로 cyclic하게 학습해서 나중엔 upsampler만 가져와서 쓰는 방식 두 가지 구현 방식이 존재하는데 1) 학습 1번 완료 후 계속 고정하고 사용하는 upsampler2) 이미지 1장마다 overfitting시켜서..

Paper/Others 2024.05.13

Towards Metrical Reconstruction of Human Faces (a.k.a MICA)

내 맘대로 Introduction 이 논문은 2022년도 논문이라 최신 내용과는 거리가 멀지만, 최신 3DMM을 활용한 논문들이 fitted FLAME 모델을 전제로 하는 만큼 preprocessing에서 자주 언급되기에 한 번 짚고 넘어간다.  single image가 주어졌을 때 FLAME shape,expression,jaw 파라미터를 추정하는 backbone + 비디오가 주어지면 fitting하면서  head pose + color까지 추가로 찾는 논문이다. 기타 논문에서 많이 활용되는 만큼 성능은 좋아 보인다. 메모1) ArcFace라는 pretrained face recognition network를 가져와서 backbone으로 활용. 마지막 resblock 3개 빼고는 freeze됨.2) 마..

Paper/Human 2024.05.10

Global-correlated 3D-decoupling Transformer for Clothed Avatar Reconstruction

내 맘대로 Introduction PIFU랑 동일한 task를 다루지만 backbone을 ViT로 변경하고, xy, yz, zx triplane을 형성하는 식으로 feature representation을 변경한 논문. 후에 이미지에 fitting 된 SMPL face를 이용해 feature interpolation하는 식으로 body prior를 추가한 점이 또 있음. 전반적으로 backbone 탐색과 feature representation 변경이 차이점이고 PIFU 시리즈 논문이라고 봐도 될 것 같다. 메모사실 그림만 봐도 이해가 됨...1) image latent 생성2) 정면은 self attention, side/top view는 cross attention으로 feature plane 생성3..

Paper/Human 2024.05.08

Improving Diffusion Models for Authentic Virtual Try-on in the Wild

내 맘대로 Introduction virtual-try-on을 diffusion 모델 써서 하는 논문. 요즘 나오는 conditioned image generation의 추세를 따라, IP-Adapter + SDXL + CLIP + ControlNet를 섞은 논문.  SD1.5 혹은 SDXL이 워낙 강력하다보니 frozen SD를 갖다 붙이는 식의 방식이 레시피의 핵심이 되었고, 자연스레 생성형 논문은 알고리즘적 진일보가 contribution이라기 보다 어떤 식의 조합이 효과적인지 밝히는 실험적 진일보가 contribution인 것 같다. 이 논문은 어떤 pretrained network들을 어떻게 조합해야 원하는대로 virtual try on 이미지를 생성할 수 있는지 조합 레시피를 설명하는 논문. ..

Paper/Generation 2024.05.07

Delicate Textured Mesh Recovery from NeRF via Adaptive Surface Refinement

내 맘대로 Introduction 알고리즘적 개선이 아닌 파이프라인 논문. NeRF + diff.renderer를 이용한 refinement를 붙여서 품질 좋은 mesh를 얻어내는 파이프라인을 만들고 그 속도를 최대한 가속한 논문. 최종 출력이 Blender나 unity 같은 상용툴에 입력으로 쓰일 수 있는 OBJ 같은 형태.  상용툴에서 색상을 diffuse + specular로 분리해서 다루므로 논문에서도 diffuse, specular로 색깔을 나누어 다루었을 뿐 나머지는 전부 기존 논문들과 같다. 가져다 쓴 조합형 논문. 가속화하고 구현해낸 것에 의의가 있음. 메모총 2 stage1) stage1- grid-based NeRF로 빠르게 coarse geometry + appearance 복원2) ..