전체 글 437

GP-VTON: Towards General Purpose Virtual Try-on via Collaborative Local-Flow Global-Parsing Learning

내 맘대로 Introduction 2022~2023 나온 논문이라서 조금 옛 것(이젠 1년만 지나도...)이지만 요즘 나오는 Virtual Try-on는 전부 다 diffusion인데 반해 이 논문은 그래도 warping + generation으로 방식이 차이가 있어서 기록해둔다. diffusion으로 넘어온 이후 이제는 굳이 다루지 않아도 되는 부분들이 있지만 그냥 간단히 기록해둔다. 메모큰 컨셉은 옷 파트 별로 warping field를 예측 한 뒤, warped image를 기준으로 generation하는 것이다.어설프게 나마 초기값을 잡아줘서 generation 난이도를 확 낮추는 것.DGT 학습 방식은 옷을 넣어입냐 빼입냐, 같은 차이를 반영하도록 유도하는 학습 방식.말이 길다. 하지만 핵심은 ..

Paper/Generation 2024.05.29

StableVITON: Learning Semantic Correspondence with Latent Diffusion Model for Virtual Try-On

내 맘대로 Introduction Virtual try on, CVPR2024에서 가장 유명세를 탄 논문. SD Freeze하고 각종 컨디션으로 fine tuning하는 방법이 고정되어 있으므로 구조적 특성은 크게 없다. 하지만 fine tuning의 핵심인 cross attention 과정에서 어떻게 하면 attention을 옷 위치로 유도할 수 있을지 augmentation과 loss function을 고민한 점이 눈에 띄는 논문. 깔끔한 코드 공개로 확인도 쉬우니 신뢰성이 높다. 메모1) 입력masked imagemask denposeCLIP(cloth)VAE(cloth)noise(model)독특하게 SD encoder만 붙여서 tuning을 했다. decoder는 왜 안 썼을까. 메모리 문제였나...

Paper/Generation 2024.05.28

Neural Cloth Simulation

내 맘대로 Introduction SMPL + garment mesh sequence가 주어졌을 때, garment의 변형을 학습해서 unseen pose에서의 garment deformation을 예측할 수 있도록 하는 논문. SMPL pose 파라미터에 의존적으로 변형 가능하도록 하므로 SMPL + Garmet binding이라고 보면 된다.  옷마다 따로 학습해야 하는 것이고, SMPL sequence + Garment mesh sequence가 주어져있어야 한다. 다른 말로 모든 vertex가 추적 가능한 상태여야 한다. garmet vertex, x가 매시점 tracking되어 있다는 것을 전제로 하기 때문이다.  사실 상 vision task라기 보다는 graphics task다.  메모문제를..

Paper/Human 2024.05.28

HumanRF: High-Fidelity Neural Radiance Fields for Humans in Motion (a.k.a Dataset ActorHQ)

내 맘대로 Introduction 160대로 구성된 돔 형태의 카메라 시스템에서 8명의 배우가 100초 정도의 모션을 찍은 데이터를 공개한다. 데이터셋 공개가 주목적이고 뒤에 따라 붙는 temporal NeRF는 human이라는 특성을 딱히 쓰진 않고 Instant-NGP + time dimension으로 구현함. 데이터가 있으니 이를 활용한 복원 알고리즘 구현까지 해본 것 같다. 참고해야 할 점은 TensorRF + InstantNGP를 구현해낸 코드. 그리고 실험을 되게 한 눈에 파악하기 쉽도록 잘 했는데 정리 방식을 기억할 만 하다. 메모전체 파이프라인은 간단하다.1) feature volume 표현법을 InstantNGP와 같이 hash grid로 표현을 하되, TensorRF의 vector-ma..

Paper/Human 2024.05.28

원격 서버에 있는 폴더 mount 하기

원격 서버에 있는 폴더로부터 파일을 받거나, 폴더로 파일을 올리는 경우 터미널을 통해 하면 귀찮을 때가 많다. 특히 커맨드 실수했다간 파일을 통째로 날려먹을 일도 생길 수 있으니 개인적으로 파일 올리고 내리는 것은 GUI로 보고 drag and drop, copy and paste하는게 안전하다고 생각한다. SSD를 ubuntu에 마운트하듯이 ssh로 붙는 원격 서버의 폴더를 로컬 PC에 마운트할 수도 있는데 그 방법을 정리한다. 아주 간단하다. sudo apt updatesudo apt install sshfs # file system sshfs를 설치해둔 뒤, 다음 커맨드 한 방이면 끝난다. sshfs -p PORT_NUMBER USER@xxx.xxx.xx:SERVER_FOLDER_PATH LOCAL..

Knowhow/Linux 2024.05.24

ViViD: Video Virtual Try-on using Diffusion Models

내 맘대로 Introduction알리바바에서 낸 Virtual try on 논문. 알리바바가 VTON 기술에 힘을 싣고 있는 것 같다. 사람 + 옷 이미지 생성 관련 논문을 주로 쓰는 듯. 데이터도 적극적으로 모으고, 찍고 관리하는 것 같다. 데이터 규모에서 비빌 수가 없어서 성능 차이가 더 커지는 듯. 이 역시 조립형 논문이다. SD1.5 + AnimateDiff temporal module + CLIP 을 섞어서 VTON 이미지를 만들어 내는 논문. 다만 temporal module을 끼면서 영역을 비디오로 확장했다는 점이 차이. 메모VVT 하나만 존재했던 cloth-video 데이터셋의 한계를 느끼고1) 9700 쌍2) 832 624 의 고해상도데이터셋을 쇼핑몰로부터 제공받아 새로 만들었다. non..

Paper/Generation 2024.05.23

ReconFusion: 3D Reconstruction with Diffusion Priors

내 맘대로 Introduction CAT3D 의 이전 작. 하위호환이라고 할 수 있다. diffusion model을 이용한 multi view image 생성 + NeRF로 3D recon이 포함된 내용.  핵심 아이디어는 3d recon을 위한 NeRF 외에 pixel-NeRF를 붙여서 rendered feature를 만들고, 이를 diffusion model의 입력으로 활용하는 식으로 3d consistent novel view image 생성을 유도함. 내용은 엄청 간단함. 메모이것도 그림으로 설명이 끝남.1) 크게 Zip-NeRF를 학습시키는 거임2) 부족한 novel view 이미지는, pixel-NeRF로 찍어낸 feature map + input 이미지를 받는 diffusion model에..

Paper/Generation 2024.05.22

CAT3D: Create Anything in 3D with Multi-View Diffusion Models

내 맘대로 Introduction Diffusion model로 multiview image를 생성해낸 뒤, NeRF를 붙여 복원해내는 기존 방식들의 상위 호환 버전 논문이라고 할 수 있다. diffusion model의 성능이 껑충 뛰어오른 것도 성능 향상의 한 이유라고 볼 수 있겠지만, novel view synthesis 과정에서 diffusion model을 활용하는 아이디어가 깔끔하고 좋았다.  주어진 모든 view를 noise없이 넣고, novel view는 noise로 넣어서 diffusion 하는 방식. novel view에만 집중할 수 있도록 구성했다. 구조적으로 3D self attention이 효과가 좋았다는 것을 밝혔다. 메모사실 그림으로 설명이 끝난다.multiview image로..

Paper/Generation 2024.05.22

3D Face Reconstruction with the Geometric Guidance of Facial Part Segmentation (3DDFA v3)

내 맘대로 Introduction3DMM (여기선 FLAME 안쓰고 BFM, FaceVerse 씀, 아마 서양인 데이터 bias 때문이지 않을까.)  을 이미지에 fitting하는 논문. HMR의 face version인데, 3DDFA version3인 셈이다.  핵심 아이디어는 기존 논문들이 keypoint에 집중하던 걸 확장해서 segmentation mask를 이용한 fitting이다. segmentation mask를 사용하는 아이디어 자체는 흔하지만 기존 방식과 다르게 단순히 렌더링 결과만 놓고 pixel by pixel로 비교하는 것이 아니라, 새로운 loss를 제안해서 풀었다.  (2d segmentation -> 3d lifting ) (segmented 3d model) mesh geo..

Paper/Human 2024.05.17

libnvidia-ml.so.1: cannot open shared object file: no such file or directory: unknown. 문제

Docker 컨테이너 잘 쓰다가 갑자기 다시 run하니까 다음과 같은 오류가 떴다.docker: Error response from daemon: failed to create shim task: OCI runtime create failed: runc create failed: unable to start container process: error during container init: error running hook #0: error running hook: exit status 1, stdout: , stderr: Auto-detected mode as 'legacy'nvidia-container-cli: initialization error: load library failed: libnvi..

Trouble/Docker 2024.05.13