전체 글 496

Revising Densification in Gaussian Splatting

내 맘대로 Introduction 메타에서 나온 논문인데 기존 3DGS의 고질병인 1) densification이 제멋대로여서 성능/메모리 이슈 있음 2) pruning을 opacity의 주기적 초기화로만 처리해서 학습에 충격이 가해짐 -> 성능 문제로 이어짐 3) threshold가 사용되는데 gradient-threshold여서 직관적이지 않음. -> 튜닝이 어려움. 위 3가지를 완화하는 방법론을 소개하는 논문이다. 3DGS를 처음 읽었을 때 내가 바로 느꼈던 문제점인데 바로 해결에 착수한 논문이라 신기하면서 반갑다. 핵심 아이디어는 3) threshold를 pixel error 기반으로 다시 만들어 직관적 튜닝이 가능하도록, 2) opacity를 0으로 초기화하지 않고 매번 찔끔찔끔 줄이도록 하는 ..

IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models

내 맘대로 Introduction 크게 보면 ControlNet이랑 마찬가지로 학습된 Diffusion model에 condition을 가하는 방법론인데 차이점이 존재한다. 1) 특별한 2D conditioned map이 아니라 이미지 자체를 condition으로 넣을 수 있다. CLIP(image)를 conditioned map으로 씀. 2) cross attention layer만 추가한 수준이라 원 모델을 훨씬 덜 건드린다. 3) 기존 text feature와 상호 조절이 가능하다. (controlnet은 입력에 넣는 것이라 text랑 상호 조절은 안됨) 다른 표현으로는 prompt를 건드는 수준이다. 위와 같이 장점이 명확하기 때문에 최근에는 controlnet보다 더 자주 쓰는 방법인 것 같다...

Paper/Generation 2024.04.19

Adding Conditional Control to Text-to-Image Diffusion Models (a.k.a ControlNet)

내 맘대로 Introduction ControlNet은 워낙 유명해서 논문을 보지 않았어도 무슨 역할을 하는 기술인지 알 수 밖에 없다. 이제 개인, 팀 단위의 학습 범위를 넘어선 Stable Diffusion trained model들은 재학습이나 튜닝 조차 손대기 어려운데 SD 모델을 고정해둔 채로 원하는 condition을 만족한 이미지를 생성하도록 튜닝하는 방법론이다. 핵심 아이디어는 모델 전체는 고정해두고 입력을 latent로 변환해주는 encoder 부분만 손을 대는 것이다. encoder는 전체에 비하면 아주 작은 부분일 뿐이지만 source를 만드는 역할이라 비중은 상당한 부분이기 때문이다. 메모 내용은 사실 위 그림 한장이 끝이다. 1) 입력을 받는 부분의 copy를 만들고 원래 것은 고..

Paper/Generation 2024.04.19

Champ: Controllable and Consistent Human Image Animation with 3D Parametric Guidance

내 맘대로 Introduction Animate Anyone 이랑 타겟하는 문제가 같다. 입력 이미지 1장 주어지고 pose guidance 여러개 주어졌을 때 해당 이미지 내 사람이 주어진 동작을 하는 영상을 만들어내는 것인데 이 논문의 차이점은 pose guidance를 openpose keypoint가 아닌 SMPL로 확장했다는 점이다. 이전에 dense pose uv map을 쓰는 논문도 있었던 것 같은데 아주 단순한 아이디어를 빠르게 구현한 논문 같다. vertex 위치를 쓰는 것이 아니라 depth, normal, semantic, keypoint 쓸 수 있는 걸 다 썼다. 메모 animate anyone이랑 구조가 거의 동일하다. openpose keypoint map 들어가던 곳을 SMPL..

Paper/Generation 2024.04.19

VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis

내 맘대로 Introduction long audio + single image 로부터 long video를 만들어 내는 내용. 목적 자체는 가상 대화를 활성화할 수 있게 하는 것이다. 소리만 갖고 전화하는 것을 넘어서 적절하게 생성된 이미지로 영상통화를 하는 것처럼 만들어 낸다는 것이 궁극적 목표다. 그 초기 연구라고 보면 될듯. 기존 연구는 소리랑 매치가 안되거나, 얼굴이 부자연스럽거나, 몸동작은 빠져있고, 자세 표현의 다양성이 부족하다는 것 등 하나씩 빠지는 점이 있지만 이 논문은 소리, 표정, 몸동작, 다양성까지 다 커버하는 것을 목표로 한다. 핵심은 역시나 diffusion이다. 메모 1) 소리에서 SMPL 파라미터 만들기 2) 입력 이미지에서 SMPL reference(특히 texture) 잡..

Paper/Generation 2024.04.19

Instant Multi-View Head Capture through Learnable Registration

내 맘대로 Introduction head template model을 만드는 순서는 보통 3D scan을 하고 MVS로 mesh를 얻은 다음 미리 만들어둔 template mesh를 registration하는 과정을 거친다. 이 때 MVS에 noise가 있는 것을 사람이 수작업으로 보통 거르고, registration 과정에서도 손으로 파라미터 튜닝을 해줘야 한다. 즉 수작업이 굉장히 많이 든다고 할 수 있다. 이 논문은 MVS-registration 순서를 통째로 대체해서 images to registrated model로 한 방에 가는 방법을 소개한다. 학습 과정에서 3D SCAN이 필요하긴 하다. 대신 MVS를 건너뜀. 메모 이미지 feature를 aggregation해서 feature volum..

Paper/Human 2024.04.18

ubuntu 재설치 시 부팅 디스크로 부팅하고 나서 무한 검은 화면 문제

부팅 디스크를 꽂고 우분투를 재설치하고자 할 때 맨 처음 BIOS에 들어가 boot priority를 변경해주는 것을 한다. 이후 재부팅하면 Try or install ubuntu 를 비롯한 여러 항목들이 뜨는 GRUB 화면이 뜬다. 이 때 보통 처음에 있는 Try or install ubuntu를 클릭하면 쭉 진행이 되어야 하는데 검은 화면이 갇혀서 아무 일도 일어나지 않는 경우가 있다. 여러 원인이 있을 수 있지만 나의 경우 그래픽 드라이버 문제였다. 해결법 GRUB 화면이 떴을 때 아무것도 클릭하지 말고 'e' 키를 입력한다. 그러면 새로운 화면으로 넘어갈텐데 자세히 보면 특정 줄 끝에 -- 혹은 ---가 있는 것을 볼 수 있을 것이다. 이 -- 혹은 ---을 지우고 그 위치에 다음과 같이 추가해준..

Trouble/Linux 2024.04.18

unzip으로 zip 파일 압축해제가 안되는 문제

sudo apt-get install unzip unzip ***.zip 위 명령어를 치면 웬만해선 zip 파일 압축해제가 잘된다. 하지만 가끔 깨진 파일이나 오류있는 파일이 포함되어있을 경우 실패한다. 안 깨진 파일이라도 건지고 싶어서 방법을 찾았다. Archive: backup.zip End-of-central-directory signature not found. Either this file is not a zipfile, or it constitutes one disk of a multi-part archive. In the latter case the central directory and zipfile comment will be found on the last disk(s) of this ..

Trouble/Linux 2024.04.18

GPAvatar: Generalizable and Precise Head Avatar from Image(s)

내 맘대로 Introduction 이미지 N장으로부터 표정 변화가 가능한 head avatar를 얻는 방법. 표정 변화를 모델링하기 위해서 FLAME 모델을 사용했다. 핵심 아이디어는 이미지 feature와 FLAME feature를 분리해서 inference할 때 FLAME feature만 바꿔가면서 표정 변화를 할 수 있도록 했다는 점이다. 3D consistency를 유지하기 위해서 NeRF 컨셉을 넣기도 했는데 이건 거의 유행처럼 번진 수준 같다. 메모 입력 이미지 N장은 FLAME 모델과 상관없이 별개로 multi plane representation으로 encoding 됨. 이 때 M개의 multi plane 들이 나올 수 있도록 자유도를 열어줬다. M개 마다 learanble Query가 주..

Paper/Human 2024.04.17

ssh 원격 연결 후 파일 올리기/가져오기

ssh로 서버에 붙은 이후에 파일을 올리고 내릴 일이 많다. 서버에서 데이터를 꺼내서 보는 경우도 많고 실험용 데이터를 올리는 일도 많다. 이 때 scp를 이용하면 아주 간단하게 파일을 올리고 내릴 수 있는데 명령어를 맨날 헷갈려서 기록해둔다. 파일 올리기 scp -P [포트번호] -r [local경로, 상대경로 가능] SERVER_ID@SERVER_IP:[원격 경로, 절대경로로] 예시 scp -r /home/jseob/Desktop/data remote@xx.xx.xx:/home/data -r 을 추가하면 recursive하게 동작하므로 폴더 단위를 올릴 수 있고, 파일 1개일 경우 -r 빼면 된다. 중간에 띄어쓰기와 :을 잊지 말자 파일 가져오기 scp -P [포트번호] -r SERVER_ID@SER..

Knowhow/Linux 2024.04.17