분류 전체보기 538

Style-Based Global Appearance Flow for Virtual Try-On (a.k.a Flow-Style-VTON)

내 맘대로 Introduction 2022년 Diffusion을 활용하기 전 VTON 논문으로 이제는 오래됐다고 (2년 지났지만...) 볼 만한 논문. 하지만 2023년 GP-VTON도 그렇고 flow를 활용한 VTON 논문만이 갖는 장점을 확실히 있는 것 같다. Diffusion model이 아무리 잘 만든다 한들 사전 학습된 latent space로부터 최대한 유사한 이미지를 만들어내는 방식이다 보니 입력과 멀어지는 경우가 종종 있는데 flow는 입력을 직접 활용하는 방법이다 보니 확실히 장점이 있다. 단순 기록용으로 적는다. 메모문제 정의는 똑같고, 핵심 아이디어는 1) semantic information 잔뜩 먹고 사전 학습된 flow 기반 네트워크를 teacher로 두고, semantic in..

Paper/Generation 2024.06.25

Opencv imread/imwrite vs PIL open/save speed 및 memory 비교

이미지 파일을 읽을 때 opencv 혹은 PIL을 쓴다. 두 라이브러리의 기능적 차이는 없다만 경험적으로 보면 읽는 속도와 쓰는 속도가 다름을 알 수 있다. 상황에 따라서 opencv가 효율적일 때도, PIL이 효율적일 때도 있는데 각각 어떤 상황인지 파악해두었다. 왜 차이가 발생하는지 알 수 있는 경우는 이유도 같이 적는다. 이미지 읽기확장자가 PNG일 때 : opencv 써야 빠르다.cv2.imread/imwrite가 훨씬 빠르다. meta 정보를 포함한 DSLR 12MB 이미지의 경우, 10초 가량 차이가 날 때도 있다. 차이가 적을 땐 적지만 클 땐 10배도 난다. 웬만하면 opencv로 png 읽자.확장자가 JPG일 때 : PIL 써야 빠르다.Image.open으로 읽는 것이 약 2배 빠르다. ..

Knowhow/Vision 2024.06.22

FaceVerse: a Fine-grained and Detail-controllable 3D Face Morphable Model from a Hybrid Dataset

내 맘대로 Introduction FLAME 다음으로 동양인 버전 parametric face model이다. 생성 방식은 똑같이 3D SCAN 뜨고 나서 template model, non-rigid ICP -> PCA 순서지만, 뒤에 StyleGAN을 붙여서 detailed mesh로 업그레이드 할 수 있도록 했다. 다시 말하면 기존 모델 + 업그레이드 네트워크를 같이 제공하는 셈. 따라서 요구 정확도에 따라 기존처럼 그냥 PCA 기반 모델로 끝내도 되고 더 필요하다면 뒤 네트워크까지 통과시키고 쓰면 된다.  개인적으로 생성 방식에 contribution이 있다기보다 동양인을 이용해 만든 모델이라는 것이 의미가 있고 생각한다. FLAME이나 BFM 같은 모델들이 서양일 얼굴 스캔으로 만들었다 보니 동..

Paper/Human 2024.06.20

돈의 심리학

끄적끄적한동안 회사도 옮기고 바뀐 생활 패턴에 적응하느라 책을 딱히 손에 잡지 않았었는데, 지하철에서 틈틈히 읽던 책을 이제야 다 읽었다. 책이 그래도 괜찮은 책이어서 끝까지 읽었지, 하마터면 그냥 책 안 읽었을 법한 시기였다. 이제 다시 읽어야지 짧은 평이 책은 제목에서 느껴지듯이 투자 책이다. 근데 여느 투자 책들과 달리 좀 깊은 책이다. 사골 국물 같은 책이랄까. 투자도 투잔데 그냥 어떻게 돈을 바라봐야 할지 그 시선, 삶을 어떻게 살아야 할지 그 태도를 더 많이 설명하는 책이다. 돈, 돈, 돈하는 책보다 오히려 더 와닿고 마음에 새기게 되는 책. 책에서 말하는 메세지는 하나다. 돈을 이해한다는 것은 결국 사람을 이해한다는 것. 여기서 사람은 나와 타인을 모두 포함하는 말인데,  먼저 나라는 사람이..

Book/Investment 2024.06.19

MeshAnything: Artist-Created Mesh Generation with Autoregressive Transformers

내 맘대로 Introduction point cloud to mesh 알고리즘. 어떻게 보면 poisson recon이라고 볼 수 있겠지만, point 중 버릴 건 버리고 어떻게 face를 형성해야 "실제 사람이 만든 mesh"처럼 만들어질 지 학습한 논문이다. 실제 사람이 만든 mesh의 경우, face가 과도하게 많지 않고 단순할 곳은 단순하게 자세할 곳은 자세하게 조절된 형태다.  주어진 어지러운 point cloud에서 모든 point를 face로 묶어내는 것이 아니라 선별적으로 묶어서 vertex 수는 적지만 표현력이 뛰어난 mesh로 정리해내는게 주 목적이다.  핵심 아이디어는 Objaverse, shapenet처럼 대규모 mesh 데이터로부터 평균적인 face 형성 규칙을 학습시킨 VAE를 ..

Paper/3D vision 2024.06.19

3D Gaussian Blendshapes for Head Avatar Animation

내 맘대로 Introduction face 같이 geometry가 body나 cloth처럼 자유도가 그리 높지 않은 경우에는 blendshape이라는 기법으로 deformation space를 표현한다고 한다. (나도 blendshape이 뭔지 이번에 처음 알았다.) 대략 PCA의 eigenvector와 같이 deformation space를 표현할 때 핵심이 되는 방향을 찾아두고, 실제 변형을 할 때도 PCA 후 eigenvalue 바꿔가면서 원복 하듯이 하는 방식이라고 한다. 다시 말하면, 다양한 표정 (eigenvector 급) 을 미리 복원해두고 (표정 간에는 vertex tracking되도록) 실제로 deformation할 때는 이 표정을 섞어서 만드는 방식이다. 화난 표정 + 무표정 == 덜 ..

Paper/Human 2024.06.19

Lighting Every Darkness with 3DGS: Fast Training and Real-Time Rendering for HDR View Synthesis

내 맘대로 Introduction RawNeRF의 3DGS 버전. 기대가 컸었는데 사실 RawNeRF에 묻어가는 논문. 새로운 내용은 없고 조합형 논문이다. 3DGS primitive 중 Color SH를 MLP로 바꿔서 RawNeRF 처럼 RGBG 값 그대로 찾아내도록 변경한 것 그리고 Inference할 때 RawNeRF처럼 exposure나 white balance를 조정한 것이다.  핵심 아이디어는 없다. 3DGS + depth supervision + RawNeRF loss function 비빔밥 논문. (하지만 빨랐죠...)  사소하게 point cloud initialization을 보강한다거나 (수학적인 것은 없음) regularization은 조금 추가했다거나 하는 장점이 있다. 메모in..

Paper/3D vision 2024.06.17

NeRF in the Dark: High Dynamic Range View Synthesis from Noisy Raw Images (a.k.a RawNeRF)

내 맘대로 Introduction 이 논문은 google research에서 나온 논문으로, 이미지 to NeRF가 아닌 빛 to NeRF를 학습하는 논문이다. 다른 말로는 카메라를 이용해 센서에 담아내고 후처리를 다 해서 만든 이미지를 갖고 출발하는 것이 아니라, 센서에 담긴 raw 이미지를 갖고 출발하는 것이다.  카메라 기종마다 자체적으로 camera sensor cell에서 R, G, B, G 4개 신호 측정값을 섞어서 pixel(cell) color로 만들어내고, 이를 gamma correction 같은 후처리를 통해 이미지 빛의 세기를 반영한 보기 좋은 이미지로 바꾸어준다. 이 논문에서는 R, G, B, G 4개의 신호 측정값 그대로를 이미지(4/3배 되겠지)로 쓰고 NeRF가 R G B G ..

Paper/3D vision 2024.06.17

UV-IDM: Identity-Conditioned Latent Diffusion Model for Face UV-Texture Generation

내 맘대로 Introduction  이 논문은 위 사진처럼 얼굴에 사용할 texture만 생성하는 모델이다. BFM model topolgy를 이용하는 방식이고, BFM texture generation 모델이라고 보면 된다. 궁극적으로 하고자 하는 바는 single image가 들어왔을 때 그 안에 있는 사람의 얼굴 texture를 복원해내는 것이다.  occlusion 때문에 가려진 부분의 texture는 알 수 없기 때문에 보이는 부분의 texture 외에는 generation으로 커버하겠다는 컨셉. 이를 풀기 위해선 주어진 이미지 내 얼굴의 자세, texture 외 여러 특징들을 알고 있어야 하는데 각각은 pretrained network들을 가져와서 쓰는 식으로 풀었다.  따라서 이 논문은 전처..

Paper/Generation 2024.06.17

M&M VTO: Multi-Garment Virtual Try-On and Editing

내 맘대로 Introduction Google에서 낸 VTON 논문. 상하의 신발을 동시에 넣을 수 있도록 한 것과 text guided layout 변경이 가능하도록 condition을 추가한 논문. 학습이 전체적으로 끝난 이후에 한 사람에 대해서 person feature 최적화를 따로 post processing처럼 돌려주는데 이 모듈의 힘으로 identity, detail preserving이 더 잘 된다.  사람마다 최적화한 person feature는 따로 저장해두고 사용 (명 당 6MB 정도라고 함) 하는 방식이다.  어떻게든 잘되게 만든 방법 같기도. 메모위 흐름 그대로 사람 이미지 에 각종 상하의 이미지가 들어가는 구조. 그림을 조금 다르게 그렸을 뿐 SD 쓰는게 맞다.학습용 데이터는 v..

Paper/Generation 2024.06.11