분류 전체보기 538

Local Anatomically-Constrained Facial Performance Retargeting

내 맘대로 Introduction 이 논문은 사람 A의 표정을 사람 B로 옮겨주는 리타게팅 논문인데, 다루는 문제가 조금 특별하다. 완전히 모르는 표정, 완전히 모르는 사람 B로 옮기는 것이 아니라 이미 웬만한 건 다 알고 있는 상태다. 사람 A와 B의 mesh(with topology)도 알고 있고, 같은 표정을 지은 SCAN도 이미 알고 있다. 예를 들면 사람 A의 웃는 표정, 사람 B의 웃는 표정. 그럼 이미 알고 있는데 사람 A to 사람 B 표정 옮기기가 왜 필요한가? 여기서 집중하는 점은 "같은 표정일지라도 사람 A의 표현력으로 웃는 사람 B"를 만들고 싶은 것이다. 사람마다 얼굴 근육 길이나 조절 능력이 다르기 때문에 같은 표정을 지으라고 해서 누구는 입꼬리가 더 올라가고 누구는 덜 올라가고..

Paper/Human 2024.07.02

High-Resolution Neural Face Swapping for Visual Effects

내 맘대로 Introduction 딥페이크가 한창 유행할 시기, 2020년 디즈니에서도 연구했던 face swap 2D model이다. 이제는 4년 전 알고리즘이라 아주 낡은 기술이 됐다. 앞선 논문 읽다가 래퍼런스 달려있길래 그냥 간단히 읽어봤는데, 구석에 두긴 아까워서 초간단 메모만 남겨둔다. 메모디즈니 연구팀은 예전부터 Auto encoder 구조를 엄청 좋아하는 것 같다. 개인적으로 엄청 효과적인 구조라고 생각하긴 하지만 이런 방식 논문이 자주 등장한다.identity에 상관없이 human to latent로 보내는 encoder를 하나 shared weight로 학습해두고decoder는 일부만 shared weight, 나머지는 사람 specific하게 N개를 따로 두는 구조.1) 데이터를 10..

Paper/Human 2024.07.01

Learning Dynamic 3D Geometry and Texture for Video Face Swapping

내 맘대로 Introduction 디즈니에서 만든 face swap 논문. face swap이라는 문제 자체는 워낙 오래되었고 레드오션이기 때문에 문제를 조금 확장해서 풀었다. face swap을 2D image level에서 벗어나 3D geometry 획득까지 엮어서 풀었다. 그리고 기존 방식들은 generalized model이었는데 이 경우, generalized model로 만들 수는 있으나 N=2로 한정함으로써 두 사람 간의 swap에 집중하도록 설계했다.  결과적으로 두 사람 간의 face swap 이미지만 얻어내는 것이 아니라 3D geometry까지 얻어내서 추후 다른 작업들의 가능성을 열었다. geometry를 늘리거나 수축시키는 변형이나 texture editing 같은 것이 기존 디..

Paper/Human 2024.07.01

Shape Transformers: Topology-Independent 3D Shape Models Using Transformers

내 맘대로 Introduction deformable mesh는 보통 template mesh에서 출발한다. 그 말인 즉, topology가 맨 처음 설계 당시에 정해지면 끝까지 모든 mesh가 같은 topology를 따라간다는 뜻이다. 한 번 topology가 고정되면 설령 같은 대상을 표현하는 mesh라도 서로 비교가 불가능해지는 문제가 있다. 예를 들어, 사람 1명 SCAN에 서로 다른 topology를 가진 mesh를 fitting했다면 결과물은 거의 동일하겠지만 topology가 다르므로 두 mesh는 비교하기가 어렵다. 어느 vertex가 어느 vertex와 대응되는지, normal을 비슷한지 비교할 수 없다. 이 논문은 이러한 문제점을 푸는 하나의 방법을 제시한다. 3D SCAN을 공통으로 ..

Paper/Human 2024.06.28

Continuous Landmark Detection with 3D Queries

내 맘대로 Introduction 디즈니 리서치에 있는 chandran 이라는 사람 논문. 이전 Anatomically Constrained Implicit Face Models 논문 보고 되게 자유롭게 생각하는 능력도 뛰어나고, 구현력도 뛰어난 사람이라는 생각이 들었는데 다른 논문들도 아이디어나 완성도가 엄청 빛나는 논문들이라서 반했다. 2023년, 2024년 논문을 폭발적으로 쏟아내고 있는데 이 속도로 이 정도 완성도 논문을 쓴다는 것이 경이로울 정도다. 앞으로 이 저자의 논문 전부를 읽어볼 예정인데, 가장 먼저 잡힌 논문 이 논문의 아이디어도 엄청 빛난다. face keypoint detection은 고일 대로 고인 분야여서 더 이상 연구 분야로 잡기엔 정말 박터지는 분야인데, 성능을 끌어올리는 것..

Paper/Human 2024.06.28

Anatomically Constrained Implicit Face Models

내 맘대로 Introduction 이 논문은 FLAME, Faceverse와 비슷하게, Face mesh 모델을 제안한 논문인데 약간 컨셉 차이가 있다. 모든 인물에게 전반적으로 사용 가능한 face mesh 모델이 아니라 사람 1명에 국한된 face mesh 모델을 만드는 방법을 제안했다. 대상 범위를 1명으로 줄이면서 그 보상안으로 표현력을 대폭 끌어올리는 것이 이 논문에서 보여주는 장점이다.  개개인 얼굴에는 다른 사람과 다른 고유 근육의 움직임들이 있는데, 그 디테일을 표현하기에는 확실히 사람마다 모델을 들고 있는게 좋다. 실제로 영화 산업 같은데서도 배우 별로 따로 복원해서 쓴다고 한다. 따라서 컨셉 자체는 reasonable 하다. 얼굴을 변형할 때 기준이 될 수 있는 가장 큰 단서는 얼굴 아..

Paper/Human 2024.06.27

Style-Based Global Appearance Flow for Virtual Try-On (a.k.a Flow-Style-VTON)

내 맘대로 Introduction 2022년 Diffusion을 활용하기 전 VTON 논문으로 이제는 오래됐다고 (2년 지났지만...) 볼 만한 논문. 하지만 2023년 GP-VTON도 그렇고 flow를 활용한 VTON 논문만이 갖는 장점을 확실히 있는 것 같다. Diffusion model이 아무리 잘 만든다 한들 사전 학습된 latent space로부터 최대한 유사한 이미지를 만들어내는 방식이다 보니 입력과 멀어지는 경우가 종종 있는데 flow는 입력을 직접 활용하는 방법이다 보니 확실히 장점이 있다. 단순 기록용으로 적는다. 메모문제 정의는 똑같고, 핵심 아이디어는 1) semantic information 잔뜩 먹고 사전 학습된 flow 기반 네트워크를 teacher로 두고, semantic in..

Paper/Generation 2024.06.25

Opencv imread/imwrite vs PIL open/save speed 및 memory 비교

이미지 파일을 읽을 때 opencv 혹은 PIL을 쓴다. 두 라이브러리의 기능적 차이는 없다만 경험적으로 보면 읽는 속도와 쓰는 속도가 다름을 알 수 있다. 상황에 따라서 opencv가 효율적일 때도, PIL이 효율적일 때도 있는데 각각 어떤 상황인지 파악해두었다. 왜 차이가 발생하는지 알 수 있는 경우는 이유도 같이 적는다. 이미지 읽기확장자가 PNG일 때 : opencv 써야 빠르다.cv2.imread/imwrite가 훨씬 빠르다. meta 정보를 포함한 DSLR 12MB 이미지의 경우, 10초 가량 차이가 날 때도 있다. 차이가 적을 땐 적지만 클 땐 10배도 난다. 웬만하면 opencv로 png 읽자.확장자가 JPG일 때 : PIL 써야 빠르다.Image.open으로 읽는 것이 약 2배 빠르다. ..

Knowhow/Vision 2024.06.22

FaceVerse: a Fine-grained and Detail-controllable 3D Face Morphable Model from a Hybrid Dataset

내 맘대로 Introduction FLAME 다음으로 동양인 버전 parametric face model이다. 생성 방식은 똑같이 3D SCAN 뜨고 나서 template model, non-rigid ICP -> PCA 순서지만, 뒤에 StyleGAN을 붙여서 detailed mesh로 업그레이드 할 수 있도록 했다. 다시 말하면 기존 모델 + 업그레이드 네트워크를 같이 제공하는 셈. 따라서 요구 정확도에 따라 기존처럼 그냥 PCA 기반 모델로 끝내도 되고 더 필요하다면 뒤 네트워크까지 통과시키고 쓰면 된다.  개인적으로 생성 방식에 contribution이 있다기보다 동양인을 이용해 만든 모델이라는 것이 의미가 있고 생각한다. FLAME이나 BFM 같은 모델들이 서양일 얼굴 스캔으로 만들었다 보니 동..

Paper/Human 2024.06.20

Book to-read list

책을 더 읽자. (2023.03.17)책을 잘 골라 읽자. (2023.07.03)책 느낌이 별로면 중간 멈추자. (2023.09.18)책 굳이 종이 책 살 필요없다. ebook 사자. (2023.09.20)책도 질릴 때가 있다. 쉬다가 다시 읽자. (2023.12.03)책은 쉬기보다 재밌는 책으로라도 계속 읽는게 낫다. (2024.01.31)책 여러 권을 돌려가면서 읽는 것도 괜찮다. (2024.03.21) 읽을 책나는 희망의 증거가 되고 싶다 - 서진규The Little Big Things - 톰 피터스NAVAL의 가르침 - Naval Ravikant세븐이브스 - 닐 스티븐슨완전히 자동화된 화려한 공산주의 - 아론 바스타니소유냐 존재냐 - 에리히 프롬생각에 관한 생각 - 다니엘 카네만소비의 사회 - 장..

About me 2024.06.19