반응형
내 맘대로 Introduction
올해 CVPR 2024에 나온 논문으로, 극단적인 표정이 포함된 데이터셋공개 + MegaPortraits 업그레이드를 엮어서 낸 논문. 사실 상 MegaPortraits++으로 같은 저자다. 내용도 MegaPortraits의 요소 요소 하나를 분석해가며, 무슨 단점이 있었고 무슨 문제가 있었고 상세하게 설명하면서 이를 어떻게 보강했는지 설명한다.
MegaPortraits 자체는 표정을 바꿔주는 네트워크인데, condition으로 주어지는 것이 speech (audio)와 driver라고 불리는 다른 표정의 얼굴 사진이다.
MegaPortrait라는 논문을 모르면 이 논문을 읽는 의미가 굳이 없고, 데이터셋이 어떻게 구성됐는지만 이해하면 되는 수준이라서 나도 다 읽진 않았다. 특히 speech driven은 관심이 없어서 건너뛰었다. 데이터셋 내용만 주로 담으면 다음과 같다.
메모
기존 얼굴 표정 데이터셋을 보면 대개 단조로운 표정이 많다. 다양한 표정을 지으라고 해도 피실험도 사람인지라, 자기 얼굴을 일그러뜨리는 것이 쉽고 유쾌할 리 없다. 그래서 웃어도 적당히 웃고 얼굴을 구겨도 적당히 구겨서 그렇다. |
따라서 기존 방식에서 벗어나서 7가지 진짜 진짜 극단적인 표정을 짓는 "영상" 데이터를 multiview 로 취득했다. 특히 비대칭적 표정이나 혀를 쓰는 표정, 일그러뜨리는 표정을 주로 포함했다. 대상이 23명 밖에 안되는게 아쉽지만 multiview인게 좋다. |
|
여기부터 본격 MegaPortrait 업그레이드 시작이라서 데이터셋 내용은 끝났고, 이게 어떤 효과를 줬는지만 짚어보고 메모를 마친다. MegaPortrait는 크게 1) identity specific canonical volume 2) expression latent 가 있다. FEED 데이터셋을 활용하면 1)과 2)를 더 제 목적에 맞게 강화할 수 있다는 것이 이 논문의 주장. |
2) expression latent는 어떻게 분석하느냐? latent를 다 긁어모아서 PCA를 해보면, latent의 표현력이 얼마인지 측정할 수 있다. 기존 방식은 basis 몇개 안써도 표정 표현이 끝난다 -> 나머지는 쓸모없이 노는 basis라 표현력이 부족하다는 뜻 새롭게 업데이트한 latent basis는 많이 써야 표정표현이 됨 -> 각 basis가 다채롭게 표현력에 기여함. |
|
1) canonical volume은 identity에만 영향을 줘야하지 표정에는 아예 기여하면 안됨 (개념상) 그치만 실험해보면 canonical volume이 조금 expression 정보를 들고 있는 문제가 있다고 함. 위 그림에서 보듯이, 같은 driver를 써도 source 이미지가 다를 경우, 표정 변화가 많이 다름. 같은 expression latent였음에도 차이가 크다는 것은 canonical volume가 expression 에 영향을 주었다는 것 ---------------- 같은 사람의 다른 표정 이미지를 각각 source, driver로 사용하는 시나리오에서 loss를 추가함 1) canocnial volume이 유사하도록 loss 추가 (같은 사람이니까) 2) expression latent는 확실히 다르도록 loss 추가 -> cossim 이 음수가 되도록 강제. -> 이 때 FEED 데이터셋은 weight 엄청 크게 줘서 규모가 작은 것을 보상함. |
그림 으로 보면 보라색 선이 추가된 것. 같은 사람인데 표정만 다를 경우, canonical volume은 같고 expression latent는 서로 밀어 내도록. -------------- 이후 내용은 speech 라서 생략. |
반응형