Paper/Human

High-Resolution Neural Face Swapping for Visual Effects

침닦는수건 2024. 7. 1. 16:03
반응형

내 맘대로 Introduction

 

딥페이크가 한창 유행할 시기, 2020년 디즈니에서도 연구했던 face swap 2D model이다. 이제는 4년 전 알고리즘이라 아주 낡은 기술이 됐다. 앞선 논문 읽다가 래퍼런스 달려있길래 그냥 간단히 읽어봤는데, 구석에 두긴 아까워서 초간단 메모만 남겨둔다.

 

메모



디즈니 연구팀은 예전부터 Auto encoder 구조를 엄청 좋아하는 것 같다. 개인적으로 엄청 효과적인 구조라고 생각하긴 하지만 이런 방식 논문이 자주 등장한다.


identity에 상관없이 human to latent로 보내는 encoder를 하나 shared weight로 학습해두고

decoder는 일부만 shared weight, 나머지는 사람 specific하게 N개를 따로 두는 구조.
1) 데이터를 1024 1024로 눈코입 기준으로 이미지 중앙에 얼굴이 위치하도록 normalization해서 준비
-> 아래 논문에서 상세설명 되어있지만, 이건 과거에 각종 off-the-shelf 알고리즘이 없을 시절이라 이제 굳이 볼 필요없음.

2) Auto encoder 통과 (decoder는 원하는 대상)

3) 이미지에 stitching. (denormalize)




내용이 길지만 shared encoder, seperate decoder를 주어진 모든 데이터를 활용해서 학습 완료 시키고

loss는 생성된 이미지를 마스크 영역만 SSIM으로 비교하면 끝.


2D face swap은 이미 완성된 수준이어서 이젠 그냥 과거의 유물 정도로 보면 될 듯.


shared encoder를 쓰는게 좋다. N=2라고해서 encoder 마저 speicific 하게 가면 더 잘 될 줄 알았는데 face prior를 오히려 더 못찾아서 성능 저하로 이어지나봄.

이 사실은 참고할 만 한듯.
반응형