Paper/Human

[Human] Animatable Neural Radiance Fields for Modeling Dynamic Human Bodies

침닦는수건 2023. 4. 8. 23:21
반응형

Animatable Neural Radiance Fields for Modeling Dynamic Human Bodies

 

내 맘대로 Introduction

2023.04.07 - [Reading/Paper] - [NeRF] D-NeRF: Neural Radiance Fields for Dynamic Scenes

2023.04.07 - [Reading/Paper] - [NeRF] Non-Rigid Neural Radiance Fields: Reconstruction and Novel View Synthesis of a Dynamic Scene From Monocular Video

 

위 두 논문과 똑같은 논문이 또 있었다. NeRF에 time 축을 어떻게 추가할 것인가, 그래서 움직이는 사람 대상으로 NeRF를 어떻게 학습시킬 것인가 소개하는 논문이다. ICCV 2021에 공개된 논문으로 위 두 논문과 같은 시기에 submission된 논문이기 때문에 역시나 중복된 주제지만 cross check가 안 된 것같다. 논문을 소개하기 전 개인적인 평을 적자면, 이 논문이 뒤 두 논문 대비 훨씬 별로다. 정말 단순무식하게 구현한 것이라서 크게 기억에 남는 것이 없는 논문이라 조금 실망스러운 논문이었다. 

핵심 내용

각 프레임 이미지 마다 latent code(learnable)를 부여하고 이미지 ray 상 point, x와 함께 neural blend weight field network를 통과시킨다. 결과로 나오는 w(x)는 LBS에 필요한 skinning weight가 나온다. 

각 프레임마다 SMPL을 fitting 해두어서 human skeleton (joints)와 대략의 point, x 에서 skinning weight는 알고 있는 상황이기 때문에 w(x)는 fiited SMPL skinning weight 대비 residual을 내뱉는 식으로 설계되어 있으며, w(x)와 human skeleton을 이용하여 unpose하고 canonical space로 옮겨진다.

그리곤 canonical space에서 정의된 density/color network에 입력으로 들어가 NeRF가 학습되고, 병렬적으로 neural blend weight field network를 또 한 번 통과해서 이번엔 canonical용 w(x)가 나온다. 역시나 w(x)는 residual이다. 

 

appearance code, l은 이미지 별 latent code와 마찬가지로 learnable code인데 같은 대상이라도 time, t가 다르므로 발생하는 색의 질감 차이, 빛의 차이를 커버하기 위해 추가된 code다. 

사실 상 수십개의 NeRF를 동시 학습한 것이 전부이기 때문에 loss도 특별한 것이 없다. color loss가 거의 전부다.

animatable하게 만들기 위해 각 프레임에서 나온 skinning weight를 하나로 묶어주는 역할을 하는 canonical skinning weight는 확실히 만들어야 하므로 위와 같은 추가 term만 존재할 뿐이다. 

 

 

animation을 만드는 방법은 다음과 같다.

새로운 unseen pose를 만들 때, w_canonical(x)를 알고 있으니 단순할 것 같지만 식을 보면 프레임 정보를 알려주기 위해 추가했던 latent code가 박혀있기 때문에 w_new(x)를 알아야만 만들 수 있다는 것을 알 수 있다. 즉, w_new를 모르면 animatable 하지 않다. (근데 모른다...)

 

그래서 위 loss 수식을 이용하여 w_new(x)를 찾는 용도로만 optimization을 따로 돌린 뒤 이용해야 한다.

 

Results

Human3.6M이나 ZJU-MoCap 데이터셋처럼 잘 정제되고 고정된 카메라에서 취득된 데이터셋으로만 테스트한 것이 아쉽지만 위와 같이 준수한 수준의 결과를 얻을 수 있다고 한다. 

반응형