Paper 249

CroCo: Self-Supervised Pre-training for 3D Vision Tasks by Cross-View Completion

내 맘대로 Introduction 이 논문은 pretrained ViT backbone을 학습시켜두는 방법론을 설명하는 논문이다. Masked image modeling(MIM) 기법으로 사전 학습시킨 ViT backbone이 다른 vision task에 사용되었을 때 성능 향상에 기여했다는 논문들이 다수 등장함에 따라 그 확장 판 논문이다. 핵심 아이디어는 하나의 이미지로만 학습시키던 MIM 기법을 두 개의 이미지로 학습시키는 파이프라인으로 만들고, 그 두 개의 이미지를 같은 공간 view point만 다른 이미지로 제한하여 공간 정보를 더 잘배우도록 유도하는 것이다. 공간 정보를 더 잘 배우니 3D vision task의 backbone으로써 더 적합하다는 주장도 펼친다. 메모하며 읽기 MIM이라는 ..

Paper/Others 2023.09.13

NeuS2: Fast Learning of Neural Implicit Surfaces for Multi-view Reconstruction

내 맘대로 Introduction 이 논문은 InstantNSR와 같이 SDF based NeRF + InstantNGP를 합친 논문이다. hash table + 2nd order derivative를 구현한 내용이 주기 때문에 부족해보이는 contribution 마저 InstantNSR과 같이 비디오에서 빠르게 하는 방법으로 정했다. NeuS2로 봄과 동시에 InstantNSR2로 보아도 큰 차이가 없다. 보다 나은 점은 더 간결하게 구현했다는 점과 성능이 있겠다. 메모하며 읽기 Static한 경우는 InstantNSR과 같이 크게 언급할 내용이 없다. 데이터 구조를 hash table 사용하는 방식으로 변경했다는 내용임으로 그냥 칸 채우기에 불과하다. Neus + InstantNGP recap에 해당..

Paper/3D vision 2023.09.04

Human Performance Modeling and Rendering via Neural Animated Mesh (a.k.a InstantNSR)

내 맘대로 Introduction 이 논문은 InstantNGP를 SDF based NeRF에 확장한 논문이다. 복원 대상을 사람으로 한정해서 non-rigid motion을 추가했다는 contribution이 있지만 핵심은 SDF base NeRF의 속도를 비약적으로 끌어올리는 것에 있다. 메모하며 읽기 이론적 기반은 NeuS를 그대로 사용했음. 길고 길게 써있지만 Hash grid를 이용한 SDF 학습을 위해 2nd order derivative 계산 방법을 CUDA로 직접 구현했다는 이야기. 부수적으로 구현을 했더니 SDF는 학습 안정성이 떨어져서 sigmoid를 씌워서 TSDF로 사용했다. 2nd order derivate가 핵심인데 이건 설명보다 구현적인 것이라 논문에 기재되어 있지 않음. 근데..

Paper/Human 2023.09.01

3D Registration with Maximal Cliques

내 맘대로 Introduction 제목에서도 심플함이 느껴지는데 point cloud registration을 잘하는 논문이다. 딥러닝을 쓰지도 않았고 복잡한 개념도 없이, 정합을 위해 집중해야하는 영역들을 잘 추려내는 것에 집중해서 성능을 끌어올렸다. 아이디어가 심플함에도 성능 향상이 커서 CVPR 2023 student best paper를 수상한 논문이다. 대단.. 핵심은 maximum clique (graph theory에서 나옴)로 추린 점들을 비교했었는데 maximal clique로 추린 점들을 비교한 것이다. 메모하며 읽기 일단 maximum과 maximal의 차이를 알아야한다. (나도 처음 알았다...) --- An element is a maximum if it is larger than..

Paper/3D vision 2023.08.21

DoF-NeRF: Depth-of-Field Meets Neural Radiance Fields

내 맘대로 Introduction Depth of field NeRF라는 이름을 보면 단번에 알 수 있듯이, 카메라로 취득한 이미지라면 초점이 반드시 존재하는데 이 초점을 고려해서 NeRF를 학습시키는 방법을 소개한다. 기존 NeRF에서는 이미지의 모든 픽셀이 초점이 맞는 상태를 가정하는데 이 상황은 피사체가 depth of field 내에 들어와있다는 가정이다. 하지만 근거리부터 장거리가 모두 포함된 scene이나 피사체를 찍을 경우 depth of field를 벗어난 경우가 반드시 생기고 이 경우 성능 하락이 발생한다. 이 논문에서는 depth of field를 계산하고 이를 volume rendering 과정에 포함시켜서 이 문제를 해결한다. 화려한 논문은 아니어도 문제 정의가 좋고 방법론도 복잡하..

Paper/3D vision 2023.08.18

Self-Supervised Monocular 3D Face Reconstruction by Occlusion-Aware Multi-view Geometry Consistency

내 맘대로 Introduction 3DDFA 처럼 얼굴 이미지 한 장 들어왔을 때 해당 얼굴에 대응되는 3DMM 파라미터와 R|t를 뱉어주는 네트워크다. 차이점은 학습할 때 multiview constraint를 써서 성능을 높였다는 점이다. 개인적으로 이런 multiview consistency를 사용하는 논문들이 깔끔한 것 같아서 맘에 든다. 하나 아쉬운 것은 이를 위해선 카메라 포즈가 사전에 계산되어 있는 얼굴 데이터가 있어야 하니 데이터 수집 측면에서 단점이 있는 논문이라고 할 수 있겠다. 메모하며 읽기 학습 시에만 multiview image를 사용하고, inference 시에는 singleview image 이미지를 쓰는 네트워크다. 입력은 이미지, 출력은 3DMM 파라미터인데, 이를 mult..

Paper/Human 2023.08.02

FDNeRF: Semantics-Driven Face Reconstruction,Prompt Editing and Relighting with Diffusion Models

내 맘대로 Introduction DreamFusion이랑 똑같이 text-to-3D를 목적으로 하는데 DreamFusion이 realistic하지 않은 결과를 만들어내는 문제를 개선한 법전이다. DreamFusion의 아쉬운 퀄리티 문제는 volume rendering 대상 공간을 스크래치부터 학습시킬 때 diffusion model에만 의존해서 학습시키기 때문에 대상 공간의 color, volume density 학습이 잘 되지 않기 때문이라고 한다. generation model 연구들을 보면 복원을 하고자 할 때 image space에서 직접 복원하는 것보다 latent space에서 복원하고 latent to image decoder를 붙이는 식으로 하는 것이 더 효과적이라는 이야기가 많은데, ..

Paper/Human 2023.08.01

ENVIDR: Implicit Differentiable Renderer with Neural Environment Lighting

내 맘대로 Introduction 이 논문도 반사 재질의 물체를 커버하는 것에 집중한 3D surface reconstruction 논문이다. 기존 다른 논문들이 BRDF modeling을 통해서 specular와 diffuse를 추가로 추정하도록 하는 방식은 큰 틀에서 따르지만 실제 학습 때 BRDF 수식을 사용하진 않는다. 각종 approximation을 통한 specular, diffuse 관계 유도가 단점이라고 지적하면서 specular와 diffuse 관계를 네트워크가 자체적으로 학습하도록 유도하는게 핵심이다. 메모하며 읽기 큰 틀에서 여전히 3D surface reconstruction이기 때문에 SDF를 이용하는데 수식은 VolSDF의 수식을 이용한다. BRDF 모델도 큰 틀에서는 따르기 때..

Paper/3D vision 2023.07.26

DreamFusion : Text-to-3D using 2D Diffusion

내 맘대로 Introduction 이 논문은 single image to 3D 논문 (EG3D 같은 논문)을 확장하여 text to 3D까지 나아가는 논문이다. 기존 single image to 3D가 D GAN을 썼던 부분을 diffusion+NeRF로 대체함과 동시에 single image 조차 text에서 만들어내는 방식이다. 요즘 핫하다는 것은 다 갖다붙여본 논문이다. 핵심은 ImageGen이라는 text to single image diffusion model을 고정해두고 NeRF MLP가 만들어낸 이미지가 diffusion model 결과와 갖도록 NeRF MLP를 학습해주는 것이다. NeRF의 입력 이미지를 diffusion model로 만들어낸 것을 사용한다는 컨셉이다. 그러므로 text가..

Paper/Generation 2023.07.26

KeypointNeRF : Generalizing Image-based Volumetric Avatars using Relative Spatial Encoding of Keypoints

내 맘대로 Introduction KeypointNeRF는 기존 NeRF에서 positional encoding을 global이 아닌 local하게 변경한 논문이다. 간단히 말해 anchor처럼 사용할 수 있는 3D point가 존재한다면 해당 point들 대비 상대적을 displacement를 positional encoding하는 식으로 사용하는 방법이다. 3D anchor point가 되는 point들은 어디서든 찾을 수 있지만 human keypoint에 대한 연구가 워낙 활발하다보니 사람으로 테스트한 것 같다. 방법론 자체는 3D point가 주어졌을 때 항상 사용할 수 있는 방식이다. 메모하며 읽기 전체 파이프라인은 1) 3D keypoint 얻기, 2) image feature 얻기 (pix..

Paper/3D vision 2023.07.25