Paper 195

Neural Splines: Fitting 3D Surfaces with Infinitely-Wide Neural Networks

내 맘대로 Introduction 이 논문은 Poisson reconsturction 처럼 PCD가 주어졌을 때 position과 normal을 이용해서 SDF를 추정하여 mesh화 해주는 논문이다. 즉, poisson reconstruction의 상위 호환의 알고리즘이라고 할 수 있다. neural 이 붙어있어서 데이터로 때려박아서 학습시키는 것 같은 느낌을 주지만, neuron을 2개 사용했기 때문에 우리가 흔히 아는 neural 알고리즘과 다르다. 핵심은 kernel method를 기반으로 작성되어 있기 때문에 사실 상 classic한 방식에 가깝다. 내용의 핵심은, f(position, normal) -> sdf 에서의 f를 찾아내겠다는 것인데 f를 찾아내는 것이 만만치 않으니 kernel met..

Paper/3D vision 2023.10.18

MonoSDF: Exploring Monocular Geometric Cues for Neural Implicit Surface Reconstruction

내 맘대로 Introduction monoSDF는 3D surface reconstruction인데 IDR 기반으로 하되, omnidepth에서 나오는 scaless depth와 normal을 pseudo GT처럼 활용해서 넣어주는 형태다. Omnidepth가 꽤나 정확한 depth, normal을 뱉어준다는 것을 전제로 하기 때문에 이미지를 많이 촬영하지 않아도 이 데이터의 힘으로 학습이 잘 되는 경향이 있다. 따라서 이미지가 좀 적어도 성능 좋게 복원할 수 있다는 것이 장점이다. 메모하며 읽기 전체 흐름은 위와 같다. 주목해야할 점은 D와 N으로 적혀있는 Omnidepth output을 supervision으로 추가했다는 점과 다양한 represenation을 다 테스트해보았다는 점이다. 전체 파이프..

Paper/3D vision 2023.10.17

StreetSurf: Extending Multi-view Implicit Surface Reconstruction to Street Views (arXiv2023)

내 맘대로 Introduction 이 논문은 3D surface reconstruction을 street view에 어떻게 효과적으로 적용할지 고민한 논문이다. 전반적인 논문 느낌이 연구적으로 어떻게 거리뷰에 적용할지 설명하는게 아니라 이것저것 붙여보면서 어떻게든 잘 되게 만들어보려고 노력한 흔적을 설명한 느낌이다. 그래서 새로운 아이디어가 반짝이는 논문이라기 보다 어떤 걸 조립하면 성능이 잘 나오는지 보여주는 조립형 논문 같다. 핵심아이디어는 object-centric으로 sphere 공간을 잡고 시작하는 것을 non object- centric cuboid 공간으로 잡은 것, hash table을 써서 가속한 것, 근-중-장거리 모델을 따로 두어 성능을 끌어올린 것 정도 되겠다. 참고로 거리뷰가 시점..

Paper/3D vision 2023.10.16

Decoupling Makes Weakly Supervised Local Feature Better (a.k.a PosFeat)

내 맘대로 Introduction 이 논문은 SIFT와 같은 가장 low level vision 기술인 image feature를 뽑는 네트워크를 소개한다. Superpoint와 같은 논문의 2022년 버전이라고 생각하면 되겠다. 기타 deep feature extraction 네트워크들은 detect-and-describe 즉 위치를 먼저 잡고 그 주위에 feature를 convolution함으로써 image feature화하는 방식을 많이 썼다. 하지만 이 논문은 반대로 describe-and-detect 순서로 변경한 것이 차이다. 먼저 descriptor가 잘 뽑히도록 한 뒤 위치를 잡기 때문에 descriptor가 좋아야 위치도 잘 잡히는 구조다. 따라서 descriptor가 더 까다롭게 학습되..

Paper/3D vision 2023.09.19

Vision Transformers for Dense Prediction

내 맘대로 Introduction Dense prediction을 필요로 하는 task들은 (depth, semantic segmentation 등) encoder-decoder 구조를 많이 차용한다. 그리고 CNN으로 많이 구현한다. 하지만 메모리 사용량과 연산량 문제로 CNN encoder-decoder 구조는 downsampling을 많이 사용한다. 이 과정이 사실 많이 사용하고는 있으나 따지고 보면 dense prediction을 하기 위해 global context를 더 잘 보고 high frequency detail을 유지해야 하는 특성과 맞아 떨어지지는 않는다는 주장이다. 따라서 downsample이 포함되지 않는 ViT 구조를 encoder로 사용하고 CNN decoder를 조합하면 den..

Paper/Others 2023.09.13

CroCo v2: Improved Cross-view Completion Pre-training for Stereo Matching and Optical Flow

내 맘대로 Introduction 제목에서 알 수 있다시피 Croco의 성능 개선편, v2다. 사실 상 엄청난 개선은 없고 성능을 끌어올리기 위한 기법들을 소개하는 것이다. 첫번째는 synthetic data만 썼던 v1 대비 large scale real data를 만든 것. 두번째는 모델 사이즈를 키운 것. 세번째는 rotary positional embedding으로 변경한 것이다. 그리고 downstream task로 binocular vision task에서 성능 향상이 얼마나 큰 지 강조하면서 geometric task에서의 우수성을 보여준다. 메모하며 읽기 한 그림에 다 나와있다. 모델 크기 키웠고 실환경 데이터 무지막지하게 추가했고 positional embedding을 변경했다. Croc..

Paper/Others 2023.09.13

CroCo: Self-Supervised Pre-training for 3D Vision Tasks by Cross-View Completion

내 맘대로 Introduction 이 논문은 pretrained ViT backbone을 학습시켜두는 방법론을 설명하는 논문이다. Masked image modeling(MIM) 기법으로 사전 학습시킨 ViT backbone이 다른 vision task에 사용되었을 때 성능 향상에 기여했다는 논문들이 다수 등장함에 따라 그 확장 판 논문이다. 핵심 아이디어는 하나의 이미지로만 학습시키던 MIM 기법을 두 개의 이미지로 학습시키는 파이프라인으로 만들고, 그 두 개의 이미지를 같은 공간 view point만 다른 이미지로 제한하여 공간 정보를 더 잘배우도록 유도하는 것이다. 공간 정보를 더 잘 배우니 3D vision task의 backbone으로써 더 적합하다는 주장도 펼친다. 메모하며 읽기 MIM이라는 ..

Paper/Others 2023.09.13

NeuS2: Fast Learning of Neural Implicit Surfaces for Multi-view Reconstruction

내 맘대로 Introduction 이 논문은 InstantNSR와 같이 SDF based NeRF + InstantNGP를 합친 논문이다. hash table + 2nd order derivative를 구현한 내용이 주기 때문에 부족해보이는 contribution 마저 InstantNSR과 같이 비디오에서 빠르게 하는 방법으로 정했다. NeuS2로 봄과 동시에 InstantNSR2로 보아도 큰 차이가 없다. 보다 나은 점은 더 간결하게 구현했다는 점과 성능이 있겠다. 메모하며 읽기 Static한 경우는 InstantNSR과 같이 크게 언급할 내용이 없다. 데이터 구조를 hash table 사용하는 방식으로 변경했다는 내용임으로 그냥 칸 채우기에 불과하다. Neus + InstantNGP recap에 해당..

Paper/3D vision 2023.09.04

Human Performance Modeling and Rendering via Neural Animated Mesh (a.k.a InstantNSR)

내 맘대로 Introduction 이 논문은 InstantNGP를 SDF based NeRF에 확장한 논문이다. 복원 대상을 사람으로 한정해서 non-rigid motion을 추가했다는 contribution이 있지만 핵심은 SDF base NeRF의 속도를 비약적으로 끌어올리는 것에 있다. 메모하며 읽기 이론적 기반은 NeuS를 그대로 사용했음. 길고 길게 써있지만 Hash grid를 이용한 SDF 학습을 위해 2nd order derivative 계산 방법을 CUDA로 직접 구현했다는 이야기. 부수적으로 구현을 했더니 SDF는 학습 안정성이 떨어져서 sigmoid를 씌워서 TSDF로 사용했다. 2nd order derivate가 핵심인데 이건 설명보다 구현적인 것이라 논문에 기재되어 있지 않음. 근데..

Paper/Human 2023.09.01

3D Registration with Maximal Cliques

내 맘대로 Introduction 제목에서도 심플함이 느껴지는데 point cloud registration을 잘하는 논문이다. 딥러닝을 쓰지도 않았고 복잡한 개념도 없이, 정합을 위해 집중해야하는 영역들을 잘 추려내는 것에 집중해서 성능을 끌어올렸다. 아이디어가 심플함에도 성능 향상이 커서 CVPR 2023 student best paper를 수상한 논문이다. 대단.. 핵심은 maximum clique (graph theory에서 나옴)로 추린 점들을 비교했었는데 maximal clique로 추린 점들을 비교한 것이다. 메모하며 읽기 일단 maximum과 maximal의 차이를 알아야한다. (나도 처음 알았다...) --- An element is a maximum if it is larger than..

Paper/3D vision 2023.08.21