Paper/3D vision 53

MoGe: Unlocking Accurate Monocular Geometry Estimation for Open-Domain Images with Optimal Training Supervision

내 맘대로 Introduction DUSt3R이 쏘아올린 작은 공 후속편. monocular point map estimation이다. monodepth 추세가 DUSt3R로 인해 mono pointmap으로 넘어온 듯 하다. 단일 입력을 받고, intrinsic에 상관없이 normalized scale의 point cloud가 나오는 방식 DUSt3R과 구조적으로 single input을 받는다는 차이점 외에 focal length ambiguity를 해결하기 위해 scale 에 더불어 translation까지 고려한다는 차이점이 있다. 직관적으로 focal length가 다르면 물체가 다르게 보이기 때문에 같은 위치의 point cloud를 예측하기 힘드니까, translation을 같이 풀어주는 느..

Paper/3D vision 2024.11.19

MonST3R: A Simple Approach for EstimatingGeometry in the Presence of Motion

내 맘대로 Introduction DUST3R의 dynamic scene용 fine tuning 버전이다. 논문보다 테크니컬 리포트에 가깝고 내용도 굉장히 짧다. 컨셉만 설명하고 마무리함. DUST3R의 아이디어 자체가 굉장히 좋고 성능도 압도적인 탓에 많은 관심을 받는 중인데, 이 논문은 UC Berkeley, Google deepmind, stability AI, UC Merced 등 네임드에 있는 사람들이 모여 프로젝트성으로 진행한 것 같다.  기존 DUST3R가 static scene에 대해 학습된 네트워크이다 보니 dynamic object가 등장했을 때 이 dynamic object 영역을 틀어 맞추려고 하다 망가지는 경우가 있다. 이 문제를 짚으면서 데이터셋을 dynamic object를 커..

Paper/3D vision 2024.10.31

The Wave Kernel Signature:A Quantum Mechanical Approach to Shape Analysis (a.k.a WKS)

내 맘대로 Introduction 2010년 전후로 3D point descriptor를 만드는 연구가 인기가 꽤 있었나보다. 이 논문 역시 HKS와 마찬가지로 mesh vertex descriptor를 어떻게 하면 locality, globality 다 만족시켜서 만든 수 있을지 고민한 논문이다. 맨 처음 봤을 때 컨셉을 이번엔 열역학을 넘어서 양자역학에서 가져왔다길래 뇌절 논문인 줄 알았는데 아니었다.  핵심 아이디어는 mesh 형상에 따라 열이 퍼지는 양상을 descriptor로 썼던 HKS와 비슷하게, mesh vertex를 입자 1개로 보고 입자 하나에 집중되는 파동 에너지를 descriptor로 쓰는 것이다. 자세히는 이해를 못했다만 컨셉만 보면, 입자 1개는 주변 입자들과 인력/척력을 주고 ..

Paper/3D vision 2024.08.16

A Concise and Provably Informative Multi-Scale Signature Based on Heat Diffusion (a.k.a HKS)

내 맘대로 Introduction *요즘은 최신 논문을 이해하는 것보다 과거 논문을 이해하는게 더 어려운 것 같다. 기념비적인 논문들은 특히 수학적으로 탄탄하기 때문에 내 부족한 수학 밑천으로는 이해하기가 벅차다. 이 논문도 마찬가지인 논문이고, 사실 상 10% 정도 컨셉 이해에 그쳤다. 정리 수준이 부끄럽지만 그래도 10%라도 잘 기억해보려고 기록해본다.  이 논문은 간단히 말하면, Mesh vertex를 xyz, normal 외에 어떤 property로 표현할 수 있을지 고민한 느낌이다. 다시 말하면 mesh vertex descriptor를 만드는 방법을 설명한다. 3D correspondence나 segmentation에 응용할 수 있는 기본기다. 핵심 아이디어는 열역학에서 나왔다. 열이 어떤 형..

Paper/3D vision 2024.08.16

Neural Jacobian Fields: Learning Intrinsic Mappings of Arbitrary Meshes

내 맘대로 Introduction 앞선 논문들의 핵심 래퍼런스 논문으로 언급된 NJF. 짱도비에서 쓴 논문답게 완성도가 대단하다. 역작 논문.  mesh to mesh deformation을 학습하는건데, face의 R|t를 직접 다 찾아내는게 아니라. R만 찾아내도록 하고 뒤에 Poisson solver를 붙여 최적화로 나머지 위치를 찾아낸다. 네트워크는 오로지 주어진 point feature와 global feature (optional)로부터 각 face가 어떻게 회전될지 그 gradient만 예측하도록 하면 된다. 자유도를 확 낮추고 뒤에서 최적화가 도는 방식이다보니까 효율적이고 성능도 높아 보인다. 수학이 묻어나는 논문이라 이것 역시 정확한 이해는 어려웠지만, 컨셉이 좋아서 기록해둔다. 메모목적..

Paper/3D vision 2024.08.09

DiffusionNet: Discretization Agnostic Learning on Surfaces

내 맘대로 Introduction이 논문은 내 머리로는 한 방에 이해할 수가 도저히 없다. 수학, 수학, 수학한 논문이어서 수학 베이스가 약한 나로서는 이해할 방법이 없다. 이를 이해하기 위해서 파고들기엔 뭐를 봐야할 지도 잘 모르는 수준이어서 그냥 컨셉만 익히고 넘어간다.  이 논문의 핵심은 임의의 mesh가 주어졌을 때, vertex들을 어떻게 encoding해야 효과적으로 feature를 뽑아낼 수 있을지 그 방법을 설명하는 것이다. 예시가 사람이라서 human mesh 국한인 것으로 오해할 수 있으나, topology에 오류가 없는 mesh라면 어느 mesh든 적용 가능하다. 핵심 컨셉은 각 vertex를 동일한 가중치로 다루고 여기서 뽑은 feature도 동일하게 쓸 것이 아니라, 사전에 mes..

Paper/3D vision 2024.08.09

Grounding Image Matching in 3D with MASt3R (a.k.a MASt3R)

내 맘대로 Introduction 네이버랩스 유럽에서 얼마 전에 냈던 DUSt3R의 리마스터 버전 같은 논문. 내용 측면에서는 크게 달라진 점이 있다기 보다 feature matching까지 추가한 확장판이다. DUSt3R + addiontal head 느낌. pointmap을 뱉어주던 기존 DUSt3R의 마지막 부분에 feature descriptor를 뽑는 head를 추가했다. 이외에는 feature matching을 brute-force nearest neighbor로 하면 너무 오래 걸리니, 어떻게 속도를 빠르게 할 수 있을지 노하우를 기록한 내용. loss도 특별하지는 않다.  메모짙은 회색만 보면 DUSt3R과 똑같다. 네트워크도 pretrained model을 가져왔을 것이므로 100% 동일..

Paper/3D vision 2024.07.05

MeshAnything: Artist-Created Mesh Generation with Autoregressive Transformers

내 맘대로 Introduction point cloud to mesh 알고리즘. 어떻게 보면 poisson recon이라고 볼 수 있겠지만, point 중 버릴 건 버리고 어떻게 face를 형성해야 "실제 사람이 만든 mesh"처럼 만들어질 지 학습한 논문이다. 실제 사람이 만든 mesh의 경우, face가 과도하게 많지 않고 단순할 곳은 단순하게 자세할 곳은 자세하게 조절된 형태다.  주어진 어지러운 point cloud에서 모든 point를 face로 묶어내는 것이 아니라 선별적으로 묶어서 vertex 수는 적지만 표현력이 뛰어난 mesh로 정리해내는게 주 목적이다.  핵심 아이디어는 Objaverse, shapenet처럼 대규모 mesh 데이터로부터 평균적인 face 형성 규칙을 학습시킨 VAE를 ..

Paper/3D vision 2024.06.19

Dynamic Gaussians Mesh: Consistent Mesh Reconstruction from Monocular Videos

내 맘대로 Introduction monocular video에서 canonical Gaussian + Mesh를 얻어내는 방법이다. 핵심은 3DGS + deformation field를 수렴시키는 것으로 기존 컨셉과 동일한데, 3DGS densification, pruning을 최대한 발산하지 않도록 poisson solver+Marching cube를 붙여 억제한 것이 차이점이다. 다르게 말하면 3DGS를 point cloud로 보고 poisson solver 특성을 이용해서 서로 간의 위치가 smooth하도록 억제하면서 densification되도록 한 것이다.  추가로 marching cube까지 붙여서 복원된 mesh face와 3DGS 위치가 인접하도록 강제하면서 더욱 더 smooth하면서 m..

Paper/3D vision 2024.04.26

Multi-View Mesh Reconstruction with Neural Deferred Shading

내 맘대로 Introduction 이름 그대로 deferred shading을 neural network로 대체한 것이다. deferred shading이란 내용 자체는 geometry -> rendering 과정에서 pixel 값을 직접 계산하는 것이 아니라 geometry -> position,normal,depth -> rendering 순서로 계산하는 방식을 말한다. 직접 바로 계산하는 pixel shading과 달리 중간 산물을 만들고, 중간 산물로 shading을 하는 식으로 "지연"시켰다는 의미로 deferred shading이라고 불린다. 이 내용을 가져와서 multiview image에서 geometry를 만들어내는데, estimated geometry -> position, normal..

Paper/3D vision 2024.04.22