분류 전체보기 606

ImHead: A Large-scale Implicit Morphable Model for Localized Head Modeling

내 맘대로 Introduction 어쩌면 NPHM의 후속작이라고 불릴 수 있을 것 같은데, 약간의 Local controllability를 향상시키고 데이터셋의 범위를 크기 넓혀서 만들었다. 데이터셋을 4000 id 규모로 공개하고 학습에 이용했는데, 직접 스캔한 것을 이렇게 공개했나 하고 대단하다고 생각했었는데 있는 안면부 데이터를 completion해서 사용했다. MimicMe 데이터셋에 NPHM을 피팅해서 사용하는 방식 + 약간의 후처리를 곁들였다. 메모1. mimicme에서 4000개 subject 20개 expression 얼굴 스캔을 가져옴2. FLAME fitting해서 좌표계 맞추고 스케일 맞추고. 3. NPHM을 피팅함. 4. NPHM mesh를 얻어낸 다음, 얼굴부만 NICP로 한..

Paper/Human 2025.10.27

Generative Human Geometry Distribution

내 맘대로 Introduction Geometry Distributions 을 준비하면서 동시에 준비한 듯한 논문. 데이터의 표현법을 고민했으니, 이 표현법을 사용해서 뭔가 새로운 시도를 해보고 싶었을 것이다. 그 결과 3D generative model의 새로운 접근을 보여준다. 기존 방식들은 SDF representation을 사용하므로 학습이 굉장히 어렵다. surface point sampling 방식에 따라서, 그리고 네트워크 크기에 따라서 말이다. 저자들이 이전 논문에서 제안한 방식은 학습만 된다면 데이터를 효과적으로 표현하는 대체재를 만들기 때문에 좀 더 효율적인 모델 학습이 가능할 것으로 기대된다. 일단 budget의 한계인지 사람 데이터로 scope를 줄여서 시도했다. objaverse..

Paper/Human 2025.10.27

Geometry Distributions

내 맘대로 Introduction ICCV 2025에 가서 현장에서 본 포스터 중 눈에 띄어서 읽어본 논문. mesh의 surface point를 gaussian distribution으로 압축하고, 나중에 이 distribution만 갖고 다시 mesh surface points를 복원해낼 수 있도록 한 논문. 일종의 새로운 3D 표현법 이면서 압축률까지 가져갈 수 있는 방식. mesh resolution, 처리 가능한 point의 개수, watertightness 등 3D 데이터를 처리할 때 발목을 붙잡는 많은 이슈들이 있는데 그걸 해결해보고자 시도한 방식. 나 또한 메모리가 한정된 상황에서 그리고 데이터마다 퀄리티가 다른 상황에서 이걸 어떻게 동일한 기준으로 encoding하여 사용할 수 있을지 고..

Paper/Others 2025.10.27

Topologically Consistent Multi-View Face Inference Using Volumetric Sampling

내 맘대로 Introduction learnable regisration의 시초 같은 논문. 이것도 꽤 오래됐다. hao li 참여 논문. calibration된 세팅에서 정해진 volume 안에 모델이 존재하고, 3D voxel feature로부터 template mesh vertex를 예측하는 방식. coarse 예측 후, displacement map이나 albedo같은 디테일맵을 추가 예측한다. light stage 데이터가 있기에 가능한 학습이었고, MVS도 모공 수준으로 잘된 경우를 취급한다. 메모기본 컨셉은 coarse-to-fine이다 역시. coarse mesh를 낮은 vertex로 예측한 뒤 (global stage) lcao stage를 몇번 반복하면서 high resolution ..

Paper/Human 2025.10.16

GLVD: Guided Learned Vertex Descent

내 맘대로 Introduction 그림만 보고 mesh diffusion 같은 컨셉인 줄 알았는데 알고보니 LVD의 얼굴 버전이더라. 단순히 말하면 LVD랑 똑같이 projected vertex 위치에서 이미지 feature를 뽑아가면서 vertex 위치의 보정량을 예측하는 네트워크를 학습하는 건데, 얼굴이라는 도메인을 살려서 keypoint 에 대해서 relative postiion encoding을 취하면서 진행하면 성능이 좋다는 얘기. 사실 크게 와닿는 내용은 아닌 것 같다. 단순 메모용. 메모LVD를 얼굴에 대해서만 학습할 건데 keypoint 추정하는 모듈을 같이 학습해서 keypoint가 나머지를 guide한다는 의미.2D keypoint dectector에서 얻은 heatmap을 이용해 im..

Paper/Human 2025.10.16

Learned Vertex Descent : A New Direction for 3D Human Model Fitting

끄적끄적오랜만에 논문 기록을 한다. 8월 중순 이후로 좀 하던 연구도 따라 잡히고 그래서 꺾였다가 다시금 하고 싶은 내용 하나 잡아서 시작. 내 맘대로 Introduction2022년 공개된 논문이라 꽤 됐긴 한데, 이미지로부터 바로 파라미터를 예측하는 것이 아니라 최적화랑 estimation을 교묘하게 묶어놓은 방식. PyMAF랑 비슷한 느낌인데 이게 원조다. 현재 모델 vertex를 이미지로 내려찍고, 해당 위치의 이미지 feature로 vertex displacement를 추정하는걸 반복하는 방식. vertex가 이동해야할 방향을 네트워크를 활용해서 계속 추정하고, 이걸 이용해서 최적화하는 걸 반복해서 최종 형상을 얻어내는 방식이다. L2 distance나 chamfer distance 같은건 ..

Paper/Human 2025.10.16

윈도우용 NTFS 디스크/USB 깨졌을 때, 우분투에서 사용하다 마운트 에러날 때

USB나 SSD를 보면 파일 시스템이 여러개 존재하는데 ext4 같이 윈도우, 그 중 윈도우를 가정한 NTFS 같은 파일 시스템도 있다. 이 NTFS로 설정된 디스크를 우분투에 마운트해서 사용할 때, 중간에 IO 에러 같은게 한 번 나면 아예 잠겨버린다. 예를 들면, 파일을 옮기고 있는데 디스크를 모르고 뽑아버렸다거나 파일 IO하는 중에 컴퓨터가 뻗어버렸거나 하는 상황이 있다. 이러면 아래와 같은 오류명만 계속 나오고 마운트가 안된다. 파일 시스템에 dirty bit가 껴있으면 아예 연결 안되는 증상.Error mounting /dev/sde2 at /media/jseob/~~~: Unknown error when mounting /dev/sde2 해결법sudo apt-get updatesudo a..

Trouble/Linux 2025.09.12

DIFIX 3D+: Improving 3D Reconstructions with Single-Step Diffusion Models

내 맘대로 Introduction CVPR2025에서 많이 샤라웃됐던 논문. 아주 실용적인 목적을 사용성도 좋게 만들었고 성능도 좋아서 내가 봐도 눈에 띈다. 아주 좋은 컨셉의 좋은 논문. 핵심 내용은 3DGS가 부족한 렌더링 결과를 보일 때가 많은데, 부족한 렌더링 결과를 diffusion prior를 이용해 realistic하게 복원하는 것이다. 이게 가능하다면 부족한 렌더링 결과를 모델로 보정한 뒤, 다시 한번 3DGS 최적화를 돌리면 3DGS를 개선할 수 있다. 단순히 이미지만 취득하고 싶을 경우에는 postprocessing 개념으로 뒤에 붙이기만 해도 된다. 한마디로 좋은 결과물 3DGS 결과물을 얻고 싶을 때 활용하기 좋은 도구로써 아주 의미가 있다. 메모불완전 3DGS 렌더링 이미지를..

Paper/Generation 2025.08.13

π 3 : Scalable Permutation-Equivariant Visual Geometry Learning (pi3)

내 맘대로 Introduction VGGT가 best paper 받은지 얼마나 됐다고 바로 개선 작업에 착수해서 VGGT를 이겨먹은 모델이 나왔다. VGGT를 잘 뜯어보고 단점을 떼어내고 데이터를 더 먹여서 성능이 높인 것 같다. 들어간 전기와 데이터에 경의를 표한다. 메모가장 먼저 VGGT의 단점으로 꼽은 것은 reference view의 필요성이다. DUST3R도 그렇고 기준 시점을 제외하면 나머지 시점의 output들은 모두 자기 coordinate가 아닌 기준 시점 coordinate로 뱉어야 한다. 따라서 기준 시점과 멀찍이 있을 수록 어렵기 때문에 성능이 기준 시점 선정에 따라 불안정하다는 것을 꼬집는다.그래서 하고자 하는 것은 VGGT에서 기준 시점이라는 개념을 삭제해버리는 것.결론을 먼저..

Paper/3D vision 2025.08.13

Text-to-Image GAN with Pretrained Representations

내 맘대로 Introduction이 논문도 이전 P2D 와 같이 discriminator가 pretrained model 기반으로 구성한 논문. 아쉽게도 초점이 T2I 모델을 GAN 기반으로 만들고 성능을 높여다는데 있다. pretrained model의 효과에 대해 분석하는 것이 아니라. 그래서 내 입장에선 참고 정도만 하기 좋은 논문이었다. 메모성능으로 compete하는 방향으로 논문 방향을 정했다. 모델 구조를 어떻게 짰는지 설명 시작. 성능에 초점을 맞추고 있기 때문에 성능 gap을 조금이라도 올리기 위해서 네트워크 구조를 최적화했음을 먼저 설명한다.아쉽지만 내 관심사는 아니어서 설명 패스.이것도 마찬가지.이 논문에서는 P2D와 다르게 네임드 모델들을 전부 다 붙여봤다. 이 결과는 좀 유의미한 것..

Paper/Generation 2025.08.13