전체 글 611

DreamSim: Learning New Dimensions of Human Visual Similarity using Synthetic Data

내 맘대로 Introduction우연히 발견한 논문인데, 오랜만에 원론적인 고민을 한 사람을 만난 것 같다. 이 논문은 "이미지가 비슷하다"를 집요하게 파고 들어 비슷함에 대한 metric을 만들고자 했다. 우리가 흔히 LPIPS나 CLIP/DINO/SAM 등 foundation model feature의 cosine similarity로 이미지의 비슷함을 가늠하곤 했는데 이 사람은 이게 효과적임을 인정함과 동시에 의문을 품었다. 비슷하긴 한데 어떻게 비슷한건데? 결국 사람이 보기에 비슷한 거랑 일치해야 하는거 아니야? 라고. 그래서 이 사람은 SD에서 같은 category로 만들어 낸 무수한 이미지 triplet을 갖고 "진짜" 사람한테 시켜서 데이터를 구성한 뒤, 이 데이터를 갖고 각 feature ..

Paper/Others 2025.05.29

FaceLift: Single Image to 3D Head with View Generation and GS-LRM

내 맘대로 Introduction 이 논문 역시 Adobe에서 낸 것인데 인턴 기간 중 작성된 것으로, 아직 어디 publish된 것 같진 않다. 내용 측면에서 GS-LRM의 힘을 크게 받았고, 입력 단의 multiview human image를 잘 생성하는 diffusion model을 만들었다 정도에 머물러서 이 역시 technical report에 가까운 느낌이다. 하지만 역시나 완성도는 매우 높아보인다. GS-LRM이 대단하긴하구나. 일단 Adobe의 synthetic은 더 이상 synthetic이라고 안 봐도 될 것 같다. 퀄리티가 확실히 다르다. 데이터가 최고구나. 메모우측 그림은 GS-LRM이다.아예 적고 시작한다. SD Tuning + GS-LRM이라고.인턴 기간이 매우 짧았을텐데, 그 ..

Paper/Generation 2025.05.29

GS-LRM: Large Reconstruction Modelfor 3D Gaussian Splatting (Tech. report)

내 맘대로 Introduction이 GS-LRM은 Adobe에서 만든거라 완성도가 매우 높지만 코드가 공개되지 않았기 때문에 유명세까지는 이어지지 않은 숨은 고수 같은 느낌이다. 논문으로써 바라보면, transformer + MLP(to-GS primitives)를 multiview setting에서 학습한 foundation model을 만든 것이라 technical report에 가깝다. 논문을 읽다 보면 저자들도 acceptance 여부보다는 report 느낌으로 남겨놓았다는 인상이 남는다. 내용은 매우 간결하다. 구현도 매우 간결. 하지만 학습 데이터 양에서 압도적인 수준을 보여주는 듯 하다. 단순히 보면 DUST3R 같은건데, GS primitives가 pixel마다 출력으로 나온다고 보면 됨...

Paper/Generation 2025.05.29

[Large Steps in Inverse Rendering of Geometry 테스트] 개선된 Laplacian loss 효과 관찰

3D mesh를 다룰 떄 laplacian loss로 regularization을 가하는 것은 기본적인 규칙이 되어버렸는데, Large Steps in Inverse Rendering of Geometry 에서 제안한 방법이 더 좋아보였다. SIGGRAPH에 나온 논문이기도 하니까... https://github.com/rgl-epfl/large-steps-pytorch GitHub - rgl-epfl/large-steps-pytorch: Implementation of "Large Steps in Inverse Rendering of Geometry"Implementation of "Large Steps in Inverse Rendering of Geometry" - rgl-epfl/large-step..

About me/What I did 2025.05.27

Human Hair Reconstruction with Strand-Aligned 3D Gaussians

내 맘대로 Introduction 이 논문 역시 hair 복원을 목적으로 하는데, neural strand에서 한 스텝 더 나아가서 gaussian을 binding해서 realistic rendering까지 나아간 논문이다. 어떻게 보면 당연한 수순을 밟아 나온 논문이라고 볼 수 있겠다. neural strands에서 아쉬운 점이라고 하면 최종 렌더링 결과를 얻는 것이 alpha compositing에 의존하기 때문에 정해진 시점, 입력 시점에서만 결과를 얻을 수 있다는 점이다. Gaussian이 등장한 이후로 시점을 다양화하는 것은 기본처럼 느껴지게 된 상황이라 마지막 렌더러를 GS로 바꾸려고 생각하는 것은 자연스러웠다. 핵심 아이디어는 기존 neural strand 방식으로 그대로 따라가되 hair..

Paper/Human 2025.05.23

DiffLocks: Generating 3D Hair from a Single Image using Diffusion Models

내 맘대로 Introduction진짜 대박인 논문 하나 더 나왔다. Hair strand의 어떻게 보면 끝판왕이라고 볼 수 있는 형태가 나온 것 같다. 이미지 to hair style. 핵심은 Blender로 만든 대규모 synthetic hair dataset으로 image conditioned iffusion model을 학습시키는 것. 기반이 되는 아이디어는 Neural Strands에서 제안한 3D strand VAE (의 latent space), strand 정의 방법 자체다. 좋은 논문에 이은 좋은 후속작이라고 생각한다. 이전까지 hair stand 복원이 multiview domain이나 synthetic domain에 멈춰있었는데 이 논문이 효과적인 프레임워크들을 잘 조합해서 singl..

Paper/Human 2025.05.23

Neural Strands: Learning Hair Geometryand Appearance from Multi-View Images

내 맘대로 Introduction오랜만에 궁금해서 설렐 정도의 논문을 본 것 같다. Gaussian haircut 논문을 보다가 타고 올라와서 보게 된 논문인데, 남길주 박사님이 있는 논문. LMVS (line based MVS)로 CVPR 2019에서 hair reconstruction paper 쓰신 것을 보고 대단하다 생각했는데, 계속 머리카락에 대한 주옥 같은 논문에는 항상 참여하시는 것 같아 다시금 대단해보인다. 각설하고 논문 내용을 보면, FLAME의 두피 특정 위치마다 1가닥의 strand를 맵핑해서 머리카락을 복원해내겠다는 컨셉으로 strand를 어떻게 latent로 표현할 것인지 제안한 것부터 포함되어 있다. 이외에 1개씩 복원해서는 수만개의 머리카락을 표현하는데 한계가 있으니 UV d..

Paper/Human 2025.05.22

VGGSfM, gsplat 사용 시 pycolmap 버전 문제

VGGSfM이 colmap의 상위 호환을 주장하며 나온 상황에서 여러 데이터에 대해서 사용해봤다. 중간 구현은 다르지만 최종 출력물이 colmap에서 사용하는 images, cameras, sparse 파일들이기 때문에 gsplat까지도 그대로 붙여서 사용할 수 있는데 pycolmap dependency 문제가 생각보다 골치 아프다. ImportError: cannot import name 'SceneManager' from 'pycolmap' (/home/jseob/miniconda3/envs/vggsfm_tmp/lib/python3.10/site-packages/pycolmap.cpython-310-x86_64-linux-gnu.so) 일단 위와 같은 문제가 제일 빈번하게 나오는데, VGGSfM 제공..

Trouble/Vision 2025.05.20

[Template mesh model 제작] METHA : Meta's topology-based (Ava-256, Multiface) Template model for Head Avatar

Motivationbody mesh하면 SMPL, Head mesh하면 FLAME 사실 사람과 관련된 template mesh model은 MPI가 독점하고 있다. 초창기에는 성능 때문에, 요즘에는 대규모 커뮤니티를 통해 검증/발전되었기 때문에 이것들만 쓴다. 나 역시 많이 써보았고, 자체 완성도와 녹아있는 노하우들에 감탄할 때가 많다. 하지만 종종 서양인에 맞추어진 표현력이 아쉬울 때도 많았다. 대규모 3D SCAN을 사용해서 만든 FLAME이라고는 하지만 대상이 유럽인이 대부분이기 때문에 서양인 얼굴 형태에 bias가 들어있다. 그 결과 낮은 콧대나 옆으로 넓은 얼굴에 대한 표현력이 상당히 아쉽다. Introduction그래서 내가 모아서 전처리해둔 모든 데이터들을 모아서 Head template..

About me/What I did 2025.05.15

Large Steps in Inverse Rendering of Geometry

내 맘대로 Introduction 이 논문은 diff.rendering으로 target geometry를 역추정할 때 (DMTet 같은 느낌) 단순히 gradient를 vertex에 흘려보내기만 한다면 위 그림의 (b)처럼 망가지는데, 어떻게 regularization하면 효과적으로 최적화할 수 있을지 방법론을 소개하는 논문이다. 기존 방식은 vertex gradient와 laplacian regularizer 간의 trade-off 지점을 정하는 방식으로 완충했는데, 이 논문은 수학적으로 조금 더 나은 방법을 계산한다. gradient와 regularizer가 싸우도록하는 것이 아니라 gradient 자체를 regularize하는 방식이다. 구체적인 수학은 나도 모름. 메모mesh M이 주어졌을 때 ..

Paper/3D vision 2025.04.29