CODERNER

SeamlessNeRF: Stitching Part NeRFs with Gradient Propagation

내 맘대로 Introduction 요즘 3DGS을 seamless integration하는 방법을 좀 알아보고 있는데, 2023년 NeRF에서 구현한 논문이 있길래 참고 삼아 읽었다. 각기 다른 대상을 담은 NeRF MLP (정확히는 TesorRF Vector-matrix)가 주어졌을 때, 이를 두 개를 합쳐 마치 하나였던 것처럼 렌더링하는 방법론이다. 핵심은 color tone을 업데이트해서 자연스럽게 이어붙이는 과정. 단순히 color tone만 업데이트하면 잘 안될 것 같은데, gradient를 이용한 loss로 보강한 것이 핵심 메모1) 기본적으로 TensorRF를 backbone으로 쓴다. TensorRF는 vector와 matrix로 공간을 표현하는 representation을 쓰기 때문에 유..

Paper/3D vision 2025.04.16

Ava256, Multiface template mesh 분석 (vertex 7306 <-> vertex 5509)

https://github.com/facebookresearch/ava-256 GitHub - facebookresearch/ava-256: Train universal codec avatarsTrain universal codec avatars. Contribute to facebookresearch/ava-256 development by creating an account on GitHub.github.comhttps://github.com/facebookresearch/multiface GitHub - facebookresearch/multiface: Hosts the Multiface dataset, which is a multi-view dataset of multiple identities ..

Knowhow/Vision 2025.04.14

파일 압축 해제했는데 용량이 과하게 늘어나는 문제 (2배 이상), 파일 시스템 포맷 문제 (exFAT ->ext4)

압축된 파일을 다운로드받은 뒤, 압축 해제를 했는데 예상과 달리 파일 크기가 2~3배까지 늘어나는 문제를 겪었다. ava 256 데이터셋은 4TB 정도의 데이터셋인데 압축 해제를 하고 나니 거의 20TB가 필요해서 터져버렸다. 압축 해제하면 당연히 파일 크기는 압축 전보다 커지는 것이 맞는데, 비정상적으로 커지는데는 다른 이유가 있더라. 이유는 압축 해제하고 있는 디스크의 파일 시스템 포맷이 exFAT이기 때문이다. 나도 자세히는 모르는데, 디스크마다 데이터를 어떤 규칙으로 저장할 지 결정하는 파일 시스템 포맷이라는게 존재하는데 이걸 어떻게 설정하느냐에 따라 사용 가능한 OS가 결정되고, 데이터마다 할당되는 메모리 크기가 저장된다. USB도 윈도우에서는 저장이 잘 안되고 우분투에서는 저장이 되는..

Trouble/Linux 2025.04.13

GGHead: Fast and Generalizable 3D Gaussian Heads

내 맘대로 Introduction 상상만 했던 것을 직접 구현한게 나왔다. StyleGAN2의 3DGS 버전이다. latent 하나만 달랑 넣으면 template mesh에 대응되는 3DGS가 짠 나오는 논문. StyleGAN2 generator - 3DGS + diff. rasterizer - discriminator 3개만으로 풀어버렸다. 안 그래도 학습이 어려운 GAN 튜닝을 3DGS 같이 자유도가 높은 대상에 대해서 하는 것은 사실 누가 봐도 쉽지 않아보였는데 그걸 해버렸다. 그래서 SIGGRAPH에 됐나 보다.... 메모1) generator UV domain 각 픽셀마다 3DGS primitives 예측2) 3DGS 렌더링3) discirimination.latent 512 vector 를 ..

Paper/Human 2025.04.10

[AM-RADIO, RADIOv2.5 테스트] Feature space 짧은 분석

https://github.com/NVlabs/RADIO GitHub - NVlabs/RADIO: Official repository for "AM-RADIO: Reduce All Domains Into One"Official repository for "AM-RADIO: Reduce All Domains Into One" - NVlabs/RADIOgithub.com 궁극의 vision foundation model이 나온 것 같아서 직접 feature를 뽑아서 관찰해봤다. 결과 위 결과는 입력 이미지 6개를 전부 RADIOv2.5를 돌린 뒤, 다같이 PCA를 통해 3채널로 dimension reduction한 뒤 RGB로 mapping해서 시각화 한 결과다. 쉬운 말로 색깔이 비슷할 수록 해당 위치 ..

About me/What I did 2025.04.08

AM-RADIO: Agglomerative Vision Foundation Model Reduce All Domains Into One

내 맘대로 Introduction 미친 논문을 하나 발견했다. 개인적으로 이렇게 파고드는 탐색적 연구가 멋있는 것 같다. 이 논문은 DINOv2, CLIP, SAM 등 foundation model이라고 불리며 general purpose feature를 뽑아주는 모델들을 보고, 단 하나로 융합할 수 없을까 고민한 논문이다. 쉽게 말하면 모든 VFM(vision foundation model)을 하나로 합쳐서 궁극의 모델을 만드는 방법을 고민한 것. 핵심은 기존 VFM 들을 multi-teacher로 두고 하나의 student를 학습하는 knowledge distillation이다. 단순히 결과 feature가 닮도록 loss를 걸어준다고 생각하기 쉽지만, 그 과정에서 각기 다른 dimension, fe..

Paper/Others 2025.04.08

[끄적끄적] Research engineer >> Research scientist

요즘 능력을 인정 받기에는 research scientist보다 research engineer 트랙이 더 현실적인 것 같다. 구분 상 전자는 새로운 알고리즘을 만들어 내는 것에 집중하는 반면 후자는 알고리즘을 만드는 것과 더불어 실제 활용까지 고려한 추가 개발을 포함하는 범위인데, Research scientist가 빠른 속도로 치고 나가는 pioneer 같은 느낌이라면 research engineer는 그 길을 다지는 settler 같은 느낌이라고 할 수 있겠다. 요즘 전세계적으로 정말 유효 연구를 하는 reseach scientist는 빅테크 내부의 소수이고, 나머지는 그 소수가 만든 내용을 활용하는 2차 연구 그리고 리팩토링/변환/가속화가 전세계의 나머지인 모양으로 가는 것 같은데, 이 와중에 ..

About me/Memoir 2025.04.06

[끄적끄적] 연구원으로 살아남기?

요즘 게재되는 논문을 보다 보면 딥러닝은 과학이 아니라 자본력이라는 말도 있듯이 빅테크 기업이 독식하고 있다. 압도적인 컴퓨팅 파워와 데이터, 실험량으로 일반적인 수준의 연구실이나 개인은 범접할 수 없는 영역을 결과를 보여주고 있다. 격차를 넘어선 초격차가 존재하는 상황에서 개인은 어떻게 돌파구를 찾아야 하는가가 요즘 내 주요 관심사다. 단순히 대학원생이 어떻게 논문을 잘 쓰느냐 수준의 고민이 아니라 사회에서 계속 "연구원"이라는 직업 하에 나의 쓸모를 어떻게 증명할 것인가라는 고민이다. 본래 연구란 "어떤 일이나 사물에 대하여서 깊이 있게 조사하고 생각하여 진리를 따져 보는 일" 이지만 공학에서는 특별히 "쓸모를 더욱 더 쓸모 있게 만드는 일", "쓸모 있는 무언가를 새로이 만들어 내는 일"까지도 연..

About me/Memoir 2025.04.06

SMPL part labeling, SMPL segmentation, SMPL 파트 나누기

parametric model을 다룰 때 꽤나 있으면 좋을 정보 중 대표적인게 part label이다. 예를 들어 FLAME이나 BFM face model 같은 경우는 눈, 코, 입, 귀 등 영역 분할 mask를 제공하기 때문에 local한 무언가를 구현하고자 할 때 별 공수 없이 가져다 쓸 수 있게 되어있다. 반면 훨씬 많이 쓰는 SMPL 시리즈는 없길래 그냥 내가 만들었다. head 0left arm 1left foot 2left hand 3left leg 4right arm 5right foot 6right hand 7right leg 8torso 9각 vertex 마다 label을 0-9를 새겨서 총 10개의 영역으로 분할한 mask는 아래와 같다. SMPL 6890 SMPLX SMPL은 1..

Knowhow/Vision 2025.04.04

MeGA: Hybrid Mesh-Gaussian Head Avatar for High-Fidelity Rendering and Head Editing

내 맘대로 Introduction주어진 multiview-video + fitted FLAME 들로부터 animatable avatar를 만드는 것은 기존 많은 논문들과 동일한데, 머리카락 부분과 나머지 부분을 분리해서 학습시켜서 머리 바꿔치기가 가능하다는 점과, FLAME을 그대로 안쓰고 UV displacement을 중간 끼워넣어서 geometry가 더정확해지도록 만든 다음 처리했다는 점이 눈에 띈다. 결과가 재밌고 자연스러워서 인정 받은 느낌도 있다. 메모일단 전제 조건은 주어진 1객체마다 학습을 따로 한다는 점. 범용 모델은 아니다. subject A, B가 있으면 A, B 각각 학습하는 식.1) exp+pose parameter 입력으로 받았을 때 subject-specific displace..

Paper/Human 2025.04.04

CODERNER

전체 글 588

티스토리툴바