전체 글 562

ComfyUI 사용 시 Config object has no attribute "get_text_config" 문제

ComfyUI에서 모델을 이것저것 쓰다보면 transformers 버전이 오락가락할 일이 생각보다 많은데 (모델마다 다른 버전을 쓰는 경우가 많아서) 아래와 같은 오류가 자주 보인다.Config object has no attribute "get_text_config" transformers 내에서 나는 오류기 때문에 고칠 방법은 버전을 제대로 맞추는 것 밖에 없다. 해결법pip install transformers==4.46.0 4.46.0이 답이다.

Trouble/Others 2025.04.22

[Dataset 제작] Polygom2K2K 데이터셋 만들기 (구. 2K2K 데이터셋)

https://sanghunhan92.github.io/conference/2K2K/ High-fidelity 3D Human Digitization from Single 2K Resolution Images | Project PageAbstract High-quality 3D human body reconstruction requires high-fidelity and large-scale training data and appropriate network design that effectively exploits the high-resolution input images. To tackle these problems, we propose a simple yet effective 3sanghunhan9..

About me/What I did 2025.04.21

Towards Realistic Example-based Modeling via 3D Gaussian Stitching

내 맘대로 Introduction 이전 SeamlessNeRF의 3DGS 버전이라고 보면 된다. SeamlessNeRF가 잘 학습된 TensoRF 모델을 위치를 지정해서 merging하는 방법론. NeRF보다 3DGS는 explicit하기 때문에 딱봐도 더 난이도가 낮아보이고 성능도 더 뛰어날 것으로 보인다. 단순히 color tone만 matching하는 것을 넘어서 gradient를 사용하는 컨셉을 그대로 가져오되 형식을 3DGS에 맞도록 변경한 것이 핵심. GUI까지 꾸며서 개발한 것을 보아 연구성 논문으로 시작한 것은 아닌 것 같다. 메모전처리1) 합칠 대상이 되는 2개의 3DGS 복원 완료된 결과를 GUI에 띄워서 bounding box로 cropping -> 유효 3DGS를 손으로 일단 정..

Paper/3D vision 2025.04.18

SeamlessNeRF: Stitching Part NeRFs with Gradient Propagation

내 맘대로 Introduction 요즘 3DGS을 seamless integration하는 방법을 좀 알아보고 있는데, 2023년 NeRF에서 구현한 논문이 있길래 참고 삼아 읽었다. 각기 다른 대상을 담은 NeRF MLP (정확히는 TesorRF Vector-matrix)가 주어졌을 때, 이를 두 개를 합쳐 마치 하나였던 것처럼 렌더링하는 방법론이다. 핵심은 color tone을 업데이트해서 자연스럽게 이어붙이는 과정. 단순히 color tone만 업데이트하면 잘 안될 것 같은데, gradient를 이용한 loss로 보강한 것이 핵심 메모1) 기본적으로 TensorRF를 backbone으로 쓴다. TensorRF는 vector와 matrix로 공간을 표현하는 representation을 쓰기 때문에 유..

Paper/3D vision 2025.04.16

파일 압축 해제했는데 용량이 과하게 늘어나는 문제 (2배 이상), 파일 시스템 포맷 문제 (exFAT ->ext4)

압축된 파일을 다운로드받은 뒤, 압축 해제를 했는데 예상과 달리 파일 크기가 2~3배까지 늘어나는 문제를 겪었다.  ava 256 데이터셋은 4TB 정도의 데이터셋인데 압축 해제를 하고 나니 거의 20TB가 필요해서 터져버렸다.  압축 해제하면 당연히 파일 크기는 압축 전보다 커지는 것이 맞는데, 비정상적으로 커지는데는 다른 이유가 있더라.  이유는 압축 해제하고 있는 디스크의 파일 시스템 포맷이 exFAT이기 때문이다.  나도 자세히는 모르는데, 디스크마다 데이터를 어떤 규칙으로 저장할 지 결정하는 파일 시스템 포맷이라는게 존재하는데 이걸 어떻게 설정하느냐에 따라 사용 가능한 OS가 결정되고, 데이터마다 할당되는 메모리 크기가 저장된다.  USB도 윈도우에서는 저장이 잘 안되고 우분투에서는 저장이 되는..

Trouble/Linux 2025.04.13

GGHead: Fast and Generalizable 3D Gaussian Heads

내 맘대로 Introduction 상상만 했던 것을 직접 구현한게 나왔다. StyleGAN2의 3DGS 버전이다. latent 하나만 달랑 넣으면 template mesh에 대응되는 3DGS가 짠 나오는 논문. StyleGAN2 generator - 3DGS + diff. rasterizer - discriminator 3개만으로 풀어버렸다. 안 그래도 학습이 어려운 GAN 튜닝을 3DGS 같이 자유도가 높은 대상에 대해서 하는 것은 사실 누가 봐도 쉽지 않아보였는데 그걸 해버렸다. 그래서 SIGGRAPH에 됐나 보다.... 메모1) generator  UV domain 각 픽셀마다 3DGS primitives 예측2) 3DGS 렌더링3) discirimination.latent 512 vector 를 ..

Paper/Human 2025.04.10

[AM-RADIO, RADIOv2.5] Feature space 짧은 분석

https://github.com/NVlabs/RADIO GitHub - NVlabs/RADIO: Official repository for "AM-RADIO: Reduce All Domains Into One"Official repository for "AM-RADIO: Reduce All Domains Into One" - NVlabs/RADIOgithub.com  궁극의 vision foundation model이 나온 것 같아서 직접 feature를 뽑아서 관찰해봤다. 결과 위 결과는 입력 이미지 6개를 전부 RADIOv2.5를 돌린 뒤, 다같이 PCA를 통해 3채널로 dimension reduction한 뒤 RGB로 mapping해서 시각화 한 결과다. 쉬운 말로 색깔이 비슷할 수록 해당 위치 ..

About me/What I did 2025.04.08

AM-RADIO: Agglomerative Vision Foundation Model Reduce All Domains Into One

내 맘대로 Introduction 미친 논문을 하나 발견했다. 개인적으로 이렇게 파고드는 탐색적 연구가 멋있는 것 같다. 이 논문은 DINOv2, CLIP, SAM 등 foundation model이라고 불리며 general purpose feature를 뽑아주는 모델들을 보고, 단 하나로 융합할 수 없을까 고민한 논문이다. 쉽게 말하면 모든 VFM(vision foundation model)을 하나로 합쳐서 궁극의 모델을 만드는 방법을 고민한 것. 핵심은 기존 VFM 들을 multi-teacher로 두고 하나의 student를 학습하는 knowledge distillation이다. 단순히 결과 feature가 닮도록 loss를 걸어준다고 생각하기 쉽지만, 그 과정에서 각기 다른 dimension, fe..

Paper/Others 2025.04.08