Paper/Others
Harnessing the Universal Geometry of Embeddings
침닦는수건
2025. 5. 30. 16:18
반응형
내 맘대로 Introduction
개쩌는 논문을 하나 또 발견한 것 같다. 성능이 개쩐다는 것이 아니라 파급력 측면에서 정말 파격적인 논문인 것 같다. 얼마나 많은 후속 연구가 나올지... 또 얼마나 많은 돈과 전기를 쓰게 될지 궁금하다.
요약하자면, 서로 다른 LLM 간의 embedding space를 GT 없이도 matching 할 수 있다는 것을 밝혔다. 예를 들면, GPT4에 어떤 입력을 넣어서 얻은 embedding이 있다고 쳤을 때, 이 값을 해석하려면 다시 GPU4 decoder가 필요했다. 하지만 이제는 GPT4 embedding을 DeepSeek embedding으로 변환할 수 있게 됐기 때문에 DeepSeek decoder가 있어도 값을 해석할 수 있다.
멋지지만 동시에 두렵다;; embedding은 암묵적으로 human interpretable이 아니기 때문에 유출이 된다 한들 대응되는 decoder 모델에 접근이 불가능할 경우 완전암호화나 다를 바 없었다. 하지만 embedding 번역이 가능해진 순간, 심지어 unsupervsed 방식으로, embedding을 유출시킬 수만 있으면 아무 모델 decoder로도 데이터 원상복구가 가능해진다는 것인데 해킹 시에 큰 문제가 될 수 있을 것 같다.
어느 누가 이 컨셉을 어떻게 발전시킬까 기대가 된다. 내용은 무게감에 비해 엄청 간단하다.
메모
![]() |
|
![]() |
시나리오는 다음과 같다. 1) 무슨 모델인지는 모르겠으나 여러 문서들의 embedding을 확보했다. 2) 내가 들고 있는 모델은 M2 뿐이다. 3) embedding을 M2 embedding space로 바꿀 수만 있으면 내가 해석할 수 있지 않을까? |
![]() ![]() |
가장 먼저 떠오르는 방식은 같은 문서에 대한 모델 A, B embedding pair를 데이터로 학습하는 것인데 이게 가능할 리가 없다. 그리고 LLM은 모델 접근이 막혀있는 경우가 많기 때문에 사실 상 불가능. unsupervised로 밖에 시도할 수 없음. |
![]() |
내가 DL 논문에서 플라톤을 볼 줄은 몰랐다. 핵심 가정은 모델이 다를 지라도 우리 세상에 존재하는 "의미"가 같기 때문에 결국 embedding space도 거시적으로는 같을 수 밖에 없다는 것이다. 결국 universal latent space로 수렴할 것이라는 가정 --- 멋진 가정이 아닐 수 없다. 인공지능이 구축한 "의미" 공간이 철학적으로 생각했을 때 "의미" 공간과 어느 정도 같다고 가정하는 것인데... 이게 분석이 앞으로 더 될수록 인공 지능을 인식하는 우리의 개념이 달라질 수도 있을 것 같다. |
![]() |
|
![]() |
방법론은 의외로 간단하다. 1) unknown embedding을 일단 universal embedding으로 변환 A1 2) known embedding도 마찬가지로 universal embedding으로 변환 A2 3) T으로 둘 다 후처리 4) 다시 원래 space로 복원 (R1, R2) 혹은 서로 다른 space로 복원 (F1, F2) R1, R2는 Universal latent space가 각 원래 space들과 연관성을 잃지 않도록 해주고 F1 F2는 번역에 직접 개입해서 연결되게 해줌. |
![]() |
핵심은 GAN loss 1) 1->2 , 2->1로 mapping된 embedding을 discriminator에 던져 주면서 true false 학습 2) 1->universal->1 ,2->universal->2 원상 복구했을 때 그대로 이도록 학습 3) 1->2->1 2->1->2 도 그대로 이도록 cyclic 학습 4) 변환 전, 변환 후 cosine similarity가 같도록 embedding space 상 거리가 비슷하도록 학습 |
![]() |
이렇게만 해도 similarity가 유지되도록 embedding 번역이 얼추 가능하다고 한다. 완벽하진 않지만 이 상태로 known 모델로 decoding하면 맥락까지는 잡아 낼 수 있을 정도로 복원됨. |
![]() |
무섭당. |
반응형