Paper/Others

Harnessing the Universal Geometry of Embeddings

침닦는수건 2025. 5. 30. 16:18
반응형

내 맘대로 Introduction

 

개쩌는 논문을 하나 또 발견한 것 같다. 성능이 개쩐다는 것이 아니라 파급력 측면에서 정말 파격적인 논문인 것 같다. 얼마나 많은 후속 연구가 나올지... 또 얼마나 많은 돈과 전기를 쓰게 될지 궁금하다. 

 

요약하자면, 서로 다른 LLM 간의 embedding space를 GT 없이도 matching 할 수 있다는 것을 밝혔다. 예를 들면, GPT4에 어떤 입력을 넣어서 얻은 embedding이 있다고 쳤을 때, 이 값을 해석하려면 다시 GPU4 decoder가 필요했다. 하지만 이제는 GPT4 embedding을 DeepSeek embedding으로 변환할 수 있게 됐기 때문에 DeepSeek decoder가 있어도 값을 해석할 수 있다.

 

멋지지만 동시에 두렵다;; embedding은 암묵적으로 human interpretable이 아니기 때문에 유출이 된다 한들 대응되는 decoder 모델에 접근이 불가능할 경우 완전암호화나 다를 바 없었다. 하지만 embedding 번역이 가능해진 순간, 심지어 unsupervsed 방식으로, embedding을 유출시킬 수만 있으면 아무 모델 decoder로도 데이터 원상복구가 가능해진다는 것인데 해킹 시에 큰 문제가 될 수 있을 것 같다. 

 

어느 누가 이 컨셉을 어떻게 발전시킬까 기대가 된다. 내용은 무게감에 비해 엄청 간단하다.

 

메모

시나리오는 다음과 같다.

1) 무슨 모델인지는 모르겠으나 여러 문서들의 embedding을 확보했다.

2) 내가 들고 있는 모델은 M2 뿐이다. 

3) embedding을 M2 embedding space로 바꿀 수만 있으면 내가 해석할 수 있지 않을까?

가장 먼저 떠오르는 방식은 같은 문서에 대한 모델 A, B embedding pair를 데이터로 학습하는 것인데 

이게 가능할 리가 없다. 그리고 LLM은 모델 접근이 막혀있는 경우가 많기 때문에 사실 상 불가능.

unsupervised로 밖에 시도할 수 없음.
내가 DL 논문에서 플라톤을 볼 줄은 몰랐다.

핵심 가정은 모델이 다를 지라도 우리 세상에 존재하는 "의미"가 같기 때문에 결국 embedding space도 거시적으로는 같을 수 밖에 없다는 것이다. 

결국 universal latent space로 수렴할 것이라는 가정
---
멋진 가정이 아닐 수 없다. 인공지능이 구축한 "의미" 공간이 철학적으로 생각했을 때 "의미" 공간과 어느 정도 같다고 가정하는 것인데... 이게 분석이 앞으로 더 될수록 인공 지능을 인식하는 우리의 개념이 달라질 수도 있을 것 같다.
방법론은 의외로 간단하다. 

1) unknown embedding을 일단 universal embedding으로 변환 A1

2) known embedding도 마찬가지로 universal embedding으로 변환 A2

3) T으로 둘 다 후처리

4) 다시 원래 space로 복원 (R1, R2)
혹은
서로 다른 space로 복원 (F1, F2)

R1, R2는 Universal latent space가 각 원래 space들과 연관성을 잃지 않도록 해주고

F1 F2는 번역에 직접 개입해서 연결되게 해줌. 
핵심은 GAN loss

1) 1->2 , 2->1로 mapping된 embedding을 discriminator에 던져 주면서 true false 학습

2) 1->universal->1 ,2->universal->2 원상 복구했을 때 그대로 이도록 학습

3) 1->2->1 2->1->2 도 그대로 이도록 cyclic 학습

4) 변환 전, 변환 후 cosine similarity가 같도록 embedding space 상 거리가 비슷하도록 학습
이렇게만 해도 similarity가 유지되도록 embedding 번역이 얼추 가능하다고 한다.

완벽하진 않지만 이 상태로 known 모델로 decoding하면 맥락까지는 잡아 낼 수 있을 정도로 복원됨.
무섭당.
반응형