1. 이 글의 목적이 글은 "데이터 분석은 결국 거리 개념이다"라는 오래된 전제를, GPT 같은 최신 모델의 임베딩 구조와 연결해 풀어보려는 시도다. 대상은 딥러닝을 기술적으로는 알고 있고 GPT도 써본 경험이 있는, 하지만 그 구조를 체계적으로 다시 이해하고 싶은 엔지니어다. 현업에서는 GPT를 쓰더라도 '왜 이런 응답이 나왔는지'보다는 '일단 결과가 좋으니까'로 넘어가기 쉬운데, 여기서는 조금 더 개념적으로 다시 짚어본다.2. 데이터 분석에서 '거리'는 무엇이었나데이터 분석에서는 오래전부터 '거리'라는 개념이 핵심적인 역할을 해왔다. 특히 데이터 마이닝과 머신러닝 초창기에는, 데이터 간의 유사도를 계산하기 위해 다양한 거리 기반 기법이 사용되었다. 유클리디안 거리, 맨해튼 거리, 코사인 거리 등은 각..