
이 글은 「GPT는 문맥을 어떻게 이해할까?」의 후속 편으로, GPT의 문맥 이해 과정을 Context Window, Positional Encoding, Attention Mechanism 관점에서 기술적으로 분석합니다. GPT의 문맥 이해는 실제 의미 해석이 아닌, 확률 기반 계산 과정임을 명확히 설명합니다.
지난 글에서는 GPT가 문맥을 이해하는 구조를 ‘트랜스포머’ 관점에서 살펴봤다.
2025.05.25 - [AI, 기술적인 이야기들] - GPT는 문맥을 어떻게 이해할까? – 어텐션과 트랜스포머 구조 쉽게 보기
GPT는 문맥을 어떻게 이해할까? – 어텐션과 트랜스포머 구조 쉽게 보기
이 글은 GPT의 문맥 이해 방식에 핵심이 되는 어텐션과 트랜스포머 구조를 실제 질문 기반 사례를 통해 쉽게 설명합니다. LLM 구조의 작동 원리를 사고 흐름 중심으로 정리했습니다.그리고 이 글
gtpmore.tistory.com
이번에는 한 걸음 더 들어가, GPT가 문맥을 실제로 어떻게 계산하는지를 기술적으로 풀어본다.
GPT가 문맥을 “이해한다”고 표현하지만, 사실 그건 확률적 계산의 결과에 가깝다.
모델은 의미를 해석하지 않는다.
대신 문맥 속 단어의 위치와 통계적 관계를 계산할 뿐이다.
1. 문맥의 범위 — Context Window
GPT는 모든 문장을 기억하지 않는다.
입력된 단어(토큰)는 일정 길이의 context window 안에서만 유지된다.
토큰은 문장을 모델이 처리하기 쉽게 나눈 단어 조각 단위다.
예를 들어 GPT-4의 창이 32,000 토큰이라면,
그보다 앞의 내용은 모델의 계산 범위를 벗어나 완전히 사라진다.
GPT의 문맥은 ‘기억’이 아니라 ‘입력 범위’다.
즉, 모델은 최근 N개의 단어를 동시에 참고해
다음 단어의 확률 분포를 계산한다.
이 범위를 벗어난 정보는 존재하지 않는다.
GPT가 문맥을 이해한다는 말은,
사실 “창 안의 데이터를 통계적으로 연결한다”는 뜻이다.
2. 순서의 감각 — Positional Encoding
언어에는 순서가 있다.
“밥을 먹었다”와 “먹었다 밥을”은 단어가 같아도 의미가 달라진다.
GPT는 이런 순서를 단어 자체가 아니라 위치 벡터로 표현한다.
단어마다 고유한 위치 값을 더해주는 것이 Positional Encoding이다.
사인(sin), 코사인(cos) 함수를 이용해
각 단어의 상대적 위치를 수치로 기록한다.
이 방식은 규칙적인 패턴 덕분에 모델이 단어 간 상대적 순서를 인식할 수 있도록 돕는다.
GPT는 문장을 읽지 않는다.
대신 단어 간 위치 패턴의 일관성을 계산한다.
3. 연결의 계산 — Attention
이제 단어들이 서로 어떻게 연결되는지를 본다.
GPT는 입력된 모든 단어 쌍의 관련성을 계산한다.
그리고 다음 단어를 예측할 때 어떤 단어가 더 중요한지를 판단한다.
이때 사용되는 것이 Attention Mechanism이다.
각 단어는 Query(Q), Key(K), Value(V) 세 가지 형태로 변환된다.
Query는 ‘질문’, Key는 ‘참조’, Value는 ‘의미를 담은 값’이다.
모델은 Q와 K의 유사도를 계산해,
V의 중요도를 조정한다.
결과적으로 Attention Weight가 높을수록
그 단어는 문맥 내에서 더 중요한 단서가 된다.
인간의 주의는 ‘의미’ 중심이지만,
GPT의 주의는 통계적 연관성 중심이다.

4. 계산이 만든 자연스러움
이 세 가지 과정(Context Window, Positional Encoding, Attention)을 합치면
GPT는 문맥 속 단어의 위치·연관·확률을 동시에 고려한다.
이 조합이 충분히 정교할 때,
결과적으로 인간이 느끼는 자연스러운 문장이 만들어진다.
이는 모델이 통계적 최적화를 수행한 결과다.
GPT의 ‘이해’는 의미 해석이 아니라,
확률적 예측이 만든 자연스러움이다.
GPT의 문맥 이해 = 의미 해석 X / 확률 예측 O
5. 정리 — 이해는 아니지만, 충분히 유용하다
GPT는 문맥을 해석하지 않는다.
대신 데이터를 예측 가능한 형태로 연결한다.
그 계산이 충분히 정교하기에, 인간은 거기서 ‘이해’를 본다.
우리가 GPT를 사용할 때 중요한 건
이 “문맥 계산의 한계”를 알고 다루는 것이다.
창의 범위를 넘어서면 모델은 잊고,
위치 정보가 흐트러지면 논리가 깨진다.
GPT는 이해하지 않는다.
그러나 이해한 것처럼 작동하도록 설계되어 있다.
핵심 요약
| 개념 | 역할 | 비유 |
| Context Window | 입력 가능한 문맥의 길이 | 인간의 단기 기억 |
| Positional Encoding | 단어 순서의 수학적 표현 | 문장 구조 감각 |
| Attention | 단어 간 연관성 계산 | 집중의 강도 |
GPT는 문맥을 통계적으로 계산하지만, 그 계산 결과는 단순한 확률을 넘어 의미적 관계로 이어진다.
다음 글에서는 이 계산이 어떻게 의미의 공간으로 확장되는지, 그리고 GPT가 단어 간 ‘거리’를 통해 의미를 형성하는 과정을 다룬다.
2025.10.18 - [AI, 기술적인 이야기들] - 의미를 계산하는 언어모델 — 통계적 문맥에서 의미적 문맥으로
의미를 계산하는 언어모델 — 통계적 문맥에서 의미적 문맥으로
이 글은 「문맥 이해의 진짜 정체」의 후속 편으로, GPT가 문맥을 단순한 확률 계산이 아니라 의미의 거리(semantic distance) 로 해석하는 과정을 설명합니다.Embedding, Semantic Context, Attention 등 핵심 개
gtpmore.tistory.com
'AI, 기술적인 이야기들' 카테고리의 다른 글
| GPT가 프롬프트를 읽는 방식 — 문맥 최적화의 기술적 원리 (0) | 2025.10.18 |
|---|---|
| 의미를 계산하는 언어모델 — 통계적 문맥에서 의미적 문맥으로 (0) | 2025.10.18 |
| 고스톱 NPC에서 배우는 AI와 학습 II (0) | 2025.08.25 |
| 고스톱 NPC에서 배우는 AI와 학습 I (0) | 2025.08.25 |
| 딥러닝이 보는 건 숫자, 이해하는 건 관계 — MLP와 CNN을 통해 이해하는 딥러닝의 벡터 처리 방식 (0) | 2025.06.24 |