["G", "o", "o", "g", "l", "e"]이로 인해 두 가지 문제가 복합적으로 발생한다:
첫째, 임베딩 레이어가 문자 수준의 정보를 완전하게 담지 못한다. 연구에 따르면, LLM의 임베딩 레이어는 각 토큰의 첫 글자에 대해서만 강력한 문자 정보를 저장할 뿐, 그 이후의 글자 정보는 급격히 손실된다 . 모델이 토큰 내부의 글자 수를 세어야 할 때면, 애초에 그런 정보를 보존하도록 설계되지 않은 표상으로부터 문자 정보를 재구성해야 한다. 후반부 트랜스포머(Transformer) 레이어가 이를 일부 보완하여 토큰 철자를 맞히는 ‘돌파 지점(breakthrough point)’이 관찰되기도 하지만, 이 과정은 신뢰하기 어렵고 불안정하다
.
둘째, 하위 단어 토크나이저는 “토큰의 내부 구조에 본질적으로 무지하다.” 2024년 Arxiv 논문은 이런 취약성을 ‘토큰화의 저주(the curse of tokenization)’ 라 명명했다. 토크나이저는 오타나 길이 변형에 민감하며, 토큰 자체의 내부 구성에 대해서는 태생적으로 눈이 멀어 있다는 것이다 . ‘journalism’ 같은 단어가 하나의 토큰이라면, 모델은 이를
j-o-u-r-n-a-l-i-s-m으로 분해하는 법을 배운 적이 없으므로 철자를 물으면 추측할 수밖에 없다.
그 결과, 이용자들이 구글 AI 오버뷰에서 목격한 상황이 펼쳐진다. 철학을 논하고 코드를 작성할 수 있는 AI가 자기 회사 이름 ‘Google’에는 ‘p’가 두 개 있으며, ‘poop’에는 ‘r’이 정확히 한 개 들어 있다고 장담하는 것이다 .
문제가 토큰화에 있다면, 가장 직관적인 해결책은 문자 수준 혹은 바이트 수준의 모델을 사용해 모델이 모든 글자를 보게 하는 것이다. 실제로 ByT5 같은 모델은 원시 바이트(raw byte)를 직접 처리하는 방식을 취하고 있다. 하지만 이 접근법은 모델 구동 비용을 극적으로 증가시키기 때문에 널리 채택되지 못했다 .
순수한 문자 단위 처리로 전환할 경우, 시퀀스 길이가 대략 3배에서 5배까지 증가하여 컴퓨팅 비용이 비례해 늘어나고, 모델이 장거리 의존성이나 의미론적 관계를 학습하기가 훨씬 더 어려워진다 . 하위 단어 토크나이저는 현대의 LLM을 실용적으로 만든 효율성의 타협점이었다. 텍스트를 관리 가능한 어휘 크기로 압축하면서도 유창한 언어 생성에 충분한 의미를 보존하는 방식이다.
연구자들은 대체적으로 “완벽한” 토크나이저란 존재하지 않을 가능성이 높다는 데 동의한다 . 토크나이저는 “일상적으로 고유하지 않은 인코딩을 생성”하며, 이로 인한 “표상의 불일치(representational mismatch)”는 단순히 패치할 수 있는 버그가 아니라 구조적으로 깊이 뿌리박힌 문제다
. 문자 수준의 정밀도와 의미론적 유창성 사이의 이 트레이드오프는 트랜스포머 아키텍처에 근본적으로 내재된 것으로 보인다.
이 철자법 실패는 구글의 AI 오버뷰를 훨씬 넘어서는 몇 가지 구조적 한계를 여실히 보여준다.
LLM은 패턴 매칭 기계일 뿐, 기호 조작기가 아니다. 글자 수 세기는 전통적인 코드를 실행하는 어떤 컴퓨터에게도 사소한 알고리즘 작업이다. 하지만 LLM은 알고리즘을 실행하는 것이 아니라, 학습 데이터의 통계적 패턴에 기반해 다음에 올 가장 확률 높은 토큰을 예측할 뿐이다 . 글자 수를 물으면 모델은 계산을 수행하는 대신 학습된 연관 관계로부터 ‘그럴듯한 답변’을 생성하는 것이다.
자신감과 정확성은 아무 상관이 없다. AI는 완벽한 문법적 유창함으로 “두 개”라고 답했지만 객관적으로 틀렸다. 이는 LLM의 할루시네이션(환각)의 전형적인 특징이다. 자신감 넘치고 그럴듯해 보이지만, 내재된 검증 메커니즘은 전혀 없는 것이다. 구글조차 2024년 공식 블로그에서 “AI 오버뷰는 일반적으로 다른 LLM 제품처럼 환각을 일으키거나 사실을 날조하지 않도록 설계되었다”면서도, 언어의 뉘앙스나 질의 의도를 오해해서 틀릴 수 있다고 인정한 바 있다 .
맹점은 우연이 아니라 구조적 산물이다. OpenAI, 앤트로픽, 메타 등 하위 단어 토큰화를 사용하는 모든 주요 LLM은 단어 거꾸로 철자 쓰기, 글자 수 세기, 애너그램 처리 같은 문자 수준 작업에서 비슷한 약점을 보인다 . 모델의 크기를 키우면 어느 정도 완화되긴 하지만, 그 근본적인 편향은 지속된다
.
자사 이름 철자도 못 쓰는 AI라니, 상당히 당혹스러운 실패처럼 보일 수 있다. 그러나 업계가 이를 위기로 간주하지 않는 이유는, LLM의 엄청난 가치가 다른 곳에 있기 때문이다.
유창한 텍스트 생성, 요약, 추론, 번역, 코드 생성 등 이 모든 능력은 모델이 의미론적(semantic) 수준에서 작동할 때 나온다. 이 관점에서 토큰 수준의 추상화는 버그가 아니라 기능이다 . 문자 수준의 정밀도는 애초에 이 아키텍처가 최적화하도록 설계된 목표가 아니다.
실용적인 해결책은 이다. LLM에게 처리하도록 맡기는 대신, 철자 및 숫자 세기 관련 쿼리를 탐지하여 전통적인 규칙 기반 소프트웨어로 돌리는 것이다. 이미 여러 AI 오버뷰 구현체는 이런 질의를 감지해 우회시키려 시도하고 있지만, 2026년 5월의 눈에 띄는 오류들은 그 탐지 시스템조차 아직 완벽하지 않다는 사실을 증명했다 . 한 연구에 따르면, 구글 AI 오버뷰는 단어 철자를 거꾸로 쓰라는 질문에 52%의 확률로 잘못된 답변을 내놨으며, 3음절 이상의 단어는 단 10%만 정확하게 처리했다
.
구글은 언론에 공개된 특정 문제들을 해결하기 위해 작업 중이라고 밝혔다 . 하지만 토큰화 트레이드오프의 본질을 이해하는 사람들에게 이번 사태의 진짜 교훈은 ‘구글이 버그 있는 제품을 출시했다’가 아니다. 진짜 교훈은, AI 혁명을 이끄는 이 아키텍처 자체에 근본적인 맹점이 있으며, 아직 그 누구도 LLM을 가치 있게 만드는 핵심 장점을 희생하지 않고서는 이 맹점을 해소할 방법을 찾지 못했다는 사실이다.
Comments
0 comments