"토큰"에서 "부호 단위"로: 토큰 중국어 명칭 배후의 AI 기초 인식 논쟁

特邀专栏作者

2026-04-10 10:33

이 기사는 약 6346자로, 전체를 읽는 데 약 10분이 소요됩니다

"Token"이 "词元(단어 단위)"로 명명된 이후, 본문은 계산 본체론, 다중 양식 진화 및 역번역 일관성 등의 관점에서 이 명명이 경로 의존성과 의미 고정 문제를 지니고 있음을 지적합니다. 토큰의 본질은 언어적 "단어"가 아닌, 다중 양식을 넘나드는 이산적 기호 단위입니다. 이에 비해 "符元(부호 단위)"는 계산 본질에 더 잘 부합하며, 장기적 안정성과 인식적 일관성을 갖추고 있습니다.

AI 요약

펼치기

핵심 관점: 이 글은 인공지능 분야의 "Token"을 "词元(단어 단위)"로 번역하는 것이 전파 측면에서는 장점이 있지만, 기술 본질, 다중 양식 발전 및 용어 체계 일관성 등의 차원에서 살펴볼 때 장기적 적응성 위험이 존재한다고 주장하며, "符元(부호 단위)"가 구조적 일관성과 맥락 간 안정성이 더 높은 번역안이라고 제안합니다.
핵심 요소:
1. "词元(단어 단위)"의 정의는 토큰이 NLP에서의 "초기 적용 시나리오"에 기반하지만, 토큰의 본질은 텍스트, 이미지, 음성 등 다양한 신호를 처리하는 "이산적 기호 단위"이며, 다중 양식 발전으로 인해 "단어"라는 협소한 맥락을 벗어났습니다.
2. "词元(단어 단위)"는 다중 양식 적용을 설명하기 위해 "광의의 단어"라는 유추에 의존하지만, 유추는 정의를 대체해서는 안 되며, 의미 변이와 인식 편향을 초래하기 쉽습니다. 반면 "符(부호)"라는 중립적 개념은 본질적으로 다중 양식 적응 능력을 갖추고 있습니다.
3. "词元(단어 단위)"는 언어학 및 NLP 분야에서 오랫동안 "Lemma"(단어의 규범 원형)에 대응해 왔으며, Token의 의미와는 다릅니다. 둘을 혼용하면 용어의 단의성 원칙을 훼손하고 학술 교류에서 오해를 불러일으킬 수 있습니다.
4. 정보 이론과 계산 이론 관점에서 볼 때, 토큰은 의미를 담지 않는 "단어"가 아니라 모델의 기초 처리 단계에서의 "기호" 인덱스입니다. "符元(부호 단위)"는 계산의 기본 매개체로서의 본체적 속성을 더 정확히 반영합니다.
5. 교차 언어 역번역에서 "词元(단어 단위)"는 명확한 영어 대응어가 부족하여 여러 유사 개념과 혼동되기 쉽습니다. 반면 "符元(부호 단위)"는 "symbolic unit"에 비교적 안정적으로 대응할 수 있어 국제 학술 교류의 의미 일관성에 유리합니다.

최근 전국과학기술명사심정위원회가 공고를 발표하여 인공지능 분야의 "Token"을 "단어원(词元)"으로 번역하여 사회에 시험 사용하도록 권장했습니다. 이어 《인민일보》는 <전문가 해석: token의 중국어 명칭이 왜 "단어원"으로 정해졌는가>라는 글을 발표하여 이 명명을 전문적인 관점에서 체계적으로 설명했습니다.

글에서는 "token"이라는 단어가 고대 영어 tācen에서 유래되었으며, "기호" 또는 "표시"를 의미한다고 언급했습니다. 언어 모델에서 token은 텍스트가 분할되거나 바이트 수준 인코딩을 거친 후 얻어지는 최소의 이산 단위로, 단어, 하위 단어, 접사 또는 문자 등 다양한 형태로 나타날 수 있습니다. 모델은 바로 token 시퀀스를 모델링함으로써 일정한 지능 능력을 보여줍니다.

이 번역어는 전문가 논증 체계에서 단일성, 과학성, 간명성 및 조화성 원칙에 부합한다고 여겨지며, 현재 중국어 맥락에서도 일정한 사용 기반을 갖추고 있습니다. 그러나 관련 해석을 읽은 후, 저는 이 명명 경로에 대해 다른 이해를 형성하게 되었습니다.

표준화 관점에서 볼 때, 이 명명 방안은 단기적으로 이해 가능성과 전파 우위를 가집니다. 그러나 계산 본체, 정보 구조, 다중 모달 진화 및 역번역 일관성 등 차원에서 살펴보면, 장기적인 적응성은 여전히 추가 검증이 필요합니다. 이러한 배경에서, 동등하게 주목할 만한 대안 경로인 "부호원(符元)"이 점점 더 강한 구조적 일관성과 교차 맥락 안정성을 보여주고 있습니다.

1. 정의의 어긋남: "기원"으로 "본질"을 대체할 수 없다

글의 관점 (중국과학원 계산기술연구소 연구원 천시린): Token이 인공지능에서의 초기 역할은 "언어 기본 의미 단위"이므로, "단어원"이 그 본질에 더 부합할 수 있다.

이 판단은 역사적 맥락에서 합리성을 갖지만, 기술 패러다임이 크게 도약하는 현재, 이러한 사고방식은 본질적으로 "학술적 주판 구슬 찾기"입니다.

용어 정의의 논리적 측면에서, "초기 응용 시나리오"와 "구조적 본질 속성"을 엄격히 구분해야 합니다.

Token은 확실히 자연어 처리(NLP)에서 비롯되었지만, AGI의 진화 경로에서 이미 언어 모델의 경계를 넘어 텍스트, 이미지, 음성, 심지어 물리적 신호를 통일적으로 처리하는 기본 단위로 진화했습니다. 현대 계산 체계에서 Token의 진정한 구조적 본체는 "이산 기호 단위"이며, 단일 모달의 언어 단위가 아닙니다.

"초기 역할"에 따라 명명한다면, 컴퓨터(Computer)는 지금까지 "전자 계산수(电子计算手)"(초기 인공 계산원 역할 대체에서 유래)라고 불려야 하며, 인터넷(Internet)은 "냉전 군용망"이라고 불려야 합니다. 이러한 명명 논리의 치명적인 결함은 기술이 특정 역사적 순간의 "임시 직종"만을 보고 시대를 초월한 "물리적 본체"를 간과한다는 점입니다.

역사적 경로는 본질 속성과 동일하지 않습니다. 마찬가지로, Token이 처음에는 문자 처리에 사용되었다고 해서 영원히 "단어"라는 좁은 맥락에 고정시킬 수 없습니다.

"초기 응용 시나리오"를 사용하여 기본 개념을 정의하는 것은 본질적으로 역사적 경로 의존성으로 구조적 본체 진실을 대체하는 것입니다. 이러한 정의는 기술 초기에는 이해의 편의를 제공할 수 있지만, 다중 모달 폭발의 패러다임 확장 단계에서는 빠르게 효력을 잃고 인식의 족쇄가 될 수 있습니다. 이에 비해, '부호원'은 교차 모달 계산의 기호 본체에 직접 정렬되어 Token의 "과거"가 아닌 Token의 "진실"을 정의합니다.

2. 유추의 경계: 설명이 정의가 되기 시작하면 벗어나기 시작한다

글의 관점 (칭화대학교 컴퓨터과학과 부교수 둥위샤오): "단어 구름", "단어 주머니" 등 유추를 통해 다중 모달의 이산 단위를 "광의의 단어"로 이해할 수 있다.

둥위샤오 교수의 유추는 이해에 도움이 되지만, 정의를 대체해서는 안 됩니다. 이 사고방식은 설명적 측면에서 일정한 계발성을 가지지만, 더 나아가 명명 근거로 상승하면 개념적 차원의 범주 오류를 초래할 수 있습니다.

방법론적으로 볼 때, 유추의 역할은 이해의 문턱을 낮추는 데 있으며, 정의의 책임은 의미적 경계를 설정하는 데 있습니다. "단어"가 이미지 패치(patch), 음성 단편, 벡터 표현(embedding), 심지어 더 광범위한 지각 신호를 포함하도록 확장될 때, 그 원래의 언어 속성은 지속적으로 희석되고 의미적 경계는 모호해지는 경향이 있습니다. 이러한 "유추 주도" 확장 경로는 단기적으로는 설명의 일관성을 유지할 수 있지만, 장기적 진화에서는 의미적 표류를 초래하기 쉽습니다.

교차 모달 확장 능력 측면에서, "유추"가 "정의"로 미끄러지는 것을 경계해야 합니다. 용어 심정 맥락에서, "설명적 은유"와 "본체적 정의"의 경계를 구분하여 전자가 후자를 대체하는 것을 피해야 합니다.

더 직관적인 대조는 다음과 같습니다: 과학 보급 맥락에서 우리는 전구를 "인조 태양"에 비유하여 이해의 직관성을 높일 수 있습니다; 그러나 과학 명명 체계에서는 이를 근거로 전류 단위 "암페어(Ampere)"를 다시 "광원(光元)"으로 명명할 수 없습니다. 전자는 서술적 표현에 속하고, 후자는 엄격한 측정 체계와 표준화 정의와 관련되며, 둘은 혼용될 수 없습니다.

마찬가지로, "단어 구름", "단어 주머니" 등 용어는 본질적으로 서술적 또는 통계적 은유에 속하며, 그 기능은 데이터 구조나 분포 형태를 이해하는 데 도움을 주는 것입니다; 반면 Token은 대형 모델의 기본 계량 단위로서 이미 연산력 과금, 모델 훈련 및 학술 측정 체계에 깊이 내장되어 있습니다. 그 사용 규모가 일일 수백억에서 수조 회 호출량에 도달했을 때, 그 명명이 담는 것은 설명 기능뿐만 아니라 공학적 및 표준적 의미를 가진 기본 개념입니다. 이 차원에서 용어는 그 본체 속성에 더 정렬되어야 하며, 유추 확장에 의존해서는 안 됩니다.

만약 이러한 유추 논리를 더 나아가 명명 차원까지 밀어붙인다면, 사실상 위험한 전제가 내포됩니다: 사람들이 이미 "단어"로 Token을 이해하는 데 익숙해졌으니, 이 유추를 계속 사용하자. 그러나 이는 실제로 경로 의존성의 연속입니다—기존 인식의 편의로 개념 본체의 수정을 대체하는 것입니다. 이러한 의미에서, 이러한 명명은 "언어학적 낭만주의"에 더 가깝고, 계산 본체의 엄격한 정렬이 아닙니다.

우리는 "마력(馬力)"에 "말(馬)"이 포함되어 있다고 해서 전기 모터에서 "전자 말(電子馬)"을 논의하도록 요구할 수 없습니다. 유추는 이해를 계발시킬 수 있지만, 표준을 정의할 수는 없습니다.

이에 비해, "부호"는 더 중립적인 개념으로서, 본질적으로 교차 모달 적응 능력을 갖추고 있으며, 추가 설명 없이도 텍스트, 이미지, 음성 등 다양한 정보 형태를 포괄할 수 있습니다. 따라서 "기호 단위"를 핵심으로 하는 명명 경로는 정의적 측면에서 Token의 구조적 본질에 더 가깝습니다. 이러한 논리 하에서, "부호원"은 대응 번역어로서 더 높은 개념적 일관성과 장기적 적응성을 갖추고 있습니다.

3. 인식의 대가: 의미적 닻이 체계적 오해를 만들 때

글의 관점 (종합 전문가 의견): "단어원" 표현이 간결하고 중국어 습관에 부합하며 전파하기 쉽다.

이 판단은 전파 측면에서 일정한 합리성을 가지지만, 그 내포된 전제는 다음과 같습니다: 대중이 "단어"의 교차 모달 유추를 받아들일 수 있다. 그러나 유추는 본질적으로 전문가 사고 도구이며, 대중의 자연스러운 인식 방식이 아닙니다. 일반 사용자에게 "단어"는 매우 강력한 의미적 닻 효과를 가집니다—일단 "단어"를 듣게 되면, 그 직관적 지향은 반드시 언어 체계이며, 이미지, 소리 또는 동작 등 다른 모달이 아닙니다. 이 인식 경로는 기술 문제가 아닌 인지 심리학적 차원의 안정된 구조입니다.

이를 바탕으로, "단어"가 소위 "광의의 단어"로 확장될 때, 실제로는 사용자 인식에 편차를 만들고 있습니다. 사용자는 먼저 "단어=언어 단위"라는 직관적 이해를 형성하며, "교차 모달 기호 단위"라는 추상적 개념이 아닙니다. 일단 이러한 오해가 확립되면, 이후 모든 설명은 기존 인식의 수정이 되며, 자연스러운 이해의 확장이 아닙니다.

예를 들어, 언론이 "모델이 10조 개의 단어원으로 훈련되었다"고 보도할 때, 대중은 쉽게 이를 "많은 텍스트를 읽었다"고 이해하며, 그 안에 포함된 대량의 이미지, 음성 및 기타 모달 데이터를 간과하기 쉽습니다. 이러한 오해는 개별 사례가 아닌, 용어 자체의 의미적 닻이 생성하는 체계적 유발입니다.

실제 공학적 맥락에서, 이러한 명명은 또한 학제 간 소통의 마찰을 가져올 수 있습니다. 시각 모델이나 음성 모델의 이산 단위가 "단어"라고 불릴 때, 의미적 오해를 초래하기 쉬울 뿐만 아니라, 다른 분야 사이에 불필요한 언어 충돌을 만들 수 있습니다. 다중 모달 시스템은 "기호층"의 통일이 필요하며, 언어 범주의 확장이 아닙니다.

이에 비해, "부호"는 더 추상적인 개념으로서, 초기 이해 문턱이 약간 높지만, 그 의미적 지향이 더 중립적이며, 인식을 미리 언어층에 고정시키지 않습니다. 장기적 사용에서 더 안정적이고 통일된 인식 프레임워크를 구축하는 데 유리하여 전체 설명 비용을 낮추고 다중 모달 통일을 위한 더 안정적인 인식 기반을 제공할 수 있습니다.

명명의 비용은 정의할 때 발생하는 것이 아니라, 수정할 때 발생합니다; 일단 초기 명명이 의미적 닻을 형성하면, 후속 인식 수정의 대가는 기하급수적으로 증가합니다.

전문가는 유추로 "단어"의 경계를 확장할 수 있지만, 대중은 유추로 개념을 이해하지 않습니다. 명명은 전문가를 위한 것이 아니라, 전체 시대의 인식 체계에 책임을 지는 것입니다.

4. 단일성의 환상: 한 단어가 두 체계를 담으려 할 때

글의 관점 (명사 심정 원칙): "단어원"은 단일성 원칙에 부합하며, 번역법 혼란 문제 해결에 도움이 된다.

용어 단일성 측면에서, "일어이의(一词两义)"가 초래할 수 있는 체계적 위험에 특별히 주의해야 합니다. 과학 명사 심정에서 "단일성"은 기본 원칙 중 하나입니다. 하나의 용어가 맥락이나 추가 설명에 의존해야만 의미를 구분할 수 있다면, 그것은 표준 부품으로서의 가치를 이미 상실한 것입니다.

그러나 기존 학술 체계에서 볼 때, 이 판단은 여전히 추가 논의 공간이 있습니다. "단어원"이라는 단어는 언어학과 자연어 처리(NLP) 분야에서 이미 "주인이 정해진 꽃"이며, 고전 언어학에서 그 장기간 대응하는 영어 개념은 Lemma, 즉 단어의 규범 원형(예: is/am/are의 단어원은 be)입니다. 이 용법은 언어학 및 NLP 기본 교재와 학술 논문에서 이미 안정된 합의를 형성했습니다.

이러한 배경에서, 만약 Token을 또한 "단어원"으로 번역한다면, 구체적 표현에서 의미적 충돌이 쉽게 발생하며, 재앙적인 현장이 나타날 수 있습니다.

예를 들어, "NLP의 단어 형태 복원 작업(lemmatize a token)"을 설명할 때, 중국어 표현은 "'단어원'을 '단어원화'한다"는 구조가 나타날 것입니다. 이러한 표현은 이해 비용을 증가시킬 뿐만 아니라, 학술 작문과 정보 검색에 모호함을 도입하여 독자가 "단어원"이 분할된 이산 단위를 가리키는지, 아니면 단어의 규범 원형을 가리키는지 구분하기 어렵게 만듭니다.

개념 기능 측면에서 볼 때, 둘 사이에는 명확한 구분이 존재합니다: Lemma는 언어적 차원의 "복원"을 강조하며, 단어 형태 변화 후의 규범 표현에 대응합니다; 반면 Token은 계산 과정의 "분할"을 강조하며, 모델이 정보를 처리할 때의 최소 이산 단위에 대응합니다. 이러한 "복원"과 "분할"의 차이는 바로 의미층과 기호층의 다른 차원에 대응합니다.

따라서, 하나의 용어가 "일반화"를 통해 여러 기존 개념을 동시에 포괄해야 할 때, 그 단일성은 실제로 "설명적 차원의 통일"로 전환되며, "의미적 차원의 안정"이 아닙니다.

하나의 용어가 설명을 통해 통일을 유지해야 할 때, 그 표준 용어로서의 안정성은 종종 이미 흔들리기 시작합니다.

이에 비해, "부호원"은 기존 용어 체계에서 의미적 충돌이 존재하지 않습니다. 한편으로, Token의 이산 기호로서의 본체 속성을 보존합니다; 다른 한편으로, Lemma의 기존 번역명과의 중복을 피하여 의미적 명확성과 체계 일관성 측면에서 더 높은 안정성을 보여줍니다.