
12일 AI 업계에 따르면 GPT 계열 모델의 '대규모 다중작업 언어이해 평가(MMLU)'에서도 영어를 비롯한 일본어, 프랑스어, 독일어, 중국어 등 주요 언어가 한국어보다 높은 점수를 기록했다.
국가별 MMLU 점수, 투입된 데이터 양, 알고리즘 특성이 일부 답변에 기술적으로 영향을 미치는 것으로 분석된다. 올해 2월 오픈AI가 공개한 기술 리포트에 따르면 최신 GPT-4.5 모델의 MMLU 평가에서 영어가 0.896으로 가장 높았고 중국어와 일본어는 각각 0.8695, 0.8693으로 비슷한 수준을 기록했다. 그다음으로 한국어는 0.8603으로 소폭 낮은 점수를 보였다.
추론형 모델인 GPT-4o1 역시 영어(0.923)가 가장 높은 수치를 기록했고 이어 중국어(0.8892), 일본어(0.8887), 한국어(0.8824) 순이었다.

연구 결과 GPT 계열의 대형 언어 모델(LLM)의 한국어 처리도 다른 언어 대비 상대적으로 비효율적인 구조를 보였다. 'CJK LLM Best Practices' 분석 자료에 따르면 언어별 번역문 토큰 비율 비교에서 한국어가 영어 대비 평균 2.36배 많은 토큰을 사용하는 것으로 나타났다. 이어 광둥어(2.10배), 일본어(2.12배), 중국어(북경어, 1.76배) 순으로 높은 토큰 비율을 보였다.
반면 프랑스어(1.45배), 독일어(1.39배), 스페인어(1.32배) 등 유럽권 언어는 상대적으로 낮은 비율을 기록해 LLM 환경에서 더 효율적으로 처리되는 것으로 분석된다. 특히 한국어는 일본어나 중국어보다도 더 많은 토큰을 필요로 해, 글로벌 언어 모델이 한국어를 다룰 때 구조적으로 불리한 조건에 놓여 있음을 시사한다.

연세대학교, KAIST, 네이버 클라우드 등 연구진이 참여한 KMMLU 연구에 따르면 한국사 문제를 풀도록 한 실험에서 GPT4의 정답률은 35%에 그친 반면, 한국어에 특화된 대형 언어 모델인 하이퍼클로바X는 44%의 정답률을 기록했다. 전문가들은 이러한 차이가 GPT-4의 한국어 이해도가 낮기 때문이라며, 한국어에 특화된 학습 데이터와 프롬프트 설계가 필수적이라고 지적하고 있다.

한국어는 AI 학습에 투입된 데이터의 양과 질 모두에서 열위에 있는 것으로 분석된다. 특히 동해를 일본해로 표기하는 등 언어 분포도에서 비롯된 역사적 사실 전달 오류는 정보를 취득하는 학생 등 사용자들이 왜곡된 내용을 받아들일 위험성을 내포하고 있다.
이에 따라 미국 대표 AI 기업인 오픈AI의 챗GPT, xAI의 그록3, 마이크로소프트(MS)의 코파일럿은 다수 질문에 대해 일본 편향적인 답변을 내놨다.
예를 들어 챗GPT에 ‘한반도와 그 주변 국가를 지도에 표시해 달라’고 요청했을 때 ‘동해’를 ‘일본해(Sea of Japan)’로 표기했다. 챗GPT는 “국제적으로 ‘Sea of Japan’이 널리 사용된다”고 이유를 설명했다.
올해 4월 최신 업데이트된 추론형 모델인 챗GPT o3 역시 동해에 관한 질문에 일본 위키피디아 정보를 근거로 설명한 것으로 알려졌다.
사진=추론형 챗GPT 에 동해 위치를 묻자 일본 위키피아를 근거로 답변이 나왔다.
그록3와 코파일럿도 일본 편향적인 모습을 보였다. 두 AI에 ‘독도는 누구 땅이냐’고 묻자 그록3는 독도를 ‘리앙크루 암초 혹은 다케시마로도 알려진(also known as Liancourt Rocks or Takeshima)’이라고 표현했다. 코파일럿 역시 ‘독도가 리앙크루 암초로도 잘 알려져 있다(also known as the Liancourt Rocks)’고 답했다. 리앙크루 암초란 1849년 프랑스 포경선 리앙크루호에 의해 독도가 알려지면서 붙은 명칭이다.
중국 AI 스타트업 딥시크가 만든 생성형 AI는 고구려와 발해 역사를 중국의 ‘동북공정’ 논리를 근거로 설명했다. 고구려와 발해가 중국 고대 역사에 포함되며 중국 문명의 영향을 받았다는 것이다. 지난 2월 국가정보원은 딥시크가 동북공정, 김치, 단오절을 한국어와 중국어로 질문했을 때 상이한 답변을 내놓는다고 밝힌 바 있다.
©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지