국내 인공지능(AI) 기업들이 글로벌 벤치마크에서 높은 순위를 차지했다며 적극 홍보하고 있지만, 공정한 평가 벤치마크의 부재로 과대평과됐다는 지적이 나온다. 정부 차원에서 공정성을 담보하는 글로벌 표준 벤치마크 도입이 필요하다는 의견이 나오고 있다.
2일 한국지능정보사회진흥원(NIA)이 발간한 ‘벤치마크 데이터셋 현황 분석 및 정부 주도의 벤치마크 마련 필요성’ 보고서에 따르면 국내 개발 AI 모델들이 공개 벤치마크를 장기 사용하며 데이터 누수가 발생하고 있다고 진단했다. 데이터 누수는 정답지를 학습에 이용해 모델 성능을 과대평가하게 만드는 것을 뜻한다.
벤치마크시에는 비정상적으로 높은 정확도가 나오지만 실제 성능은 떨어진다. 때문에 국내 AI 기업들이 MMLU(광범위 지식 이해), MATH(고난도 수학), HumanEval(코드 생성) 등 주요 글로벌 벤치마크에서 상위권 성적을 올렸다는 홍보 역시 공정성에서 의심을 받고 있다.
국내 벤치마크는 KMMLU(한국어 지식 이해), KLUE(자연어 이해), KoBEST(고난도 추론), HAE-RAE Bench(한국 문화 특화) 등이 있지만 대부분 해외 벤치마크를 한국어화 한 수준에 머물러 있다. 초고난도 과학·프로그래밍 영역이 부족하고, 공정성 관리에도 취약하다.
한국어 전문 벤치마크인 KMMLU의 경우 테스트 데이터 중 7.66%가 정답 노출·불완전 질문·오타 등 오류를 포함하고 있으며, 온라인 공개로 인한 데이터 누수가 신뢰성을 떨어뜨리는 것으로 나타났다.
'독자 AI 파운데이션 모델 개발 사업‘에서도 벤치마크 결과에 따른 공정성 논란이 이어졌다. LG AI연구원 엑사원, SKT A.X, 업스테이지 솔라 등이 일부 벤치마크에서 높은 점수를 받았으나, 평가 과정에서 모델별 개별 벤치마크 도입, 프롬프트 조정 의혹, 해외(특히 중국) 오픈소스 모델과의 유사성·차용 논란이 제기됐다.
보고서는 국내 언어·제도·사회 맥락을 반영한 정부 주도 벤치마크를 해결책으로 제시한다. 이는 공정 경쟁 환경 조성, 스타트업 접근성 강화, 글로벌 기준 수용자에서 참여자로의 전환, 공공 AI 안전 확보에 기여할 수 있다는 설명이다.
NIA 측은 “민관 협력 거버넌스와 생애주기 관리를 통해 중립적 리더보드·동적 벤치마크 운영을 제안한다”며 “벤치마크는 단순 도구가 아니라 국가 AI 인프라로 재정의되어야 한다”고 제안했다.
©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지



![[르포] 중력 6배에 짓눌려 기절 직전…전투기 조종사 비행환경 적응훈련(영상)](https://image.ajunews.com/content/image/2024/02/29/20240229181518601151_258_161.jpg)



