韓 AI '자화자찬', 시장은 '공정성' 의심..."정부 주도 벤치마크 지수 필요"

AI로 만든 이미지 사진그록
AI로 만든 이미지. [사진=그록]


국내 인공지능(AI) 기업들이 글로벌 벤치마크에서 높은 순위를 차지했다며 적극 홍보하고 있지만, 공정한 평가 벤치마크의 부재로 과대평과됐다는 지적이 나온다. 정부 차원에서 공정성을 담보하는 글로벌 표준 벤치마크 도입이 필요하다는 의견이 나오고 있다.
 
2일 한국지능정보사회진흥원(NIA)이 발간한 ‘벤치마크 데이터셋 현황 분석 및 정부 주도의 벤치마크 마련 필요성’ 보고서에 따르면 국내 개발 AI 모델들이 공개 벤치마크를 장기 사용하며 데이터 누수가 발생하고 있다고 진단했다. 데이터 누수는 정답지를 학습에 이용해 모델 성능을 과대평가하게 만드는 것을 뜻한다.

벤치마크시에는 비정상적으로 높은 정확도가 나오지만 실제 성능은 떨어진다. 때문에 국내 AI 기업들이 MMLU(광범위 지식 이해), MATH(고난도 수학), HumanEval(코드 생성) 등 주요 글로벌 벤치마크에서 상위권 성적을 올렸다는 홍보 역시 공정성에서 의심을 받고 있다.

글로벌 주요 벤치마크는 다면적 능력을 평가하고 투명성을 보장하지만, 공개 기간이 길어질수록 누수 위험이 커진다. 벤치마크 자체를 학습데이터로 활용해 점수를 비약적으로 상승시킬 가능성도 있다.
 
국내 벤치마크는 KMMLU(한국어 지식 이해), KLUE(자연어 이해), KoBEST(고난도 추론), HAE-RAE Bench(한국 문화 특화) 등이 있지만 대부분 해외 벤치마크를 한국어화 한 수준에 머물러 있다. 초고난도 과학·프로그래밍 영역이 부족하고, 공정성 관리에도 취약하다.

한국어 전문 벤치마크인 KMMLU의 경우 테스트 데이터 중 7.66%가 정답 노출·불완전 질문·오타 등 오류를 포함하고 있으며, 온라인 공개로 인한 데이터 누수가 신뢰성을 떨어뜨리는 것으로 나타났다.
 
'독자 AI 파운데이션 모델 개발 사업‘에서도 벤치마크 결과에 따른 공정성 논란이 이어졌다. LG AI연구원 엑사원, SKT A.X, 업스테이지 솔라 등이 일부 벤치마크에서 높은 점수를 받았으나, 평가 과정에서 모델별 개별 벤치마크 도입, 프롬프트 조정 의혹, 해외(특히 중국) 오픈소스 모델과의 유사성·차용 논란이 제기됐다.
 
보고서는 국내 언어·제도·사회 맥락을 반영한 정부 주도 벤치마크를 해결책으로 제시한다. 이는 공정 경쟁 환경 조성, 스타트업 접근성 강화, 글로벌 기준 수용자에서 참여자로의 전환, 공공 AI 안전 확보에 기여할 수 있다는 설명이다.
 
NIA 측은 “민관 협력 거버넌스와 생애주기 관리를 통해 중립적 리더보드·동적 벤치마크 운영을 제안한다”며 “벤치마크는 단순 도구가 아니라 국가 AI 인프라로 재정의되어야 한다”고 제안했다.
 

©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지

컴패션_PC
댓글0
0 / 300

댓글을 삭제 하시겠습니까?

닫기

로그인 후 댓글작성이 가능합니다.
로그인 하시겠습니까?

닫기

이미 참여하셨습니다.

닫기