韓 AI '공정성' 의심..."정부 주도 벤치마크 지수 필요"

김성현 기자입력 2026-02-02 14:56

기사공유
폰트크기

국내 인공지능(AI) 기업들이 글로벌 벤치마크에서 높은 순위를 차지했다며 적극 홍보하고 있지만, 공정한 평가 벤치마크의 부재로 과대평과됐다는 지적이 나온다. 정부 차원에서 공정성을 담보하는 글로벌 표준 벤치마크 도입이 필요하다는 의견이 나오고 있다.

2일 한국지능정보사회진흥원(NIA)이 발간한 ‘벤치마크 데이터셋 현황 분석 및 정부 주도의 벤치마크 마련 필요성’ 보고서에 따르면 국내 개발 AI 모델들이 공개 벤치마크를 장기 사용하며 데이터 누수가 발생하고 있다고 진단했다. 데이터 누수는 정답지를 학습에 이용해 모델 성능을 과대평가하게 만드는 것을 뜻한다.

벤치마크시에는 비정상적으로 높은 정확도가 나오지만 실제 성능은 떨어진다. 때문에 국내 AI 기업들이 MMLU(광범위 지식 이해), MATH(고난도 수학), HumanEval(코드 생성) 등 주요 글로벌 벤치마크에서 상위권 성적을 올렸다는 홍보 역시 공정성에서 의심을 받고 있다.

관련기사

글로벌 주요 벤치마크는 다면적 능력을 평가하고 투명성을 보장하지만, 공개 기간이 길어질수록 누수 위험이 커진다. 벤치마크 자체를 학습데이터로 활용해 점수를 비약적으로 상승시킬 가능성도 있다.

국내 벤치마크는 KMMLU(한국어 지식 이해), KLUE(자연어 이해), KoBEST(고난도 추론), HAE-RAE Bench(한국 문화 특화) 등이 있지만 대부분 해외 벤치마크를 한국어화 한 수준에 머물러 있다. 초고난도 과학·프로그래밍 영역이 부족하고, 공정성 관리에도 취약하다.

한국어 전문 벤치마크인 KMMLU 이전 모델은 테스트 데이터 중 7.66%가 정답 노출·불완전 질문·오타 등 오류를 포함하고 있으며, 온라인 공개로 인한 데이터 누수가 신뢰성을 떨어뜨리는 것으로 나타났다.

'독자 AI 파운데이션 모델 개발 사업‘에서도 벤치마크 결과에 따른 공정성 논란이 이어졌다. 과학기술정보통신부 측은 LG AI연구원 엑사원, SKT A.X, 업스테이지 솔라 등이 일부 벤치마크에서 높은 점수를 받았으나, 모델별 개별 벤치마크 평가 과정에서 성능 측정의 객관성을 확보하기 위해 별도의 검증에 나섰다는 입장이다.

보고서는 국내 언어·제도·사회 맥락을 반영한 정부 주도 벤치마크를 해결책으로 제시한다. 이는 공정 경쟁 환경 조성, 스타트업 접근성 강화, 글로벌 기준 수용자에서 참여자로의 전환, 공공 AI 안전 확보에 기여할 수 있다는 설명이다.

NIA 측은 “민관 협력 거버넌스와 생애주기 관리를 통해 중립적 리더보드·동적 벤치마크 운영을 제안한다”며 “벤치마크는 단순 도구가 아니라 국가 AI 인프라로 재정의되어야 한다”고 제안했다.

김성현 기자minus1@ajunews.com

기자의 다른기사