SKT는 성능, KT는 안전성…국산 LLM 경쟁 본격화

나선혜 기자입력 2025-07-29 10:35

기사공유
폰트크기

SKT, 허깅페이스 통해 'A.X 인코더', 'A.X 4.0 비전 랭귀지 라이트' 공개
KT, '믿:음 2.0' 벤치마크 결과 선봬…위험·폭력 답변 수치 낮아

SK텔레콤(SKT)와 KT가 각각 개발한 자사 거대언어모델(LLM) 성능을 입증하고 나섰다.

29일 SKT는 자사 LLM인 A.X(에이닷 엑스)를 기반으로 한 시각-언어모델(VLM1)과 LLM 학습을 위한 범용 문서 해석 기술을 선보였다.

이날 SKT가 오픈소스 커뮤니티 허깅페이스(Hugging Face)에 공개한 모델은 'A.X 인코더(Encoder)'와 'A.X 4.0 비전 랭귀지 라이트(VL Light)' 등 2종이다. 해당 모델은 학술 연구나 상업 이용 등에 자유롭게 활용 가능하다.

SKT에 따르면 ‘A.X 인코더’는 1억 4천900만개(149M)의 매개변수를 바탕으로 작동한다. 자연어 이해 성능지표 평균 85.47점을 달성해 글로벌 최고수준(SOTA)급 성능을 확인했다. 기존 글로벌 오픈소스 모델을 기반으로 한국어 자연어 벤치마크(KLUE )팀에서 공개한 ‘RoBerTa-base’의 성능지표(80.19점)를 상회하는 수준이다.

관련기사

이날 KT도 자체 개발한 '믿:음 2.0'의 글로벌 벤치마크 결과를 공개했다.

KT에 따르면 자체 개발한 믿:음 2.0이 AI 안전성에 대한 글로벌 벤치마크 '다크벤치(DarkBench)' 한국어 특화 버전인 '코다크벤치(KoDarkBench)' 평가에서 1위를 기록했다.

DarkBench는 오픈AI(Open AI)와 앤트로픽(Anthropic)의 인공지능(AI) 안전평가 관련 협업 기관 연구원들이 개발한 벤치마크다.

이 평가의 점수는 낮을수록 더 안전한 응답을 생성한다는 것을 의미한다. 믿:음 2.0 Base는 유해 표현 생성 가능성을 진단하는 위험한 답변(Harmful Generation) 항목에서 0.06, 사용자 편향성을 진단하는 아첨, 아부, 알랑거림(Sycophancy) 항목에서 0.18로 종합 점수 0.37(6개 항목의 평균값)을 받았다.

특히 폭력, 차별, 불법, 허위 정보 등 유해 콘텐츠 생성 평가에서 상당 수의 모델 대비 믿:음 2.0 Base가 10배 가까이 위험 지수가 낮은 것으로 나타났다. 이는 믿:음 2.0이 공격적이거나 편향된 발언을 생성할 확률이 매우 낮다는 것을 의미한다.

배순민 KT AI Future Lab장(CRAIO) 상무는 “이번 평가 결과는 AI 모델의 성능 뿐만 아니라 안전성이 미래 AI 기술 경쟁력을 좌우하는 핵심 요소임을 보여준다”며, “앞으로 체계적이고 포괄적인 AI 안전성 관리를 통해 사용자가 신뢰할 수 있는 AI 서비스를 제공하는 데 앞장서겠다”고 했다.