생성형AI에 정확한 한국 정보 제공하려면..."데이터 확대·모니터링·외교 협력 필요"

나선혜 기자입력 2025-06-12 19:45

기사공유
폰트크기

데이터 편향성, 규모 키워 해결할 수 있어
광범위한 데이터 학습, 모니터링 체계 필요

글로벌 인공지능(AI) 챗봇의 한국어 정확성을 높이기 위해서는 기업들이 사용 가능한 데이터의 범위를 넓혀주는 한편 편향적 데이터를 확인해야 하는 모니터링 시스템을 구축해야 한다는 지적이 나왔다. 이와 함께 외교적으로 접근하는 것도 해결할 수 있는 방법이라고 제언했다.

12일 최병호 고려대 인공지능(AI) 연구소 교수는 아주경제와의 통화에서 "데이터 편향성 등은 데이터 규모를 키워 데이터 자체를 일반화해 해결할 수 있는 측면이 있다"고 짚었다. 백은경 이화여대 인공지능대학 교수도 "보안 등 여러가지 이유로 우리나라 자료를 AI가 학습하지 못했을 가능성이 있다"고 지적했다.

실제 우리나라의 경우 타 국가에 비해 기업이 이용할 수 있는 상업적 데이터 규모는 작은 수준이다. 한국저작권위원회가 최근 발간한 'AI학습 데이터의 저작권 문제와 투명성 확보 방안' 보고서에 따르면 '상업적 사용 가능'으로 표시한 국내의 2852개 인기 데이터 셋 중 21%(605개)만 법적으로 안전한 상황이다.

반면 일본의 경우 지난 2018년 저작권법 개정으로 상업적 목적을 포함한 대부분의 AI 학습의 예외를 인정했다. 싱가포르도 지난 2021년부터 '컴퓨터 데이터 분석(computational data analysis)' 법을 개정하면서 다양한 종류의 저작권 침해 면책 사유들을 규정했다. 즉, 이들 국가가 정보분석을 위한 저작물의 복제·전송을 허용하는 '텍스트 데이터 마이닝(TDM)' 면책조항을 도입하면서 기업들이 데이터를 쉽게 학습할 환경을 만들었다는 이야기다.

관련기사

또 최 교수는 "데이터 학습이 문제가 되는 지점은 어떤 데이터를 학습했는지 모른다는 것"이라며 "저작권, 개인정보 문제도 있다"고 설명했다. 때문에 최 교수는 데이터 편향성을 끊임없이 확인하고 점검하는 관련 모니터링 체계도 필요하다고 이야기했다.

곽정호 호서대 빅데이터AI학과 교수도 "글로벌하게 대립되는 AI 윤리 문제는 지속해서 발생할 것"이라며 "현실적으로 데이터 편향 문제를 바로잡아야 하는 문제가 있다"고 설명했다.

이어 "지식재산권, AI 자체의 편향성 문제, 결과와 관련한 책임 등 문제는 앞으로 다뤄가야 할 시점"이라고 덧붙였다.

정부가 나서 이런 데이터 편향성을 해결해야 한다는 의견도 나왔다. 개인이 나서서 데이터 문제를 해결해달라고 요청하기엔 한계가 있다는 이야기다. 최 교수는 "오픈AI 등 글로벌 AI 기업에게 어떤 데이터가 학습됐는지는 핵심 경쟁력"이라며 "외교 채널로 우리의 데이터를 학습해달라고 요청해야 한다"고 언급했다.

업계도 쓸 수 있는 데이터 규모를 확대해야 한다고 피력했다.

한 업계 관계자는 "한국은 공공데이터 확보가 어려운 데다가 민간 데이터 대부분은 기업이 가지고 있다"며 "데이터를 쓰려면 기업과 계약을 맺어 원작자의 허락을 받아야 하는 상황"이라고 호소했다.