뉴스 콘텐츠가 인공지능(AI) 개발의 핵심 데이터로 부상한 가운데 뉴스 데이터 활용을 두고 저작권자인 언론사와 AI 개발사 간 입장이 엇갈리고 있다. 저작권자는 창작자 권리 보호를 위해 정당한 대가를 지불해야 한다고 주장하고 있으나, AI 개발사는 기술 발전을 위한 공정 이용에 해당하며 데이터 수집은 상업적 목적이 아니라 AI 학습과정에서만 사용하고 있다고 강조한다.
AI 학습데이터와 관련해 저작권 문제의 주요 쟁점은 '공정이용 여부'와 '보상체계 마련'이다.
저작권법상 저작물을 저작권자의 허가 없이 제한적으로 이용할 수 있도록 허용하는 '공정이용' 원칙을 두고 있다. 저작자의 정당한 이익을 부당하게 해치지 않고, 비영리적 목적이면 저작물 이용이 가능하다는 것이다.
최근 미국에서 저작권 침해와 관련해 공정이용을 전면에 다룬 판결이 나왔다. 지난해 미국 대법원은 마릴린 먼로, 앨비스 프레슬리 등 여러 유명인 사진을 회화 작품으로 제작하는 팝 아트 작가 '앤디 워홀'의 저작물 중 일부가 공정이용 요건에 부합하지 않아 저작권 침해 대상이 된다고 판결했다.
양진영 법무법인 민후 변호사는 "미국 대법원 판결을 미루어 보았을 때 AI 개발에 뉴스 콘텐츠를 사용하는 것도 공정 이용에 해당하기 어렵다고 본다"면서 "학습 데이터의 변형적 이용 여부와 상업적 성격이 공정 이용 판단에 중요한 요소로 작용하는데, AI 개발에서 뉴스 콘텐츠 무단 사용도 저작권 침해 문제가 발생할 소지가 있다"고 말했다.
이에 반해 AI 개발사 측은 뉴스 저작물 등은 복제하지 않고 사람의 언어가 어떻게 작용하는지 등 학습 과정에서만 사용한다면서 공정이용을 주장한다. 뉴욕타임스에 저작권 침해 소송을 당한 오픈AI는 "뉴스 등 특정 영역은 전체 학습데이터의 극히 일부에 불과하므로 뉴욕타임스를 포함한 단일 데이터소스는 모델의 의도된 학습에 큰 영향을 주지 않는다"고 공개 반박했다.
정원준 한국법제연구원 부연구위원은 "만약 오픈AI가 뉴욕타임스의 콘텐츠를 가져가 기사를 만드는 데 활용했다면 저작권 위반이지만 언어적 표현, 사실관계 등을 학습하는 데 썼다면 '비표현적 이용'으로 판단해 공정이용으로 볼 수 있다"고 설명했다. 비표현적 이용은 저작물을 정보분석, 연구, 학습 등 기능적 목적으로 이용하는 것을 의미한다.
AI 학습 데이터를 위해 뉴스 등 저작물 사용에 적절한 대가를 지불하는 움직임도 나타나는 추세다. 오픈AI는 지난 5월 월스트리트저널 등을 포함한 뉴스코퍼레이션과 저작물을 사용 계약을 맺어 5년간 약 3400억원을 지불한다. AI검색 스타트업 퍼플렉시티도 언론사와 광고 등 수익을 공유하는 모델을 도입했다.
국내에서도 관련 가이드라인을 준비 중이다. 올해 초 AI 시대 저작권 보호를 위해 6개 언론단체가 포럼을 발족했고, 뉴스 콘텐츠에 대한 적정한 대가 산정 기준을 논의 중이다. 이들은 비영리 목적이라도 뉴스 콘텐츠를 무료로 제공하는 것은 적절치 않고, 기준에 따른 차별적 비용 지불이 필요하다는 입장이다.
포럼의 대가 산정 분과 소속 신용우 법무법인 지평 변호사는 "AI 모델 개발이 비영리 목적을 표방해도 실제로 영리 목적이 될 수 있고, 비영리 기관도 영리 기업의 투자를 받아 AI를 개발하는 사례가 많다는 점을 종합적으로 고려할 때 비영리 목적이라도 뉴스 콘텐츠를 무료로 제공하는 것은 적절하지 않다"면서 "합리적 대가 산정을 위해 AI 기업의 이용 목적, 규모, 콘텐츠의 최신성, 계약 기간 등을 고려할 필요가 있다"고 말했다.
©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지