카카오브레인이 입력된 영어 텍스트를 이해하고 대응되는 이미지를 만들어내는 새 초거대 인공지능(AI) 모델 'RQ-Transformer'를 오픈소스 소프트웨어로 공개했다. RQ-Transformer를 만든 연구자들이 쓴 논문이 오는 6월 열리는 글로벌 컴퓨터비전 학회 CVPR 2022에서 발표된다.
카카오브레인은 지난 2021년 12월 공개한 초거대 멀티모달 '민달리(minDALL-E)'의 업그레이드 버전인 이미지 생성 모델로 RQ-Transformer를 깃허브(GitHub)에 공개했다고 19일 밝혔다. 깃허브는 7300만여명의 개발자와 2억개의 소스코드 저장소를 보유한 오픈소스 커뮤니티 겸 소프트웨어 개발용 웹호스팅 서비스다.
RQ-Transformer는 텍스트를 입력받아 이미지를 출력한다. 텍스트·이미지 3000만쌍을 학습했다. 카카오브레인이 독자적으로 개발한 기술에 기반해 39억개의 매개변수를 다루는 AI 모델로 만들어졌다. 공개된 이미지 생성 모델 가운데 국내 최대 규모다. RQ-Transformer의 크기는 기존 카카오브레인 초거대 AI인 민달리의 3배, 이미지 생성 속도와 학습 데이터셋 크기는 2배 수준이다.
RQ-Transformer는 예를 들어 '사막에 있는 에펠탑(the Eiffel Tower in the desert)'과 같은, 처음 보는 영어 텍스트 조합을 이해하고 그에 대응하는 이미지를 생성한다. 텍스트 조건에 기존 기술과 달리 압축으로 인한 화질 손실이 적은 이미지를 만들어낸다. 기존 이미지 생성 모델보다 더 적은 계산 비용으로 더 빠르게 이미지를 생성할 수 있다.
카카오브레인은 이 기술의 우수성을 인정받아 오는 6월 컴퓨터비전 분야의 세계 3대 학술대회 중 하나로 꼽히는 '국제 컴퓨터 비전 및 패턴인식 학술대회(CVPR)'에서 해당 논문을 발표한다. 이미지 생성 모델 연구개발을 맡고 있는 카카오브레인 생성모델(GM) 팀은 더 정교한 이미지를 생성하고 생성 속도를 높이기 위한 연구에 매진하기로 했다.
김일두 카카오브레인 대표는 "인간의 명령에 따라 이미지를 만들어내는 컴퓨터는 그 명령 뒤에 내재된 의도를 파악하고 이해하는 기술을 보여준다"며 "이번에 우리가 공개한 획기적인 'text-to-image AI' 모델이 인간과 컴퓨터가 자유롭게 대화하는 미래를 향한 여정의 첫 시작이 될 것"이라고 말했다.
카카오브레인은 주어진 텍스트 조건에 의해 이미지를 생성하는 것에 더해 인간이 머리 속에 떠올리는 생각을 디지털 이미지로 변환하는 컴퓨터 프로그램을 실현하는 기술 역량을 축적할 예정이다.
©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지