인공지능(AI) 스타트업 오드컨셉이 권위있는 국제학회에서 구글 AI 모델 '버트(BERT)'의 한국어·중국어·일어 처리성능을 높일 수 있는 언어처리 AI 모델 학습 방법론을 발표한다.
오드컨셉은 다음달 열리는 국제학회 '엠피리컬메소드 인 내추럴랭귀지프로세싱(EMNLP) 2020'의 정규세션에 문상환 오드컨셉 엔지니어링본부장이 주도한 연구 논문 2편이 채택됐다고 7일 밝혔다. 주로 이미지 데이터를 분석하는 '비전AI' 기술 개발에 집중해 온 기업이 텍스트 기반 자연어처리(NLP) 기술 연구로도 세계적 경쟁력을 입증한 사례로 주목된다.
EMNLP는 NLP 분야 가운데 경험적 방법론을 다루는 학회로 세계적인 인지도를 갖고 있다. 네이버, 삼성전자, SK텔레콤, 한국과학기술원(KAIST) 등의 연구자들도 EMNLP에서 연구 성과를 발표한 적이 있다. 이번 EMNLP 2020은 다음달 16일부터 20일까지 온라인으로 진행되며, 여기서 언어 데이터 기반 NLP에 대한 여러 접근 방법의 연구성과가 발표될 예정이다.
문 본부장의 단독 연구 논문인 '기학습 BERT의 사전(dictionary) 개선을 통한 전이학습 개선 방법론(PatchBERT)'이 EMNLP 메인 컨퍼런스에 채택됐다. 이는 구글의 NLP 딥러닝 모델 BERT의 성능 향상을 위한 기법을 제안·검증하고, 라틴문자 언어 대비 표현에 필요한 문자세트의 규모가 방대한 한중일(CJK) 언어처리에 적용할 수 있는 방법을 제시한 연구다.
구글의 BERT는 다양한 언어처리 AI 테스트에서 기존 기술보다 전반적으로 향상된 성능을 보여줘 주목받은 범용 AI 모델이다. 지난 2018년 10월 발표된 논문을 통해 처음 소개됐고 작년 10월부터 구글의 핵심 제품인 인터넷 검색 서비스에 적용되기 시작했다. 지난 2018년 11월 오픈소스로 공개된 BERT 모델의 코드를 바탕으로, 한국어 처리성능이 개선된 여러 파생 모델이 등장했다.
BERT와 같은 범용 AI 모델은 주로 영어 데이터로 학습을 수행했기 때문에 한국어와 같은 다른 언어의 처리 성능을 높이려면 별도 최적화 과정을 거쳐야 한다. 최적화 방법론은 처리하고자 하는 언어의 고유한 특성에 따라 달라질 수 있다. 한국어에 최적화하기 위한 방법과 중국어, 일본어에 최적화하기 위한 방법은 다를 수 있다는 뜻이다.
문 본부장의 PatchBERT 논문은 언어를 나타내기 위해 필요한 문자세트 규모가 방대한 한국어, 중국어, 일본어에 공통적으로 적용할 수 있는 언어처리 성능 개선 방법론을 제시하고 있다는 점이 특징이다.
오드컨셉의 또다른 EMNLP 발표 논문 'Machines Getting with the Program'은 문 본부장이 서울대·인하대 연구원들과 '비정형 지시문의 의도 파악'이라는 주제로 진행한 합동 연구다. 자유로운 대화 내용을 기계가 인간 수준으로 이해할 수 있도록 하는 한국어 학습 데이터 구축 방법론을 제안하는 내용이다. 이 학회의 '파인딩(Findings)' 트랙에서 공개될 예정이다.
오드컨셉은 커머스 분야 AI 기업이다. 지난 2012년 설립된 이래 비전AI 기술 개발에 집중해 왔다. 지난 2017년 비전AI 기반 상품추천 서비스 '픽셀(PXL)'을 출시해 패션기업 매장 등 기업 200여곳에 공급했고, 올해까지 누적 투자금 100억원을 유치했다. AI를 활용한 이미지데이터 인식·분석, 검색 분야 연구로 관련 특허 등록과 국제학회 논문 발표 실적도 쌓았다.
오드컨셉은 기존 이미지콘텐츠 분석기술과 이번 국제학회에서 인정받은 문 본부장의 언어처리 분야 AI 연구 성과를 결합해 기술을 고도화할 계획이다. 문 본부장은 "더 우수한 서비스를 개발·제공하기 위해 심층 연구가 뒷받침돼야 한다"며 "앞으로 오드컨셉의 AI 서비스를 고도화하고 기술경쟁력을 확보하기 위해 다양한 연구를 진행해나갈 것"이라고 말했다.
오드컨셉은 다음달 열리는 국제학회 '엠피리컬메소드 인 내추럴랭귀지프로세싱(EMNLP) 2020'의 정규세션에 문상환 오드컨셉 엔지니어링본부장이 주도한 연구 논문 2편이 채택됐다고 7일 밝혔다. 주로 이미지 데이터를 분석하는 '비전AI' 기술 개발에 집중해 온 기업이 텍스트 기반 자연어처리(NLP) 기술 연구로도 세계적 경쟁력을 입증한 사례로 주목된다.
EMNLP는 NLP 분야 가운데 경험적 방법론을 다루는 학회로 세계적인 인지도를 갖고 있다. 네이버, 삼성전자, SK텔레콤, 한국과학기술원(KAIST) 등의 연구자들도 EMNLP에서 연구 성과를 발표한 적이 있다. 이번 EMNLP 2020은 다음달 16일부터 20일까지 온라인으로 진행되며, 여기서 언어 데이터 기반 NLP에 대한 여러 접근 방법의 연구성과가 발표될 예정이다.

[사진=게티이미지뱅크]
문 본부장의 단독 연구 논문인 '기학습 BERT의 사전(dictionary) 개선을 통한 전이학습 개선 방법론(PatchBERT)'이 EMNLP 메인 컨퍼런스에 채택됐다. 이는 구글의 NLP 딥러닝 모델 BERT의 성능 향상을 위한 기법을 제안·검증하고, 라틴문자 언어 대비 표현에 필요한 문자세트의 규모가 방대한 한중일(CJK) 언어처리에 적용할 수 있는 방법을 제시한 연구다.
BERT와 같은 범용 AI 모델은 주로 영어 데이터로 학습을 수행했기 때문에 한국어와 같은 다른 언어의 처리 성능을 높이려면 별도 최적화 과정을 거쳐야 한다. 최적화 방법론은 처리하고자 하는 언어의 고유한 특성에 따라 달라질 수 있다. 한국어에 최적화하기 위한 방법과 중국어, 일본어에 최적화하기 위한 방법은 다를 수 있다는 뜻이다.
문 본부장의 PatchBERT 논문은 언어를 나타내기 위해 필요한 문자세트 규모가 방대한 한국어, 중국어, 일본어에 공통적으로 적용할 수 있는 언어처리 성능 개선 방법론을 제시하고 있다는 점이 특징이다.
오드컨셉의 또다른 EMNLP 발표 논문 'Machines Getting with the Program'은 문 본부장이 서울대·인하대 연구원들과 '비정형 지시문의 의도 파악'이라는 주제로 진행한 합동 연구다. 자유로운 대화 내용을 기계가 인간 수준으로 이해할 수 있도록 하는 한국어 학습 데이터 구축 방법론을 제안하는 내용이다. 이 학회의 '파인딩(Findings)' 트랙에서 공개될 예정이다.
오드컨셉은 커머스 분야 AI 기업이다. 지난 2012년 설립된 이래 비전AI 기술 개발에 집중해 왔다. 지난 2017년 비전AI 기반 상품추천 서비스 '픽셀(PXL)'을 출시해 패션기업 매장 등 기업 200여곳에 공급했고, 올해까지 누적 투자금 100억원을 유치했다. AI를 활용한 이미지데이터 인식·분석, 검색 분야 연구로 관련 특허 등록과 국제학회 논문 발표 실적도 쌓았다.
오드컨셉은 기존 이미지콘텐츠 분석기술과 이번 국제학회에서 인정받은 문 본부장의 언어처리 분야 AI 연구 성과를 결합해 기술을 고도화할 계획이다. 문 본부장은 "더 우수한 서비스를 개발·제공하기 위해 심층 연구가 뒷받침돼야 한다"며 "앞으로 오드컨셉의 AI 서비스를 고도화하고 기술경쟁력을 확보하기 위해 다양한 연구를 진행해나갈 것"이라고 말했다.
©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지