오픈AI, GPT-5.4 공개…AI 경쟁 '대화'서 '실무 자동화'로 이동

한영훈 기자입력 2026-03-06 09:26

기사공유
폰트크기

문서·엑셀·프레젠테이션 강화…업무 결과물 생산 능력 전면 배치
앤트로픽·MS도 실무형 기능 확대…질의응답 넘어 실행 보조 경쟁

생성형 인공지능(AI)의 경쟁 기준이 바뀌고 있다. 답변 품질을 겨루는 단계를 넘어 문서 작성, 엑셀 분석, 프레젠테이션 제작처럼 '실제 업무를 얼마나 빠르고 정확하게 처리하느냐'가 새 승부처가 됐다. 오픈AI가 새 모델 GPT-5.4를 공개하며 이 흐름에 다시 불을 붙였다.

6일 업계에 따르면, 오픈AI는 5일(현지시간) GPT-5.4를 공개했다. 일반 이용자가 쓰는 챗GPT에는 ‘GPT-5.4 싱킹(추론 강화형 모델)’을 적용했다. 개발자가 활용하는 API(개발자용 연동 도구)와 코덱스(코딩 작업 도구)에는 GPT-5.4를 넣었다. 고성능 버전인 ‘GPT-5.4 프로’도 함께 내놨다.

이번 공개의 핵심은 문서 작업과 컴퓨터 사용 강화에 있다. 오픈AI는 GPT-5.4가 스프레드시트, 문서, 프레젠테이션 생성·편집 능력을 높였다고 설명했다. 개발자용 기능에는 네이티브 컴퓨터 사용 기능도 넣었다. 화면을 인식하고 여러 응용프로그램을 오가며 마우스와 키보드 작업을 수행하는 방식이다. 최대 100만토큰(모델이 한 번에 처리하는 텍스트 단위) 문맥 처리도 지원한다. 같은 날 공개한 ‘챗GPT 포 엑셀’은 엑셀 안에서 스프레드시트를 만들고 수정·분석할 수 있는 추가 기능이다.

오픈AI가 내세운 경쟁 포인트는 대화 자체보다 업무 결과물 생산에 가깝다. 회사 발표에 따르면 GPT-5.4는 44개 직무 기반 지식노동 평가인 지디피밸에서 83.0%를 기록해 GPT-5.2의 70.9%를 웃돌았다. 기업가치 평가 등에 쓰이는 재무모형 작성 과제에선 87.3%, 웹 탐색 비교 평가인 브라우즈컴프에선 82.7%, 컴퓨터 사용 평가인 오에스월드 베리파이드에선 75.0%를 기록했다. 오픈AI는 GPT-5.4의 개별 허위 주장 비중이 GPT-5.2보다 33% 낮고, 오류를 포함한 전체 응답 비중도 18% 낮다고 밝혔다.

관련기사

이 흐름은 오픈AI만의 방향이 아니다. 앤트로픽은 지난달 ‘클로드 오퍼스 4.6’을 공개하며 엑셀 기능을 보강하고 파워포인트 기능도 연구 미리보기 형태로 내놨다. 이후 공개한 ‘클로드 소네트 4.6’에선 코딩, 컴퓨터 사용, 장문 추론, 에이전트 계획 기능을 강화했다고 밝혔다. 마이크로소프트도 마이크로소프트 365 코파일럿에서 워드·엑셀·파워포인트의 에이전트 모드를 확대하고 있다. 질의응답 중심 경쟁에서 문서 작성과 실행 보조 경쟁으로 무게중심이 이동하고 있다는 뜻이다.

시장도 이에 맞춰 재편되고 있다. 초기 생성형 AI 시장은 검색 대체, 요약, 문장 생성 같은 범용 대화 경험에 무게를 뒀다. 지금은 엑셀 기반 수치 분석, 계약서 검토, 슬라이드 작성, 웹 탐색, 사내 시스템 연동처럼 생산성 개선 효과를 바로 설명할 수 있는 영역이 핵심 경쟁 분야로 올라왔다. 모델 경쟁도 단순 성능 점수보다 실제 업무를 얼마나 적은 비용과 짧은 시간으로 처리하느냐로 이동하고 있다.

관건은 정확도와 통제다. 파일을 직접 만들고 시스템을 조작하는 모델이 늘수록 생산성은 높아지지만, 오류가 실제 문서와 업무 흐름에 바로 반영될 위험도 커진다. 실무형 AI 경쟁이 이제는 단순 성능을 넘어 결과물의 신뢰도와 안전장치까지 함께 따지는 단계로 들어섰다는 평가가 나온다.

업계 관계자는 “생성형 AI 시장은 답변형 서비스 경쟁을 지나 실제 업무 시간을 줄여주는 도구 경쟁으로 넘어가고 있다”며 “앞으로는 누가 더 말을 잘하느냐보다 누가 문서와 데이터, 사내 시스템을 묶어 끝까지 일을 처리하느냐가 기업 고객 확보의 기준으로 자리잡을 것”이라고 말했다.