AI 성능, 게임 공략으로 검증...크래프톤 '플래시어드벤처' 공개

  • 비전 랭귀지 모델로 간단한 플래시 게임 엔딩까지 플레이

  • 엔딩 달성률, 인간 97% VS AI 5.88%…아직은 인간의 영역

  • 향후 추론형 AI 벤치마크 지수로 활용, 게임 개발에 도입

크래프톤 ‘플래시어드벤처’ 전체 구조 출처크래프톤·서울대 공동 연구 ‘FlashAdventure’
크래프톤 ‘플래시어드벤처’ 전체 구조 [출처=크래프톤·서울대 공동 연구 ‘FlashAdventure’]
인공지능(AI)이 사람처럼 게임을 처음부터 결말까지 스스로 완주할 수 있느냐를 따지는 잣대가 등장했다.

11일 크래프톤이 서울대학교, 조지아공과대학(조지아텍)과 함께 공개한 ‘플래시어드벤처’는 한두 장면의 시연이 아니라 엔딩 도달 여부로 실력을 재는 평가 지표다. 핵심은 초반에 본 단서를 오래 기억하고, 그 기억을 다음 행동으로 이어가 이야기 전체를 완성하는 능력이다.

이 지표는 플래시 기반 어드벤처 게임 34종을 묶어 만들었고, 게임을 끝까지 깼는지 기계가 같은 규칙으로 판정하는 ‘자동 심판’, 단서를 언제 저장·활용할지 단계를 정리한 ‘단서 중심 풀이 절차’도 함께 제시한다.

실험 결과는 명확했다. 엔딩까지 간 사례가 극히 드물다. 모델마다 중간 목표(단계별 과제) 통과율은 조금 올랐지만, 엔딩 성공률 최고치는 5.88%에 그쳤다. 반면 인간은 제한 없이 플레이할 때 97.06%로 대부분의 게임을 끝까지 깼다. 즉, ‘짧은 시연에서 보이는 능력’과 ‘결말까지 가는 실력’은 전혀 다른 문제임이 수치로 확인됐다.

최신 대형 모델 계열(GPT-4 계열, 클로드 최신 등)이 중간 목표 달성률에선 상대적으로 나았지만, 엔딩 완주에선 크게 막혔다. 연구진이 제안한 단서 중심 풀이 절차를 더했을 때도 엔딩 성공률은 5.88% 수준으로, 인간과의 간극은 여전했다. 병목은 분명하다. 초기에 관찰한 정보를 훗날 행동으로 연결하지 못하는 ‘관찰–행동 간극’, 그리고 장기 기억·계획의 부재다.

장르별로 보면, 미스터리·방탈출처럼 장기 기억이 많이 필요한 장르에서는 ‘단서 중심 풀이’를 적용할 때 중간 목표(체크포인트) 달성률이 눈에 띄게 오른다. 다만 엔딩 완주로 이어질 만큼의 절대 성능 개선은 아직 제한적이다.
 
긴 플레이를 사람이 일일이 채점하면 느리고 들쭉날쭉하다. 플래시어드벤처는 자동 심판을 함께 공개해, 퍼즐 해결·중간 목표·엔딩 도달 여부를 같은 규칙으로 기계가 판정하도록 했다. 핵심은 공정성·재현성·신뢰성이다. 영상 하이라이트 몇 장면을 편집해 보여도 엔딩 도달 자체만 인정되므로 과장하기 어렵고, 규칙과 채점기가 공개돼 다른 연구자·회사도 같은 조건으로 다시 돌려 결과를 확인·비교할 수 있다. 이 심판은 사람 판정과의 일치도를 따져 정확도 94%를 기록해 신뢰성을 뒷받침했다.

이제 게임 속 AI는 짧은 시연 장면이 아니라 끝까지 가는 실력으로 평가받게 된다. 엔딩 도달을 기준으로 삼으면 과장이나 포장이 끼어들 틈이 줄고, 연구실 밖에서도 같은 잣대로 검증·비교가 가능하다. 제작 현장에선 긴 과제 흐름을 AI가 끝까지 따라가 보게 해 설계를 점검하고, 운영 단계에선 해결 방법 시험을 자동화해 반복 수작업을 줄일 수 있다.

크래프톤 관계자는 “이번 지표는 단기적으론 연구·개발팀의 표준 평가‧회귀 테스트 도구로 활용할 것”이라며 “중기적으론 제작·운영 자동화에, 장기적으론 동료형 AI 모델 완성도를 끌어올리는 발판으로 활용도를 넓혀갈 계획”이라고 말했다.

©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지

컴패션_PC
댓글0
0 / 300

댓글을 삭제 하시겠습니까?

닫기

로그인 후 댓글작성이 가능합니다.
로그인 하시겠습니까?

닫기

이미 참여하셨습니다.

닫기