(사진=셔터스톡) |
인기 고전 보드게임 '던전앤드래곤(D&D)'이 AI의 능력을 측정하는 도구로 활용됐다.
미국 UC 샌디에이고 연구진은 대형언어모델(LLM)의 장기 과제 수행 능력을 D&D로 측정한 'LLM 에이전트 테스트를 위한 도구 기반 D&D 시뮬레이션(Tool-Grounded D&D Simulations to Test LLM Agents)'을 뉴립스(NeurIPS) 2025를 통해 공개했다.
이는 짧은 질응답에 치우쳤던 기존 AI 평가 방식의 한계를 뛰어넘기 위한 것이다. 수십 단계에 걸친 계획 수립과 규칙 준수, 역할 연기가 동시에 요구되는 게임 환경에서 AI의 장기 추론 능력을 측정했다.
1974년 등장한 D&D는 사람들이 탁자에 둘러앉아 대화와 상상력, 그리고 주사위를 이용해 이야기를 만들어가는 TRPG다. 연구진이 AI에게 이 게임을 시킨 이유도 '대화' 중심의 특성 때문이다.
온라인 게임은 마우스나 키보드를 눌러 게임을 진행하지만, 보드 게임에서는 "나는 왼쪽으로 돌진하며 고블린에게 칼을 휘두르겠다"라는 식으로 문장을 만들어야 한다.
또 이 게임은 단순히 이기는 것뿐만 아니라, '성격이 급한 전사'나 '거만한 마법사'처럼 캐릭터에 몰입해서 말해야 하므로 AI에게는 훨씬 고난도의 테스트가 된다.
AI가 완전히 허공에 대고 말하면 환각 현상이 생길 수 있어, 연구진은 디지털 게임 엔진을 보조 도구로 사용했다. 즉, 대화와 규칙을 기반으로 하는 보드게임 방식을 디지털 환경에서 구현하여 테스트한 것이다.
연구진은 D&D가 다단계 계획 수립, 규칙 준수, 팀 전략을 동시에 평가할 수 있는 자연스러운 시험대이며, 대화 중심 진행 방식 덕분에 인간과 AI 간 협업 가능성도 관찰할 수 있다고 설명했다.
AI들은 다른 AI와 대결하거나 협력했으며, 연구진은 이 과정에서의 데이터를 2000여명의 숙련된 인간 플레이어 기록과 대조해 실력을 채점했다. 평가는 자원과 행동 가능 수를 얼마나 정확히 추적하는지, 전술적 선택이 적절했는지, 그리고 캐릭터 설정에 맞게 '역할에 몰입'했는지 등을 기준으로 이뤄졌다.
실험 결과, AI들은 전반적으로 게임 플레이 자체에는 성공했지만, 시간이 길어질수록 연기가 과장되거나 캐릭터 설정의 일관성이 흔들리는 모습을 보였다.
예를 들어 워록은 상황과 어울리지 않는 과도한 극적 대사를 반복했고, 팔라딘은 전투 흐름과 맞지 않는 순간에 장황한 연설을 늘어놓는 경향을 보였다. 고블린 역할을 맡은 AI도 상투적인 표현을 반복하는 등 표현의 다양성이 제한되는 문제가 드러났다.
모델별 성능 차이도 분명하게 나타났다. 연구진은 '딥시크-V3'가 행동 묘사와 도발적인 대사를 비교적 잘 생성했지만, 캐릭터 개성의 폭은 제한적이었다고 밝혔다.
'클로드 하이쿠 3.5'는 직업군에 맞춰 말투와 표현을 조절하는 데 강점을 보였고, 'GPT-4o'는 생동감 있는 장면 묘사와 전술적인 표현을 활용하며 전반적으로 중간 수준의 캐릭터 밀도를 유지했다.
연구진은 "규칙 기반 대화 시뮬레이션에서는 고무적인 결과를 보였지만, 모든 LLM이 장기 시나리오로 갈수록 성능이 점진적으로 저하됐다"라고 평가했다. 특히 소형 오픈소스 모델은 일관된 시뮬레이션을 유지하는 데 한계를 드러냈다.
게임을 이용해 LLM의 능력을 테스트하는 것은 이미 일반화됐다. 앤트로픽은 '클로드'의 에이전트 능력을 테스트하기 위해 초기 닌텐도 버전의 포켓몬 게임 플레이를 실행하도록 했고, 구글과 오픈AI도 이를 도입했다.
그러나 이번 실험은 게임 내 상황 판단과 조작을 넘어, 일관적이고 적절한 롤플레잉 능력까지 진행한 복잡한 테스트로 평가된다.
박찬 기자 cpark@aitimes.com
<저작권자 copyright ⓒ ai타임스 무단전재 및 재배포 금지>저작권자>














