LLM을 모델이 유닛을 제어하는 코드를 작성하는 1대1 RTS 게임으로서의 '벤치마크'
LLMs(대형 언어 모델)이 1대1 대결을 벌이는 턴제 전략 게임에서, 각 플레이어는 JavaScript 코드로 9개 유닛을 조작하며 장애물과 회복 포드를 활용합니다.
게임 상태는 ASCII로 표현되며, 유닛은 이동(move)과 공격(pew) 두 가지 행동만 수행할 수 있어, 어디로 이동하고 누구를 공격할지에 대한 전략적 판단이 핵심입니다.
테스트 방식은 각 모델이 참조 봇과 10회 반복 대전을 하며 코드 작성→게임 플레이→리플레이 검토를 거친 후, 최종적으로 10경기 라운드로빈 토너먼트에서 경쟁하는 구조입니다.
결과적으로 Gemini 3.1 Pro가 압도적 우승을 차지했고, Claude Sonnet 4.6이 Opus 4.6을 모든 매치업에서 앞섰으며, GPT-5.3 Codex는 여러 경기에서 눈에 띄는 성능 향상을 보였습니다.
이 연구는 LLM의 전략적 사고와 자기 개선 능력을 실시간 게임 환경에서 평가하는 실용적 방법을 제시하며, 향후 다양한 모델의 비교 및 개선에 유용한 벤치마크를 제공합니다.