掲載済み (2026-02-21号)
#101 136文字 • 1分

mage-bench: LLMがMagic: The Gatheringをプレイして性能を競うベンチマーク

原題: mage-bench

英語

掲載情報

概要

XMageをフォークした環境で、LLMがMagic: The Gatheringの複雑なルールに従い、戦略的なプレイや対人交渉を行う能力を評価するベンチマーク。

詳細内容

mage-benchは、大規模言語モデル(LLM)にMagic: The Gathering(MTG)をプレイさせることで、その推論能力や戦略的思考を評価するプラットフォームです。オープンソースのXMageを基盤としており、Commander、Standard、Modern、Legacyといった主要なフォーマットをサポートしています。LLMはマリガンの選択、呪文のプレイ、戦闘、さらには多人数戦における政治的判断まで、人間と同じ意思決定プロセスを求められます。ルールエンジンの簡略化を行わず、MTGの持つ高度な複雑さをそのまま維持しているため、モデルの論理性やルール遵守能力を厳格に測定することが可能です。リーダーボード機能により、異なるモデル間でのプレイスキルの比較も行えます。