mage-bench: LLMがMagic: The Gatheringをプレイして性能を競うベンチマーク

概要

XMageをフォークした環境で、LLMがMagic: The Gatheringの複雑なルールに従い、戦略的なプレイや対人交渉を行う能力を評価するベンチマーク。

詳細内容

mage-benchは、大規模言語モデル（LLM）にMagic: The Gathering（MTG）をプレイさせることで、その推論能力や戦略的思考を評価するプラットフォームです。オープンソースのXMageを基盤としており、Commander、Standard、Modern、Legacyといった主要なフォーマットをサポートしています。LLMはマリガンの選択、呪文のプレイ、戦闘、さらには多人数戦における政治的判断まで、人間と同じ意思決定プロセスを求められます。ルールエンジンの簡略化を行わず、MTGの持つ高度な複雑さをそのまま維持しているため、モデルの論理性やルール遵守能力を厳格に測定することが可能です。リーダーボード機能により、異なるモデル間でのプレイスキルの比較も行えます。

元記事を読む他のサマリーを見る