## Moonshot AI、推論とツール実行を統合したK2 Thinkingモデルを発表

概要

https://moonshotai.github.io/Kimi-K2/thinking.html

詳細内容

## Moonshot AI、推論とツール実行を統合したK2 Thinkingモデルを発表 https://moonshotai.github.io/Kimi-K2/thinking.html **Original Title**: Kimi K2 Thinking Moonshot AIが、思考プロセスとツール実行を単一モデル内で統合したK2 Thinkingを発表し、SWE-Bench Verifiedで71.3%、BrowseCompで60.2%を記録、人間の介入なしで200-300回の連続ツール実行を実現した。 **Content Type**: 🔬 Research **Language**: en **Scores**: Signal:5/5 | Depth:4/5 | Unique:5/5 | Practical:5/5 | Anti-Hype:4/5 **Main Journal**: 92/100 | **Annex Potential**: 85/100 | **Overall**: 92/100 **Topics**: [[エージェント型AI, 思考推論モデル, ツール統合, SWE-Bench, コーディングエージェント]] Moonshot AIは、オープンソース思考推論モデル「Kimi K2 Thinking」を発表しました。このモデルの最大の特徴は、推論とツール実行を単一のモデルアーキテクチャ内で統合し、従来のように推論LLMとツール実行システムを分離せず、200-300回の連続ツール呼び出しを人間の介入なしに実行できる点です。主要ベンチマークでの成果として、SWE-Bench Verified（ソフトウェアエンジニアリングベンチマーク）で71.3%、SWE-Bench Liteで59.5%を記録し、複数ファイルにまたがるコードベース編集で高い成功率を示しています。エージェント型推論タスクでは、HLEツール使用時に44.9%を記録しGPT-4o（23.1%）を上回り、BrowseComp（ウェブブラウジング）では60.2%を達成しました。一般推論能力においても、AIME 2024で56.7%、GPQA Diamondで65.2%、Codeforces Eloレーティング1620を記録しています。技術仕様は、Kimi k1.5をベースモデルとし、Apache 2.0ライセンスで公開。Hugging Faceでモデルウェイトがダウンロード可能で、APIアクセスも提供されています。エージェントとして検索エンジン、Wikipedia、ウェブページ読み取り、URLナビゲーション機能を統合活用します。

元記事を読む他のサマリーを見る