掲載済み (2026-02-28号)
#110 139文字 • 1分

Inceptionが「Mercury 2」を発表:拡散モデルベースの超高速推論LLM

原題: Introducing Mercury 2 – Inception Introducing Mercury 2, the fastest reasoning LLM

英語

掲載情報

概要

拡散モデル(Diffusion)を採用し、従来の自己回帰型モデルの限界を打破することで、毎秒1,000トークンを超える超高速な推論を実現した次世代LLM「Mercury 2」が登場しました。

詳細内容

Inception社が発表した「Mercury 2」は、テキスト生成に拡散モデル(Diffusion-based reasoning)を導入した画期的なLLMです。従来の自己回帰型モデルのようにトークンを一つずつ逐次的に生成するのではなく、並列的なリファインメントプロセスを通じて生成を行うため、NVIDIA Blackwell GPU上で毎秒1,009トークンという圧倒的なスピードを達成しています。これにより、エージェントのマルチステップ処理、リアルタイム音声対話、複雑なRAGパイプラインにおける遅延(レイテンシ)の蓄積という課題を根本から解決します。コスト面でも100万出力トークンあたり0.75ドルと非常に安価で、128Kのコンテキスト窓やネイティブなツール利用機能を備え、OpenAI APIとの互換性も保持しています。