概要
https://xenospectrum.com/thinking-machines-lab-llm-nondeterminism-batch-invariance/
詳細内容
## 元OpenAIの研究者ら、AIの応答が毎回違う理由をついに解明
https://xenospectrum.com/thinking-machines-lab-llm-nondeterminism-batch-invariance/
Thinking Machines Labは、LLMの応答が非決定性を示す真の原因が、GPU並列処理ではなくサーバー負荷に起因する「バッチ不変性の欠如」であると解明し、信頼性の高いAIを実現する具体的な改革案を提示した。
**Content Type**: 🔬 Research & Analysis
**Scores**: Signal:5/5 | Depth:5/5 | Unique:5/5 | Practical:4/5 | Anti-Hype:4/5
**Main Journal**: 94/100 | **Annex Potential**: 94/100 | **Overall**: 92/100
**Topics**: [[LLM, 非決定性, 推論最適化, GPUカーネル, バッチ処理]]
元OpenAIの研究者らが設立したThinking Machines Labが、LLMが同じ入力に対して異なる応答を生成する「非決定性」の根本原因を解明しました。これまでGPUの並列処理と浮動小数点演算の非結合性に起因するとされてきましたが、同社の研究者Horace He氏は、単純なGPU行列乗算では決定性が保たれるという実験結果を示し、この通説が不完全であると指摘しました。
真の原因として特定されたのは、システムレベルの課題である「バッチ不変性の欠如」です。LLMの推論サーバーは、効率化のために複数のユーザーリクエストを「バッチ」にまとめて処理します。このバッチサイズはサーバー負荷に応じて常に変動し、これに対応するためGPUカーネルは性能を最大化するよう計算戦略を動的に切り替えています。この戦略変更により、内部の浮動小数点演算の順序が変わり、非結合性の特性によって結果にビット単位の差異が生じ、最終的な非決定性につながるのです。
Thinking Machines Labは、この課題に対し、Transformerの主要演算(RMSNorm、行列乗算、アテンション)カーネルを「バッチ不変」に再設計する解決策を提案しています。これにより、バッチサイズによらず常に一貫した計算戦略を強制し、決定性を確保することを目指します。実験では約20%の性能低下が見られましたが、その代わりに、金融、医療、法務といった高度な信頼性が求められる分野で、常に予測可能で再現性のあるAIの実現が可能になります。また、強化学習における「真のオンポリシー学習」の道を拓き、より安定したモデル学習にも貢献します。
この研究は、単にAIの「気まぐれ」を技術的に克服するだけでなく、AIを社会インフラとして信頼できるものに変革する可能性を秘めており、今後のプロダクトへの応用が注目されます。私たちWebエンジニアも、AIを活用したアプリケーション開発において、これまで避けられなかったLLMの予測不能な挙動に対し、より信頼性の高いアプローチを設計できるようになるでしょう。