概要
https://theconversation.com/why-openais-solution-to-ai-hallucinations-would-kill-chatgpt-tomorrow-265107
詳細内容
## Why OpenAI’s solution to AI hallucinations would kill ChatGPT tomorrow
https://theconversation.com/why-openais-solution-to-ai-hallucinations-would-kill-chatgpt-tomorrow-265107
OpenAIの最新研究は、AIの幻覚が数学的に避けられない問題であり、その解決策は現在の評価システムと計算経済の制約により、一般消費者向けAIにおいては現実的でないと指摘する。
**Content Type**: 🔬 Research & Analysis
**Scores**: Signal:4/5 | Depth:4/5 | Unique:4/5 | Practical:3/5 | Anti-Hype:5/5
**Main Journal**: 80/100 | **Annex Potential**: 81/100 | **Overall**: 80/100
**Topics**: [[AIの幻覚, LLM評価, 計算経済学, ユーザー体験, AIの信頼性]]
OpenAIの最新研究論文は、ChatGPTなどの大規模言語モデル(LLM)が「幻覚」(事実と異なる情報を生成すること)を起こす根本的な原因を数学的に解明し、この問題がAIの訓練方法の偶発的な副作用ではなく、避けられないものであることを示した。既存のLLMは、次にくる単語を確率的に予測することで文章を生成するため、誤りが蓄積し、結果として回答全体のエラー率が高くなる。さらに、現在のAI評価ベンチマークが「分からない」という回答を誤答と同じく低く評価するため、AIは常に推測を選択し、幻覚を助長している。
OpenAIは、AIが自身の確信度を考慮し、不確実な場合は回答を控えることで幻覚を減らせると提案する。しかし、この解決策を消費者向けAIに適用した場合、AIが多くのクエリに対して「分からない」と回答することになり、ユーザー体験を著しく損ない、利用者の離反を招く恐れがある。また、確信度評価には現在の推測ベースモデルよりはるかに高い計算コストがかかり、日常的に大量のクエリを処理する消費者向けサービスでは経済的に成立しない。
一方で、サプライチェーン管理や医療診断など、誤った回答が多大なコストを伴う高リスクなビジネスアプリケーションでは、AIが不確実性を表明するためのコストが正当化され、この解決策は不可欠となる。この研究は、消費者向けAI開発を駆動するビジネスインセンティブが、幻覚削減の目標と根本的に乖離している現状を浮き彫りにする。Webアプリケーションエンジニアは、AI導入の際に、この技術的な限界と経済的現実を理解し、アプリケーションの要件に応じてAIの信頼性とコストのバランスを慎重に考慮する必要がある。