チャットGPTの回答には一貫性が欠如：同じ質問でも「ホント」と「ウソ」が入れ替わる実態

概要

ワシントン州立大学の研究により、ChatGPTは同じ質問に対して回答が二転三転し、特に「間違いの仮説」を見抜く能力が極めて低いことが明らかになった。

詳細内容

ワシントン州立大学の研究チームが、ビジネス分野の学術論文から抽出した719の仮説をChatGPT（GPT-3.5および5 mini）に検証させたところ、同一の質問に対する回答の一貫性が約73%に留まることが判明しました。正解率自体は80%弱と一見高く見えますが、二択問題としての偶然性を考慮した実力は「D評価」相当であり、特に誤った仮説を正しく「偽」と見抜く成功率はわずか16.4%でした。これは、大規模言語モデル（LLM）が論理的な意味理解ではなく、確率的な言葉の予測で動いているという構造的な限界を示しています。研究者は、AIを文章作成や情報整理に活用する利便性を認めつつも、複雑な判断や研究内容の評価においては人間による最終確認が不可欠であると警鐘を鳴らしています。

元記事を読む他のサマリーを見る