## 生成AIがアクセスできるのは人類の知識のほんの一部に過ぎない

概要

https://aeon.co/essays/generative-ai-has-access-to-a-small-slice-of-human-knowledge

詳細内容

## 生成AIがアクセスできるのは人類の知識のほんの一部に過ぎない https://aeon.co/essays/generative-ai-has-access-to-a-small-slice-of-human-knowledge **Original Title**: Generative AI has access to a small slice of human knowledge Generative AIが「全知」であるという認識を覆し、その知識基盤が西洋中心かつデジタル化されたコンテンツに偏っており、膨大な人類の知識、特に先住民や口頭伝承の知識を疎外している現状と、その生態系への影響を論じる。 **Content Type**: 🎭 AI Hype **Language**: en **Scores**: Signal:5/5 | Depth:4/5 | Unique:5/5 | Practical:4/5 | Anti-Hype:5/5 **Main Journal**: 95/100 | **Annex Potential**: 96/100 | **Overall**: 92/100 **Topics**: [[生成AIの限界, LLMの知識表現, AIの文化的偏り, 責任あるAI開発, 先住民知識の喪失]] 本稿は、生成AIが利用する知識がいかに限られ、偏っているかを指摘し、その影響が人類全体に及ぶと警鐘を鳴らしています。著者は、自身の父が伝統医学で腫瘍を克服した経験と、インターネットでの情報収集における偏りを対比させながら議論を展開します。著者の主張によると、生成AIの学習データは主に英語と西洋の機関によって支配されており、これによりデジタル化されていない、あるいは「低リソース言語」に属する膨大な知識（口頭伝承、身体的実践、特定の言語に埋め込まれた知恵など）が排除されています。例えば、ヒンディー語は世界で3番目に話されている言語であるにもかかわらず、主要な学習データソースであるCommon Crawlの0.2%しか占めていません。さらに、LLMの内部的な知識表現は均一ではなく、学習データ中で頻繁に、または広範に現れる概念がより強く符号化される傾向にあります。これにより、LLMは最も統計的に優勢なアイデアを「モード増幅」させ、出力においてその出現頻度を過剰に強調します。人間からのフィードバックによる強化学習（RLHF）や商業的圧力も加わり、LLMは西洋の文化的価値観や認識論を反映・増幅し、特定のユーザー層に最適化された結果を生み出します。この「知識の崩壊」は、検索エンジンにおけるAI概要の統合によってさらに加速され、AI生成コンテンツが新たな学習データとなることで、支配的な物語が強化され、ニッチな視点がさらに疎外される悪循環を生み出すと著者は指摘します。ベンガルール市の水管理システムやインドの伝統的な自然建築技術の例を挙げ、地域固有の知識が失われることで、現代社会が直面する課題（気候変動、水危機など）への解決策が見失われるリスクを強調しています。著者は、この問題は単なるデータの問題ではなく、植民地主義に根ざした知識の階層化という構造的な文脈に起因すると結論付けています。エンジニアとして、AI開発者はこの知識の階層性を認識し、真の「超知能」とは、どの知識が「重要」であるかを決定する階層を超えて物事を理解する能力にあると提言しています。

元記事を読む他のサマリーを見る