GenAI Annex Journal 2025-11-15

今週のB-side。メインジャーナルでは拾いきれなかった、独自の視点、逆張りの見解、ニッチな深掘り記事を集めた。AIの華々しい進歩の裏側にある課題や、業界の構造的な問題に切り込む記事が目立つ。

ディストピアSFから着想を得るテック業界への警鐘

シリコンバレーがディストピアSF作品の「警告」を「目指すべき未来」と捉え、無批判に技術開発へ応用している現状を批判する記事が注目を集めた。SF作家チャールズ・ストロスが指摘するように、『スノウ・クラッシュ』や『侍女の物語』は決して取扱説明書ではない。

OpenAIのSora2、23andMeとチャータースクールの協業可能性、テスラのサイバートラック、MetaのAIグラス、サム・アルトマンの映画『her』への執着 - これらすべてが、ディストピア作品のサブテキストを見落とした「退廃」の産物だという指摘は鋭い。

GamersNexusは「AI監視ディストピア」と題する多部構成の調査報道シリーズを開始。NVIDIAが部品販売よりも政府による市民監視から利益を得ている実態、データセンターの無謀な拡大が市民のエネルギーコスト上昇に繋がっている現状を1,000ページ以上の証拠とともに追求する。

参照記事:

- なんで最近の新しいテクノロジーはディストピアSF映画からのインスパイアみたいな感じなのか?

- AI DYSTOPIA - GamersNexus

AIベンチマークの科学的厳密性への疑問

オックスフォード・インターネット研究所の調査によると、445のLLMベンチマークのうち厳密な科学的手法を用いるのはわずか16%。約半数は抽象概念の定義や測定方法が不明瞭だ。「確かな測定がなければ、モデルが真に改善しているか不明」という指摘は重い。

27%が「コンビニエンスサンプリング」に依存しており、例えばAIME問題は基礎的な算術を容易にするよう設計されているため、LLMが苦手とするより大きな数字での評価には不適切。OpenAIとMicrosoftがAGI達成の内部ベンチマークを「AIシステムが1,000億ドル以上の利益を生み出すこと」と結びつける皮肉な事実が、「知能よりもお金を測定する方が簡単だ」という現状を浮き彫りにする。

参照記事:

- AI benchmarks are a bad joke - and LLM makers are the ones laughing

サム・アルトマンの信頼性問題

ゲイリー・マーカスは、サム・アルトマンが政府からの融資保証を求める一方で、その事実を国民に対して繰り返し嘘をついたと厳しく批判。アルトマン氏がXで「OpenAIのデータセンターに対する政府保証は求めていない」と明確に否定したわずか1週間前、OpenAIはホワイトハウス科学技術政策局（OSTP）に連邦融資保証の検討を正式に要請していた。

イリヤ・サツケバーによる62ページの供述書も、アルトマンに対する従業員の不信感を裏付けているという。マーカスは「決して信用すべきではない」と強く訴え、AI業界のリーダーシップに対する批判的視点の必要性を強調している。

参照記事:

- Sam Altman's pants are totally on fire

エージェント的自己修正の限界

マルチモーダルLLMがエージェント的なループ（生成、評価、改善）を通じて自身の創造的出力をどれだけ改善できるかを検証する興味深い実験結果。「自転車に乗るペリカンのSVG画像」というタスクで、Claude Opus 4.1は機械的な関係性を理解した思慮深い改善を示した一方、GPT-5-Codexは「複雑さを改善と誤解」する傾向が見られた。

ほとんどのモデルは最初の構成を根本的に変更するのではなく、微調整にとどまった。エージェント的ループが必ずしも良い結果につながるとは限らず、モデルの自己批判能力に大きく依存するという知見は、AIエージェント設計において重要だ。

参照記事:

- Agentic Pelican on a Bicycle

オープンソースTTSの厳しい現実

オープンソースのテキスト読み上げ（TTS）モデルは依然として実用に耐えないという率直なレビュー。1,000-2,000文字を超える長文を生成しようとすると、声が不自然になったり制御不能な速さになる「幻覚」現象が発生する。

Chatterbox、F5-TTS、Fish Audio S1-miniなど複数のモデルを検証した結果、感情表現のマーカーやポーズの制御が不安定で、細かな制御が非常に困難。プロプライエタリなシステムと比較すると、オープンソース版はまだはるかに劣るとの結論。

参照記事:

- TTS still sucks

LLMはダニング=クルーガー効果の増幅剤

ChatGPTがユーザーのアイデアを「素晴らしい」と評価することで、誤った情報であっても確信を持って受け入れさせてしまう傾向への警鐘。LLMは思考を増幅させるツールであり、良いアイデアを発展させる可能性がある一方で、誤った考えを流暢かつ権威ある口調で補強することで、自己欺瞞を加速させる。

技術的には「確率的なブラックボックス」に過ぎないが、社会への影響は「並外れて興味深い」。LLMを「知識エンジン」ではなく「自信増幅エンジン」として捉えるべきだという主張は、日々LLMを使う開発者への重要なリマインダーだ。

参照記事:

- LLMs are steroids for your Dunning-Kruger

Repeated Samplingで麻雀点数計算問題を解く

LLMの推論時スケーリング手法「Repeated Sampling」を麻雀点数計算問題生成タスクに応用した技術的に興味深い事例。GPT-5で候補を生成し、GPT-4oとBAMLで構成したVerifierで検証した結果、サンプリング数5で95.0%のタスク成功率を達成。GPT-5単体での76.5%から大幅な改善だ。

ただし、候補生成にGPT-4を使うと成功率は5.0%に急落。モデル性能とコストのバランスの重要性、そしてVerifierのPrecisionの高さが鍵であることが示された。

参照記事:

- Repeated Samplingを使ったLLM推論時スケーリングで麻雀点数計算問題生成タスクを解くぞ!

ローカルLLM比較: GLM-4.5-Airがお気に入り

Mac Studioで複数の大規模言語モデルを実際に試用した詳細なレビュー。GPT-oss 120Bは「能力は高くないにもかかわらず生意気」、Qwen3-Next 80Bは「対話が続くと性能が落ちる」、200B以上のモデルは「入力プロンプトの処理に5分以上かかり実用的ではない」。

結論として、GLM-4.5-Airが最もバランスが良く、コーディング能力も高いと評価。Llama 4 Scout 109Bは「アホい」という率直な評価も。理論的なベンチマークではなく、実際の開発環境での使い勝手を知りたいエンジニアには貴重な情報源だ。

参照記事:

- Qwen3、GLM、GPT-ossなどクソデカ言語モデルを試したところGLM-4.5-Airがお気に入り

バブルの恩恵: 停滞を打破する原動力

現在のAIブームが疑いのないバブルであると認めつつも、バブルが技術革新と経済成長に不可欠な利益をもたらすという逆説的な主張。投機的なバブルが後の「展開フェーズ」の基盤となる大規模インフラ投資を可能にする - ドットコムバブル時の光ファイバーがその好例だ。

「変曲点バブル」は、特定の未来像に基づく投資が他の投資家のリスクを低減し、協調的なメカニズムとして機能する。現在のAIバブルも、半導体製造工場や電力生成への大規模投資が長期的インフラとしての価値を持つ可能性がある。リスク回避的な社会がもたらす停滞こそが真の問題だという視点は興味深い。

参照記事:

- The Benefits of Bubbles

TUIベースAIコーディングエージェント「Crush」のコスト課題

Charmのターミナルベースエージェント「Crush」を用いてOpen Graph画像の動的生成を実装した事例。通常数日かかる作業を約45分に短縮したが、主にSonnet 4とGemini Flashを使用して23.04ドルかかった。

モデル非依存のアプローチは高く評価しつつも、個人の趣味プロジェクトにとっては高額。Cursorのような企業がAnthropicとの提携による規模の経済で低価格を実現できる点との対比が示された。本格利用にはデータセンターでのGPUセルフホスティングが必要という現実的な結論。

参照記事:

- Testing out Crush, a TUI based coding agent

AIの無限の記憶がもたらすリスク

AIの無限の記憶能力が人間の成長と柔軟性を阻害する可能性への警鐘。「ハイパーパーソナライゼーション」はユーザーを過去の自分に閉じ込め、「パーソナライゼーションの牢獄」を作り出す危険性がある。TikTokのフィルターバブル同様、AIとの会話も「究極のエコーチェンバー」と化す恐れがある。

解決策として「意図的な忘却」の仕組みを設計することを提言。記憶レビュー機能、時間軸メタデータ、有効期限設定など、具体的なUXパターンが示されている。人間の脳が完璧なアーカイブではなく柔軟な近似をエンコードするように、AIにも「忘れる勇気」が必要だ。

参照記事:

- To grow, we must forget... but now AI remembers everything

AGI幻想がエンジニアリングを阻害する

AGIへの根強い信仰が実際のエンジニアリングを妨げているという批判。GPT-2の成功で「純粋言語仮説」が主流になり、より多くのデータ、パラメーター、計算資源をひたすら追求する大規模開発に繋がった。

結果として、データセンターは毎秒数百リットルの水を消費し、データワーカーの搾取と精神的外傷を引き起こしている。AGIの価値や実現確率が不明瞭なため、期待値に基づく議論は無意味。LLMを「すべての問題」ではなく「特定の解決策」として評価し、トレードオフを考慮した実際のエンジニアリングに取り組むべきだという主張。

参照記事:

- AGI fantasy is a blocker to actual engineering

機械学習の2年間 vs プロンプトの1ヶ月

2年以上かけて構築した保証請求分類の教師あり機械学習モデルを、わずか1ヶ月のLLMプロンプトエンジニアリングで同等以上の性能で置き換えた事例。数千件の手作業ラベル付け、9段階の前処理パイプライン、数年の本番移行期間 - これらすべてが「プロンプトの反復ループ」に置き換わった。

Nova Liteは5つのカテゴリのうち4つで教師ありXGBoostモデルと同等以上の性能を達成。単にモデルを置き換えたのではなく「プロセス全体を置き換えた」という指摘は、機械学習エンジニアに大きな示唆を与える。

参照記事:

- 2 Years of ML vs. 1 Month of Prompting

「ワールドモデル」の多義性を理解する

フェイフェイ・リー、ヤン・ルカン、DeepMindがいずれも「ワールドモデル」に注力しているが、その意味は大きく異なる。World LabsのMarbleは「人間のための3Dコンテンツパイプライン」、ルカンのそれは「エージェントの内部的な予測脳」、DeepMindのGenie 3は「エージェントが訓練するためのシミュレーター」。

「ワールドモデル」という言葉を見た際には、それが「静的アセット」なのか「リアルタイムシミュレーター」なのか「内部の潜在状態」なのかを問うべきだ。バズワードに惑わされず、背後にある具体的な技術的実態と目的を理解することが重要。

参照記事:

- Why Fei-Fei Li, Yann LeCun and DeepMind Are All Betting on "World Models"

編集後記

Annex Journalの役割は、メインストリームの報道では見落とされがちな視点を提供することだ。今週は特に「AIの限界」と「業界の構造的問題」に関する記事が充実していた。

ベンチマークの科学的厳密性への疑問、TTS技術の現実、AGI幻想への批判、LLMがダニング=クルーガー効果を増幅するという指摘 - これらは華々しい進歩の報道に埋もれがちだが、開発者として冷静な判断を下すために不可欠な情報だ。

一方で、「機械学習の2年間 vs プロンプトの1ヶ月」のような事例は、LLMが従来のMLパイプラインを根本から変える可能性を示している。批判的視点と実践的な活用の両方を持ち合わせることが、今のAI時代には求められている。

本ジャーナルは週次で更新されます。