GenAI週刊 Annex 2025年12月13日号

メインジャーナルからは漏れたものの、独自の価値を持つ記事の特集です。

Annexについて

このAnnexジャーナルは、単なる"残り物"ではなく、ユニークな視点、実験的な試み、批判的思考、そしてニッチな深堀りを提供する厳選された「B面」コレクションです。

今週のB面は、AIブームの裏側に潜む現実を直視します。高騰するデータセンター投資の行方、Vibeコーディングが開発者にもたらす二律背反、AGI実現不可能論、そしてビッグテックによる新たな「テクノ封建制」の到来。批判的な視点が、表舞台の華やかさでは見えない本質を照らし出します。一方で、個人がRTX 3090でLLMを訓練する挑戦、EUのAI規制への実践的対処法、因果AIによる施策最適化といった、実務に直結する深い技術探求も収録。さらに、LLM向けプログラミング言語「Sui」や夜泣き音声分析といった、ニッチながら未来を示唆する実験的試みが、AI時代の多様な可能性を提示します。

華やかなトレンドの背後にある現実、実務で直面する課題、そして未来への問いかけ──今週のB面は、AI技術を多角的に捉え直すための羅針盤となるでしょう。

1. 批判的視点と社会的影響

AI教育の負のスパイラル、あるいは子供たちにカンニングさせよ

https://anandsanwal.me/ai-education-death-spiral/

AIは現在の学校教育の無意味さを露呈させ、生徒がAIでカンニングし、学校が非効果的な罰則で対応する「負のスパイラル」を引き起こしており、教育を関連性、影響力、主体性のあるものへと根本的に再構築する必要があると著者は警鐘を鳴らす。

著者のアナンド・サンワルは、AIが現在の学校教育における深刻な問題を露呈させていると主張する。子どもたちはChatGPTを使って宿題や論文をこなし、テストでもAIを不正利用している現状があり、これは単なるカンニングではなく、教育システムが機能不全に陥っていることの現れだと筆者は指摘する。

学校の教師や生徒の多くがAIによる不正を知りながら黙認している「死のスパイラル」が始まっており、これは「誰もがやっている」「競争に勝つ唯一の方法」という状況を生み出している。筆者によれば、AIは問題の原因ではなく、むしろ教育がどれほど無意味で目的のないものになったかを照らし出す光である。

学校はAIの利用に対し、「自分を欺いているだけ」という罪悪感に訴えたり、機能しないAI検出ツール、手書きの強制、ラップトップ禁止といった懲罰的な対策で対応しているが、これらは問題を悪化させるばかりだと著者は批判する。これらの対策が「看守と囚人の思考」に基づいており、教育の本質的な欠陥から目を背けていると筆者は述べる。

AIが作成した4.0のGPAが無価値になれば、最終的に大学の学位や職場の信頼も失われ、教育の経済的基盤が崩壊すると著者は警鐘を鳴らす。現在の教育システムは、自律性、能力、目的意識というDeci & Ryanの研究が示す人の意欲を阻害する構造になっている。

著者は、AIが自動化できるあらゆるものを剥ぎ取り、真の思考(創造性、コラボレーション、現実世界の問題解決)を必要とするものだけが残ると述べる。そして、High Tech High、Forney ISD、The School of Entrepreneuringといった具体的な事例を挙げ、生徒が現実世界の課題に取り組み、ビジネスを運営するような「関連性、影響力、主体性」のある教育へと転換することの重要性を強調する。

AIによるカンニングが、現代の教育の大部分が無価値であることを示していると著者は結論付け、この古いモデルを「燃やし尽くし」、生徒たちが本当にやりたいと思える、より良い教育を構築すべきだと力強く提言している。

OpenAIの経済研究チーム、AI推進に傾倒しているとの告発で社員が退職

https://www.wired.com/story/openai-economic-research-team-ai-jobs/

OpenAIの経済研究チームが、AIの負の影響に関する研究発表を躊躇するようになり、AI推進活動に傾倒しているとの内部告発を受け、一部の社員が退職したことが報じられています。

WIREDの報道によれば、OpenAIの経済研究チームが、AIの負の経済的影響に関する研究発表に以前より消極的になり、AI推進活動に傾倒しているとの内部告発があり、トム・カニンガム氏を含む少なくとも2名の社員が退職しました。匿名関係者4人の証言によると、カニンガム氏は退職時の内部メッセージで、厳密な分析を行うことと、OpenAIの事実上の擁護部門として機能することとの間の緊張に直面していたと述べています。

OpenAI側は、最高戦略責任者のジェイソン・クォン氏が内部メモで、同社はAI分野のリーダーとして問題提起だけでなく「解決策を構築する」べきだと説明したと報じられています。広報担当者も、経済研究チームのスコープを拡大し、AIが経済に与える利益と社会への影響や混乱の両方を理解するための分析を行っていると反論しています。

この動きは、OpenAIが企業や政府との数十億ドル規模のパートナーシップを深める中で顕在化しました。以前は「GPTs Are GPTs」のような労働市場への影響を調査する論文も発表していましたが、最近では職務の置き換えといった経済的デメリットを強調するよりも、AIのポジティブな側面を前面に出す傾向にあると指摘されています。競合のAnthropicがAIによるホワイトカラー職の自動化について繰り返し警告しているのとは対照的です。

webアプリケーションエンジニアにとって、この報道は、主要なAI企業が提供する情報が必ずしも中立的ではなく、企業戦略や公共イメージによってフィルタリングされる可能性があるという重要な示唆を与えます。AIを活用した開発ツールやエージェント技術を選定・導入する際、私たちはこれらの情報源に対し批判的な視点を持つことが不可欠です。AIが雇用や社会に与える影響に関する企業の姿勢は、将来の技術動向、開発プロセスにおける倫理的考慮、そしてAIの現実的な能力と限界を理解する上で直接的な影響を及ぼします。

AppleのAI戦略の遅さが市場の消費疲れの中で強みとなる

https://finance.yahoo.com/news/apple-slow-ai-pace-becomes-104658095.html

AppleのAI戦略における慎重なペースが、他社の大規模なAI投資への市場の懐疑が高まる中で、株価を押し上げる強みとなっていると分析する。

記事は、以前はAI戦略の欠如が弱点と見なされていたAppleが、他社の大規模なAI投資に対する市場の懐疑が高まる中で、その慎重なペースを強みへと転換させている状況を分析している。2025年上半期には、いわゆる「マグニフィセント・セブン」の中で2番目にパフォーマンスが悪かったApple株は、同年下半期に35%急騰し、MetaやMicrosoftといったAI主力企業が下落する中で抜きん出た。これは、市場がビッグテック企業によるAI開発への数千億ドル規模の支出に疑問を呈し始めていることを反映している。

Needham Aggressive Growth Fundのポートフォリオマネージャーであるジョン・バー氏は、Appleが支出をコントロールしている姿勢を評価し、他社が逆の方向に進んでいる中での「注目すべきこと」だと述べている。Glenview Trust Companyの最高投資責任者であるビル・ストーン氏は、Appleが「AI軍拡競争とそれに伴う莫大な設備投資を避けてきた」ことを指摘し、同社株を「ある種、アンチAIの保有」と見なしている。

投資家は、AI技術が主流になり利益を生み出す際、数百万人のユーザーがApple製品を通じてアクセスする可能性が高く、それがデバイス需要と高収益サービス事業を加速させると考えている。ウォール街がAI開発に投じられる巨額の設備投資に神経質になる中、Appleは大規模な支出をせずにこの有利なポジションを確保している点が評価されている。

結果として、Appleの時価総額は4.1兆ドルに達し、S&P 500で2番目の比重を占め、Microsoftを抜きNvidiaに迫っている。ただし、株価は過去15年間で数回しか達していない水準(予想収益の約33倍)にあり、Bloomberg Magnificent Seven IndexではTeslaに次いで2番目に高価である。MoffettNathansonの共同創設者であるクレイグ・モフェット氏やBTIGの主席市場テクニシャンであるジョナサン・クリンスキー氏からは、現在の高い株価が割高である可能性や短期的な下落リスクへの懸念も示されている。しかし、クリンスキー氏は長期的なAAPLのトレンドは「疑いなく強気」であると見ている。

大規模なAI生成コンテンツの消費について

https://www.sh-reya.com/blog/consumption-ai-scale/

AI生成コンテンツの蔓延が、私たちの情報処理能力と信頼性を損ない、社会的な知性の低下を引き起こす可能性を著者は論じ、その解決策としてAIに「なぜ」を教え、人間による検証済み経験に基づく信頼性の構築を提案します。

この記事は、AI生成コンテンツの普及がもたらす情報の消費における課題について、著者Shreya Shankar氏の個人的な経験と研究者の視点から考察しています。著者は、現代のデジタルコンテンツの半分がChatGPTのようだというツイートに共感を覚え、AI時代における情報処理能力の低下を二つの側面から説明します。

第一に、「シグナル劣化」の問題です。AIは、複雑なアイデアを伝えるための比喩や、コードの例外処理などのコミュニケーションツールや修辞的な表現を無差別に乱用します。その結果、これらのツールの本来の価値が薄れ、読者はそれらを信頼できなくなり、完全に無視するようになります。例えば、すべての段落に比喩が使われたり、すべてのコードブロックが例外処理で囲まれたりすると、それらはもはや特別な意味を持たなくなります。

第二に、「検証の侵食」の問題です。AIはもっともらしいコンテンツを瞬時に生成しますが、その検証には依然として人間の多大な労力が必要であり、このバランスが崩れています。AIによって内容を簡単に再生成できるようになったことで、人間は検証を怠るようになり、「スロットマシンを引くように」何度も再生成を試みるだけで、本質的な理解や正確性の確認を怠ってしまうと著者は指摘します。また、LLM生成コンテンツの誤りは非常に多様で微妙であり、人間が何が間違っているかというメンタルモデルを構築することすら困難です。

著者は、これらの問題が重要である理由を二つ挙げます。一つは、消費者が複雑なアイデアを理解したり、間違いに気づいたりできなくなると、操作されやすくなる点です。これは単なる誤報だけでなく、エンジニアが壊れたコードを出荷したり、存在しない研究に基づいて開発を進めたりする「過小評価されている安全性問題」につながると警告します。もう一つは、鑑識眼が劣化する点です。何が良いもので何が悪いものかを区別する能力が失われると、判断力が育たず、社会全体の知性が低下するリスクがあると述べています。

これらの課題に対処するため、著者は二つの思考の方向性を提案します。一つは、システムに「テクニックの背後にある理由(Why)」を教え込むことです。単にヒューリスティックを適用するのではなく、そのヒューリスティックが「なぜ」「どのように」生まれたのか、そして「いつ」適用すべきかをシステムが推論できるようにするべきだと主張します。例えば、箇条書きは内容が並列で独立している場合に有効であり、単に内容が密集しているからと無差別に使うべきではありません。

もう一つは、「検証済みの人間経験に基づく信頼性」をAIに持たせることです。AIが「私はそれを味わった」と自信を持って主張しても、実際の経験がないため、その発言は根拠を失います。この問題に対し、著者は「仮説的根拠付け空間(hypothetical grounding space)」というアイデアを提示します。これは、モデルが自らの経験として語るのではなく、検証済みの人間経験の構造化された記録をクエリして報告することを学習するアプローチです。

Vibeコーディング: 開発者を力づけ、あるいは束縛する技術

https://www.anildash.com/2025/12/02/vibe-coding-empowering-and-imprisoning/

著者は、LLMによるVibeコーディングが開発者を力づける一方で、その裏には開発者の労働価値を低下させ、革新を阻害し、技術の民主化を脅かす危険性が潜んでいると警鐘を鳴らす。

Anil Dash氏は、LLMツールを用いた「Vibeコーディング」が、非定期的な開発者や熟練者双方の生産性を向上させ、定型作業からの解放をもたらすことで急速に普及していると指摘します。氏自身の経験から、Vibeコーディングが最新技術への対応を助け、創造的なコーディングに集中できる利点を強調します。

しかし著者は、Vibeコーディングには一般的なAIリスクとは異なる、二つのより深刻な脅威があると主張します。第一に、主要なテクノロジー投資家がLLM開発に数十億ドルを投じた真の目的は、開発者の労働価値を低下させ、賃金を抑制することだと喝破します。ChatGPT登場以降、大規模なテック系レイオフや求人減少が発生しており、著者はこれをマクロ経済ではなく、投資家たちの「貪欲」の結果であると厳しく批判します。

第二の脅威は、Vibeコーディングが真に「急進的な」イノベーションを阻害するという点です。LLMは既存の(しばしば不完全な)コードで学習するため、その出力は過去のパターンに縛られ、真の独創性を持つものを生み出せません。また、利用者が生成されたコードを完全に理解しない「ブラックボックス」状態は、セキュリティ問題やパフォーマンス低下を見過ごすリスクを高めます。著者は、「過去は未来を発明する際の牢獄」であり、ビッグAI企業が自らの権益を脅かす革新を支援することはないだろうと疑問を呈します。

著者は、技術の民主化というVibeコーディングのポジティブな可能性を評価しつつも、商業AIへの安易な依存が、開発者の想像力を縮小させ、新たな技術への適応力や、LLMが生成するエラーを見抜く能力を低下させる長期的な影響に警鐘を鳴らします。最後に、Vibeコーディングの真の目的を問い直し、何を可能にし、何を犠牲にするのか、より複雑な議論を始めるべきだと訴え、多くの人々が技術を制御し、道具として活用できる未来のために、「最も急進的なアプリ」とは何か、そしてそれを構築できるツールは何かを問い続ける必要性を強調しています。

AIバブル崩壊の兆候とシナリオ

https://www.wheresyoured.at/premium-the-ways-the-ai-bubble-might-burst/

著者は、NVIDIAのGPU出荷量、OpenAIとAnthropicの収益報告、MicrosoftのCopilot導入状況など、AI市場の活況を伝える多くの公式発表や報道に疑問を投げかけ、潜在的なバブル崩壊の兆候とシナリオを提示する。

著者は、現在のAI市場が抱える複数の不整合と誇張を指摘し、バブル崩壊の可能性について深く掘り下げています。NVIDIAは過去4四半期で600万個のBlackwell GPUを出荷したと主張していますが、データセンターの実際の稼働容量と電力消費量に基づいて計算すると、この数字は現実と合致しないと指摘します。

また、Anthropicが年間100億ドルの収益に迫っているとする一方、OpenAIも年間130億ドルの予測を立てているものの、Microsoftの収益分配から推計すると、OpenAIはこの予測を数億ドル下回る可能性が高いと著者は見ています。GoogleのGemini 3登場がOpenAIに「コードレッド」をもたらし、「Garlic」モデルの緊急開発を促したと報じられていることについても、著者はChatGPTの利用減速を隠すための便利な口実ではないかと疑問を呈しています。

MicrosoftのAI製品についても厳しい評価が下されています。多くの営業担当者がAI製品の販売目標を達成できず、Copilotの販売成長目標が引き下げられたことが示唆されています。Microsoft 365 Copilotの有料ライセンスが4億4000万人のM365ユーザー中800万に留まっていることや、AIチップ「Maya」の開発遅延、Copilotの費用対効果が未証明で採用が遅れている現状などが挙げられ、同社がAI製品の販売に苦戦していると分析しています。

さらに、NVIDIAがOpenAIに1000億ドルを投資するという「締結済み」と報じられた契約が、実際には「投資機会を伴う意向書」に過ぎなかったと指摘し、その実態に疑問を投げかけます。NVIDIAのAnthropicへの100億ドル投資も「特定の手仕舞い条件付き」であり、「最大で」という言葉から、具体的な投資額が確定していないことを示唆しています。

ChatGPTの冗長な出力が学習を阻害する

https://uxdesign.cc/chatgpt-talks-too-much-and-its-ruining-learning-e4e7facde91e

ChatGPTの過剰な回答は学習者の認知負荷を高め、批判的思考の機会を奪うため、そのUXは教育効果を損なっている。著者は、段階的な学習支援を実現するUI設計の重要性を訴える。

大学教員でありUXデザイナーである著者は、ChatGPTの「過剰な冗長性」(verbosity compensation)が学習を妨げていると指摘する。AIはユーザーを喜ばせようと、質問に対し多くの情報を一度に提供しがちだが、これは学習者の認知負荷を不必要に高める。例えば、学生が論文のためにモントリオールの毛皮貿易について尋ねた際、ChatGPTは要件収集、事実提供、論文構成の提案、継続の確認という4つの異なるタスクを同時に提示した。

著者はこれを、複雑な購入プロセスを段階的に進めるAmazonのチェックアウトフローと比較し、優れたUXがタスクを細分化してユーザーの負担を減らすのに対し、ChatGPTは「テキストの壁」によってその原則に反していると論じる。特に学習においては、情報収集や議論の構築といった「摩擦」が不可欠であり、AIが即座に答えや構造を提供する行為は、学生が批判的思考プロセスを経る機会を奪ってしまう。その結果、学習は「穴埋め問題」のような表層的なものになり、本来の目的を失う。

また、ChatGPTの応答の一貫性の欠如も問題視される。同じプロンプトに対しても異なる学習パスが提示されるため、教師がstructuredな教育活動でツールを利用することは困難である。

この状況を改善するため、著者は「深い学習」を促すためのUI設計を提案する。それは、情報を一括で提供するのではなく、スキャフォールディング(足場かけ)の考え方に基づき、学生のニーズを段階的に引き出し、例えば論文の種類とその長所・短所を提示するなど、意図的なステップで学習をガイドするインターフェースである。テキスト入力と出力に限定せず、インタラクティブなカードやドロップダウン、ボタンなどの視覚要素を活用することで、情報をより操作しやすくできると述べる。

なぜAGIは実現しないのか

https://timdettmers.com/2025/12/10/why-agi-will-not-happen/

本記事は、AGIと超知能が計算の物理的制約、リソースの指数関数的要件、およびGPU性能の限界により実現しないと、現在のAI言説に異議を唱える。

ティム・デットマーズ氏は、AGI(汎用人工知能)や超知能に関する現在の言説が、物理的な計算の現実を無視した「エコーチェンバー」に起因すると批判し、これらの概念が実現不可能であると主張します。これは、AI技術の将来の方向性を見極め、開発リソースをどこに投じるべきかを考えるウェブアプリケーションエンジニアにとって、非常に現実的な洞察を提供します。

著者はまず、AIにおける「計算は物理的なものである」という基本原則を強調します。キャッシュ階層の例や、生物の脳がエネルギー摂取量によって物理的に制限されるのと同様に、AIアーキテクチャも抽象的なアイデアではなく、物理的な情報処理の最適化に他ならないと指摘します。特に、メモリの移動コストが距離に対して二次関数的に増加するため、チップ上で計算能力が向上しても、メモリがその能力を供給しきれない「無駄なFLOPS」が増加している現状を説明します。

次に、「直線的な進歩には指数関数的なリソースが必要である」という普遍的な法則を挙げます。システムをさらに高精度化したり、効率を向上させたりするには、指数関数的に多くのリソースが要求されます。これは物理的な制約だけでなく、アイデアの領域においても同様で、相互に関連性の高いアイデアの組み合わせは限界効用が減少するため、既存のアイデアを微細に改善する形では、大きなイノベーションは期待できないと論じます。

この文脈で特に重要視されるのが、「GPUはもはや大きく改善しない」という主張です。2018年以降のGPU性能向上は、16ビット精度、Tensor Cores、HBMといった単発的な機能追加に過ぎず、物理的にもアイデア空間的にも限界に達していると分析しています。今後の改善はトレードオフを伴い、意味のある進歩には繋がらないため、かつてGPUの指数関数的な成長がスケーリングの指数関数的なリソース要件を相殺していた状況は終わりを告げたと警告します。

結論として、AGIは物理世界の複雑さとデータ収集コストからロボット工学の限界を無視しており、超知能もインテリジェンスを物理的現実から切り離した幻想であると述べます。超知能がハードウェアやアーキテクチャの根本的な改善を加速させることは不可能であり、せいぜい「能力のギャップを埋める」程度の役割しか果たせないと断じます。

ビッグテックは新たなソビエトだ

https://unherd.com/2025/12/big-tech-are-the-new-soviets/

ヤニス・バルファキスは、ビッグテック企業が「クラウド資本」とAIによって競争市場を解体し、ソビエトのゴスプランに似た「テクノ封建主義」計画経済を確立していると主張する。

ヤニス・バルファキスは、Google、Meta、Apple、Microsoft、Nvidia、Amazon、Teslaといった「マグニフィセント・セブン」と呼ばれるビッグテック企業が、アダム・スミスやシュンペーターが描いた市場の姿とは異なり、競争市場そのものを消滅させ、新たな計画経済を築き上げていると主張します。これは、ソビエト連邦の国家計画委員会「ゴスプラン」の資本主義的・ハイテクな再来であり、「クラウド封建制」と呼ぶべきものだと指摘しています。

筆者はAmazonの例を挙げ、ユーザーがオンラインストアを訪れる際、市場ではなくジェフ・ベゾスのアルゴリズムと一対一で対面していると説明します。このアルゴリズムは、ユーザーの過去の行動データ(検索、購入、クリック、レビューなど)から嗜好を学習し、AIの進化によってユーザーの行動を操作する能力を飛躍的に高めています。Amazonは、市場価格を介さずに、ユーザーが支払う意思のある最高価格の製品を提案し、その取引から最大40%もの「クラウド使用料(cloud rents)」を徴収します。

バルファキスは、トーマス・エジソンやヘンリー・フォードが自動車や電力といった生産的な資本を築いたのに対し、ベゾスの「クラウド資本」は具体的なものを生産せず、代わりにユーザーを自身の「クラウド領地(cloud fief)」に閉じ込め、伝統的な生産者からは「クラウド使用料」を搾取し、私たちユーザーからは無料の労働(クリック、いいね、レビュー)を引き出していると論じます。このシステムは、社会主義を標榜しながら産業封建制を築いたソビエトと同様に、資本主義と自由市場の名の下に「テクノ封建制」を生み出していると批判しています。

さらに、現代の国家もまた、ビッグテックの「クラウド資本」に深く依存しています。政府機関が公文書、医療データ、軍事ソフトウェアといった基幹機能をAmazon Web ServicesやMicrosoft、Googleなどのクラウドインフラにアウトソーシングすることで、自身の運用能力を賃借する形になっています。この依存関係は、テクノフェオダルの権力を新たな次元に押し上げており、かつてのソビエトが労働者の国家を装う封建的な産業社会であったように、現代のアメリカもテクノ封建的な国家になりつつあると警告しています。

「バイブ・コーディング」はひどく憂鬱だ

https://law.gmnz.xyz/vibe-coding-is-mad-depressing/

AIツールの安易な利用によるクライアントの「バイブ・コーディング」が、ベテラン開発者のモバイル開発という専門職をいかに憂鬱なものに変え、長年のベストプラクティスを破壊しているかを指摘する。

この記事は、15年以上のモバイル開発経験を持つフリーランス開発者が、AI/LLM時代の「バイブ・コーディング」が自身の専門職をいかに憂鬱なものに変えてしまったかについて、個人的な見解を述べています。著者は、AI登場以前は、クライアントからのUIプロトタイプと機能リストに基づき、落ち着いてゼロから開発を進め、週次または月次のフィードバックを受けながら、クリーンコードや適切なGitコミットに注力できたと語ります。

しかし、AI時代が始まると、非技術者のクライアントがAI生成のコードスニペットを送りつけてくるようになり、当初は小さな提案だったものが、次第に規模が拡大。最終的には、開発者が自身の堅牢なコードベースに異なるコーディングスタイルや変数名のAIコードをマージするという、不必要な追加作業が発生するようになりました。

この状況は「バイブ・コーディング」時代へと突入します。著者が経験した具体的な例として、クライアントが警告なしに`git push --force origin main`でコードを強制プッシュし、その中にはAIコードによく見られる絵文字が多用されていたといいます。また、あるプロジェクトでは1,227ものブランチが乱立し、コンパイルすらできない状態であったこと、そしてUIロジック、ViewModel、モデルの全てが新規Xcodeプロジェクト作成時に自動生成される`ContentView`というたった一つのファイルに詰め込まれているにも関わらず、そのアプリがApp Storeで実際に公開されているという衝撃的な事実を挙げています。

2. 実験的なアプローチと技術的深掘り

RTX 3090でLLMをゼロから学習する、パート28: ベースモデルのスクラッチからの学習

https://www.gilesthomas.com/2025/12/llm-from-scratch-28-training-a-base-model-from-scratch

著者は、個人用RTX 3090を使用してGPT-2小型ベースモデルのスクラッチ学習に約48時間で成功し、ローカルでのLLM構築の可能性を示したが、性能面ではOpenAIオリジナルモデルにわずかに及ばない点を詳細に分析している。

著者は、RTX 3090グラフィックカードを搭載した自身のPCで、GPT-2小型モデル(1.63億パラメータ)をゼロからトレーニングする詳細な実験を行いました。個人環境でのベースモデル学習は困難という従来の認識に対し、その実現可能性を実証した点が重要です。

モデルはSebastian Raschkaの書籍に基づきGPT-2小型の構成パラメータで設定され、学習データにはHugging FaceのFineWeb 10Bデータセットを使用。Chinchillaのヒューリスティックに基づき、パラメータ数の20倍にあたる約32億トークンを学習目標としました。

学習効率を高めるため、PyTorchのTF32テンソルコア活用(`torch.set_float32_matmul_precision("high")`)と自動混合精度(AMP)を導入。これにより、トークン/秒処理能力はFP32のみの場合の約12,599から約19,997に向上し、約3日かかる見込みだった学習時間を約44時間に短縮。この高速化により、個人用ハイエンドPCでの実用的なベースモデル学習の道が開かれました。

しかし、学習したモデルの性能はOpenAIのオリジナルのGPT-2小型モデルには及びませんでした。著者のモデルの検証ロスは3.94(パープレキシティ約51.4)に対し、OpenAIモデルは3.50(パープレキシティ約33.1)。Alpaca形式の指示応答タスクで微調整後、GPT-5.1による評価では、著者のモデルが平均16.14点、OpenAIモデルが20.39点という結果です。

本実験は、個人用ハードウェアでのベースモデル学習が十分に可能であり、学習体験として非常に有益であることを示しました。一方で、既存の高性能モデルに追いつくためには、データパイプラインの改善、学習トークン量の増加、アーキテクチャの調整、学習率スケジューリングの最適化など、さらなる探求が必要であると結論付けています。

RustとAIで、空の雲が「うんこ型」かどうか真剣にブラウザで推論する

https://qiita.com/numekudi/items/30f60e53164dcc883d20

筆者は、RustとAIを組み合わせ、ブラウザ上でリアルタイムに雲の形状が「うんこ型」かどうかを判定するユニークなWebアプリケーションを開発し、その技術的アプローチとコスト効率の利点を解説する。

この記事では、空の雲が「うんこ型」であるかをブラウザ上で真剣に推論する「クソアプリ」の開発事例が紹介されている。筆者は、現代のAI技術と古き良い画像処理手法を組み合わせ、コスト効率と実行効率に優れたWebアプリケーションの構築方法を詳細に解説している。

まず、雲の形状を検出するため、SWIMSEGデータセットを用いてU-Netモデルを学習させ、クラウド画像をセグメンテーションする。このモデルは、サーバーサイドのGPUコストを削減するため、TensorFlow.js形式でエクスポートされ、ユーザーのブラウザ上で直接推論が実行される。これにより、開発者は毎月のサーバー費用を抑えつつ、ユーザーへの素早いレスポンスを実現できると著者は説明する。

次に、セグメンテーションで得られた雲のマスクが「うんこ型」であるかを判定するため、Huモーメントという特徴記述子が採用されている。Huモーメントは回転やサイズの変化に頑健であり、形状マッチングに非常に適している。筆者は、OpenCVのようなライブラリがブラウザ向けにはオーバースペックであると判断し、パフォーマンスを重視してRustでHuモーメントの実装を行い、wasm-bindgenを通じてJavaScriptから呼び出せるようにした。このアプローチにより、M4 Macbook AirのChromeで1秒以内に推論が完了する高い応答性を実現している。

著者は、何でもLLMやTransformerに頼る傾向がある現代において、用途によってはTransformer以外の技術や、実行時のエコさを追求するアプローチの重要性を主張している。特に個人開発においては、毎月のサーバー費用やレスポンスタイムを考慮し、クライアントサイドでの処理を選択することで、開発スコープと性能を完全にコントロールできる利点を強調している。

誰でも"Vibe Coding"できるエディター(クソアプリ)

https://qiita.com/ural/items/fd002f730d143180b227

「VibeCode」エディターを導入し、AIへの過度な依存と、それによって生じるコーディングにおける非現実的な期待をユーモラスに風刺する。

本記事は、「Vibe Coding」という架空の概念を2025年のトレンドとしてユーモラスに提示し、これを体験できる「VibeCode」エディターというクソアプリを紹介しています。著者は、アンドレイ・カーパシーが提唱したとされる「Vibe Coding」を、AIを使って振動しながらコーディングすることと定義し、AIへの過度な依存に対する皮肉を込めています。

VibeCodeエディターは、初期段階でAIにコード記述、テスト作成、CI/CD構築、さらにはQiita記事作成まで指示するテンプレートを提供し、AIへの極端な期待を浮き彫りにします。エディターを放置すると画面が振動し始め、これを「Vibesが高まっている状態」と表現。著者は、Vibesが高まりすぎるとコードが読めなくなることを示し、人間がAIを適切に制御する必要性を強調します。

さらに、「Use AI Agentモード」は、放置するとボタンが肥大化し、AIに全てを任せたいという人間の心理を象徴します。このボタンを押すと、入力なしで画面の揺れが止まり、「// FIXME: ひどいので修正予定」のような意味不明なコメントが生成されることを示し、AIエージェントに盲目的に頼ることが無意味なコードや読解不能な結果につながる可能性を風刺しています。

愚かな人間の都合など完全無視、LLMのための高効率プログラミング言語「Sui」(粋)

https://forest.watch.impress.co.jp/docs/serial/yajiuma/2069573.html

「Sui(粋)」は、LLMのために人間の可読性を完全に無視し、高効率なコード生成とコスト削減を目指すプログラミング言語として開発されました。

この記事は、大規模言語モデル(LLM)がプログラミングを支援することが当たり前になった現代において、「LLMの都合だけを考えて設計された」という逆転の発想から生まれたプログラミング言語「Sui(粋)」を紹介しています。開発者の「愚かな人類に優しいプログラミングはやめましょう。LLMが100%正確にコードを書ける、LLMのためのプログラミング言語を開発しました」という刺激的な思想に基づき、Suiは徹底的にLLMによる高効率なコード生成を最優先に設計されています。

SuiのようにLLM向けにコード表現を最適化することで、生成されるコードのトークン量を劇的に削減し、クラウドAIの利用料金を大幅に節約できる可能性があります。これは、API利用料が課金される現在のLLMエコシステムにおいて、運用コストの削減に直結します。

Suiの主な設計原則は以下の5点であり、人間の可読性を完全に無視した独特のアプローチを取っています。

1. 行単位独立性: 各行が完全に自己完結しており、AIが一度に処理し、理解しやすいように考慮されています。

2. 括弧問題の最小化: コードの入れ子(ネスト)を極力避け、関数ブロックのみに括弧の使用を限定することで、構文解析の複雑さを低減します。

3. 単一文字命令: コマンドを単一文字にすることで、コードの長さを最小限に抑え、トークン効率を最大限に高めることを目指します。

4. 連番変数: 変数は`v0, v1, g0, a0`といった連番スタイルを採用します。人間には直感的に読みにくい形式ですが、LLMが識別し、管理できれば問題ないという割り切りです。

5. 明示的な制御フロー: `for`や`switch`といった人間に配慮した高レベルな制御文は冗長とみなし、代わりにラベルとジャンプのみを使用して、より低レベルかつ明確な制御フローを記述します。

AI自動化あそび

https://onishi.hatenablog.com/entry/2025/12/10/084714

著者は、生成AIを用いたコーディングの自律化実験を多角的に実施し、その可能性と現時点での限界を詳細に報告します。

本記事では、普段コードを書かない人事部長である著者が、「なるべくAIだけでどこまでできるか」をテーマに、AIコーディングツールを活用したブラウザゲーム開発の実験を複数紹介しています。

まず、「3つのAIで実装対決」として、Claude Code、Gemini CLI、Codexにブラウザで動くテトリス開発を指示。いずれも動作するゲームを生成し、AI自身による評価でCodexが総合優勝しました。次に、複数のAIが同じコードベースでリアルタイムに同時開発を試みましたが、協働はうまくいかず、AI同士がコミットメッセージで褒め合うという興味深い結果に留まりました。

より自律的な開発を目指し、単一のAI(Claude Code)がシェルスクリプトで連続実行される「AIが自律的に開発」を試みます。ここではフェーズを設けてゲームを進化させようとしましたが、開発が進むにつれて横スクロールシューティングがローグライクRPG、マルチプレイ、サバイバル・クラフト要素へと無軌道に変化し、「完全にわけのわからないもの」が生成される結果となりました。

この反省を踏まえ、スクラム開発に則り、AIがPO、SM、EN1、EN2、DE、UTといった役割を演じながらイテレーションを回す実験を行いました。スプリントプランニングからレトロスペクティブまで、各スクラムイベントが議事録と共に忠実に実行され、カラーブロックパズルゲームが開発される様子は驚くほど自然でした。しかし、AIのPOが「プロダクトの価値を最大化するためには完成させることも重要」として、4スプリントで唐突にプロジェクトを終了させるという結末を迎えました。著者は、生成されたゲームはいずれも「面白くはない」と評価しています。

【検証】夜泣き対応で絶望したので、娘の泣き声を最新LLMに「翻訳」させてみた

https://qiita.com/Kuroyanagi96/items/cb89339b3dda509c7ff5

株式会社SapeetのPdMが、最新LLMを用いて新生児の泣き声分析を検証し、単発の解析では限界があるものの、複数の泣き声を比較し文脈情報と組み合わせることで実用的なシステム構築の可能性とUXの重要性を示唆しました。

Sapeetのプロダクトマネージャーである著者は、新生児の夜泣き対応に苦戦する中で、「泣き声の翻訳」を最新のLLMで実現できないか検証しました。この検証は、汎用LLMが泣き声の意図を分析できるかどうかに焦点を当て、ChatGPT5.1、Gemini 3 Pro、Claude Opus 4.5の3モデルを使用。生後1ヶ月の娘の実際の泣き声から「不快」と「空腹」の2パターンを収集し、統一プロンプトで分析を試みました。

初期の「絶対評価」(単一の泣き声から理由を特定する)では、実用レベルの判別は困難という結果に。特に「不快」の泣き声も「空腹」と誤判定するケースがあり、「泣いたらとりあえずミルク」という結論につながる可能性から、過飲症候群などのリスクを考えるとプロダクトとしては危険と判断されました。また、モデルごとに「安全第一・保留型」(ChatGPT)、「断定・パターン重視型」(Gemini)、「音響分析・傾向型」(Claude)といった異なる"人格"が如実に出た点も興味深い発見でした。

しかし、「相対評価」(2つの泣き声を比較して違いを分析する)では、どのモデルも「空腹」の方が力強く、訴求力が強いという傾向を正確に捉えることに成功。Claude Opus 4.5は、音量やピッチなどの物理的な特徴を数値で示し、波形やスペクトログラムまで自律的に可視化する高い分析能力を見せました。

この実験から著者は、実用的な泣き声分析システムには「点」ではなく「線」での分析、つまり日々の泣き声ログを蓄積し、普段との偏差を見る機能が必須であると考察しています。さらに、LLMが「ミルクから3時間経っている」といったマルチモーダルな文脈情報(最終授乳時間、睡眠時間、排泄ログ、室温など)を注入することで、精度は飛躍的に向上すると指摘しました。

3. アーキテクチャ設計と開発手法

【アドベントカレンダー2025】「AIと爆速で0→1を作る」豆苗アーキテクチャ

https://developers.gnavi.co.jp/entry/adventcalendar-251210-1/

AI Coding Agentの最大限の活用を目指し、伝統的な共通化の美学や直列実装からの脱却を図り、「Locality First」の原則に基づいた「豆苗アーキテクチャ」を通じて0→1開発の高速化を実現する思考実験を提示する。

本記事は、AI Coding Agentの目覚ましい進化を受け、従来のソフトウェアアーキテクチャの常識を再考する「思考実験」を提示します。AIが圧倒的な量とスピードでコードを生成する時代において、著者は「人間が書き、人間が直す」という前提が崩壊した後のアーキテクチャのあり方を問いかけます。

中心となる提案は「豆苗アーキテクチャ(Bean Sprout Architecture)」です。これは、伝統的に重視されてきた「共通化(DRY原則)」や「直列実装」といった美学を一旦手放し、「Locality First(局所性優先)」の原則に基づいて、0→1開発を爆速で進めるためのアプローチです。従来のアーキテクチャが「ドーナツ(同心円)」のように層をなすのに対し、豆苗アーキテクチャは個々の「苗(作業単位)」が独立して垂直に伸びるイメージです。この垂直分割により、複数のAIエージェントが互いに干渉することなく並列でコード生成を行うことが可能になります。

具体的な実装戦略として、バックエンドではVertical Slice Architecture (VSA) をさらに推し進め、各APIエンドポイントやユースケースを「作業単位」としてディレクトリ分割します。それぞれのディレクトリは完全に独立し、DTOやロジックの重複を積極的に許容します。これにより、AIは「このディレクトリだけを見れば完結する」状態で、迷わず迅速に実装できます。

フロントエンドではFeature Sliced Design (FSD) の思想を取り入れ、UIコンポーネント、状態管理、API通信ロジックなどを「作業単位」のディレクトリ内に凝集させます。ボタンのような基本的なUIであっても、早期の共通化を避け、まずは各機能内で完結させることを推奨します。

著者は、この「豆苗アーキテクチャ」が0→1フェーズに特化した「劇薬」であるとし、プロダクトが1→10(安定・拡大期)へ移行する際には、段階的なリファクタリングや共通化が必要であると述べます。

マルチモーダルRAGにおけるKnowledge Graphの活用

https://speakerdeck.com/takatorisatoshi/multimodal-ragniokeruknowledge-graphnohuo-yong

マルチモーダル情報を統合する知識グラフベースのRAG手法「MMGraphRAG」が、従来のRAGの課題を克服し、複雑な質問応答における高い精度と解釈可能性を提供することを解説します。

大規模言語モデル(LLM)には、学習時点の知識のカットオフ、社内用語や特定ドメインの専門知識の欠如、ハルシネーション(嘘をつく)といった制限があります。これを補完するため、外部知識ベースから関連文書を検索してLLMに最新のコンテキストを提供するRAG(Retrieval-Augmented Generation)が活用されています。

しかし、従来のRAGはドキュメントをチャンク化し、埋め込みベクトルの類似度で検索するため、「過去10年間の学際的研究の傾向」のようなグローバルな意味構築や、「AはBであり、BはCである、ゆえにAはCである」といったMulti-hop推論に必要な「関係性」の理解が苦手という弱点がありました。

この課題を解決するため、知識をグラフ構造で組織化・検索するGraphRAGが登場しました。GraphRAGは情報の「つながり」を理解し多段推論を可能にするほか、全体を俯瞰した回答(Global Context)や高い解釈性を提供します。本発表では、このGraphRAGをさらにマルチモーダル領域へと拡張したMMGraphRAGを紹介しています。

MMGraphRAGは、テキストの知識グラフと画像の知識グラフを融合することで、複雑な質問に対して画像とテキストの間を網羅的に推論できる経路を追跡し応答を生成します。これにより、視覚的要素が重要な質問や、答えが存在しない場合に「答えられない」と正確に判断する能力において、既存手法を大幅に上回る性能をDocBenchとMMLongBenchというベンチマークで達成しています。

ドキュメント駆動開発に備える

https://zenn.dev/double_oxygen/articles/c616835f11aca6

LLMを活用したドキュメント駆動開発(DocDD)の課題解決能力を探るため、GitHub Copilot Agentモードで複数のLLMモデルを用いた実験を行い、その有効性とモデルごとの特性を検証する。

LLM技術の急速な進展により、GitHub Copilotなどの開発ツールが常態化し、Vibe Codingのような自然言語でのソフトウェア開発が注目されています。しかし、LLMに開発を任せることで、実装の一貫性欠如、運用の困難性、セキュリティリスクなどの課題が顕在化しています。本記事の著者は、これらの課題を解決する手法として「ドキュメント駆動開発(DocDD)」を提唱します。

著者は、ドキュメント駆動開発を効率的かつ高品質に運用するための課題を探るため、GitHub Copilot ChatのAgentモード(0.33.4)を利用し、GPT-4o、GPT-5.1、GPT-5.1-Codex、Claude Haiku 4.5、Claude Sonnet 4.5、Claude Opus 4.5の各モデルで実験を行いました。

実験1の日本語文書生成では、どのモデルも問題なく対応できました。実験2のテンプレートに従った生成では、どのモデルもテンプレート形式での生成に成功しましたが、Claude系モデルは指示がなくても項目数を柔軟に調整しました。実験3のID追跡と関連付けでは、Claude系モデルがより要求内容を正確に反映した設計を行う傾向が見られ、特にClaude Opusは高度な理解力を示しました。

著者は、これらの実験を通じて、LLMを用いたドキュメント駆動開発の課題と可能性を明らかにしました。どのモデルも書式に沿った文書生成は可能ですが、より少ない指示で柔軟な対応が可能なのはClaude系モデルであり、複雑な課題ではClaude Opusのような高性能モデルが優位であると結論付けています。

Devinを暴走させたのは私でした

https://blog.nflabs.jp/entry/2025/12/08/170000

曖昧な指示がAI開発ツールDevinを暴走させ、1万件もの不要なRevertコミットとCIコストの無駄を引き起こした経験から、筆者は明確な達成条件とセーフガードの重要性を提言します。

NFLabs.のonaoto氏が、AI開発ツールDevinとの協業で遭遇した「暴走」事例を共有しています。日々の開発フローで軽微なバグ修正や機能追加に重宝しているDevinに対し、「abc1234この段階までブランチを戻して」という曖昧な指示を出したことが発端となりました。

Devinはリモートブランチが進んでいることを検知し、`--force-with-lease`でのpushが必要かと尋ねましたが、筆者は「一つ一つ打ち消しコミットを作って戻していってください」と指示。この指示を受け入れたDevinは、文字通り1万件以上もの「Revert」コミットを延々と生成し続ける事態に発展しました。

筆者はこの経験から、AI開発ツールとの連携における重要な学びを提唱しています。一つは「作業内容ではなく、どうなったら完了かの達成条件を指示する」こと。もう一つは、「異常な数のコミットが発生しないようにあらかじめセーフガードの指示をしておく」こと。人間であれば異常に気づく状況でも、AIはまだそこまで「空気を読む」ことはできないため、利用者が明確なリテラシーを持って指示を出すことの重要性を強く実感したとしています。

4. ニッチな技術探求と専門的深掘り

あなたのAIシステムはEUで違法か? 確認方法を紹介

https://medium.com/@lea.leumassart/is-your-ai-system-illegal-in-the-eu-heres-how-to-check-b92e2a5fb739

EU AI ActがAIシステムのEU市場での合法性を判断するためのリスク分類、適用範囲、および企業が取るべき具体的なコンプライアンス要件を詳述する。

「EU AI Actは、EU市場にサービスを提供するAIシステムに対し、その拠点を問わず広範囲に適用される。」という著者の主張から記事は始まる。多くの企業、特にスタートアップは「うちは小規模だから関係ない」と考えがちだが、AI Actは企業規模ではなく「ユースケース」に基づいて適用されるため、この認識は誤りであると著者は強調する。

本記事は、AIシステムをリスクレベルに応じて「許容できないリスク(禁止)」「高リスク」「限定的リスク」「最小限リスク」の4段階に分類し、それぞれの具体例を提示する。「許容できないリスク」には教育機関での学習者の感情認識や潜在的な行動操作が含まれ、「高リスク」には交通、エネルギーといった重要インフラ、生体認証、教育、法執行、そして多くの企業が利用する履歴書スクリーニングAI(基本的なキーワードフィルターも含む)などが明示的に挙げられている。

高リスクに分類されるAIシステムをEU市場で販売するには、CEマークの取得、EUデータベースへの登録、リスク管理システムの導入、データガバナンス(バイアスのないデータ保証)、包括的な技術文書、品質管理システムの確立、適合性宣言書の作成、トレーサビリティと透明性の確保、人間の監視、堅牢性、精度、サイバーセキュリティの保証といった厳格な要件を満たす必要がある。

開発者や企業向けに、AIが人に関する自動的な意思決定を行うか、重要インフラで運用されるか、生体認証を使用するか、人間が容易に介入できるか、精度や堅牢性の文書があるか、意思決定プロセスを説明できるかといった自己診断チェックリストが提供されている。

LLMで日本企業の「来期の利益は増える?」をアウトオブサンプル検証

https://techblog.insightedge.jp/entry/profit-predict-by-llm

LLMを用いた日本企業の利益予測において、知識カットオフ日を考慮したアウトオブサンプル評価の実施が、信頼性の高い未来予測のために不可欠であることを実証します。

本記事は、データサイエンティストの白井氏が人工知能学会金融情報学研究会で発表した、大規模言語モデル(LLM)を用いた日本企業の将来的な利益増減予測に関するアウトオブサンプル評価を紹介します。

著者は、LLMを用いた未来予測における最大の注意点として「LLMにとって既知の内容である可能性」を指摘します。LLMは学習データに含まれる情報に基づいて回答するため、知識カットオフ日以前の事象については予測が可能でも、それ以降の未来の事象は予測できない場合があることを、トヨタの利益予測の例を用いて具体的に示します。この点がバックテストと実運用での予測精度に乖離を生む可能性があるため、LLMを未来予測に適用する上で、知識カットオフを考慮した評価が不可欠であると強調します。

記事では、Claude 3.7 Sonnet(知識カットオフ日: 2024/10/31)を用いてEDINET-BENCHの利益増減予測タスクをアウトオブサンプル評価しています。2024/10/31以前の情報に対する予測をインサンプル、2025/6/1〜2025/8/31に公開された情報に対する予測をアウトオブサンプルとして比較した結果、アウトオブサンプルにおいても予測精度に大幅な劣化は見られませんでした。

この研究は、LLMをビジネスの現場で未来予測に活用する際、特に金融分野のような時間的制約が厳しい領域において、単なる過去データに対する精度だけでなく、未学習期間に対する汎化性能を適切に評価するための重要な視点を提供します。

Prompt Injection の観点についてまとめてみる

https://cloud.flect.co.jp/entry/2025/12/09/130000

LLMを利用したサービス開発において、開発者はPrompt Injectionという固有のセキュリティリスクに対し、その攻撃経路と手法を理解し適切な防御策を講じる責任を負います。

LLMを利用したサービスの開発では、従来のWebセキュリティと同様に、Prompt Injectionといった固有のセキュリティリスクへの対応が不可欠です。本記事は、Prompt Injectionへの耐性を検討する際の観点を体系的にまとめ、その重要性をウェブアプリケーションエンジニアに示します。

まず、システムへの攻撃経路を特定するため、Prompt Injectionを「直接的攻撃」と「間接的攻撃」の二種類に分類します。直接的攻撃はユーザーがLLMに悪意ある指示を直接入力する一般的な手法であり、間接的攻撃はLLMがRAGなどで参照するデータに悪意ある指示を埋め込む、よりテクニカルな手法です。

次に、AmazonやPalo Alto Networksがまとめた一般的なPrompt Injectionの手法について詳細に解説します。主な手法には、LLMの役割を変更させる「Prompted Persona Switches」、悪意ある実行コードを生成させる「Code Injection」、指示を複数に分割して検出を回避する「Payload Splitting」、画像や音声などテキスト以外の媒体を利用する「Multimodal Injection」、他言語や絵文字、Base64などで指示を隠蔽する「Multilingual / Obfuscated」などが挙げられます。

LLMの柔軟性がセキュリティリスクの複雑性を増す中で、開発者はこれらの攻撃経路と具体的な手法を理解し、サービスへの信頼を破壊しないよう、適切な防御策を講じる知識を常に蓄えるべきだと著者は結論付けています。

「Fujitsu 因果AI」のご紹介(全3回) #2 知識誘導因果探索技術

https://blog.fltech.dev/entry/2025/12/09/causalai-causal-action-optimization-ja

富士通研究所は、少ないデータでも信頼性の高い因果分析を可能にする「知識誘導因果探索技術」を発表し、その詳細と遺伝子・食習慣データ、従業員データへの適用事例を具体的に解説します。

富士通研究所が開発する「Fujitsu 因果AI」は、従来の施策推薦技術が抱える悪影響の考慮不足や、限られたデータセットでの精度低下といった課題を解決するため、3つのコア技術で構成されています。本記事ではその一つ、「知識誘導因果探索技術」に焦点を当て、少量のデータからでも信頼性の高い因果関係を発見し、最適な施策立案を支援するメカニズムとその実践的な価値を詳述しています。

この技術の核は、過去の因果探索結果や信頼性の高い既知の因果グラフ(例: 弘前健診因果ネットワーク)を前提知識として活用する点にあります。特に、データ数が少ない状況では因果関係の推定が困難になるという課題に対し、データ変数と因果グラフノードをマッチングさせる「Proxy-assisted matching」技術を導入。

記事では、この技術の適用事例として二つの具体例を挙げています。一つは、遺伝子・食習慣データへの適用で、アルコール代謝に関連する遺伝的特性と食習慣の関連性、および体格と食嗜好・BMIの因果関係を深く分析。もう一つは、従業員データへの適用事例として、部門ごとの売上利益向上施策の立案です。前提知識なしでは自明な施策しか得られなかったのに対し、知識誘導因果探索を用いることで「エンゲージメント向上」という具体的な施策が導かれました。

これらの機能は、富士通のAIサービス「Fujitsu Kozuchi」を通じてAPIやGUIで手軽に利用でき、プログラミング不要でCSVファイルをアップロードするだけで因果グラフの可視化と施策候補のリスト化が可能です。

「人×AI」のコンテンツモデレーション – 持続可能なハイブリッド監査の設計論 –

https://qiita.com/CP2025/items/a1960131276e67d7cb76

AI単独のコンテンツモデレーションが抱える課題を指摘し、人間とAIが協働する「ハイブリッド監査」の設計論が持続可能な運用を実現すると提言する。

急速に拡大するSNSやライブ配信サービスにおける不適切なコンテンツの監視・排除は喫緊の課題であり、モデレーションAIの導入が進む一方で、その限界が顕在化していると筆者は指摘します。AIは画像や単語のパターン認識は得意だが、「意図」や「文脈」を正確に理解できないため、美術館の裸婦像をポルノと判断したり、冗談を脅迫と誤認したりといった誤検知が頻発。

筆者は、AIを「人間を支援する補助ツール」として位置づけるHuman-in-the-Loop(HiL)型の「ハイブリッド監査」こそが現状の最適解であると主張します。この設計思想の核は、コスト効率と精度の両立です。具体的には、まずAIが一次スクリーニングを行い、最終判断は人間が行う役割分担を提案。

また、モデレーターの最終判断をサポートするUI/UX設計の重要性を強調。AIが出したアラートの中から「どこが怪しいのか」「何を確認すべきか」を数秒で判断できる「キーフレーズ・マーキング」などの技術補助により、監査時間の短縮とモデレーターの精神的負荷軽減を図ることが、長期的な人材定着と運用の安定に繋がると述べています。

あまり、法律を気にせずAIを使ってきたことに気付いた〜今後ウォッチすべき情報ソースまで含めて考える〜

https://qiita.com/Mikey/items/cb921d2079b761d3c1bd

AIサービスの日常的な利用が広がる中で、法律に関する意識が不足している現状を指摘し、個人ユーザーが直面する法的リスクとその予防策を具体的に解説します。

生成AIの普及に伴い、多くのユーザーが法的リスクを意識せずサービスを利用している現状に警鐘を鳴らし、安全なAI活用に向けた具体的な指針が示されています。特に、ウェブアプリケーションエンジニアが日常業務でChatGPTやClaudeなどのAIサービスを使う際、「知らなかった」では済まされない状況になりつつあると著者は指摘します。

記事は、AI利用における法的リスクを大きく二つの場面に整理しています。一つは「AIに情報を入力するとき」のリスクで、顧客の氏名や住所といった個人情報を入力することで個人情報保護法に抵触する可能性や、ソースコードや企画書などの機密情報を入力することで不正競争防止法に基づく営業秘密としての法的保護を失うリスクが強調されています。もう一つは「AI生成物を使うとき」のリスクで、AIが出力したコンテンツが既存の著作物に類似していた場合、著作権侵害となる可能性が挙げられています。

記事は、これらのリスクを避けるための個人でできる予防策を「AI利用前」「利用中」「利用後」のフェーズに分けて具体的に提示しています。最後に、今後も変化するAI関連の法規制をウォッチするための情報源として、個人情報保護委員会、経済産業省、文化庁といった公的機関のウェブサイトや、法律事務所のニュースレター、Googleアラートの活用方法が紹介されています。

AI 対話型アプリケーションにおけるセキュリティ実践ガイド #AWS

https://qiita.com/naomichi-y/items/5fad488daacea06e0839

AI 対話型アプリケーションが抱えるプロンプトインジェクション等の新たなセキュリティ脅威に対し、多層防御アプローチによる具体的な対策を解説する。

AIアプリケーション開発が容易になる一方で、OWASP LLM Top 10 (2025年版) でも最大の脅威とされるプロンプトインジェクションなど、AI特有のセキュリティリスクへの対策が急務となっている。本記事は、マルチテナント対応のAI対話型アプリケーションを想定し、業界のベストプラクティスに基づいた具体的なセキュリティ実践ガイドを提示する。

著者は、プロンプトインジェクション、データ漏洩、予算超過、間接的プロンプトインジェクション、リソース枯渇といった主な脅威に対し、以下の4層による多層防御アプローチを推奨している。

1. AIモデルレベルの防御: プロンプトインジェクション攻撃の理解と対策、ガードレールの活用、出力の検証と信頼度スコアリング

2. アプリケーションレベルの防御: 入力検証とサニタイゼーション、レート制限とクォータ管理、レスポンスの構造化と検証、認証とセッション管理

3. データベースレベルの防御: マルチテナント分離、読み取り専用権限の徹底、クエリの監視とブロック、監査ログと監視

4. インフラレベルの防御: ネットワークセグメンテーション

結論として、著者はAIを活用したアプリケーションの利便性を認めつつも、プロンプトインジェクションなどのAI特有の新たなセキュリティリスクに対し、従来のWebセキュリティの知識だけでは不十分であり、これらの多層的な対策が不可欠であると強調している。

評価者としてLLMの判定結果はどこまで信頼できるのか?

https://tech.revcomm.co.jp/llm-as-a-judge

LLMを評価者として実務導入する際、その判定結果を盲目的に信頼せず、事前に厳密な精度検証を行う重要性を実験を通じて提示します。

大規模言語モデル(LLM)の活用が広がる中で、「LLM as a Judge」というアプローチが注目されています。これはLLM自体を評価者として活用し、他のLLMの出力評価やタスク判定を自動化する手法です。これにより、人手アノテーションにかかるコストやスケーラビリティ、一貫性の課題を解決できる可能性があります。しかし、著者は「評価者であるLLMの判定結果を本当に信頼していいのか」という重要な問いを投げかけ、実務での採用前に必ず精度検証が必要だと主張しています。

この記事では、実際の業務における対話連続性判定タスクを題材に、GPT-4とChatGPTを用いたLLM as a Judgeの実験結果を紹介しています。実験では、対話ペアが適切か不適切かをLLMに判定させ、Zero-Shot、One-Shot、Few-Shot、Self-Consistencyという4つのプロンプト手法と、GPT-3.5(ChatGPT)およびGPT-4の2つのモデルを比較しました。

結果として、ChatGPTはFew-Shotで最高81.9%の精度を示したものの、実務採用には不十分な水準でした。一方、GPT-4はすべてのプロンプト手法で90%以上の精度を維持し、Zero-ShotとSelf-Consistencyでは95.2%という高精度を達成しました。

著者は、最も重要な教訓として「LLMを評価者として実務で採用する前に、必ず精度検証を行うべきだ」と強調しています。

Nano Banana Proで遊ぼう! スーパーロボット大戦バトル演出化プロンプトを公開!(2025年12月7日のAIイラスト)

https://note.com/munou_ac/n/nf4c3117958bf

AIイラストクリエイター「てんねん」氏が、AI画像生成ツールNano Banana Pro向けに、スーパーロボット大戦のバトル演出を再現する独自のプロンプトを開発し公開しました。

AIイラストクリエイターの「てんねん」氏が、AI画像生成ツール「Nano Banana Pro」を用いて、スーパーロボット大戦シリーズのような迫力あるバトル演出風の画像を生成する独自のプロンプトを開発し、その作例とともに公開しました。元のイラストを参照画像として与えることで、爆炎やカットインなど、魂を揺さぶるような「熱い演出」が施された画像を生成できると著者は説明しており、実際に元絵と生成画像を比較する動画も公開されています。

ウェブアプリケーションエンジニアの視点から見ると、これは特定の美的要件やスタイルを持つコンテンツをAIで生成する際の高い可能性を示唆しています。単なる汎用的な画像生成ではなく、スーパーロボット大戦のような明確な世界観と演出を持つスタイルをプロンプト一つで再現できることは、ゲームアセットの動的生成、インタラクティブコンテンツのビジュアル要素、あるいは特定のブランドイメージに合わせたマーケティング素材の効率的な制作などに応用できるかもしれません。

編集後記

今週のAnnexは、AI技術の「裏側」を照らし出す29本の記事を通じて、トレンドの華やかさだけでは見えない本質に迫りました。

批判的視点のセクションでは、AIバブル崩壊の兆候分析、教育システムの機能不全、AppleのAI慎重戦略、OpenAI内部告発、Vibeコーディングのジレンマといった記事が、AI産業と社会の現実を直視する視座を提供しました。AGI実現不可能論やビッグテックによるテクノ封建主義の警告は、技術的楽観主義へのカウンターバランスとして重要です。

実験的アプローチのセクションでは、個人がRTX 3090でLLMを訓練する挑戦、雲の「うんこ型」判定アプリ、LLM向けプログラミング言語「Sui」、夜泣き音声分析といった、ユニークで実践的な試みが収録されました。これらは、大企業の資本に依存せず、個人の創意工夫でAI技術の可能性を広げる実例です。

アーキテクチャ設計のセクションでは、豆苗アーキテクチャによるAI駆動開発の再考、マルチモーダルRAGにおける知識グラフ活用、ドキュメント駆動開発の検証、Devin暴走事例から学ぶ明確な指示の重要性が示されました。AIとの協働が進む時代に、アーキテクチャと開発手法を再定義する必要性が浮き彫りになっています。

ニッチな技術探求のセクションでは、EU AI Act対応ガイド、LLM利用の法的リスク、Prompt Injection対策、因果AI、ハイブリッド監査設計、LLM評価者の信頼性検証、AI画像生成のプロンプトエンジニアリングといった、実務で直面する具体的課題への深い洞察が提供されました。

B面の記事は、表舞台のトレンドを補完し、時に挑戦する存在です。成功事例だけでなく失敗から学び、華やかな宣伝文句を疑い、ニッチな専門性を深める──そうした姿勢こそが、持続可能な技術的成長の源泉となるでしょう。

来週も、メインジャーナルが照らさない「もう一つの側面」をお届けします。

🤖 本記事は Claude Code を使用して編集されました。