概要
https://engineers.ntt.com/entry/202511-offsec_intern_2/entry
詳細内容
## AIで攻撃者視点を強化する:LLMによるRed Teamオペレーション高度化検討(インターン体験記)
https://engineers.ntt.com/entry/202511-offsec_intern_2/entry
NTTドコモのインターン生が、Red Teamオペレーションにおける「Juicy情報」抽出とリスク評価にLLM(Microsoft 365 CopilotとAzure OpenAI)を応用・検証し、その有用性とモデルごとの特性を明らかにした。
**Content Type**: Research & Analysis
**Language**: ja
**Scores**: Signal:4/5 | Depth:4/5 | Unique:4/5 | Practical:4/5 | Anti-Hype:4/5
**Main Journal**: 80/100 | **Annex Potential**: 80/100 | **Overall**: 80/100
**Topics**: [[LLM応用, サイバーセキュリティ, Red Teamオペレーション, 脆弱性分析, 攻撃者視点]]
NTTドコモグループのOffensive Security PJのインターンシップにて、大規模言語モデル(LLM)をRed Teamオペレーションに活用し、その高度化を検証した取り組みが報告されました。本検証の目的は、攻撃環境で取得される膨大なログや情報の中から、次の一手につながる「Juicy情報」をLLMがいかに自動で識別し、そのリスクを評価できるかを明らかにすることです。
インターン生はまず、事前に用意された複数のWindows環境に対し、権限昇格(Unquoted Service Path脆弱性利用など)やラテラルムーブメントといった実際の攻撃シナリオを実行し、攻略過程で得られたログや出力情報をデータセットとして整理しました。次に、このデータをMicrosoft 365 CopilotとAzure OpenAIのgpt-4.1モデルに入力し、「Juicy情報の迅速な識別と構造化」および「抽出された情報に対する実戦的観点からのリスク評価」という2つの主眼で比較検証を行いました。
検証の結果、いずれのLLMもJuicy情報の抽出とJSON形式での構造化、さらに優先度・有効性・持続性・攻撃フェーズ・攻撃対象範囲拡張性といった多角的なリスク評価を一定の精度で自動化できることが示されました。これにより、従来人間が手動で行っていた大量のログ分析作業の大部分をLLMが肩代わりできる可能性が浮き彫りになりました。
興味深いことに、両LLMのリスク評価には明確な違いが見られました。Copilotは広範囲な分析に優れるものの、具体的な攻撃方法は示さず、技術要素の分解・分析に強みを持つ一方、OpenAIは攻撃者視点に立った指摘が多く、次のステップにつながる示唆を与えるなど、脅威モデリングに強みを発揮しました。この結果から著者は、LLMモデル間で返答内容に差があるため、調査のスコープや目的に応じて複数のモデルを使い分け、相互に補完しながら評価を進めることが望ましいと結論付けています。
本インターンシップを通じて、LLMの技術的有用性だけでなく、実際の業務における倫理観や運用上の配慮の重要性についても深く学ぶ貴重な経験であったと筆者は述べています。