arXiv cs.AIモデル・技術動向重要度:

サイバーセキュリティ自動防御におけるLLMエージェントの安定制御アーキテクチャ

サイバーセキュリティ自動防御におけるLLMエージェントの安定制御アーキテクチャ

要約

高リスクな状況下で意思決定を行うAIエージェントシステムの安全性と制御性を確保するため、新しいツール媒介アーキテクチャが提案されました。この研究は、セキュリティオペレーションセンター(SOC)でのエンドポイント検出・対応(EDR)ポリシー設定を想定し、LLMエージェントが決定論的ツール(Stackelbergベストレスポンス、ベイズ観測者更新、攻撃グラフプリミティブ)を使用する仕組みを構築しています。システムの安全性はLean 4による形式検証で保証され、制御可能性、観測可能性、入力状態安定性(ISS)が数学的に証明されています。282の実際の企業攻撃グラフでの検証では理論的な主張が実証され、Claude Sonnet 4を用いた実験では攻撃者の期待利得を決定論的ベースラインと比較して59%削減することに成功しました。Claude Haiku 4.5でも安定した動作を確認し、LLMの能力に依存しない架構的安定性を実証しています。

洞察・気づき

この研究は、AIエージェントを高リスクな環境で安全に運用するための重要な突破口を示しています。特に注目すべきは、LLMの非決定性を創造的な戦略探索に活用しながら、同時にツール媒介アーキテクチャによってシステムの安定性を保証している点です。セキュリティ分野におけるAI活用では、敵対的環境下での確実性が極めて重要であり、形式検証による数学的保証は実用化への大きな一歩となります。Claude 4シリーズでの実験結果は、現実的なLLMでもこのアーキテクチャが有効であることを示しており、今後のセキュリティ自動化や他の高リスク領域でのAI応用に重要な示唆を与えています。このアプローチは、AIの創造性と安全性を両立させる新しいパラダイムとして、金融、医療、自動運転などの分野にも応用可能性があります。