プロンプト最適化が脱獄攻撃に変わるとき:大規模言語モデルの適応的レッドチーミング

要約
この研究論文では、大規模言語モデル(LLM)の安全性評価における重要な脆弱性が明らかにされています。従来の安全性評価は固定された有害プロンプト集に依存しており、攻撃者が適応的に入力を改良してセーフガードを回避するという現実的な攻撃シナリオを見落としていました。研究チームは、元々良性タスクの性能向上のために設計されたブラックボックス・プロンプト最適化技術を転用し、安全性の破綻を体系的に探索しました。DSPyフレームワークを使用して3つの最適化手法を適用し、HarmfulQAとJailbreakBenchからのプロンプトに対してGPT-5.1による独立評価モデルが提供する0-1の危険スコアを最適化目標としました。結果として、安全性保護措置の大幅な減少が実証され、特にオープンソースの小規模言語モデルで顕著な効果が見られました。例えば、Qwen 3 8Bモデルの平均危険スコアは、ベースライン設定の0.09から最適化後の0.79まで大幅に上昇しました。
洞察・気づき
この研究は、現在のAI安全性評価手法に根本的な問題があることを示しています。静的なベンチマークテストでは、実際の攻撃者が行う適応的で反復的なアプローチによるリスクを正確に評価できないということです。特にオープンソースモデルの脆弱性が高いことは、これらのモデルの商用利用や重要なアプリケーションでの採用において慎重な検討が必要であることを示唆しています。この発見は、AI業界において安全性評価のパラダイムシフトの必要性を訴えており、自動化された適応的レッドチーミングを組み込んだより動的で現実的な評価手法の開発が急務となっています。また、プロンプト最適化技術が悪用される可能性についても警鐘を鳴らしており、AI開発者はこうした技術の両面性を理解し、適切な対策を講じる必要があります。