arXiv cs.AIモデル・技術動向重要度:

スマートコントラクトの脆弱性検出における大規模言語モデルのベンチマーク評価

スマートコントラクトの脆弱性検出における大規模言語モデルのベンチマーク評価

要約

この研究では、Solidity で書かれたスマートコントラクトの脆弱性検出における大規模言語モデル(LLM)の性能を評価しています。スマートコントラクトは金融・運用ロジックを実装する重要な役割を果たす一方で、セキュリティ上の欠陥により大きな金銭的損失や信頼失墜のリスクがあります。研究では400のバランスの取れたコントラクトデータセットを使用し、エラー検出(脆弱性の有無を二分類)とエラー分類(特定の脆弱性カテゴリーへの分類)という2つのタスクで評価を行いました。ゼロショット、ゼロショット Chain-of-Thought(CoT)、ゼロショット Tree-of-Thought(ToT)の3つのプロンプト戦略を比較した結果、エラー検出タスクではCoTとToTがリコール率を大幅に向上させる(95-99%)一方で精度は低下し、偽陽性が増加する傾向が見られました。エラー分類タスクでは、Claude 3 OpusがToTプロンプトで最高のWeighted F1スコア(90.8)を達成しました。

洞察・気づき

この研究は、LLMをスマートコントラクト監査に活用する際の重要な知見を提供しています。Chain-of-ThoughtやTree-of-Thoughtといった推論手法が検出率を大幅に向上させる一方で、誤検知が増加するトレードオフが存在することが明らかになりました。これは実際の監査業務において、LLMを人間の監査者をサポートするツールとして使用する場合の戦略立案に重要な示唆を与えます。また、Claude 3 Opusの優れた性能は、Anthropic社のモデルがコード解析タスクにおいて高い能力を持つことを示しており、企業がスマートコントラクト開発やセキュリティ監査にAIを導入する際のモデル選択の参考になります。ブロックチェーン技術の普及とともに、自動化された脆弱性検出の需要が高まる中で、このような客観的な評価研究は業界全体の品質向上に貢献すると考えられます。