大型言語モデルの「幻覚ニューロン」はドメイン間で汎化しない:知識領域固有の神経メカニズムを発見

要約
この研究は、大型言語モデル(LLM)の幻覚現象を予測できる「幻覚ニューロン」(H-neurons)のドメイン間汎化能力を調査した。最近の研究により、フィードフォワードネットワークニューロンの0.1%未満という稀少な集合が、LLMが幻覚を起こすタイミングを確実に予測できることが判明していた。これらのニューロンは一般知識の質問応答で特定され、新しい評価インスタンスに汎化できることが示されていた。本研究では、6つの知識ドメイン(一般QA、法律、金融、科学、道徳的推論、コード脆弱性)と5つのオープンウェイトモデル(3B-8Bパラメータ)を用いて体系的なクロスドメイン転移実験を実施した。結果は驚くべきものだった。1つのドメインのH-neuronsで訓練された分類器は、同一ドメイン内では高いAUROC 0.783を達成したが、異なるドメインに転移した場合は0.563まで大幅に低下した(差分0.220、統計的有意性p < 0.001)。この性能劣化はテストした全モデルで一貫して観察された。
洞察・気づき
この研究は AI の幻覚メカニズムに関する従来の理解を根本的に覆す重要な発見を示している。幻覚が普遍的な神経シグネチャを持つ単一のメカニズムではなく、クエリされる知識タイプに応じて異なるドメイン固有のニューロン集団が関与していることが明らかになった。これは AI 安全性研究において極めて重要な含意を持つ。第一に、幻覚検出技術の開発・展開戦略を再考する必要がある。一度訓練して全領域に適用できる汎用的な幻覚検出器ではなく、法律、医療、金融など各ドメインに特化した検出システムが必要となる。第二に、LLMの内部メカニズムは我々が想像するよりもはるかに複雑で領域特化的である可能性を示唆している。第三に、実用的な AI システム開発において、ドメインごとの安全性評価と調整が不可欠であることを強調している。この発見は、AI システムの信頼性向上に向けた今後の研究開発アプローチに大きな影響を与えるだろう。