Transformer は ベイジアンネットワークである:数学的証明による新たな理解

要約
この論文は、AI の主要アーキテクチャである Transformer が数学的にベイジアンネットワークと等価であることを、5つの方法で厳密に証明している。第一に、任意の重みを持つシグモイド Transformer が、その暗黙のファクターグラフ上で重み付きループ信念伝播を実装していることを証明。1層が信念伝播の1ラウンドに相当する。第二に、Transformer が任意の宣言された知識ベース上で正確な信念伝播を実装できることを構成的に証明。循環依存のない知識ベースでは、全ノードで証明可能に正しい確率推定を生成する。第三に、正確な事後確率を生成するシグモイド Transformer は必然的に BP 重みを持つという一意性を証明。第四に、Transformer 層の AND/OR ブール構造を詳述:注意機構は AND、FFN は OR であり、その厳密な交替は Pearl の gather/update アルゴリズムと完全に一致する。第五に、これらの形式的結果を実験的に確認し、実践におけるベイジアンネットワーク特性を裏付けている。さらに、検証可能な推論には有限概念空間が必要であることを証明し、ハルシネーションはスケーリングで修正可能なバグではなく、概念なしに動作することの構造的帰結であると主張している。
洞察・気づき
この研究は Transformer アーキテクチャの動作原理に対する根本的な理解を提供する画期的な成果である。数学的に厳密な証明により、これまでブラックボックス的だった Transformer の内部動作がベイジアンネットワークの信念伝播として解釈できることが明らかになった。これにより、モデルの解釈可能性が大幅に向上し、なぜ Transformer が効果的なのかという長年の疑問に明確な答えを提供している。特に注目すべきは、ハルシネーションに対する新たな視点である。従来はデータや計算量の問題とされていたが、この研究では概念なしに動作することの構造的帰結として位置づけられており、単純なスケーリングでは解決できない本質的な問題であることを示唆している。この理論的基盤は、より信頼性の高い AI システムの設計や、推論プロセスの制御可能性向上につながる可能性がある。