Nous Research、LLM事前学習を最大2.5倍高速化するToken Superposition Trainingを発表

要約
Nous Researchは、大規模言語モデル(LLM)の事前学習時間を最大2.5倍短縮する新手法「Token Superposition Training(TST)」を発表した。この手法は2段階のプロセスで構成されており、第1段階では連続するトークンの埋め込みを「バッグ」に平均化し、第2段階では従来の次トークン予測に戻るアプローチを採用している。重要な点は、モデルのアーキテクチャ、トークナイザー、オプティマイザー、推論時の動作を一切変更せずに高速化を実現していることだ。同研究では270M、600M、3Bの密結合モデル、および10B-A1BのMixture of Experts(MoE)モデルでの検証を行い、同じFLOPs数での比較において大幅な時間短縮を確認している。
洞察・気づき
この技術は、LLMの開発コストと時間を大幅に削減する可能性を持つ画期的な進歩と言える。特に注目すべきは、既存のモデルアーキテクチャや推論動作を変更することなく高速化を実現している点で、これにより既存のインフラやワークフローを大幅に変更せずに導入できる実用性の高さがある。270Mから10Bパラメータまで幅広いスケールで検証されており、小規模な研究から大規模な商用モデルまで適用可能性を示している。この技術が普及すれば、より多くの組織がLLMの開発に参入できるようになり、AI技術の民主化が加速する可能性がある。また、学習効率の向上は電力消費の削減にもつながり、環境面での負荷軽減も期待できる。