arXiv cs.AIモデル・技術動向重要度:

ZAYA1-8B:少ないパラメータで大型モデルに匹敵する推論性能を実現したMoEモデル

ZAYA1-8B:少ないパラメータで大型モデルに匹敵する推論性能を実現したMoEモデル

要約

Zyphraが開発したZAYA1-8Bは、推論に特化したMixture-of-Experts(MoE)モデルで、700Mのアクティブパラメータと8Bの総パラメータを持ちます。ZyphraのMoE++アーキテクチャを基盤とし、AMD の全スタック計算・ネットワーキング・ソフトウェアプラットフォームで訓練されました。1B未満のアクティブパラメータという小規模でありながら、数学とコーディングの困難なベンチマークにおいてDeepSeek-R1-0528と同等以上の性能を発揮し、大幅に大きな推論モデルとも競合できる性能を実現しています。このモデルは推論のためにゼロから訓練され、事前訓練の段階から推論データが含まれ、回答保持トリミングスキームが使用されました。訓練後処理では4段階のRL cascade方式を採用し、数学とパズルの推論ウォームアップ、400タスクのRLVE-Gymカリキュラム、テスト時計算トレースと競技プログラミング参考資料から構築された合成コード環境を用いた数学・コードRL、チャットと指示従属のための行動RLが実行されました。また、Markovian RSAという新しいテスト時計算手法を導入し、この手法は並列推論トレースを再帰的に集約しながら、ラウンド間で有界長の推論テールのみを転送します。

洞察・気づき

ZAYA1-8Bの成功は、AIモデルの効率性革命における重要な里程標となります。従来、高度な推論能力には数十億から数百億のパラメータが必要と考えられてきましたが、このモデルは1B未満のアクティブパラメータで大型モデルと同等の性能を実現しており、MoEアーキテクチャの可能性を実証しています。特に注目すべきは、事前訓練段階から推論データを含める設計思想と、4段階のRL cascadeによる段階的学習アプローチです。これらの手法により、限られた計算リソースでも高品質な推論能力を獲得できることが示されました。Markovian RSAの導入も革新的で、テスト時計算において効率的な推論トレース管理を可能にし、AIME'25で91.9%、HMMT'25で89.6%という優秀な結果を達成しています。これは、リソース制約のある環境でも高性能なAIシステムを構築できる可能性を示しており、AI技術の民主化と普及に大きく貢献する可能性があります。また、AMD プラットフォームでの全訓練実施は、NVIDIA以外のハードウェアエコシステムの競争力向上を示す事例としても重要です。