Zyphra、わずか760Mパラメータで大型モデルを上回る推論AI「ZAYA1-8B」をリリース

要約
Zyphra社は、革新的な推論Mixture of Experts(MoE)モデル「ZAYA1-8B」をリリースした。このモデルは、わずか760Mのアクティブパラメータしか持たないにもかかわらず、数学やプログラミングのベンチマークにおいて、自身の何倍もの規模を持つオープンウェイトモデルを上回る性能を示している。特に注目すべきは、HMMT'25ベンチマークにおいてClaude 4.5 Sonnetを超える結果を達成し、DeepSeek-V3.2に迫る性能を発揮していることだ。この成果は、新開発の「Markovian RSA test-time compute」という手法によって実現されている。モデルはAMD Instinct MI300ハードウェアでエンドツーエンドで学習され、Apache 2.0ライセンスの下で公開されている。これにより、小型言語モデルクラスにおける知能密度の新たな基準を確立したとされている。
洞察・気づき
ZAYA1-8Bの登場は、AIモデル開発における「効率性革命」の象徴的な出来事と言える。従来、高い推論能力を実現するには大規模なパラメータが必要とされてきたが、このモデルは新しいアーキテクチャと学習手法により、その常識を覆している。特に、AMD Instinct MI300での学習成功は、NVIDIA一強時代の多様化を示唆し、ハードウェア選択肢の拡大を意味する。Apache 2.0でのオープンソース公開は、この技術の民主化を促進し、スタートアップや研究機関でも活用可能になる。小型でありながら高性能というこの特性は、エッジデバイスでの推論や、コスト効率を重視する実用アプリケーションにおいて大きなインパクトをもたらすだろう。また、Markovian RSA test-time computeという新手法は、今後の推論効率化技術の新たな方向性を示している。