Simon Willison's Weblogモデル・技術動向重要度:

大規模AIモデルをストリーミング実行する新技術

大規模AIモデルをストリーミング実行する新技術

要約

大規模言語モデルの実行に関する革新的な技術が注目を集めている。Dan Woodsが実験している「ストリーミングエキスパート」は、Mixture-of-Expertsモデル全体をRAMに収める必要なく、SSDから必要なエキスパートウェイトをストリーミングしながら各トークンを処理する手法だ。この技術により、5日前には48GBのRAMでQwen3.5-397B-A17Bモデルが動作し、現在では1兆パラメータのKimi K2.5モデル(32Bアクティブウェイト)が96GBのRAM搭載M2 Max MacBook Proで実行されている。さらに驚くべきことに、同じQwen3.5-397B-A17BモデルがiPhoneでも動作することが実証された(実行速度は0.6トークン/秒)。Danとその仲間たちは、これらのモデルからより多くの性能を引き出すための最適化を見つけるため、自動研究ループを継続している。

洞察・気づき

この技術は、AIモデルの民主化において重要な意味を持つ。従来は巨大なRAMを持つ高価なハードウェアでしか実行できなかった大規模モデルが、比較的手頃なハードウェアで動作可能になることで、個人開発者や小規模な組織でも最先端のAIモデルにアクセスできるようになる。特にiPhoneでの動作は、モバイルデバイスでの高性能AI実行の可能性を示している。この技術の発展により、AIの計算資源の壁が下がり、より多くの人々が大規模モデルを活用したアプリケーション開発に取り組めるようになるだろう。また、自動研究ループによる継続的な最適化は、この分野の急速な進歩を予感させる。