Apple の「LLM in a Flash」技術を活用して397Bパラメータの大規模言語モデルをローカルで高速実行

要約
研究者の Dan Woods が、Apple の 2023 年論文「LLM in a Flash」の技術を応用し、209GB(量子化後120GB)の巨大な言語モデル Qwen3.5-397B-A17B を、わずか 48GB RAM の MacBook Pro M3 Max で 5.5+ tokens/second の速度で実行することに成功した。この成果は、利用可能な RAM 容量を超える大規模言語モデルを効率的に動作させるという重要な課題を解決するものである。技術の核心は、MoE(Mixture-of-Experts)アーキテクチャの特性を活用し、各トークン処理に必要な expert weights のみを SSD からメモリにオンデマンドでストリーミングすることにある。Dan は Claude Code と Andrej Karpathy の autoresearch パターンを組み合わせて 90 回の実験を実行し、最適化された MLX Objective-C と Metal コードを自動生成した。最終実装では、expert 部分を 2-bit に量子化する一方、embedding table や routing matrices は元の精度を維持し、5.5GB をメモリに常駐させる構成となっている。通常 Qwen 3.5 は 1 トークンあたり 10 の expert を使用するが、この設定では 4 に削減されており、品質への影響は限定的だと報告されている。
洞察・気づき
この研究は、限られたハードウェアリソースでも大規模言語モデルを実用的な速度で動作させることが可能であることを実証しており、AI の民主化と普及において重要な意味を持つ。特に、数百億パラメータクラスのモデルが一般的な開発者向けハードウェアで実行可能になることで、プライバシーを重視するローカル AI 推論や、インターネット接続が制限された環境での AI 活用が現実的になる。また、Claude Code を活用した自動化された研究プロセスは、AI 研究そのものが AI によって加速される「AI による AI 研究」の可能性を示している。MoE アーキテクチャと効率的なメモリ管理の組み合わせは、今後のエッジ AI デバイスや個人向け AI アシスタントの設計において重要な指針となるだろう。一方で、2-bit 量子化による品質への影響が十分に評価されていない点や、実際のタスクでのパフォーマンス検証が必要など、実用化に向けた課題も残されている。