Apple ML Researchモデル・技術動向重要度:

Apple、トランスフォーマーのKVキャッシュを層間で効率共有する「確率的KVルーティング」を発表

Apple、トランスフォーマーのKVキャッシュを層間で効率共有する「確率的KVルーティング」を発表

要約

Apple Machine Learning Researchが、大規模言語モデルのサービング時におけるメモリ効率を向上させる新手法「Stochastic KV Routing」を発表した。トランスフォーマーモデルの高スループット推論では、自動回帰生成時の冗長な計算を避けるためKey-Value(KV)キャッシュが不可欠だが、そのメモリフットプリントは膨大でサービングコストを大幅に押し上げている。従来研究では時間軸に沿った圧縮や削除によりKVキャッシュを削減する手法が主流だったが、この研究では深度次元(層の深さ方向)での最適化に注目している。先行研究では全ての層で完全なキャッシュを保持することは冗長であることが示唆されており、この新手法は層間でのKVキャッシュ共有を適応的に行うことで、メモリ使用量を大幅に削減しつつ性能を維持することを目指している。

洞察・気づき

この研究は、LLMのメモリ効率問題に対する新たなアプローチを提示している。従来の時間軸での最適化とは異なり、モデルの深度次元でのキャッシュ共有という発想は、より根本的なアーキテクチャレベルでの改善を示唆している。Appleがこうした基盤技術研究に投資していることは、同社がAIインフラの効率化を重視していることを物語る。この手法が実用化されれば、クラウドでのLLMサービング費用の大幅削減につながる可能性があり、AI技術の普及とアクセス性向上に寄与するだろう。また、エッジデバイスでの大規模モデル実行の可能性も広がり、Appleのオンデバイス AI 戦略にも重要な意味を持つと考えられる。