適応的パワー平均ポリシー最適化による大規模言語モデルの推論能力向上

要約
本研究では、大規模言語モデル(LLM)の推論能力を向上させるために、Adaptive Power-Mean Policy Optimization(APMPO)という新しい手法を提案している。従来のReinforcement Learning with Verifiable Rewards(RLVR)手法は、モデルの進化する推論能力に対して静的なポリシー最適化スキームを使用しているため、最適でないアライメントが生じていた。APMPOは、Power-Mean Policy Optimization(PMPO)とFeedback-Adaptive Clipping(FAC)の2つの主要な革新を組み合わせている。PMPOは一般化されたパワー平均目標を導入し、モデルが算術平均の信号増幅動作から幾何平均の一貫性強制動作へと適応的に移行することを可能にする。一方、FACは静的メカニズムの制限を克服するため、リアルタイムの報酬統計に基づいてクリッピング境界を適応的に調整する。3つの推論タスクにおける9つのデータセットでの包括的な実験により、APMPOが既存のRLVRベースのベースライン手法を上回る性能を示すことが実証された。特に、Qwen2.5-3B-Instructモデルを使用した場合、数学的推論ベンチマークにおいてGRPOと比較して平均Pass@1スコアが3.0ポイント向上した。
洞察・気づき
この研究は、強化学習を用いたLLMの推論能力向上における重要な課題を明らかにし、その解決策を提示している。従来の静的なポリシー最適化手法では、学習過程でモデルの推論能力が向上するにつれて最適でないアライメントが生じるという問題があった。APMPOの適応的なアプローチは、この問題に対する根本的な解決策を提供している。特に注目すべきは、パワー平均目標の導入により、学習の初期段階では信号増幅を重視し、後期段階では一貫性の強制を重視するという、学習フェーズに応じた適応的な最適化が可能になったことである。これにより、LLMの推論タスクにおけるパフォーマンスが大幅に改善され、特に数学的推論のような複雑なタスクにおいて顕著な効果が確認されている。この技術は今後のAI研究において、より効率的で効果的な強化学習手法の開発につながる可能性があり、実用的なAIシステムの推論能力向上に大きく寄与することが期待される。