長期タスク向けLLM意思決定エージェントとスキルバンクの共進化フレームワーク「COSPLAY」

要約
本研究は、長期的なタスクにおけるLLMエージェントの性能向上を目指した新しいフレームワーク「COSPLAY」を提案している。従来のLLMは、ゲームなどの長期的インタラクティブ環境において、複数のスキルを時間をかけて連鎖させたり、遅延報酬や部分観測可能性の下で一貫した意思決定を行ったりすることに課題があった。これは、エピソード間で構造化されたスキルを発見・保持・再利用するメカニズムが不足していることが原因とされる。COSPLAYは、LLM意思決定エージェントが学習可能なスキルバンクからスキルを取得してアクションを導く一方で、エージェント管理のスキルパイプラインがラベルなしのロールアウトデータから再利用可能なスキルを発見してスキルバンクを構築する共進化アプローチを採用している。このシステムにより、決定エージェントはより良いスキル検索とアクション生成を学習し、スキルバンクエージェントは継続的にスキルとそのコントラクトを抽出・精製・更新する。6つのゲーム環境での実験では、8Bベースモデルを使用したCOSPLAYが、シングルプレイヤーゲームベンチマークにおいて4つの最先端LLMベースラインに対して平均25.1%の報酬改善を達成し、マルチプレイヤー社会推論ゲームでも競争力を維持した。
洞察・気づき
この研究は、LLMエージェントの「経験学習」という重要な課題に取り組んでいる。従来のLLMは各タスクを個別に処理する傾向があったが、COSPLAYは人間のように過去の経験から学んだスキルを蓄積し、新しい状況で再利用する仕組みを実現している。これは単なる性能向上以上の意味を持ち、AGI(汎用人工知能)に向けた重要なステップと考えられる。特に注目すべきは、スキルの発見と保持が自動化されている点で、これにより人間の介入なしにエージェントが自律的に学習し成長できる可能性を示している。ゲーム環境での検証は、現実世界のタスクへの応用可能性を示唆しており、ロボット制御、複雑な業務プロセスの自動化、長期的戦略を要する意思決定支援システムなどへの展開が期待される。また、8Bという比較的小さなモデルで大きな性能向上を実現したことは、計算リソースの制約がある環境でも実用的なAIエージェントを構築できることを示している。