AI エージェントの創造的推論能力を評価する新ベンチマーク「CreativityBench」

要約
研究者らは、大規模言語モデル(LLM)の創造的問題解決能力を評価するための新しいベンチマーク「CreativityBench」を開発した。このベンチマークは、モデルが物体の本来の用途ではなく、その物理的特性やアフォーダンス(行為可能性)を理解して創造的にツールを再利用する能力を測定する。研究チームは4,000のエンティティと150,000以上のアフォーダンス注釈を含む大規模な知識ベースを構築し、これを基に14,000の実世界タスクを生成した。クローズドソース・オープンソース合わせて10の最先端LLMで評価を実施した結果、モデルは適切なオブジェクトの選択はできるものの、正しい部品の特定、それらのアフォーダンス、タスク解決に必要な物理メカニズムの理解において大幅に性能が低下することが判明した。また、モデルのスケーリングによる性能向上は早期に飽和し、一般的な推論能力が創造的なアフォーダンス発見に確実に転移するわけではなく、Chain-of-Thoughtなどの推論時戦略も限定的な改善しかもたらさなかった。
洞察・気づき
この研究は、現在のAIモデルが持つ重要な限界を浮き彫りにしている。優れた推論能力を持つ最先端のLLMでも、創造的な問題解決、特に物体を本来の用途とは異なる方法で活用する能力において大きな課題があることが明らかになった。この発見は、単純にモデルサイズを大きくするだけでは解決できない根本的な問題を示唆している。CreativityBenchのような評価基準の導入により、AIの「知性」の欠けている次元が明確になり、将来のエージェントシステムにおける計画・推論モジュールの開発に重要な示唆を与える。人間の創造性は既存のツールや物体を新しい文脈で活用する能力に大きく依存しており、この能力はロボティクス、自動化、日常的な問題解決において極めて重要である。この研究結果は、AGI実現に向けて、単純な知識の蓄積や計算能力の向上だけでなく、物理世界への深い理解と創造的思考プロセスの開発が不可欠であることを示している。