チャート質問応答における大規模言語モデルのプロンプティング戦略評価研究

要約
この研究では、大規模言語モデル(LLM)を用いたチャート質問応答タスクにおいて、異なるプロンプティング戦略がどの程度性能に影響するかを系統的に評価した。研究チームは、Zero-Shot、Few-Shot、Zero-Shot Chain-of-Thought、Few-Shot Chain-of-Thoughtという4つの広く使用されているプロンプティング手法を、GPT-3.5、GPT-4、GPT-4oの3つのモデルで比較検証した。評価にはChartQAデータセットの1,200の多様なサンプルを使用し、構造化されたチャートデータのみを対象として、プロンプト構造を唯一の実験変数として分離することで、公平な比較を実現した。性能評価にはAccuracyとExact Matchの2つの指標を用いた。結果として、Few-Shot Chain-of-Thoughtプロンプティングが最も高い精度を達成し、最大78.2%の精度を記録した。特に推論が必要な複雑な質問において顕著な改善が見られた。一方、Few-Shotプロンプティングは出力フォーマットの遵守において優れた性能を示し、Zero-Shotプロンプティングは高性能モデルでの単純なタスクにおいてのみ良好な結果を示した。
洞察・気づき
この研究は、チャートや図表を含む構造化データの解析において、適切なプロンプティング戦略の選択が性能に大きく影響することを明確に示している。特に注目すべきは、Few-Shot Chain-of-Thoughtアプローチが推論集約的なタスクで優れた性能を発揮する点である。これは、LLMにサンプル例と段階的思考プロセスの両方を提供することで、複雑なチャート解析タスクにおいてより良い推論能力を引き出せることを示唆している。実務的な観点では、データ分析や報告書作成、ビジネスインテリジェンスツールの開発において、タスクの複雑さに応じてプロンプティング戦略を選択することの重要性が浮き彫りになった。単純な情報抽出タスクではコスト効率の良いZero-Shotアプローチでも十分だが、複雑な推論を要する分析では、より高度なプロンプティング技法への投資が必要となる。この知見は、AI支援による意思決定システムの設計において、効率性と精度のバランスを取るための重要な指針となる。