心疾患医療質問応答におけるLLMの精度向上:分散考慮ルーブリック報酬とGRPOによる最適化

要約
本研究では、大規模言語モデル(LLM)の医療応用における課題解決に取り組んでいる。医療分野でのLLM活用では、データプライバシー制約、推論コスト、エッジデバイスでの使用制限といった問題が存在する。これらの課題を解決するため、研究チームはより小型で効率的なモデルの開発と、堅牢な後訓練戦略の確立を目指した。具体的には、Group Relative Policy Optimization(GRPO)を用いて心疾患関連の医療質問応答タスクでモデルを後訓練し、RaR-Medicineから派生したルーブリックベース監督を適用した。従来の重み付けバイナリ基準集約や単一のリッカート式スコアリングに代わり、基準レベルのルーブリック結果から導出される連続的解析報酬関数を用いるVariance-Aware Reward Frameworkを提案している。この手法により、スパースで多基準かつ自動検証が困難なフィードバックに対してより豊富な最適化信号を提供し、安定したオンポリシー強化学習を実現した。HealthBenchの心疾患関連サブセットでの実験では、Qwen3-14Bベースモデルと比較して精度が0.362から0.502に、F1スコアが0.532から0.668に向上し、GPT-OSS-120B(精度0.508、F1スコア0.674)と競合する性能を示した。
洞察・気づき
この研究は医療AI分野において重要な前進を示している。特に、プライバシーやコストの制約がある実用環境での医療LLMの展開可能性を高める点で意義深い。提案されたVariance-Aware Reward Frameworkは、医療診断のような高度な専門知識を要するタスクにおいて、より細かく制御可能な学習プロセスを提供している。また、大型モデルと同等の性能を小型モデルで実現できることは、医療現場でのAI活用のハードルを大幅に下げる可能性がある。この手法は心疾患以外の医療分野や、ルーブリック評価が重要な他のドメインにも応用可能であり、専門分野特化型AIの発展に新たな道筋を示している。医療従事者にとって、より信頼性が高く実用的なAIツールの実現に向けた重要なステップと言える。