Webスケールデータとアンサンブル手法による多言語ヘイトスピーチ検出の汎化研究

要約
この研究では、大規模な未ラベルWebデータとLLMベースの合成アノテーションを組み合わせることで、多言語でのヘイトスピーチ検出性能を向上させる手法を提案している。OpenWebSearch.euから英語、ドイツ語、スペイン語、ベトナム語の4言語でクロールしたテキストを使用し、2つのアプローチを検討した。第一に、BERTモデルに対してマスク言語モデリングによる継続事前訓練を行い、その後教師ありファインチューニングを実施した結果、16のベンチマークで平均約3%のマクロF1スコア向上を達成した。特に低リソース設定でより大きな改善が見られた。第二に、Mistral-7B、Llama3.1-8B、Gemma2-9B、Qwen2.5-14Bの4つのオープンソースLLMを用いて、平均化、多数決、LightGBMメタ学習者という3つのアンサンブル戦略で合成アノテーションを生成した。LightGBMアンサンブルが他の手法を一貫して上回る性能を示した。合成ラベルでのファインチューニングは小規模モデル(Llama3.2-1B)に対して11%のpooled F1向上をもたらしたが、大規模なQwen2.5-14Bモデルでは0.6%のわずかな向上にとどまった。
洞察・気づき
この研究は、AI分野における多言語NLPとコンテンツモデレーションの重要な課題に取り組んでいる。特に注目すべきは、大規模未ラベルデータとLLMアンサンブルの組み合わせが小規模モデルと低リソース言語で最も効果的だという発見である。これは、計算リソースが限られた環境や新興言語でのAI導入において実用的な意義を持つ。また、複数のLLMを組み合わせたアンサンブル手法が単体モデルよりも優れた性能を示すことで、今後のAI開発におけるモデル協調の重要性を示している。ヘイトスピーチ検出という社会的に重要な課題において、多言語対応の精度向上は、グローバルなプラットフォームでの安全性確保やデジタル包摂性の促進に直接貢献する。この手法は他の言語理解タスクにも応用可能で、多言語AIシステムの性能向上における新たなパラダイムを提示している。