arXiv cs.CLモデル・技術動向重要度:

ポルトガル語NLP向け大規模言語モデル「NorBERTo」が登場、3310億トークンの新コーパスで訓練

ポルトガル語NLP向け大規模言語モデル「NorBERTo」が登場、3310億トークンの新コーパスで訓練

要約

研究者らがポルトガル語の自然言語処理向けに最新のエンコーダーモデル「NorBERTo」を開発したと発表した。このモデルはModernBERTアーキテクチャをベースとし、長文コンテキストサポートと効率的な注意機構を特徴とする。NorBERToは新たに構築された「Aurora-PT」という3310億GPT-2トークンからなるブラジルポルトガル語コーパスで訓練されており、多様なウェブソースと既存の多言語データセットから収集されたデータを含む。標準的なデータセットであるASSIN 2やPLUEでのベンチマークテストでは、既存のBERTimbauやAlbertina PT-BRといったエンコーダーモデルと比較して優秀な性能を示した。特にPLUEでは、NorBERTo-largeがMRPCで0.9191 F1、RTEで0.7689の精度を達成し、評価対象のエンコーダーモデル中で最高の結果となった。ASSIN 2では含意タスクで最高のF1スコア(約0.904)を記録している。Aurora-PTは現在公開されているポルトガル語単言語コーパスとしては最大規模とされる。

洞察・気づき

この研究は特定言語向けの大規模言語モデル開発において重要な進展を示している。英語以外の言語、特にポルトガル語のようなリソースが限られた言語でも、適切なデータ収集と最新アーキテクチャの活用により高性能なモデルが構築可能であることを証明した。331億トークンという大規模なコーパスの構築は、ポルトガル語NLP研究の基盤を大きく強化する成果だ。また、NorBERToが検索拡張生成(RAG)などの下流タスクのバックボーンとして設計されている点は、実用的なAIシステム構築への配慮を示しており、研究から実装への橋渡しを重視した開発姿勢が見られる。この取り組みは他の言語でも同様のアプローチを促進し、多言語AI技術の発展に貢献する可能性が高い。