VectraYX-Nano: わずか4200万パラメータのスペイン語サイバーセキュリティLLM、25ドルの低コスト学習で実現

要約
研究チームがVectraYX-Nanoという4195万パラメータのスペイン語専用サイバーセキュリティ言語モデルを発表しました。このモデルは、ラテンアメリカに焦点を当てた初のスペイン語ネイティブサイバーセキュリティLLMで、Model Context Protocol(MCP)を使ったネイティブツール呼び出し機能を備えています。学習には1.7億トークンのスペイン語コーパス「VectraYX-Sec-ES」を使用し、8つのVMパイプラインでわずか25ドルという低コストで構築されました。コーパスは会話データ(4200万トークン)、サイバーセキュリティデータ(1.18億トークン)、攻撃ツールデータ(1000万トークン)の3段階に分割されています。アーキテクチャには最新の技術(GQA、QK-Norm、RMSNorm、SwiGLU、RoPE等)が採用され、カリキュラム学習とリプレイバッファにより損失を9.80から2.16まで単調減少させることに成功しました。最終的なモデルサイズは81MB(F16)で、一般的なハードウェア上のllama.cppで1秒未満の応答時間を実現し、すべてのコード、学習スクリプト、重みがオープンソースで公開されています。
洞察・気づき
この研究は、小規模モデルでも適切な専門分野への特化と効率的な学習手法により実用的な性能を達成できることを実証しています。特に注目すべきは、わずか25ドルという超低コストでの学習パイプライン構築と、英語以外の言語でのサイバーセキュリティLLM開発です。これは、リソースが限られた組織や地域でも、特化型AIモデルの開発が可能であることを示しており、AI技術の民主化に重要な意味を持ちます。また、ナノスケールでの損失対レジスタ反転現象の発見や、ツール選択性能がコーパス密度に依存するという知見は、小規模モデルの効率的な訓練方法論の発展に寄与します。スペイン語圏やラテンアメリカ地域のサイバーセキュリティ分野において、現地言語でのAI支援が可能になることで、セキュリティ教育や脅威分析の質的向上も期待されます。オープンソースでの公開により、同様のアプローチが他言語や他分野にも応用される可能性があり、特化型小規模LLMの開発トレンドを加速させる可能性があります。