Microsoft、音声認識モデル「VibeVoice」をMITライセンスでリリース - 話者分離機能を統合したWhisper系モデル

要約
Microsoftが2026年1月21日にリリースした音声認識モデル「VibeVoice」について、実際の使用体験が報告されている。VibeVoiceはWhisper系の音声認識モデルで、MITライセンスで提供され、話者分離(speaker diarization)機能がモデル内に組み込まれているのが特徴。著者はM5 Max MacBook Pro(128GB RAM)を使用して1時間の音声ファイルを処理し、8分45秒で完了したと報告している。元の17.3GBモデルを4ビット量子化した5.71GBバージョンを使用し、最大30.44GBのRAMを使用した。出力はJSON形式で、テキスト、開始・終了時間、継続時間、話者IDが含まれる。テストでは3人の話者を正確に識別し、主要な会話者2人に加えて、イントロやスポンサー読み上げ用の別の声も区別できた。ただし、現在は最大1時間の音声しか処理できない制限がある。
洞察・気づき
Microsoftのオープンソース戦略の一環として、VibeVoiceの無償提供は音声認識分野における競争激化を示している。特に注目すべきは話者分離機能の統合で、これまで別々の処理が必要だった音声認識と話者識別を単一モデルで実現している点である。MLXフレームワークでの最適化により、Apple Silicon環境での高速処理が可能になっており、開発者にとってより身近なツールとなっている。1時間という処理制限はあるものの、ポッドキャストや会議録音の文字起こしには十分実用的である。OpenAIのWhisperに対抗する選択肢として、特に企業環境でのプライベート音声処理ニーズに応える可能性が高い。今後、処理時間制限の撤廃や精度向上が進めば、音声コンテンツ制作やアクセシビリティ向上の分野でより広く活用されると予想される。