Simon Willison's Weblogモデル・技術動向実践的 AI 活用重要度: 高2026年4月15日 17:13

GoogleがGemini 3.1 Flash TTS発表：プロンプトで制御可能な高精度音声合成モデル

要約

Googleは新しいテキスト読み上げモデル「Gemini 3.1 Flash TTS」をリリースしました。このモデルは従来のTTSとは大きく異なり、詳細なプロンプトで音声の特徴を制御できることが特徴です。標準のGemini APIを通じて「gemini-3.1-flash-tts-preview」というモデルIDでアクセスでき、音声ファイルのみを出力します。最も注目すべきは、そのプロンプティングガイドの詳細さです。例として示されたプロンプトでは、「Jaz R.」という架空のラジオDJキャラクターの設定が非常に細かく記述されており、ロンドンのスタジオという具体的なシーン設定、音声スタイル（「ボーカルスマイル」として笑顔が聞こえる音声、高いエネルギーレベル）、ペース（高速でバウンシーなケイデンス）、そしてブリクストン（ロンドン）のアクセントまで指定されています。記事の著者は実際にアクセントを変更して試験し、ニューカッスルやエクスターのアクセントでも成功したことを報告しています。

洞察・気づき

この技術は音声合成の概念を根本的に変える可能性があります。従来のTTSが単純にテキストを音声に変換するだけだったのに対し、Gemini 3.1 Flash TTSはキャラクター設定、感情、地域アクセント、話し方のスタイルまで細かく制御できます。これは映画・ゲーム・ポッドキャスト制作、言語学習アプリ、アクセシビリティ技術など幅広い分野に革命をもたらす可能性があります。特に注目すべきは、単なる技術的なパラメータではなく、演劇的・映画的な「演出ノート」のような自然言語でのプロンプティングが可能な点です。これにより、技術者でなくても直感的に高品質な音声を生成できるようになります。また、地域アクセントの精密な再現は、グローバル企業のローカライゼーション戦略や、文化的多様性を重視するコンテンツ制作において大きな価値を持つでしょう。ただし、このような技術は音声の偽造や詐欺への悪用リスクもあり、倫理的な使用ガイドラインの確立も重要になってきます。