Google は 2025 年 12 月 12 日(現地時間)、Gemini 2.5 Pro および Flash のテキスト読み上げモデルのアップグレードを発表し、ライブ音声エージェント向けの新しいモデル「Gemini 2.5 Flash Native Audio」をリリースしました。
このアップデートにより、複雑なワークフローの処理能力やユーザー指示への追従性が向上し、より自然な会話が可能になります。
新しい Gemini 2.5 Flash Native Audio は、Google AI Studio や Vertex AI などの製品ですでに利用可能となっており、Gemini Live(Gemini アプリのライブ会話機能)や Search Live にも順次展開されています。
会話品質と処理能力の向上
今回のアップデートで強化された点は、大きく分けて「外部機能の呼び出し」、「指示への追従性」、「会話のスムーズさ」の3点です。
まず、会話の中でリアルタイム情報を取得する必要がある場合、そのタイミングをより正確に判断し、会話の流れを断ち切ることなくデータを織り交ぜて返答できるようになりました。
また、開発者が設定した複雑な指示に対する遵守率が90% (以前は 84%) に向上しており、ユーザーが意図した通りの応答が得やすくなっています。

さらに、複数回にわたるやり取り(マルチターン会話)の品質も大幅に改善され、前の会話の内容や文脈をより効果的に記憶・参照できるため、話が噛み合わなくなるといったストレスが減ることが期待されます。
Google 翻訳の「リアルタイム通訳」にも貢献
Gogole 翻訳アプリの「リアルタイム通訳」は、Gemini の音声機能を活用することで、イヤホン・ヘッドホンを装着した状態で、相手の言葉を通訳する機能です。
この機能には「継続的な聞き取り」と「双方向会話」のモードがあり、継続的な聞き取りでは、周囲の音声を自動的に翻訳し続けるため、例えば海外旅行中にヘッドホンをしているだけで、現地の言葉が自分の言語で聞こえてくるといった使い方が可能です。
また、話し手のイントネーション、話すペース、声の高低などを維持したまま翻訳音声を出力できるようになり、単なる棒読みの翻訳音声ではなく、相手の感情やニュアンスも含めて伝わることが期待されます。
まとめ
Gemini 2.5 Flash Native Audio は、単なる応答精度の向上だけでなく、声のトーンや文脈を理解し、より人間らしい会話へと改善するアップデートと言えます。
なお、Google 翻訳の新しいライブ音声翻訳機能は、現時点ではベータ版として米国、メキシコ、インドの Android デバイス向けに展開が開始されています。
出典: Google Blog


