Google、音声AIを刷新

Google、音声AIを刷新

Googleは2026年3月26日、リアルタイム音声AIモデル「Gemini 3.1 Flash Live」を発表しました。従来モデルより背景ノイズの除去精度が高まり、ユーザーの感情に応じたトーンの自動調整も可能になっています。

90以上の言語と200以上の国・地域に対応しており、Gemini LiveやGoogle検索のSearch Liveといったサービスのバックエンドに採用されました。開発者向けにはGoogle AI StudioでAPIプレビューの提供も始まっています。

【出典元】Gemini 3.1 Flash Live: Making audio AI more natural and reliable

ノイズ除去と応答の自然さが改善

「Gemini 3.1 Flash Live」では、音声認識と応答品質の面で大きな進化がありました。まず、背景ノイズの除去精度が向上しています。交通音やテレビの音が混ざる環境でも、発話をより正確に切り分けて認識できるようになっています。

次に、会話の自然さも大幅に改善されました。従来モデルで目立っていた不自然な間(ポーズ)が減少し、よりスムーズに会話が続けられます。ユーザーの不満や混乱といった感情を読み取り、回答の長さやトーンを自動で調整する機能も備わっています。

会話スレッドを従来比2倍の長さまで追跡できるようになったため、長いやり取りの中でも文脈を保ちながら返答できるようになっています。複雑な指示への遵守度も大幅に向上しています。

90言語・3サービスで利用開始

「Gemini 3.1 Flash Live」は、すでに複数のサービスに組み込まれています。以下の3つのサービスで利用できるようになりました。

  • Gemini Live(Android・iOSアプリ)
  • Search Live(Google検索のリアルタイム音声検索機能)
  • NotebookLM(Googleのノートブック型AIサービス)

対応言語は90以上、展開地域は200以上の国・地域にのぼっており、日本でも利用できます。エンタープライズ向けには「Gemini Enterprise for Customer Experience」でも採用されています。

開発者向けAPIも公開済み

開発者向けには「Gemini Live API」のプレビュー版がGoogle AI Studioで公開されています。このAPIを使うと、リアルタイムの音声・映像エージェントを構築できます。多言語サポート・ツール呼び出し・セッション管理といった機能を利用できます。

また、すべての音声出力にAI生成コンテンツであることを示す不可視の電子透かし「SynthID」が自動で埋め込まれます。誤情報の拡散防止にも配慮した設計になっています。

まとめ

Googleの「Gemini 3.1 Flash Live」は、背景ノイズの除去・感情への対応・会話の自然さという実用面での改善が目立つ音声AIモデルです。Gemini LiveやSearch Liveといった身近なサービスへの搭載がすでに始まっており、日常的なAI音声体験が変わりつつあります。開発者向けAPIも公開されているため、今後さまざまなサービスへの活用が広がることが期待されます。

関連記事