Google、動画生成AI「Veo 3.1」を発表 映像と音声を統合した次世代モデル
Googleは2025年10月、最新の動画生成AIモデル「Veo 3.1」と軽量版「Veo 3.1 Fast」を正式発表しました。Gemini API内での有料プレビューとして提供が始まり、映像の質・音声表現・生成速度のいずれも大きく向上しています。
※Veoシリーズは、Google DeepMindが開発を主導する動画生成AIモデルです。テキストや画像を入力すると、AIが自動でリアルな映像を生成します。
【出典元】Introducing Veo 3.1 and new creative capabilities in the Gemini API
Veo 3.1で進化した5つの中核機能
今回登場した「Veo 3.1」は、前バージョンのVeo 3をベースに、音声・映像・プロンプト理解の三要素が大幅に向上しました。
◆Veo 3.1で進化した5つの中核機能
| 機能名 | 内容 | 効果・特徴 |
|---|---|---|
| richer native audio | 会話・効果音・環境音などを含む自然な音声を自動生成 | 映像と音声が一体化し、臨場感のある動画を生成可能 |
| better cinematic styles | 映画のようなライティングや質感を再現 | シネマティックなトーンや映像演出の再現性が向上 |
| reference to video | 画像・動画を参照し、一貫したキャラクターやスタイルを維持 | 登場人物やデザインを統一し、シリーズ的映像制作を実現 |
| transitions between frames | フレーム間のつながりを自然に補完 | シーン切り替えや動作が滑らかになり、長尺動画に適応 |
| video extensions / Scene Extension | 短尺動画を1分以上に拡張し、連続したストーリーを生成 | 短い映像を自動で拡張し、物語性のある動画制作が可能 |
映像と同時に音声も生成 “静止画から会話へ”
特に注目されているのは、映像と音声を同時に生成できる「richer native audio(豊かなネイティブ音声)」です。
従来は映像生成後に別途音声を付ける必要がありましたが、Veo 3.1では効果音やナレーションを含めて一体的に生成できます。
たとえば「雨音の中で静かに話す人物を描いて」といった指示も、1つのプロンプトで再現できます。
映像と音の統合によって、これまでにない没入感のある映像表現が可能になりました。
映画的な質感を再現する「シネマティックスタイル」
Veo 3.1には「better cinematic styles」と呼ばれる新技術が導入されました。光の反射や被写界深度など、映画のような質感を再現できるのが特徴です。
また、プロンプトの文脈理解も向上しており、AIがストーリー性を持った映像を表現できるようになりました。
Googleはこの機能について「映画制作レベルの映像をAIで再現するための重要なステップ」と説明しています。
画像や動画を参照して一貫したキャラクターを維持
Veo 3.1では「reference to video(映像参照)」の精度が高まりました。これにより、既存の画像や動画をもとにキャラクターやスタイルを統一して生成できます。
たとえば、同じ登場人物の衣装や表情を保ったまま、異なるシーンを作成することが可能です。短編動画や広告制作など、映像表現の幅を広げる技術として期待されています。
Scene Extensionとトランジションで長尺動画に対応
新たに追加された「Scene Extension」機能では、短い動画を1分以上に拡張できます。さらに、「transitions between frames」によって、シーン間の切り替えや動作の滑らかさも自然になりました。
これまでのVeo 3では短いクリップをつなぎ合わせる必要がありましたが、Veo 3.1では連続した物語として生成できます。
長尺動画の制作が容易になったことで、AI映像の可能性が一段と広がりました。
高速生成版「Veo 3.1 Fast」も登場
今回同時に「Veo 3.1 Fast」も発表されました。これはVeo 3.1をベースに生成速度を最適化した軽量モデルで、アイデア検証や短尺コンテンツ制作に適しています。
| モデル | 特徴 | 主な用途 |
|---|---|---|
| Veo 3.1 | 高品質・高精度。映像と音声の完全統合 | 長尺映像や本番制作向け |
| Veo 3.1 Fast | 軽量・高速。即時生成が可能 | プレビューやテスト生成向け |
開発初期の段階で映像イメージを素早く確認し、本番制作では高精度モデルを使うといった使い分けができるようになります。
Gemini APIとの統合でAIエコシステムが拡大
Veo 3.1は、GoogleのAIプラットフォーム「Gemini API」や「AI Studio」「Vertex AI」「Flow」に統合されました。開発者やクリエイターは同じAPI上で、テキスト生成・画像生成・動画生成をシームレスに扱えます。
また、Geminiアプリから直接Veoを呼び出すことも可能になり、スマートフォン上で映像を生成できるデモも公開されています。
生成AI映像の新時代へ
Veo 3.1の登場によって、生成AIによる映像制作は“実用化フェーズ”に入りました。
1分を超える動画をプロンプトから直接作り、音声や効果音まで自動生成する流れは、映像制作の常識を変える可能性があります。
OpenAIの「Sora」やRunwayの「Gen-3」といった競合モデルも進化しており、2025年はAI動画時代の本格到来を告げる年となりそうです。
まとめ
Veo 3.1は、映像・音声・制御を一体化したGoogleの最新動画生成AIです。Gemini APIを中心とするエコシステムに組み込まれ、誰もがAIを使って高品質な映像を作れる時代が始まろうとしています。
生成AIがもたらす映像表現の自由は、今後のクリエイティブ産業に大きな影響を与えるでしょう。