GrokのAI動画生成が進化
Elon MuskのAI企業xAIは、画像・動画生成サービス「Grok Imagine」の動画生成モデル最新版「Grok Imagine Video 1.5」を一般公開しました。画像1枚とテキストプロンプトを入力するだけで最長15秒の動画を自動生成でき、音楽・効果音・口パク同期のオーディオも動画と同時に作れます。
前バージョンと比べて生成速度が大幅に向上し、OpenAIのSoraと比較して86%低コストと公表しています。`grok.com/imagine`、iOS・Androidアプリ、APIで利用できます。
Grok Imagine Video 1.5 is here
Our new image-to-video model with sharper realism, better physics and faster generations 🧵https://t.co/zGhs9czkC5 pic.twitter.com/9X4YicpMH8
— xAI (@xai) June 17, 2026
【出典元】Grok Imagine Video 1.5 | xAI
画像1枚から動画を自動生成
Grok Imagine Video 1.5の基本的な使い方はシンプルです。元になる画像を1枚アップロードし、「どんな動きをさせたいか」をテキストで入力するだけで動画が生成されます。
たとえば商品写真を動かしたり、イラストのキャラクターを歩かせたり、風景写真に動きを加えたりといった用途に使えます。テキストのみから動画を生成することも可能で、画像がない状態からでも使えます。
| 項目 | 仕様 |
|---|---|
| 最大尺 | 15秒 |
| 解像度 | 480p / 720p(24fps) |
| アスペクト比 | 横・正方形・縦に対応 |
| 入力形式 | 画像+テキスト、またはテキストのみ |
| 動画の延長 | 既存動画を2〜10秒延長可能 |
生成速度が大幅に向上
前バージョンと比べて生成速度が著しく改善されました。6秒・720pの動画が約25秒で生成できるようになっており、従来の40秒以上から大幅に短縮されています。
動きの自然さも向上しており、クリップ全体を通じてオブジェクトの動きが崩れにくくなっています。人や物体が「ゆがむ・溶ける」といった不自然な変形が減り、重力や質感のある動きが表現されやすくなっています。
また複数のプロンプトを並列実行できる機能が加わり、1つの生成が終わるのを待たずに次の生成を同時に走らせることができます。
音声も自動で生成される
Grok Imagine Video 1.5の大きな特徴が、オーディオを動画と同時に生成できる点です。効果音・環境音(アンビエンス)・音楽・セリフの口パク同期が、映像生成と同じ処理の中で作られます。
たとえば波打ち際の映像には波の音が、人が話す映像にはセリフの音声と口の動きが自動的に合わさります。動画編集ソフトで別途音を当てる作業が不要になり、完成度の高い動画をそのまま受け取れます。
料金と利用方法
無料プランでは1日5クレジットが付与されます。まず試してみたい場合は無料で始めることができます。
| 利用方法 | 料金 |
|---|---|
| 無料 | 1日5クレジット(grok.com/imagineから利用) |
| API(480p) | $0.08 / 秒 |
| API(720p) | $0.14 / 秒 |
OpenAIのSoraは動画1本あたりの料金が高く、長尺コンテンツの大量生成には向かないとされてきましたが、xAIはSoraより86%低コストであることを公表しており、コスト面での優位性を前面に打ち出しています。
まとめ
Grok Imagine Video 1.5は「画像を動かす・音声も自動でつける・速い・安い」という4点を同時に実現した動画生成AIです。無料プランで今日から試せる手軽さと、APIを使った本格的な活用まで対応する幅広さが特徴です。
動画コンテンツの制作コストが下がり続ける中、画像1枚から完成度の高い動画を作れるツールの実用性が急速に高まっています。SNS投稿・広告素材・商品紹介など、幅広い用途での活用が期待されます。