Gemini Omni Flash は Google のマルチモーダル AI モデルで、テキスト、画像、オーディオ、ビデオなどのあらゆる入力タイプからネイティブ同期オーディオを使用してビデオを作成および編集します。
テキスト、画像、オーディオ、またはビデオ入力はすべて、同期されたオーディオを含むビデオを生成します。
重力、流体力学、運動エネルギーをシミュレートして現実的な動きを実現します。
自然言語を通じてビデオを編集します。変更を説明すると、その変化が起こります。
Gemini Omni Flash は Google I/O 2025 で発表されたマルチモーダル AI モデルです。テキストプロンプト、画像、音声ファイル、既存の動画クリップなど、複数の入力の組み合わせから、同期音声付きの高品質な動画を生成します。このモデルは現実世界の物理表現をシミュレートし、自然言語による動画編集にも対応します。
テキストまたは画像入力に限定されている従来の AI ビデオ ツールとは異なり、Gemini Omni Flash はテキスト、画像、オーディオ、ビデオを同時に受け入れます。
オーディオはビデオと一緒に生成されます。足音は動きに一致し、音声は唇に同期し、周囲の音はシーンに一致します。
生成されたビデオを、最初から再プロンプトを作成するのではなく、自然言語の指示によって調整します。
さまざまな入力タイプとスタイルにわたって Gemini Omni Flash を使用して生成されたビデオ。
テキストからビデオへ: 雰囲気のある効果と同期したオーディオによるドラマチックなカメラの動き。
テキスト、画像、音声、ビデオを同時に入力できる唯一のモデル。
オーディオはビデオと同時に生成されます。別個のオーディオ ワークフローやポストプロダクション手順は必要ありません。
最初からプロンプトを再作成するのではなく、自然言語を通じてビデオを調整します。
生成されたモーションにおける現実的な重力、流体力学、運動エネルギー。
あらゆるシーンを説明し、一致するオーディオを備えた映画のようなビデオを生成します。最大 20,000 文字のプロンプト。
画像 (JPEG、PNG、WebP 最大 10MB) をアップロードし、モーションとサウンドでアニメーション化します。
Proオーディオ入力をビデオ化し、一致するビジュアルを生成します。これは、AI ビデオ モデルの中で独自の機能です。
既存のビデオをアップロードし、会話を通じて編集します。スタイル、ペース、コンテンツを変更します。
アスペクト比 16:9 または 9:16 の 720p、1080p、または 4K で生成します。
ビジュアル コンテンツに関連付けられたネイティブ オーディオ生成 - 個別のオーディオ ワークフローは必要ありません。
text-to-video、image-to-video を選択するか、音声・動画入力を指定します。
必要なシーン、スタイル、カメラの動き、オーディオを説明します。
解像度(720p/1080p/4K)、長さ(4〜10 秒)、アスペクト比を選択します。
ビデオを生成し、会話型編集を使用して調整します。
テキスト プロンプトまたは参照画像からソーシャル メディア ビデオ、YouTube ショート、TikTok コンテンツを生成します。
制作チームなしで商品ビデオ、広告クリエイティブ、キャンペーン アセットを作成します。
オーディオからビデオへの変換を使用して、オーディオ トラックを一致するミュージック ビデオまたはビジュアル コンテンツに変換します。
Proシーンを入力し、B ロールを生成し、制作前にビジュアル コンセプトを反復します。
テキスト、画像、オーディオ、またはビデオ入力から AI ビデオを生成します。実行する前にクレジットを確認してください。