はじめに:1枚のイメージから映像を作る「I2V(Image-to-Video)」の世界
AIによる動画生成は、テキスト入力からの映像生成(T2V) だけでなく、
静止画をもとに時間的な動きを作り出す I2V(Image-to-Video) があります。具体的なイメージが定まっていない時点での映像化はT2Vが良いと思いますが、実際の映像制作でイメージが固まってきた段階では、I2Vでの生成が重要になってくると考えています。
そこで、本記事では、16:9の静止画と共通のプロンプトを使用して動画生成を行った場合の生成映像を比較し、動きの滑らかさ・プロンプトの効き・一貫性・映像の自然さについて評価しました。
比較対象モデル
モデル名 | 区分 | 備考 |
Wan2.2 5B | ローカル | 軽量モデル、VRAMの少ないGPUでも稼働実績がある |
Wan2.2 14B | ローカル | ローカル動作の最高品質(のはず) |
Veo3 | クラウド | Google開発。実写的で映画的構図に強い |
Sora2 | クラウド | OpenA開発I。構成力が高い |
Wan2.5 | クラウド | 14Bの上位版 |
Vidu Q2 | クラウド | アニメ調からリアル寄りまで柔軟 |
Seedance lite | クラウド | 動き特化のモーションモデル軽量タイプ |
Seedance Pro | クラウド | 動き特化のモーションモデル |
入力画像とプロンプト
開始フレームとして入力する画像はこちらです。Geminiで生成した画像をPhotoshopで16:9に加工しています。

プロンプトはこちらです
a young woman driving a futuristic electric vehicle through a lively city street, smiling and enjoying the ride,
the car has flying units integrated into the wheels that begin to rotate and lift the vehicle off the ground,
camera starts inside the car showing her expression, then smoothly pulls back through the window to the outside,
revealing the EV flying gracefully above the city, supported by the glowing wheel units,
the car turns midair and flies away in the opposite direction of the camera,
cinematic lighting, realistic motion, detailed cityscape, smooth camera transition,
immersive aerial view, high quality, HDR
出力の設定は、下記を基本としています。
・解像度: 1280*720
・秒数/フレーム数:5秒/149フレーム
※Wan2.2 14Bは、ローカルGPUの制限により解像度とフレーム数を下げています
※sore2は人物画像の入力ができませんので、人物を除いた画像を使用しました
生成結果
Wan2.2 5B
かなり乱れた映像になります。プロンプトの内容を実施しようとした努力は感じられますが、一貫性を保つのが難しいイメージ。
Wan2.2 14B
5Bに比べるとかなり改善されていますが、動きの大きいシーンがやや苦手な印象。一貫性があるようにも思えますが、乱れることもありますので、ガチャ的な側面が強いようにも思います。使用するシーンを選ぶか、プロンプトの作り込みにより改善する可能性は感じます。
Veo3
非常に素直な映像になります。カメラワークや全体の動きはやや大人し目になりますが、プロンプト通りという解釈もできますので、概ね良い印象の動画になっています。モデル自体が無難な印象です。
Sora2
プロンプトを元にした作品を作ってくれます。映像素材を生成するのはなく、ショート作品を生産するのに特化しているような印象ですが、プロンプトの作り方の工夫で使い所は多くありそうです。発想力の強いモデルの印象。
Wan2.5
Wan2.2から大きく改善されて、プロンプトに対しても素直な反応です。ただ、カメラワークが活発で、寄ったり引いたりのアクションが大きい印象です。
Vidu Q2
映像が映画的な表現になる印象です。動きも素直で良い印象です。カメラワークに手持ち感があり、ブレが強くでることがあるようです。PVではなく映像作品向けの印象。
Seedance Lite
素直なモデルかと思いきや、思い通りにはいかないモデル、軽量モデル故のことなのかもしれませんが、とりあえず試すには良いモデルと思います。
Seedance Pro
シーンの最後に車がいなくなりましたが、それ以外は素直な印象。プロンプトの工夫をすればしっかり描いてくれそうな気がします。
主観による評価
評価: 良い ☆>◎>◯>△>✕ 悪い
モデル名 | 動きの滑らかさ | プロンプトの効き | 一貫性 | 映像の自然さ | 備考 |
Wan2.2 5B | △ | △ | △ | △ | 画が壊れる |
Wan2.2 14B | ◯ | △ | ◯ | △ | 慣れが必要? |
Veo3 | ☆ | ☆ | ☆ | ☆ | カメラワーク大人し目 |
Sora2 | ◎ | ◯ | ☆ | ◎ | カット多め |
Wan2.5 | ◎ | ☆ | ◎ | ☆ | アクティブなカメラワーク |
Vidu Q2 | ◎ | ◎ | ◎ | ☆ | 手ブレ感強い |
Seedance Lite | ◎ | ◯ | ◯ | ◯ | お試し的な感じ |
Seedance Pro | ◎ | ◯ | ◎ | ◎ | 無難な印象 |
※評価、備考は主観を元に独断と偏見でつけさせて頂いております。予めご了承ください。
※原則として、生成初発のものを評価として使用しております。
まとめ
現時点での動画生成について比較してみました。比較するとクラウド型のI2Vモデルが優れた結果となりました。
特に動きの滑らかさや映像の一貫性においてローカルモデルを上回っているのは確実のようです。
ただ、クラウドサービスには利用規約上の制限があり、一部の表現(身体表現・衣装・創作的な演出など)が生成できない場合もあり、すべての作品がクラウドで生成できるという訳でもありません。
また、「想像した通りの映像」に仕上げるためには、プロンプトや入力イメージの設計に多くの試行錯誤が必要であり、最終的には人のディレクションや編集が必要になる場面の考えられます。しかしながら、
「とりあえず動画にしてみよう」
というアプローチができるようになったのは、大きな変換点とも言えるのではないかと考えています。
I2Vは、誰でも手軽に映像を生み出せる時代を拓きました。生成してみて面白いんですよね。クセになりそうです。
しかし、出来上がった映像が“意図を正確に伝える映像”であるかと、問われると、それは必ずしもYESとは言えないものかもしれません。
映像は伝える道具として素晴らしいものです。AIの登場によりその道具を生産する選択肢が増えたことは大いに歓迎すべきことだと思います。AIの進化を考えるとこれからも、ものすごい速度で進化するのだと思います。
今後も未来に期待しながら、いろいろ試していきたいと思います。