I2V(Image-to-Video)生成AI比較検証|Wan2.2/Wan2.5/Sora2/Veo3/Vidu/Seedanceの表現力を同条件で比較

目次

はじめに:1枚のイメージから映像を作る「I2V(Image-to-Video)」の世界

AIによる動画生成は、テキスト入力からの映像生成(T2V) だけでなく、
静止画をもとに時間的な動きを作り出す I2V(Image-to-Video があります。具体的なイメージが定まっていない時点での映像化はT2Vが良いと思いますが、実際の映像制作でイメージが固まってきた段階では、I2Vでの生成が重要になってくると考えています。
そこで、本記事では、16:9の静止画と共通のプロンプトを使用して動画生成を行った場合の生成映像を比較し、動きの滑らかさ・プロンプトの効き・一貫性・映像の自然さについて評価しました。

比較対象モデル

モデル名区分備考
Wan2.2 5Bローカル軽量モデル、VRAMの少ないGPUでも稼働実績がある
Wan2.2 14Bローカルローカル動作の最高品質(のはず)
Veo3クラウドGoogle開発。実写的で映画的構図に強い
Sora2クラウドOpenA開発I。構成力が高い
Wan2.5クラウド14Bの上位版
Vidu Q2クラウドアニメ調からリアル寄りまで柔軟
Seedance liteクラウド動き特化のモーションモデル軽量タイプ
Seedance Proクラウド動き特化のモーションモデル

入力画像とプロンプト

開始フレームとして入力する画像はこちらです。Geminiで生成した画像をPhotoshopで16:9に加工しています。

Gemini Generated Image u7pd5lu7pd5lu7pd

プロンプトはこちらです

a young woman driving a futuristic electric vehicle through a lively city street, smiling and enjoying the ride,
the car has flying units integrated into the wheels that begin to rotate and lift the vehicle off the ground,
camera starts inside the car showing her expression, then smoothly pulls back through the window to the outside,
revealing the EV flying gracefully above the city, supported by the glowing wheel units,
the car turns midair and flies away in the opposite direction of the camera,
cinematic lighting, realistic motion, detailed cityscape, smooth camera transition,
immersive aerial view, high quality, HDR

出力の設定は、下記を基本としています。

・解像度: 1280*720
・秒数/フレーム数:5秒/149フレーム

※Wan2.2 14Bは、ローカルGPUの制限により解像度とフレーム数を下げています
※sore2は人物画像の入力ができませんので、人物を除いた画像を使用しました

生成結果

Wan2.2 5B

かなり乱れた映像になります。プロンプトの内容を実施しようとした努力は感じられますが、一貫性を保つのが難しいイメージ。

Wan2.2 14B

5Bに比べるとかなり改善されていますが、動きの大きいシーンがやや苦手な印象。一貫性があるようにも思えますが、乱れることもありますので、ガチャ的な側面が強いようにも思います。使用するシーンを選ぶか、プロンプトの作り込みにより改善する可能性は感じます。

Veo3

非常に素直な映像になります。カメラワークや全体の動きはやや大人し目になりますが、プロンプト通りという解釈もできますので、概ね良い印象の動画になっています。モデル自体が無難な印象です。

Sora2

プロンプトを元にした作品を作ってくれます。映像素材を生成するのはなく、ショート作品を生産するのに特化しているような印象ですが、プロンプトの作り方の工夫で使い所は多くありそうです。発想力の強いモデルの印象。

Wan2.5

Wan2.2から大きく改善されて、プロンプトに対しても素直な反応です。ただ、カメラワークが活発で、寄ったり引いたりのアクションが大きい印象です。

Vidu Q2

映像が映画的な表現になる印象です。動きも素直で良い印象です。カメラワークに手持ち感があり、ブレが強くでることがあるようです。PVではなく映像作品向けの印象。

Seedance Lite

素直なモデルかと思いきや、思い通りにはいかないモデル、軽量モデル故のことなのかもしれませんが、とりあえず試すには良いモデルと思います。

Seedance Pro

シーンの最後に車がいなくなりましたが、それ以外は素直な印象。プロンプトの工夫をすればしっかり描いてくれそうな気がします。

主観による評価

評価: 良い ☆>◎>◯>△>✕ 悪い

モデル名動きの滑らかさプロンプトの効き一貫性映像の自然さ備考
Wan2.2 5B画が壊れる
Wan2.2 14B慣れが必要?
Veo3カメラワーク大人し目
Sora2カット多め
Wan2.5アクティブなカメラワーク
Vidu Q2手ブレ感強い
Seedance Liteお試し的な感じ
Seedance Pro無難な印象

※評価、備考は主観を元に独断と偏見でつけさせて頂いております。予めご了承ください。
※原則として、生成初発のものを評価として使用しております。

まとめ

現時点での動画生成について比較してみました。比較するとクラウド型のI2Vモデルが優れた結果となりました。
特に動きの滑らかさや映像の一貫性においてローカルモデルを上回っているのは確実のようです。
ただ、クラウドサービスには利用規約上の制限があり、一部の表現(身体表現・衣装・創作的な演出など)が生成できない場合もあり、すべての作品がクラウドで生成できるという訳でもありません。

また、「想像した通りの映像」に仕上げるためには、プロンプトや入力イメージの設計に多くの試行錯誤が必要であり、最終的には人のディレクションや編集が必要になる場面の考えられます。しかしながら、
「とりあえず動画にしてみよう」
というアプローチができるようになったのは、大きな変換点とも言えるのではないかと考えています。

I2Vは、誰でも手軽に映像を生み出せる時代を拓きました。生成してみて面白いんですよね。クセになりそうです。
しかし、出来上がった映像が“意図を正確に伝える映像”であるかと、問われると、それは必ずしもYESとは言えないものかもしれません。
映像は伝える道具として素晴らしいものです。AIの登場によりその道具を生産する選択肢が増えたことは大いに歓迎すべきことだと思います。AIの進化を考えるとこれからも、ものすごい速度で進化するのだと思います。
今後も未来に期待しながら、いろいろ試していきたいと思います。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
目次