はじめに
生成AIによる動画生成モデル Wan2.2 は、現時点ではローカルで稼働できるモデルとして最も実用性の高いI2V(Image-to-Video)モデルの一つです。しかし、GPU環境によって出力品質やフレーム長は大きく変わります。本記事では、RTX3090(24GB)環境 で実際に生成したデータをもとに、「どの解像度・フレーム数まで生成できるか」を検証しました。
検証環境
以下の条件で生成を行いました。
ハードウェア環境
OS:Windows11 pro
CPU:Ryzen9 5950X
メモリ:64GB
GPU:GeforceRTX3090(VRAM 24GB)
使用モデル・ソフトウェア
・Wan2.2 14B
・Wan2.2 5B
・Wan2.2 14B 6Q GGUF
・ComfyUI v3.37
生成動画
縦横比が違うタイプは表示が異なりますが下記の静止画を開始フレームとして動画を生成しました。

結果
Wan2.2 14B
縦横比 | 解像度 | フレーム数 | 結果 |
16:9 | 1280*720 | 120 | ❌️ ボケ、ブレ |
16:9 | 1280*720 | 109 | ◎ 問題なし |
16:9 | 1152*640 | 149 | ❌️ ブレ |
16:9 | 1152*640 | 129 | ◎ 問題なし |
16:9 | 1024*576 | 181 | ❌️ ボケ、ブレ |
16:9 | 1024*576 | 161 | ◎ 問題なし |
1:1 | 1024*1024 | 109 | ❌️ ブレ |
1:1 | 1024*1024 | 89 | ◎ 問題なし |
1:1 | 960*960 | 109 | ❌️ ブレ |
1:1 | 960*960 | 81 | ◎ 問題なし |
1:1 | 768*768 | 161 | ❌️ ブレ |
1:1 | 768*768 | 121 | ◎ 問題なし |
Wan2.2 5B
縦横比 | 解像度 | フレーム数 | 結果 |
16:9 | 1920*1088 | 301 | ❌️ ボケ、ブレ |
16:9 | 1920*1088 | 281 | ◎ 生成可能 |
5Bでは、生成される映像にボケやブレは無いが、動きが乱れることが多かった。
Wan2.2 14B 6Q GGUF
縦横比 | 解像度 | フレーム数 | 結果 |
16:9 | 1280*720 | 180 | ❌️ エラー |
16:9 | 1280*720 | 161 | ◎ 問題なし |
16:9 | 1152*576 | 201 | ◎ 問題なし |
16:9 | 1024*576 | 221 | ◎ 問題なし |
1:1 | 1024*1024 | 161 | ❌️ エラー |
1:1 | 1024*1024 | 129 | ◎ 問題なし |
1:1 | 896*896 | 301 | ◎ 問題なし |
1:1 | 768*768 | 301 | ◎ 問題なし |
まとめ
解像度が高いほど、生成できるフレーム数は少なくります。これは予想通りでした。縦横比に関係ないようなので、計算式で生成可能なフレーム数の予想はできそうです。
長いフレームの生成を行い場合、動きがブレたり、ボケたりする現象が起きました。フレーム数を削減することで同プロンプトでブレとボケの改善が見られましたので、フレーム数が限界に近い場合に発生する現象ではないかと推測できます。
今回の試験では24フレーム/秒での動画を生成しています。14B-6Qで1280*720の解像度の場合、161フレーム生成可能で、6秒の映像となります。1カットが6秒では、本格的な映像作品に使用するにはやや短いように感じられます。
RTX3090(24GB)では、10秒以上のカットを生成するには5Bを使用するしかないのが現状のようです。
間違いなく言えることは、クラウドの方が生成が速いということですね。今後の生成はクラウドが主流になることは間違いないように思います。その中でローカル生成を行う必要があるのか、ローカル生成とクラウド生成の使い分けはどうなるのか等、まだまだこれから先に検証していくべき事は多いようです。