はじめに
生成AIを使って映像を作ろうとしたとき、静止画と動画ではプロンプトの書き方が違うことに戸惑う場面がありました。同じ言葉で指示しても、AIが受け取る内容や解釈の仕方は変わります。
そこで本記事では、静止画生成と動画生成それぞれでのプロンプトの考え方と書き方を整理し、例文を交えてまとめてみたいと思います。
なお、ここでの動画生成は、i2v(静止画から動画の生成)を解説します。
静止画プロンプトの特徴と書き方
静止画は「写真家の視点」で、一瞬の完成度を重視します。
被写体・構図・光・質感・カメラ設定を順に記述することで、イメージが安定します。
プロンプト例
A young Japanese woman relaxing in a modern living room,
wearing a thin summer dress.
Soft daylight comes through large windows,
creating a calm and airy atmosphere.
Cinematic photo, shallow depth of field, 50mm lens, natural color tone.
Background: modern furniture and minimal decorations.
【日本語訳】
モダンなリビングルームでくつろぐ若い日本人女性。
薄手のサマードレスを着ています。
大きな窓から柔らかな日差しが差し込み、
穏やかで風通しの良い雰囲気を醸し出しています。
映画のような写真、浅い被写界深度、50mmレンズ、自然な色調。
背景:モダンな家具とミニマルな装飾。
解説(書き方の観点):
・冒頭で主題を明確に:「誰が・どこで・どうしているか」を最初に書く
・服装を具体的に:「thin summer dress」など素材感を表現すると安定
・光源を次に書く:「daylight through large windows」で環境光を決定
・質感・スタイルを補足:「cinematic」「shallow depth of field」で方向性を固定
・背景を最後に添える:AIに「生活感のあるシーン」を理解させやすい
生成結果

動画プロンプトの特徴と書き方
動画は「映画監督の視点」で、時間の流れや動作を設計します。
被写体の初期状態 → 動作のきっかけ → 動作の変化 → カメラワーク → 全体の尺・雰囲気、という順番で書くと自然な映像になります。
プロンプト例
A young Japanese woman is sitting in a modern living room,
wearing a thin summer dress and relaxing on a sofa.
She gently stretches her arms, then leans back with a soft smile.
The camera starts with a wide shot and slowly moves closer over 5 seconds,
focusing on her relaxed expression.
Curtains move slightly with the breeze.
cinematic, smooth natural movement.
【日本語訳】
モダンなリビングルームで、若い日本人女性が薄手のサマードレスを着てソファにゆったりと腰掛けています。
彼女は優しく腕を伸ばし、柔らかな微笑みを浮かべながら後ろにもたれかかります。
カメラはワイドショットから始まり、5秒かけてゆっくりとクローズアップし、
彼女のリラックスした表情に焦点を合わせます。
カーテンが風に揺れています。
映画のような滑らかで自然な動き。
解説(書き方の観点):
・初期状態を設定:「sitting in a modern living room」で落ち着いた始まりを作る
・動作を順番で書く:「stretches arms → leans back → smiles」などシーケンスで記述
・カメラ+時間をセットで指示:「wide shot → 5秒かけて closer」など具体化
・小さな環境変化を加える:「curtains move slightly」でリアル感を増す
・最後にまとめ:映像全体の雰囲気を記載する
生成結果
編集プロンプト例(Edit系)
nano bananaや、QwenImageEditのような編集・修正を行う場合には、変更点と保持点を明確に書きます。
短文・命令文で一文一指示にするのがポイントです。
プロンプト例
Change the woman’s clothes to a white dress.
replace the background with a vintage-style room and the time was changed to evening.
keep woman’s pose.
【日本語訳】
女性の服装を白いドレスに変更します。
背景をヴィンテージ風の部屋に置き換え、時間を夕方に変更します。
女性のポーズはそのままにします。
解説(書き方の観点):
・動詞を先頭に置く(Change / Replace / Keep)
・変更点と保持点を分けることで不要な改変を防ぐ
・短文で書くとAIの解釈が安定
生成結果

プロンプトのまとめ
静止画、動画のプロンプトの違いをまとめると以下のようになります。
動画生成は、i2vを前提にしていますので、t2vの場合には、この2つを同時に記載するようになりますが、はじめに静止画向けのプロンプトと同様に画面の説明を行い、その後に動きの説明を記載していきます。
制作業務でのワークフローを考えてみた
では、実際の業務に動画生成AIを使用する場合は、以下のようなワークフローが現実的だと思います。
静止画生成 ⇒ 編集 ⇒ 動画生成
どのステップにおいても、トライ&エラーが発生しますし、プロンプトの応答性については、モデルに依存する部分も大きいと思います。特殊な動きや造形が求められる場合は、別途LoRAの制作も必要になることが考えられます。
従来の映像制作から生成AIに変わると、効率化できる部分もありますが、新しく発生する工程もありますので、単純に時間短縮とも言い切れないのが現実だと感じます。
けれども、モデル自体の性能向上や、新しいサービスの公開などが頻発している現在、AIにより映像制作が変わっていくのは間違いないことだと言えます。
過度の期待もせず、過度の過信もせず、「伝えたい事は何か」を軸に映像を作っていくという事は変わらずに続けていきたいと思います。