はじめに:略語だらけで挫折するのは普通です
生成AIの話を聞く機会が増えました。ところが、いざ記事を読んでみると、
T2I、I2V、、、と略語ばかり出てきて、途中から何を言っているのかわからなくなる。これは、とてもよくある話です。
でも安心してください。理解力の問題ではありません。単に「略語を読むための入口」がないだけです。
この記事では、生成AIの全体像をざっくり押さえた上で、特につまずきやすい 画像・映像の略語(T2I/I2Vなど)を中心に整理します。読み終わる頃には、略語が“記号”ではなくなり、生成AIの記事が以前よりスッと読めるようになります。
まず、生成AIって、結局なに?(まず全体像)
生成AIとは、ざっくり言えば 「入力したものから、新しい出力を作るツール」です。
生成できるものは多くありますが、例えば以下のようなものがあります。
- 文章:要約、翻訳、下書き、台本づくり
- コード:自動化スクリプト、制作補助ツール
- 画像:生成、変換、修復
- 動画:生成、変換、補完
- 音声:読み上げ、文字起こし
- 音楽:BGM生成 など
もちろん、他にもいろいろばな分野で開発が進んでおり、どんどん種類も増えています。
何かの指示(文章や文字、画像や音声)から何らかの結果(文章や文字、画像や音声)を生成するものということになります。これまでの多くの変換ツールでは、文字から文字映像から映像といった同じ分野のものに変換が行われていことが多かったのですが、異なる分野への変換が行えるようになったというのが新しい点になると思います。

どんなものがあるのか? 左が入力、右が出力
様々な変換が行えるようになると、何を何に変換するツールであるかが重要になります。そこで表記されるのが、最初に出てきた T2I という表記になります。
この T2I を例にとると、
T:TEXT 文字、文章
2:to 左から右へという繋ぎ
I:IMAGE 画像、静止画(写真・イラスト)
ということになります。
つまり、文字から画像への変換です

それぞれの文字は以下のものを表すことが多いです。
| 略称 | 名前 | 意味 |
| T | TEXT | 文字、キーワード、文章 |
| I | IMAGE | 画像、イラスト、写真 |
| V | VIDEO | 動画、ビデオ |
これらの組み合わせで、どのような処理が行われるのかを表しています。
以下で、この3つに関連するものを解説していきます。
T2I(Text to Image):文章 → 画像
最も基本的な画像生成です。文章(プロンプト)を入れると、画像が出てきます。
・企画ラフを作る
・世界観を探る
・イメージカットを作る
「生成AI=画像生成」という印象が強いのは、このT2Iのインパクトが強かったのだと思います。これまで人間だけが行ってきた文字情報からのヴィジュアル作成という行為が行えるようになったのは、正直私も驚きました。
I2I(Image to Image):画像 → 画像
I2Iは、元になる画像を入力にします。つまり「ゼロから作る」ではなく「画像を変換する」使い方です。「編集」という呼ばれ方で解説されることもあります。
・写真をイラスト風にする
・雰囲気、パーツ(服、背景)だけ変える
・破綻部分を修復する(古い写真風にする)
これまでPhotoshopで行ってきたような編集と違い、無いものを付けたり、見えないものを描画したりと実に編集の幅を大きく広げることができるようになりました。
T2V(Text to Video):文章 → 動画
文章から動画を作るのがT2Vです。画期的です、自由度が広いので楽しさと驚きがありますが、狙った映像を作るのは少々難易度が高い傾向にあります。難しいこともある
広告・製品・説明用途では、使いづらい面もありますが、アイデア出しやイメージ確認、ムード確認としては非常に有用なツールになっていると感じます。
今後大きく変わる分野かもしれません。
I2V(Image to Video):画像 → 動画
画像を指定して、そこから(あるいはそこまで)の動きを指定して動画を生成するのがI2Vです。
I2Vは、T2Vよりも狙った構図や画像が指定できるので、業務で使用する場合は有力候補になります。
・形状を崩さない
・構図や背景を指定したい
・既存ビジュアルのトーンを守りたい
現状ではスタートフレームのみ指定するものと、スタート・エンドフレームを指定できるものがあります。
V2V(Video to Video):動画 → 動画
既存の映像を参考にして、映像を出力する方式です。
・画風を変える
・質感・雰囲気を変換する
・動きを参考にして、見た目を変える
今後、多くのモデルが期待される分野です。
ここまでは、映像系の生成AIについてまとめましたが、他に生成されるものについてもまとめてみます。

文章・コード生成:画像や動画だけではない
生成AIは画像・動画だけではありません。仕事で効きやすいのは、文章とコードの生成です。
文章生成でできること
- 要約(長文を短く)
- 翻訳
- 文章の下書き
- 構成案
- 台本・ナレーション原稿
文章生成は「完成品を作る」というより、叩き台を速く作る用途で真価を発揮します。
コード生成でできること
コード生成は、制作業務の“地味な手間”を減らします。
- プログラムの作成
- 自動処理のバッチや、マクロの作成
- Webページのソースコードの作成
- スプレッドシートの自動処理
- ログ解析や集計
生成AIを使うと、こうした小さなツールを「作りたい内容を説明するだけ」で形にできます。
音声生成:読み上げと文字起こし
読み上げ(ナレーション作成)
文章から音声を作る技術があり、一般にTTS(Text to Speech)と呼ばれます。
音声化ツールは以前からありましたが、違和感ないイントネーションや流暢に喋るようになってきました。
文字起こし(議事録・字幕)
音声から文章にするのがSTT(Speech to Text)です。
会議の議事録やインタビュー文字起こし、字幕のベース作成などにも使われます。
音楽生成:BGMも作れる
文章からBGMや曲を作れるサービスも出てきています。ただし音楽は画像・映像よりも権利面が複雑なので、入門段階ではこう覚えるのが安全です。
- BGMを作れるサービスがある
- 商用利用の可否はサービス規約次第
- 無料プランでは制限があるケースもある
- 既存曲に似るリスクがゼロではない
さて、生成AIで、いろいろな事が出来るのががわかったかと思います。
次に、そのような便利なことが出来る生成AIを使う際に、必要となる知識について、お話しておきたいと思います。
「モデル」と「サービス」は別物
生成AIでは、学習した内容を「モデル」という形式で保持しています。このモデルを使用して何らかの成果物を生成するものが「サービス」です。適切なモデルを選択することが生成物のクオリティに大きく影響しますので、このあたりについても少し触れておきたいと思います。
モデル=生成のクセ(得意分野)
モデルとは生成の頭脳にあたるものです。画風だけではなく、どんなものを学んだかにより違いがでます。
・テイスト 実写・イラスト
・対象物 人物・自動車・風景等
・発色 画像の色合いや明るさ
・生成の種類 T2I、I2I(テキストから生成するのか、画像を編集するのか)
生成する画像や映像に最適な「モデル」を選択することになり、モデルにより、解像度や生成時間(コスト)も変わってきます。
サービス=使い方と契約
サービスは「モデルを使える場所」です。
ローカルで実行する場合はハード、ソフトを用意する必要がありますが、気軽に生成したい場合や最新のモデルを試したい場合は、クラウドのサービスを活用するほうが良いと思います。
サービスの選定は下記を基準にご自身がつかいやすいと感じるものを選んでください。
・料金
・使い勝手
・生成時間
・保存や共有の仕組み
・規約(商用利用など)
同じモデルでも、サービスが違えば条件も運用も変わってきます。
クラウドサービス
・Gemini https://gemini.google.com/
・Higgdfield https://higgsfield.ai/
・SousakuAI https://sousaku.ai/
・Pollo AI https://pollo.ai/
・Genspark https://www.genspark.ai/
権利・商用利用
生成AIで作ったものを仕事で使う場合、重要なのは「そのサービスが商用利用を許可しているか」です。モデルの能力とは別の話になります。入力素材にも注意が必要です。
- 他社ロゴ
- 著作権や権利を有するもの(商標、特許等を含む)
- キャラクター
- 他人の写真(人物の場合、肖像権や利用の許諾の有無)
- 著作物にあたる画像や音源
「生成したから安全」とは限りません。入力の時点で権利物を入れてしまうとトラブルの原因になります。音楽は特に扱いが複雑で、サービス規約も重要になります。「仮BGM」用途から始めるのが安全です。
また、生成した画像や生成物に関しては、利用者(生成者)が責任を持つ(権利をもつではない)という趣旨の規約が含まれているものもありますので、商用として利用する際は、しっかり確認しておくことをおすすめします。
おわりに:次の一歩へ
いかがでしょうか?
まずは、生成AIと、それに関する言葉を簡単にまとめてみました。会社からは「AIを使って効率化せよ」という指示をうけてどうして良いのかわからない方もいるのかもしれません。生成AIは使い方次第で様々に効率化を行うことが出来ます。しかしながら「コスト」「効率化」のみを目的としてしまうと、本来のAIの便利な部分が危険なものに変わってしまう可能性も大いにあります。
今回は、映像に寄った内容でご紹介しましたが、また機会を作り、AIに関する他の部分もお話できるようにしたいと思います。
※本記事は一般的な情報提供を目的としており、各サービスの規約や法的判断を保証するものではありません。商用利用時は必ず最新の利用規約をご確認ください。

石水修司 株式会社フィジカルアイ代表/Adobe Community Expert
ベーマガに熱中した少年時代から、ベータカム時代の映像制作を経て、現在は3DCG制作のプロとして生成AI技術を活用した映像表現を手がけている。
Lancer of the Year 2016、CGWORLD「CGごはん」選外優秀賞。今治市在住。