実写系LoRA制作のポイント(1)

実写系のLoRAを作る手順とその際の考え方をまとめてみます。
なお、本記事の内容は私どもがLoRAを開発する際のもので、必ずしもこの方法がベストというものではありません。
また、実在する人物・団体・商品等の画像を学習に使用することは肖像権・商標等を侵害する可能性がありますので、事前に権利者の許諾を得る等の準備を行ってください。

目次

素材の準備

まず、学習元となる写真素材を用意します。写真素材のクオリティが最終の生成画像のクオリティに強く影響します。学習素材の選定はしっかり行う必要があります。特に下記に気をつけて素材を用意してください。

写真素材

写真のクオリティ

ピンボケや、被写体ブレ、手ブレ等、対象物のエッジや形が正確に表現されていないものは除きます。
表現するべき被写体の特徴や、認識できる特徴が含まれている画像を選択します。
学習素材の画像に権利(著作権、商標、肖像権等)が含まれている可能性がある場合は、学習を行う前に許諾をとる等の準備は忘れてはいけません。また素材の入手先やその際のライセンスなどがあればまとめて記録しておくと良いと思います。

画像サイズ

SD:512x512、768x768
SDXL:1024x1024


縦横を1:1にする必要はないのですが、統一している方が安定した画像が生成される印象がありますので、できる限り統一するようにしています。

明るさ(露出)

露出、色温度については、大きくぶれないように調整します。極端に明るかったり、暗いものを調整するイメージです。色温度に関しても同様に調整します。夕焼けの写真と昼間の写真が混在しない方が仕上がりのクオリティが安定します。どうしても混在する場合は、素材のタグ付けで明示する方法もあるかもしれませんが、ベースに使用するモデルにない概念の場合は仕上がりに反映されない可能性もあります。

構図

引きの画が多い場合は、その構図で学習しますので、表現したい構図を多めに含めて用意します。
人物の場合、アップのみで学習させた場合、最終的な画像もアップが多くなってしまいます。なるべく様々な角度、様々な大きさで素材を集めた方が、最終的な画像生成で柔軟性のあるLoRAになります。

ゆがみ(撮影時の焦点距離など)

広角と望遠を混ぜてしまうと、被写体の歪みも含めて学習してしまうので、対象物の大きさ、構図によりある程度は統一している方が望ましいと思います。特に広角での見上げの構図等が多い場合は、広角独特の歪みが生じるLoRAになります。背景が広角ではないのに被写体が広角っぽい描画になってしまうと違和感が残ってしまいますので、気をつけたいポイントになります。

その他、過去の記事でも解説していますので、参考にしてください。

タグ付け

写真が用意できたら、次はその写真が意味するものを言語化します。この言語化されたキーワードを元に学習が進められますので重要な工程になります。

フォルダとテキストファイル

フォルダ名を「学習回数_トリガワード」で作成します。トリガワードとはこのフォルダに含まれている画像が何の概念であるかを指します。わかりやすく言うと、このトリガワードをプロンプトで使用することで画像中にこの概念を出現させることができるようになります。
そして、このフォルダの中に、連番にリネームした写真素材を保存します。写真素材と同じ名前のテキストファイルを用意し、タグを書き込みます。タグの書き方は、下記のようになります。

トリガワード,要素01,要素02,要素03,・・・・

冒頭にトリガワードを記載し、続いてキーワードを書いていきます。SDXLの場合、単にキーワードを羅列するよりも短めの端的な文章で構成する方が良好な結果が得られることが多いように思います。
実際の作業については、kohya_ssやWeb UIの Dataset Tag Editor等のツールを使ってタグ付けの作業を行います。(この作業の詳細についてはここでは省略させて頂きます)

タグ付けの考え方

タグ付けは、画像を学習させるための大切な工程になり、ツールを使ってタグつけを行った後に、キーワードや文章について修正を行っていきます。これは全ての画像ファイルについて行っていきますので、時間と手間のかかる工程になりますが、出来上がりのクオリティに影響を与えますので、じっくり取り組んでください。
では、タグの付け方に関する考え方ですが、下記のようになります。

画像から何を学習させるものは、何なのか、冒頭に書く
トリガワードで指定します

画像の中から学習してほしくない要素を書く
画像の中に出てくるもので、概念として学習してほしくないものを記載します。

画像に含まれていない要素を消す
画像に含まれていないけれど、ツールの処理で書き込まれてしまった「含まれない概念」を削除します

重複しているキーワードをまとめる
キーワードの中で重複している概念は、大雑把な表現の方を削除してまとめます。

キーワードの文字数はが多すぎても好ましくないようですので、~150文字くらいを目安にしています。

次回

次回は、LoRA制作で使用するツール「kohya_ss」の設定のポイントについてまとめてみたいと思います。

追記(2024/4/4)記事公開しました。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
目次