ChatGPTに画像生成用のプロンプトを作ってもらってますか?
私も普段からChatGPTにプロンプトを作ってもらっています。
AI画像生成を試してみて、『2人以上の人物を描いてほしいのに、なぜか顔やポーズが混ざってしまった』という経験はありませんか?
AIツールは便利ですが、簡単な指示を出すだけでは、期待した結果にならないことがあります。
特に2人以上のキャラクターを含む画像では、プロンプトの構成が曖昧だと、要素が混ざりやすいという課題が顕著です。しかし、この問題はプロンプトの工夫次第で解決できる可能性があります。
今回は、ChatGPTが生成するプロンプト構造を解説しながら、混ざりを防ぐための自分流のプロンプト工夫や、それをChatGPTと一緒に作り上げる方法を紹介します。手間が少しかかりますが、最後まで読んでみてください。
ChatGPTの作るプロンプトの構造を解説
ChatGPTは、画像生成用のプロンプトを考える際、とても便利なツールです。短いキーワードを渡すだけで、ある程度詳細なプロンプトを生成してくれるため、初心者でも簡単に始められるのが大きな利点です。
しかし、ChatGPT任せのプロンプトにはいくつかの特徴があり、それが結果に影響を与える場合があります。ここでは、ChatGPTが生成するプロンプトの構造を分解してみます。
ChatGPTのプロンプト構造の基本
ChatGPTに構造を聞くと、こう教えてくれます。
プロンプトの基本構造
1. 主題の明確化描きたい主な対象(例: 人物、風景、物体)を明示します。
例: 「公園で本を読んでいる若い女性」
2. 詳細な描写対象の特徴(年齢、性別、服装、表情など)を具体的に記述します。
例: 「20代、ブラウンのボブヘア、白いワンピース、笑顔で本を読んでいる」
3. 背景や環境対象がいる場所や雰囲気を説明します。
例: 「木漏れ日の差し込む緑豊かな公園、ベンチに座っている」
4. 色調やスタイル使用する色彩、雰囲気、アートスタイルを指定します。
例: 「暖かいトーン、柔らかい水彩画風」
5. アクションや雰囲気動きや全体的な空気感を加えるとさらに具体的になります。
例: 「風でページが少し揺れている」
6. オプションの制約必要に応じて避けたい要素を記述します。
例: 「背景に建物は不要」
効果的なプロンプトの例
1. 人物画の場合
A 20-year-old woman with shoulder-length brown hair, wearing a white sundress, sitting on a wooden bench in a lush green park. She is smiling gently while holding an open book, with soft sunlight filtering through the trees. The style is warm and painterly, resembling a watercolor painting.
2. 風景画の場合
A serene mountain landscape at sunrise, with mist rolling over the hills and a calm lake reflecting the golden hues of the sky. Pine trees line the foreground, and a small wooden cabin is visible in the distance. The atmosphere is tranquil and enchanting, painted in a realistic style.
3. ファンタジーアートの場合
A mystical forest with glowing mushrooms and magical fireflies. A small, ancient stone bridge spans a sparkling river, with a fairy resting on the edge. The scene is illuminated by soft blue and green lights, creating an ethereal atmosphere, in a highly detailed digital art style.
プロンプト作成のコツ
1. 具体的であること「美しい女性」ではなく、「金髪のロングヘア、青い瞳、花の冠をつけた20代の女性」のように詳細に書く。
2. 視覚的な要素を意識する「青空」ではなく、「雲ひとつない濃い青の空」のように色や質感を明確にする。
3. スタイルを明示する「油絵風」「デジタルアート」「漫画スタイル」など、希望するアートスタイルを記述する。
4. 長さを調整する必要以上に長くならないようにし、重要な要素を絞り込む。
5. 修正を繰り返す結果が思い通りでない場合、細部を調整して再度生成する。
ChatGPTプロンプトの特徴と課題
特徴:
ChatGPTはこれらの要素を組み合わせ、短い指示からでも全体のプロンプトを構築します。そのため、具体的なイメージがなくても、スタート地点として非常に便利です。
課題:
ただし、プロンプトが曖昧なままだと、生成される内容に要素の混ざりや誤解が生じる場合があります。DALL·Eでは生成されても、他の画像生成ツールでは複数のキャラクターが登場する場合、「誰が何をしているか」が不明瞭になることが多いです。
考えられる理由:
簡潔にまとめられたプロンプトだと曖昧な部分をAIが想像する事でおこる間違いだと考えられます。また他の画像生成ツールでも相手もAIなので書かれていない行間の想像の仕方の違いで結果が大きく変わることがあると考えられます。
このように、ChatGPTに作ってもらうプロンプトは完成度が高いですが、そのままでは限界があることも事実です。次のセクションでは、この課題を解決するための自分流の工夫を紹介します。
自分流のプロンプトの構造と解説
自分流のプロンプト工夫で混乱を防ぐ方法
ChatGPT任せのプロンプトでは、「2人以上のキャラクターが混ざる」といった課題が起きやすいことをお伝えしました。そこで、この問題を解決するために、自分流のプロンプト構造を紹介します。この方法を使えば、要素を明確に分け、混乱を防ぐことができます。
簡単に説明すると?
「キャラクターごとに詳細を書き分けること」です。たとえば、以下のように記述することで、各キャラクターを明確に区別できます:
キャラクター1:20代の女性、肩までの茶髪、白いワンピース、笑顔で読書中。キャラクター2:30代の男性、黒いスーツ、メガネをかけて、腕を組んで立っている。
このように、「誰がどのような姿で、何をしているか」をはっきりさせることで、AIが行間を読み違えるリスクを減らします。
ChatGPTとの違い
ChatGPTが生成するプロンプトと、自分流のプロンプトにはいくつかの違いがあります。その中で特に注目すべきは、「セクションの順番」です。
ChatGPTが生成するプロンプトでは、スタイルやテーマが最後に来ることが多いです。しかし、実際に試してみると、スタイルを最初に持ってくると、イメージ通りの結果が得られることが多いと感じました。たとえば、以下のようにスタイルを明示してから詳細を記述することで、生成される画像がぐっと期待に近づきます。
例:「鮮やかなアニメ調」「一眼レフ風のリアルな描写」その後に、キャラクターや背景の詳細を追記。
この順序の違いは、AIがスタイルを最優先で解釈するためではないかと考えられます。詳細な理由は不明ですが、スタイルを最初に指定する方法をぜひ試してみてください。
プロンプトを整理するフォーマット
以下は、プロンプトを分かりやすく整理するためのフォーマットです。この構造に沿って記述すると、明確で具体的な指示が可能になります。
1. スタイル (Style): 例: 「鮮やかなアニメ調」「リアルな写真風」「印象派の絵画風」 → 画像全体の見た目や質感を指定します。
2. テーマ (Theme): 例: 「未来的な都市」「穏やかな日常」「幻想的な自然風景」 → 画像の背景となる雰囲気やコンセプトを示します。
3. 簡単なイメージ (Basic Elements): 例: 「2人のキャラクターが剣を構えて対峙している場面」「1人が川辺で本を読んでいる」 → 登場人物や背景の概要をざっくり説明します。
4. キャラクター詳細 (Character Details): キャラクター1: - 性別、年齢、髪型、服装、表情、ポーズなど。 キャラクター2(必要なら追加): - 同様に詳細を記載します。
5. 背景の要素 (Background Elements): 例: 森、街、室内などの環境。時間帯や天候(朝、夕方、晴れ、霧など)も指定。 → キャラクターを際立たせる背景を具体的に記述します。
6. アングル (Angle): 例: 「俯瞰視点」「クローズアップ」「正面」 → 視点やカメラ位置を指定します。
7. 仕上げの詳細 (Final Touch Details): 例: 光の質感(柔らかい光、逆光)、色彩(鮮やか、モノクロ)、特殊効果(被写界深度、ぼかし)。 → 最後に全体の仕上がりを具体化します。
実例でプロンプトを読み解く
例として、アニメ風の男女を描くプロンプトを分析してみましょう:
プロンプト例:
"An anime-style illustration with vibrant and clean line art, featuring a young man and woman in a cheerful and dynamic scene. The man has short, messy black hair and wears a casual white shirt and dark jeans, standing confidently with a friendly smile. The woman has long, flowing brown hair tied in a loose ponytail, wearing a light summer dress in pastel colors, laughing while holding a small bouquet of flowers. The background is a sunny park with blooming flowers, green trees, and a clear blue sky. The camera angle captures the scene from a slightly lower perspective, emphasizing the characters against the bright and colorful environment, with soft sunlight streaming through the trees."
このプロンプトを以下の構造に分解してみます:
スタイル: 「アニメ調」「鮮やかでクリーンな線画」
テーマ: 「明るく楽しいシーン」
簡単なイメージ: 「若い男女が楽しく動きのあるシーン」
キャラクター詳細: - 男性: 短く乱れた黒髪、カジュアルな服装、フレンドリーな笑顔。 - 女性: 長い茶髪、パステルカラーの夏服、楽しそうな笑顔、小さな花束を持っている。
背景の要素: 「晴れた公園、咲き誇る花々、緑豊かな木々、青空」
アングル: 「やや下からの視点」
仕上げ: 「木々を通して柔らかな日光」「明るくカラフルな環境」
※Midjourneyは特殊でプロンプト構造では指示通りにいかないことが多い。
ChatGPTでプロンプトを作るために
ここまでで、自分流のプロンプト構造を活用する方法を解説しました。次は、この構造をChatGPTと一緒に使いながら、理想のプロンプトを作り上げる具体的なステップを紹介します。
1. 構造をコピーペーストしてChatGPTにインプットする
まず、大枠を設定します。これまで紹介したプロンプト構造をそのままChatGPTに入力します。以下のように具体的な要望を伝えると、よりスムーズです。
例:「以下のフォーマットに沿って、2人のキャラクターが登場するプロンプトを書いてください。」(プロンプトフォーマットをそのまま貼り付ける)この手順により、ChatGPTがあなたの希望する構造を理解しやすくなります。
2. 書きたいイメージを伝える
フォーマットをインプットした後、具体的なイメージをChatGPTに伝えます。例:「若い男女が晴れた公園で楽しそうにしている場面を描きたいです。男性はカジュアルな服装、女性は夏らしいドレスを着ています。背景には木々と花があり、光が差し込んでいます。」この時点で、ChatGPTが基本的なプロンプトを生成してくれるはずです。
3. 修正を重ねる
生成されたプロンプトを確認し、必要に応じて修正を依頼します。具体的なフィードバックを出すことで、プロンプトの精度がさらに向上します。
修正依頼の例:「男性キャラクターの服装をもう少しフォーマルにしてください。」「背景に花をもっと目立たせてください。」「アニメ調のスタイルをもっと鮮やかに表現してください。」
修正を繰り返すことで、より理想に近いプロンプトを完成させることができます。
4. 画像生成ツールやChatGPTに画像生成してもらう
完成したプロンプトを使って、画像生成ツールに入力します。たとえば、DALL·EやStable MidJourneyなどのツールを活用します。
ChatGPTに直接「このプロンプトを使って画像生成ツールで試すにはどうすればよいか?」と質問することで、アドバイスを得ることも可能ですが、参考程度です。
5. 納得できるまで繰り返す
生成された画像を確認し、さらに改善が必要であればプロンプトを微調整します。このプロセスを何度か繰り返すことで、納得のいく結果にたどり着けます。
注意:ブラウザ版の画像生成ツールを想定しているのでアスペクト比やツールによるバージョンについては想定していません。
必要に応じて、ChatGPTに再度フィードバックを依頼しましょう。
このように、ChatGPTとのやり取りを通じてプロンプトを作り上げることで、AI画像生成の可能性を最大限に引き出せます。次のセクションでは、このプロセス全体のまとめと、プロンプト構造のデメリットについて解説します。
このプロンプト構造のデメリットとまとめ
ここまで、ChatGPTと一緒にプロンプトを作り上げる手順や、自分流のプロンプト構造を活用する方法を紹介しました。この方法を使うことで、2人以上のキャラクターが混ざる問題を解決し、よりイメージ通りの画像を生成できる可能性が高まります。
しかし、このプロンプト構造にはメリットだけでなく、いくつかのデメリットもあります。それらを踏まえて、自分のスタイルに合った方法を選ぶことが大切です。
デメリット
プロンプトが長文になりやすい
この構造の最大のデメリットは、プロンプトが長文になりやすいという点です。
1. 入力の手間が増える
詳細に書き分けるため、ChatGPTや画像生成ツールに入力する作業が煩雑になることがあります。特に、複数のキャラクターや背景要素を含む場合、長文プロンプトになるのは避けられません。
2. ツールによっては処理しにくい場合がある
一部の画像生成ツールでは、長文のプロンプトが正確に解釈されない場合があります。特に文字数制限があるツールや、過度に複雑な構造を苦手とするツールでは、結果が思った通りにならないことも。
一応の解決策
ChatGPTに「必要な要素を残し簡略化してください」と指示する事で多少簡略化されたプロンプトが作られます。画像の生成結果はさほど変わらない画像が生成されます。しかし、前述した通り行間をAIが想像するのでイメージと違う場合もあります。
この自分流の長文プロンプトは行き詰まったときに視点を変えるくらいの感覚で試してみてください。
最後に
AI画像生成は、プロンプト次第で結果が大きく変わります。今回紹介した方法は初心者からの一歩くらいなものです。最初は試行錯誤しながら進めてみてください。
「スタイルを最初に指定する」「キャラクターごとに詳細を書き分ける」これくらいの事を長々と書きましたが、ぜひ、自分流のプロンプト作成に挑戦してみてください。