Stable Diffusion でプロンプトに複数の作家名を並べる理由について

2022年9月5日

Stable Diffusion, AI画像生成, prompt, Lexica, Greg Rutkowski, Alphonse Mucha, Artgerm, Tom Bagshaw

きっかけ

Stable Diffusion で生成した画像とプロンプトを同時に表示してくれておまけにプロンプト中のキーワード検索までできる Lexica というとても素晴らしいサイトがあります。

このサイトで心のおもむくままに画像をクリックしてプロンプトを眺めていると、大多数のプロンプトが 複数の作家の名前を並べている ということに気付きます。

「きっと複数の作家名を並べればいい感じになるんだろうなー」と想像はつくのですが理屈がわからないのが何かちょっと気持ち悪い。実際にどういう効果が得られるのかちゃんと知りたい。

ということで実際に作家の名前をあれこれ入れ替えながら画像を生成してみて、生成された画像を比較すれば「なぜ複数の作家名を並べるといいのか」「どんな効果があるのか」が明確にわかるんじゃなかろうか、というのが今回の調査のきっかけです。

登場する作家たち

今回の実験では、Artgerm, Tom Bagshaw, Greg Rutkowski, Alphonse Mucha という 4人の作家の組み合わせを用います。実際に Lexica でこの組み合わせで検索してみるとこの記事を書いている時点で 176 件ヒットします。

それぞれの作家について、現時点での Lexica 上でのヒット数を調べるとこんな感じになりました:

採用数的には Greg Rutkowski が頭一つ抜けていますね。実際いま Stable Diffusion を使っている人たちの間ではこの作家の名前は「鉄板のおまじない」として話題になっているようです。

プロンプト

実験に使ったプロンプトは、こんな感じです。

"{author}, photorealistic, highly detailed, digital painting, Skinny girl looking at her watch, blonde hair at Arc de Triomphe, the moon behind her. HDR"

「やせた金髪女性」「凱旋門」「月」「時計」の組み合わせを題材とした絵が出力されることを期待しています。
{author} のところに実験対象とする作家名が入ります。
- 作家名を一番先頭に記述することで、「できるだけ正確に題材を表現しているか」よりも「作家の持ち味を生かした絵を描いているか（題材はあくまでもヒント）」を狙っています。
- 実験の際にはこの部分を入れ替えます。
photorealistic, highly detailed, digital painting... HDR については作家を指定するとかなり影響が薄まってしまうので今回の実験ではあまり意味がないかもしれませんが、作家指定しない場合にはかなり効果的ということもあって追加しています。こちらの効果についは、最初の実験のパートで少し触れます。

実験の流れ

以下の流れで行きたいと思います。

作家を指定しない場合に出力される絵を確認する
4人の作家を1人ずつ指定して生成される絵を見て、各人の画風を確認する
4人全員を指定した場合の絵を確認する
特定の作家を抜いて生成される絵を見て、抜かれた作家の影響力を確認する

こんな感じで一つ一つ生成してみてその絵を眺めてみれば何かわかることがあるだろう、ということを期待しつつ開始します。

作家を指定しない場合

まずは題材のみを記述した場合どんな絵になるのかを確認しておきます。

題材のみ

絵じゃなくて写真になってしまいました。

ということでこれに digital painting を追加します。

+digital painting

はい。絵になりました。

かなり雑なべた塗りな感じがするので、「もうちょっと丁寧に！」の気持ちを込めて highly detailed を追加します。

+highly detailed

ちょっと細かく書いてくれました。

ここまでくると残りの photorealistic と HDR は追加してもあんまり変わらない印象だったりもします。

作家指定なし

感想

題材（やせた金髪女性、凱旋門、月、時計）の再現度
- 痩せた女性、凱旋門の要素はどの絵にも含まれている。
- 月は描かれていないが中央の3つの絵は夜景になっているのでそれなりに努力したのかも…という感じ。
受ける印象
- 「ネットから適当な画像をダウンロードして張り合わせてみました」的なやっつけ仕事感がものすごくある。そう考えると、出てこなかった時計と月に何しては、「ちょっといいのが見つからなかったので諦めましたー」てなところかな。
- 「芸術性? なにそれおいしいの? てかそんなこと誰も言ってないじゃん」てな声が聞こえてくる感じの絵。裏を返せばプロンプトで明確に作家を指定しない限り、芸術的な絵を作ってくれる可能性は限りなく低いと考えられる。

参考

今回の実験では、どのケースでもシードの異なる5つの絵を生成して確認します。実験環境や設定は前回とほぼ同様で、シードは 273431, 273432, 273433, 273434, 273435 を使用しています。

Greg Rutkowski を指定した場合

それではいよいよ作家を指定してみます。まずは一番人気の Greg Rutkowski。

Greg Rutkowski

おー。なんというか絵のレベルがワンランク上がった感じになりますね。

感想

題材（やせた金髪女性、凱旋門、月、時計）の再現度
- 痩せた女性、凱旋門、月の要素は（すべての絵ではないにせよ）含まれている。
- 時計は見当たらない。
受ける印象
- 構図など全体的な印象はもともとの絵とさほど大きく変わらない。
- highly detailed 指定時よりもより詳細な書き込みが行われている。
- 人物に対して濃い陰影がついているため、どの絵も夜の雰囲気が出ている。
- 最初の絵に比べればかなり改善されているものの、この絵を見て「おーこれはすごいー」という印象を万人が抱くかといわれればそうでもなさそう。

Artgerm を指定した場合

お次は Artgerm。

Artgerm

こちらも元の絵に比べるとかなり改善されてます。

感想

題材（やせた金髪女性、凱旋門、月、時計）の再現度
- 痩せた女性、凱旋門、月の要素は（すべての絵ではないにせよ）含まれている。
- 時計は見当たらない。
受ける印象
- 構図など全体的な印象はもともとの絵とさほど大きく変わらない (2枚目だけは大きく違うけど)。
- Greg Rutkowski と同様に highly detailed 指定時よりもより詳細な書き込みが行われている。
- Greg Rutkowski と比べると全体的に明るいせいか、人物が背景から浮いているような不自然さが残る。
- 元の絵よりは全然よいのですが、Greg Rutkowski と比べると微妙な感じかなという印象。
- ちょっと手の多い人がいるけど見なかったことにしよう…

Alphonse Mucha を指定した場合

巨匠 Mucha のお出ましです。

Alphonse Mucha

なんかもう「そこまでするー」っていうぐらい自己主張が激しいですね。さすがは世界の巨匠です。

感想

題材（やせた金髪女性、凱旋門、月、時計）の再現度
- 女性はすべての絵に含まれている。ただし痩せているかといわれるとそれほどやせてはいない。
- 「時計」を背景の円として自然な形で表現している。
- 左端の絵以外はすべて室内的なライティングで「夜」の要素は薄い。
- 凱旋門要素はゼロ。
受ける印象
- それまでの絵とはまったく異なった構図で独自路線を展開。
- 題材はあくまでもモチーフでそれをヒントにして自分が描きたい絵を描きました、という印象。
- 芸術性はこれまでの絵に比べれば段違いに高い。とはいえやっぱり自己主張が強すぎるので求めている絵とはちょっと違う、そんな印象。

Tom Bagshaw を指定した場合

最後は Tom Bagshaw です。

Tom Bagshaw

Muchaほどではないにせよ、この方もほかの二人とは一線を画している印象です。

感想

題材（やせた金髪女性、凱旋門、月、時計）の再現度
- 女性はすべての絵に含まれている。痩せているという特徴も備えている。
- 左端の背景の円は「時計」と「月」の2つを重ねて表現していて素晴らしい。
- 凱旋門要素を含む絵もある。
受ける印象
- 独自色も主張しつつできるだけ題材も活かそうとしていて、他の3人の絵よりもバランスがとれている印象。
- 他の絵に比べて女性の姿勢に動きがありドラマ性が感じられる。
- ちょっと手の多い人がいるけど見なかったことにしよう…

4人全員を指定した場合

さていよいよ4人全員を指定してみます。

いやーこれはすごいですね。想像以上に素晴らしいといえるんじゃないでしょうか。最初にこの絵が出たときおもわず「おぉぉ」と声が出てしまいました。

感想

題材（やせた金髪女性、凱旋門、月、時計）の再現度
- 女性はすべてに含まれている。痩せているという特徴も備えている。
- 腕時計が登場している!! (実はひそかに期待していたのはこっち)
- 凱旋門要素はゼロ。
受ける印象
- Mucha の構図を写実的な絵柄で表現したイメージになっている。
- 女性の表情がものすごく豊かに変わっていてかなりの好印象。
- 指の数は数えないでー。

Alphonse Mucha を抜いた場合

こうやって見てみると4人全員の作家の中でもっとも影響力が強いのは間違いなく Mucha だといえそうです。そこで Mucha 以外の3人に描いてもらうとどうなるかを試してみました。

Mucha以外の3人

Mucha を抜いた影響なのか表情がかなり固い感じに変わってしまいました。またこの画像ですが、ぱっと見は Tom Bagshaw 1人が描いた絵とほぼ同じに見えます。

となると今度は「Tom Bagshaw を抜いた絵はどうなるのか」が気になります。

Tom Bagshaw を抜いた場合

Tom Bagshaw を抜くとこうなります。

Tom Bagshaw以外の3人

Mucha の絵の質感がかなりそのままの形で残っていることがわかります。つまり、Tom Bagshaw は「Mucha の絵の質感を強力に中和して、写実的な絵画に変化させるために大きな役割を担った」ということがいえそうです。

念のため「Muchaと Tom Bagshaw の2人だけに描いてもらうとどうなるのか」もみてみます。

Alphonse Mucha + Tom Bagshaw

影響力の強い2人だけに描いてもらうとこんな感じになりました。

2人バージョン

これを見ると、絵の質感は Tom Bagshaw の要素が勝っていますが、4人全員バージョンと比べると、衣装や髪飾りなどに Mucha の影響が強く出すぎている感じがします。あともうひとつ、女性の表情が4人全員バージョンに比べて薄まった印象も受けます。

これらの要素を改善するには、Greg Rutkowski か Artgerm の力が必要なようです。

Artgerm を抜いた場合

まず、この2人の絵に対して一番人気の Greg Rutkowski を加えてみます。

Artgerm抜き

全体的に引いた構図が増えたせいか、2人バージョンよりもさらに薄い印象になった気がします。正直なところ少し期待外れでした。

Greg Rutkowski を抜いて Artgerm を足した場合

逆に Greg Rutkowski 抜いて Artgerm を加えてみます。

Greg Rutkowski抜き

これはかなりいいんじゃないでしょうか。左端の絵以外は4人バージョンよりも好きかもです。

これを見てわかったことは、おそらく4人バージョンの時に心を惹かれた「表情の豊かさ」は間違いなく Artgerm 要素が強い、ということです。Artgerm 一人の時には、引きの構図や後ろ向きが多かったせいで隠れていた表情の良さを Mucha の構図が引き出し、さらに Mucha の持ち味の「柔らかさ」も加わって、「愁いを帯びつつも固すぎない表情」という絶妙なバランスが生まれています。

まとめ

この題材で描くならば、私は 4人全員を指定するよりも Greg Rutkowski を抜いて3人で行きたい感じです。

3人の絵は以下のバランスで成り立っているようにみえます。

Mucha - 構図の支配と表情の柔らかさ
Tom Bagshaw - 絵の質感をコントロール
Artgerm - 表情の豊かさを追加

しかし…本当に素晴らしいですね。

このような形で複数の芸術家たちが時空を超えてバーチャルに共演して実際に素晴らしい作品を生み出してくれるんですから。しかも私のためだけにです。ということで大げさではなく本当にかなり感動しています。芸術家たちにも Stable Diffusion を作って公開してくださった方々にも本当に感謝です。

さて、本稿の最初の目的だった「なぜ複数の作家名を並べるといいのか」「どんな効果があるのか」については、画像を比較してみることで想像以上に明快になった気がします。

複数の作家名を並べるという行為が効果的な理由は「それぞれの作者の長所を生かして短所を補う」ことができるためです。当たり前といえば当たり前すぎる結論ですがそれだけに説得力もあります。ただ、そう考えると題材に対する作家のチョイスを間違えれば「それぞれの作者の長所を殺し合って短所が前面に出てしまう」という結果も簡単に招きそうです。

このあたりはパレット上で絵の具を選んで混ぜ合わせるスキルにも似ているようにも思えます。ただし、はるかに多い（高次元の）パラメタを考慮して結果を予想しなければならないので、絵の具のチョイスとは比べ物にならないぐらいのハイレベルなスキルとセンスが要求されるという所が大きな違いでしょうか。イメージ通りの作品を生み出すためには古今東西の作家と画風に対する知識が必要で、題材にあった作家を的確にしかも複数選択でき、そのうえで結果を予想できる卓越したセンスが必要になるわけですから。これはちょっと凡人では到達できない領域のようにも思えます。とはいえそれはわれわれが「芸術家」という言葉を聞いて想像する人物像からそれほどかけ離れてはいないのかもしれません。

もちろん、Lexica のようなサイトから自分の好みに合ったプロンプトを拝借してそれをちょろっと変えれば誰でもそれなりの雰囲気の絵が描けるので、そういう楽しみ方もあるとは思います。あるいは、ここで今回紹介したようなやり方でじっくりと時間を時間をかけて試行錯誤を楽しむという使い方もありそうです。

そういう楽しみを覚えた人たちの中から、ほんの一握りの人たちが「プロンプトを駆使して思い通りの絵を生み出したい」と思うようになり、「芸術活動を極める」って感じのものすごくストイックな姿勢で取り組み始めるようになる。そしてその中から、今はまだ誰にも想像できないような次元の素晴らしい芸術が生み出される。そんな日が近い将来やって来るのではなかろうか。。。この数日間そんな想像を巡らせて楽しんでいます。こういう現象を「進化」とよぶのかな、と。

進化といえば、全体的に腕や指の異常性が気になりますが、こちらは作家のチョイスの問題というよりは AIモデルの問題な気がするため、おそらくそう長くないうちにサクッと改善される日が来る気がするのであまり心配する必要はないかなと思っています。