【キャラ固定画像が作れる】Midjourneyで顔やキャラに一貫性を持たせた画像を生成してみよう

投稿日 2024-03-31
更新日 2024-05-22
著者 Tomo
カテゴリー AI

2023年12月に大幅なアップデートヴァージョン「V6」がリリースされ、ますます進化を遂げている「Midjourney（ミッドジャーニー）」。

そんな「Midjourney」ですが、2024年2月より、キャラクターの顔を固定したり、スタイルに一貫性を持たせたりできる機能が追加となりました。

画像生成する際に、キャラクターの顔を固定してさまざまな画像を生成できるキャラクターリファレンス（cref）。
スタイルや画風を固定して画像を生成できるスタイルリファレンス（sref）。

この2つをプロンプトに指定することで、キャラ固定の画像が生成できるようになりました。

2022年の秋頃から、流行に敏感なAIユーザーに利用されている「Midjourney」。1年半前から考えると、想像をはるかにこえる進化を遂げてきています。

現在は、バージョンがV6となり、例えば、「A boy playing in the morning sun in a beautiful Japanese garden, –ar 4:3（朝日が差し込む美しい日本庭園で遊ぶ少年。）」とプロンプトを投げるだけで、ここまでのクオリティの画像を生成可能です。

しかし、「Midjourney」でお気に入りの顔やスタイルの画像を生成できたとしても、そのキャラクターや世界観をキープして画像を再生成することは、これまでは出来ませんでした。

しかし今回、キャラクターリファレンス（cref）とスタイルリファレンス（sref）の機能が追加されたことで、ついにその問題が解消されたのです。

というわけで、今回は「Midjourney」でキャラ固定画像をつくる方法を解説していきます。

この記事を最後まで読むことで、すぐにキャラ固定の画像をつくれるようになるので、ぜひ最後まで楽しんでいってくださいね。

では、いきましょう！

Tomo

1983年生まれ、東京育ちの42歳。デジタルマーケター。デジタルと自然、その間の一部の人間を極端に愛する2児の父親。アパレル業界で13年、その後Webマーケティング支援会社を経て、現在はデジタルマーケティング支援に従事しています。さまざまな生成AIで実践と検証を繰り返すのが好き。 channel IVYでは、自分自身が興味のある「生成AI」「瞑想」関連の情報を、体験ベースで出来るかぎりわかりやすく発信しています。

キャラクター固定をするための2つの機能

「Midjourney」を使って、同じ顔のキャラクターで画像を生成する際、2つの機能を使って画像を生成していきます。

まずは、その2つの機能である「スタイルリファレンス（sref）」と「キャラクターリファレンス（cref）」について簡単に解説していきますね。

スタイルリファレンス（sref）

「スタイルリファレンス（sref）」とは、参考にしたい元画像の雰囲気・画風を、新しく生成する画像に反映できる機能です。

統一感のある画像を、連続して生成する際に適しています。

最大3枚（2024年3月30日時点）の画像を元画像として参照することが可能です。

「スタイルリファレンス（sref）」を使えば、世界観を維持しながら生成した画像で、簡単なストーリーを作り上げることもできます。

では、さっそく「スタイルリファレンス（sref）」を使ってみましょう。

今回は、以前にMidjourneyで生成した「カンフーをしている青年」を元画像に使っていきます。

まずは、参考にしたい画像を、DiscordのMIdjourney生成チャンネルにドロップして、エンター。

アップロードされた画像上で右クリックをして、「リンクをコピー」を選択します。

ここから、「–sref」というパラメータを使っていきます。

バラメータとは、プログラムに対して、処理の内容を外側から与える値のことです。
Midjourneyでは、画像の縦横比や、スタイルの指定など「–●●」のような形で使用します。

パラメータと聞くと、難しそうな気がしてきますが、1つの呪文だと思って覚えてしまうことをオススメします。

では元画像を、画風や世界観を変えず、「ピンクの髪をした、カラフルなカンフー道着を着た美しい女性」に変更してみましょう。

プロンプト

Beautiful girl with pink hair in a brightly colored kung fu robe, –sref https://●● –sw 1000 –ar 4:3

「https://●●」部分は、画像URL（上記の「リンクをコピー」で取得したもの）をそのままコピーします。

「–sw ●●」は、元画像のスタイルをどのくらい影響させるかの強度として設定可能です。
0(最小値)～1,000(最大値)の間で指定でき、値が大きくなるほど影響度は増えます。
※そもそも「–sw ●●」を指定しなかった場合は、デフォルト値100が適用されます。

今回は、元画像の雰囲気をできる限り、引き継ぎたいので、「–sw 1000」としました。

ちなみに、「–ar ●:●」はアスペクト比（縦横比）の指定です。
1:1、3:4、4:3、9:16、16:9などさまざまなサイズで生成できます。
※「–ar ●:●」を指定しなかった場合は、デフォルトで1:1の正方形画像が生成されます。

今回は「–ar 4:3」で横長画像を生成します。

そして、生成した画像がこちら！

いい感じ！

元画像の世界観や画風は、しっかりと引き継がれ、髪色や性別、骨格が変わった画像が生成されました。

「スタイルリファレンス（sref）」はこのように、元画像のスタイルや画風が引き継がれる機能です。

キャラクターリファレンス（cref）

「キャラクターリファレンス（cref）」とは、参考にしたい元画像のキャラクターの顔を固定して、新たに画像を生成できる機能です。

固定といっても、表情やポーズ、服装などの変更はできるため、同一人物でさまざまなシチュエーションの画像を生成することができます。

「キャラクターリファレンス（cref）」の場合は、「–cref」」というパラメータを使用します。

顔のつくりをそのままに、「カンフー青年が、笑って手を振っている」画像を生成してみましょう。

プロンプト

Kung Fu youth smiling and waving, –cref https://●● –cw 100 –ar 4:3

「キャラクターリファレンス（cref）」の強度は「–cw ●●」という表記で指定します。

「–cw ●●」は、元画像のキャラクターの造形を、どのくらいの範囲で影響させるかの強度として設定可能です。

0(最小値)～100(最大値)の間で指定でき、値が大きくなるほど顔だけではなく、身体や服装に影響範囲がひろがります。
※「–cw ●●」を指定しなかった場合は、デフォルト値100が適用されます。

今回は、「–cw 100」で設定してみます。

やや年齢を重ねた（渋みが増した）顔つきになりましたが、だいぶいい感じですね！

別ヴァージョンも。

元画像の精悍（せいかん）な顔つきや佇まいもいいですが、おどけた感じもいいですね(笑)

「キャラクターリファレンス（cref）」を使った後の2枚は、まったく顔つきが変わらず、しっかりと顔固定が出来ている印象です。

ただ、現状は「キャラクターリファレンス（cref）」を使用しただけでは、元画像と少し顔の印象が変わってしまっている感じは否めません。

また、背景の描写に関しても、やや精度が下がっています。

なので、次は「スタイルリファレンス（sref）」と「キャラクターリファレンス（cref）」を併用して精度を上げてみましょう。

値を調整して、キャラ固定の精度を上げてみた

では、さっそく「スタイルリファレンス（sref）」と「キャラクターリファレンス（cref）」の両方を使って、顔固定の精度を上げていきます。

今回は、顔の印象がわかるよう、少しアップにした元画像で生成していきましょう。

「カンフー青年が、手を合わせて座り、瞑想をしている。」というプロンプトにしてみます。

まずは、srefの強度を500、crefを50にしてみましょう。

プロンプト

A young man in a kung fu robe sitting on the floor, hands clasped together in front of his chest, meditating, –sref https://●● –sw 500 –cref https://●● –cw 50 –ar 4:3

世界観は、元画像からほぼそのまま引き継がれていていい感じですね！

ただ、顔がややほっそりしてしまいました。（座ってはいますが、瞑想しているニュアンスではないですね…）

もう少し調整してみましょう。

srefの強度を300、crefを30にしてみます。

プロンプト

A young man in a kung fu robe sitting on the floor, hands clasped together in front of his chest, meditating, –sref https://●● –sw 300 –cref https://●● –cw 30 –ar 4:3