【無料で使える】話題の「Luma Dream Machine」でさっそく動画生成してみた

投稿日 2024-06-24
著者 Tomo
カテゴリー AI

コンテンツのトレンドは、時間の経過とともにリッチになっていくものですが、それは生成AIについても同様。

テキスト生成AIや画像生成AIが話題となった2022年～2023年を経て、2024年はさまざまな動画生成AIが話題を集めています。

そんな今回は、2024年6月に無料公開され、話題沸騰の動画生成AI「Luma Dream Machine」の特徴、使い方や実際に生成した動画を共有していきます。

「Luma Dream Machine」は、テキストや画像から、高品質な動画を瞬時に生成してくれる動画生成AIモデルです。
無料プランは、毎月30本の動画を生成できます。

これまでに「Runway Gen-2」を試しに使ったことはあるものの、プライベート・仕事ともに特に動画生成を必要とする場面がなく、掘り下げてきませんでした。（「Gen-3 Alpha」　が6月17日にリリースされ、一般公開もそろそろ。そちらも楽しみです）

しかし、2024年2月に公開された、Open AIの「Sora」のデモ動画を見てからというものの、「ついに、動画生成AIがきた！」感を実感し、さまざまなメディアで動画生成AIの情報に触れてきました。

「Sora」は一般公開はまだおこなっていないため、色んな動画生成AIをお試しで触っていたところ、「Luma Dream Machine」が公開されたという流れです。

現時点では短時間の動画生成のみ可能ですが、無料でこのクオリティーのサービスを使えるのは最高の一言。

ぜひこの記事で使い方や生成される動画の雰囲気を確認し、すぐにでも試してみてくださいね。

では、いきましょう！

Tomo

1983年生まれ、東京育ちの42歳。デジタルマーケター。デジタルと自然、その間の一部の人間を極端に愛する2児の父親。アパレル業界で13年、その後Webマーケティング支援会社を経て、現在にいたります。新しいテクノロジーや、生成AIに触れるのが好き。 channel IVYでは、自分自身が興味のある「web3」「生成AI」「カルチャー」「瞑想」関連の情報を、体験ベースで出来るかぎりわかりやすく発信しています。

Luma Dream Machineとは

「Luma Dream Machine」は、2024年6月にLuma AI社が公開した、動画生成AIの最新モデルです。

テキストや画像から瞬時に、5秒ほどの高品質な動画を生成できます。

生成される動画は、120フレーム（24fps x 5秒）の動画になり、無料プランでは毎月30本の動画生成が可能です。

Googleアカウントをもっていれば、誰でも簡単に始められます。

Luma Dream Machineの3つの特徴

「Luma Dream Machine」の主な特徴は以下3つです。

高品質でリアルな動画を瞬時に生成可能
一貫性のあるキャラクターと動作
無料で月30本の動画まで生成可能

高品質でリアルな動画を瞬時に生成可能

「Luma Dream Machine」の特徴の1つ目は、圧倒的に高品質でリアルな動画を生成することができる点です。

「Luma Dream Machine」を開発しているLuma Labsは、独自に開発したマルチモーダル・トランスフォーマーアーキテクチャを採用しています。

「マルチモーダル・トランスフォーマーアーキテクチャ」とは、テキスト・画像・音声といった異なる種類のデータを一度に処理し、それらを相互に関連づけて理解する能力を持つモデルのこと。

たとえば、画像の中のテキストを理解して説明文を生成したり、音声データからその内容を文章化したりすることができます。

このモデルにより、複雑なシーンやディテールも精密に再現され、まるで実写のような映像の生成が可能です。

一貫性のあるキャラクターと動作

「Luma Dream Machine」の2つ目の特徴は、キャラクターや物体の動作が自然で一貫性があることです。

AIが学習したデータから、リアルな物理法則や動作パターンを把握しているため、出力される動画は非現実的な振る舞いが少なく、違和感のない滑らかな動きを実現しています。

一貫性のあるキャラクター描写や物体の動作は、動画生成においてキーポイントとなるため、この特徴は「Luma Dream Machine」を使う1つの大きな理由となるでしょう。

2024年6月24日の現時点では、少し複雑な動きをさせようとすると一貫性を保てなくなる印象はあります。
しかし、他の動画生成AIと比較すると、オブジェクトの一貫性を保つ能力は高いです。

無料で月30本の動画まで生成可能

「Luma Dream Machine」は、月に30本まで動画生成を無料でおこなえます。

月に30本であれば、色々なパターンを試せる量のため、気に入ってから課金をすることが可能です。

これにより、個人ユーザーや中小企業もコストを気にせずに高度な動画コンテンツを制作することができます。

Luma Dream Machineの料金プラン【無料で使えます】

「Luma Dream Machine」は、上記画像のように4つのプランがあります。

ポイントを簡単に表にまとめてみました。

プラン	価格	月あたりの動画生成数
無料プラン	無料	30回
標準プラン	29.99ドル	120回
プロプラン	99.99ドル	400回
プレミアプラン	499.99ドル	2,000回

とりあえず「ハイクオリティな動画生成を試してみたい」という人は、無料プランで十分でしょう。

ただし、1回の生成で作成できる動画は、5秒間(120フレーム)ですので、動画をつないで長尺動画をつくりたい人や、さまざまなプロンプトで多くの動画を生成したい人は、有料プランをおすすめします。

動画の残りの生成回数は、画面右上の「Account」ボタンを選択し、「Usage」項目で確認が可能です。

商用利用について

「Luma Dream Machine」の商用利用は、有料プランを契約しているユーザーのみ可能です。

動画を発表したいクリエイターや、ビジネスで使用したい人は有料プランに加入する必要があります。

動画生成AIに関しては、ディープフェイクやポルノ、著作権等の問題も絡んでくるので、一度利用規約を確認しましょう。

Luma Dream Machineの使い方

ここからは、「Luma Dream Machine」の基本的な使い方を解説していきます。

まずは、Dream Machineaの公式ページへアクセスしましょう。

「Try Now」をクリックします。

Googleアカウントとの連携画面が出ます。

連携したいアカウントを選択しましょう。

連携が完了すると、ホーム画面に遷移します。

「Luma Dream Machine」の動画生成方法は、テキストから動画と、画像から動画を生成する方法の2種類です。

テキストから動画を生成する場合は、テキスト入力欄に生成したい動画を説明するプロンプトを入力します。

画像から動画を生成する際は、画像マークからアップロードする画像を選択し、その画像をどのように動かしたいかのテキストプロンプトを入力し、「↑」をクリックしましょう。

約1分ほどで動画が生成されます。

Luma Dream Machineのプロンプトのコツ

「Luma Dream Machine」は、動画生成AIなので、画像生成AIのプロンプトとは多少異なる書き方をする必要があります。

特に、被写体の動きやカメラワークは、動画ならではのプロンプトとしての理解が必要です。

僕自身が、「Luma Dream Machine」を色々試していく中でわかってきたことは、大きく3つ。

画像から動画を生成するとイメージに近い動画が生成される

動画を生成する際、1からテキストで動画を生成するより、画像をもとに動画を生成することで、イメージに近い動画の生成ができます。

元画像の詳細な描写は、あまり必要なく、そこからどのような動きが欲しいか、カメラワークをどのようにおこなうか等をテキストで指示することがポイントです。

Enhance Prompt（エンハンスプロンプト）は活用した方が良さそう

Enhance Prompt（エンハンスプロンプト）機能とは、短いプロンプトでもAIが自動的にプロンプトのニュアンスを読み取り、より高品質な動画を生成してくれる機能のことです。

例えば、「日本の夏の海」といった簡単なプロンプトでも、Enhance Promptを有効にすることで、シーンの詳細や動きをAIが補完し、期待通りの結果を得やすくなります。

Enhance Promptをオフにすると、ユーザーが入力したプロンプトが直接的に影響される傾向にあるため、詳細なプロンプトを書ける人はオフにした方が期待通りの動画が生成される可能性もあります。

僕の所感としては、現状ではEnhance Promptを有効にすることがオススメです！

公式ドキュメントに書かれている「How to prompt?」を理解すると、グッと精度が上がる

当たり前の話になりますが、「Luma Dream Machine」の公式ドキュメントに記載されているプロンプトの書き方を参考にすることも、高品質な動画を生成する助けになります。

ドキュメントの「How to prompt?」に英語で書かれていることの中には、上記で説明したEnhance Promptについてと、具体的な描写を推奨するといった内容が書かれていました。

ドキュメントに書かれていたポイントから、重要な点を2つ紹介します。

オブジェクトの動作の詳細を記述をする

特定のオブジェクト（対象となる物体）の動作を詳細に記述することで、より意図に沿った動画が生成されやすくなります。

たとえば、赤いスピードカーを走らせたい場合。

「赤い車が、走っている。」ではなく、「赤い車が、猛スピードでハイウェイを走っている。」にすることで、より高品質な動画が出る傾向にあります。

「スーツを着た初老の男性が、ロボットダンスを披露している。」なども具体的で良さそうです。

この時、「まるでスーパーマンのように」や「華麗なバレリーナのように」のような比喩表現をいれることも推奨されています。

カメラワーク、背景、全体の雰囲気を記述する

動きを感じる動画を生成したい場合、より具体的なカメラワークをプロンプトに記述してみましょう。

カメラワークによって印象はガラリと変わるため、動画制作においてはカメラワークの理解が重要です。

プロンプトとして使用できる基本的なカメラワークを、以下ににまとめました。

パン（Pan）

カメラを水平に回転させる動き。シーンの横方向の広がりを見せたり、被写体を追うために使われます。

ティルト（Tilt）

カメラを垂直に回転させる動き。上方向や下方向に視線を移動させるために使われます。

ドリーショット（Dolly Shot）

カメラを前後に移動させるショット。被写体に近づいたり遠ざかったりする動きを撮影します。

トラッキングショット（Tracking Shot）

カメラが被写体と一緒に横方向に移動するショット。被写体の動きに合わせてカメラが追従します。

ズームイン（Zoom In）

カメラのレンズを使って被写体に近づく動き。被写体を強調し、詳細を見せるために使われます。

ズームアウト（Zoom Out）

カメラのレンズを使って被写体から遠ざかる動き。シーンの全体像を見せるために使われます。

これらのカメラワークと、背景の描写、その他、動画全体の雰囲気をプロンプトに記述することも、高品質な動画生成のポイントとなります。

ぜひ試してみて下さいね。

Luma Dream Machineで実際に動画を生成してみよう

では、ここからは実際に僕が生成した動画を見ていきましょう！

画像から動画を生成する

まずは、Midjourneyで生成した画像をもとに動画を生成してみます。

こちらの「ストリートでロボットダンスを披露する、巨大なロボット」の画像を動かしてみましょう。

プロンプト

A giant robot is dancing a high-level robot dance (popping dance) on the street.

上記のプロンプトを入力し、「Enhance prompt」にチェックを入れてみます。

ロボットがロボットダンスをするシュールな動画が生成されました(笑)

最後にロボットの後ろから登場する人の形状が、変化していく様は少し不気味ですね。

違う画像で生成してみましょう。

「黄昏のダンス」というテーマで、Midjourneyでイラスト画像を生成したものを使います。

プロンプト

A robot and a woman are dancing a ballroom dance on the side of the road, spinning quickly and brilliantly. The camera work is a tracking shot.

上記のプロンプトを入力し、「Enhance prompt」にチェックを入れて生成。

カメラが被写体と一緒に横方向に移動する「トラッキングショット」を、プロンプトに含めてみます。

女性がロボットと一体化してしまいましたね。

これはこれで味わい深い動画ですが、思い通りには全くなりませんでした。

人間や動物、ロボットなどに、少し複雑な動きをさせるのは、まだ少し難しそうですね。

次は、風景画像を動画にしてみましょう。

「美しい光が差し込む、自然豊かな山々」の画像をゆっくり動かしてみます。

プロンプト
Clouds are moving and the light is beautifully shining through, zoom out

上記のプロンプトを入力し、「Enhance prompt」にチェックを入れて生成します。

カメラワークは「ズームアウト」で指示を出してみましょう。

こういった風景動画は、あまりミスが起こりにくいので、自然な動画が生成されました。

ただこのクオリティーの風景動画であれば、「Runway Gen-2」でも同じように作れる印象です。

テキストから動画を生成する

次に、テキストから動画を生成してみましょう。

テキストから動画を生成する際は、画像から動画を生成する時よりも詳細なプロンプトを指定していく必要があります。（生成したいイメージがしっかりとある場合）

また「Enhance prompt」は、精度の高い、詳細なプロンプトを書ける人であれば、無効にするのもありですが、基本的には有効にした方が自然な動画が生成される印象です。

試しに、同じプロンプトで「Enhance prompt」の有効バージョンと無効バージョンを生成して、比較してみましょう。

プロンプト
Two beautiful couples are driving along the scenic seaside in Shonan, Japan, in a classic red convertible. The wind is blowing through their hair, and they look exhilarated and joyful. It’s a vibrant summer day. Enoshima Island and the majestic Mt. Fuji can be seen in the distance, framed by the sparkling sea. The camera zooms out to capture the breathtaking landscape and the joyful atmosphere of the moment.
（美しいカップルが、湘南の風光明媚な海辺をクラシックな赤いオープンカーでドライブしている。風が髪をなびかせ、二人は爽快で楽しそうだ。活気に満ちた夏の日だ。江ノ島と雄大な富士山が遠くに見え、きらめく海に縁取られている。カメラは息をのむような風景と、その瞬間の楽しげな雰囲気をとらえるためにズームアウトする。）

上記のプロンプトを入力し、「Enhance prompt」を有効にしてみます。

んーーー。

湘南の国道134号線をイメージしていたのですが、その指定をしなかったことで、海岸沿いのドライブではなく、富士山に向かって海の間をドライブする動画となりました。

特定の地域で生成したい場合、より詳細なプロンプトで指示を出す必要がありそうですね。

次に「Enhance prompt」を無効にしてみます。

ハンドルがフロント部分ではなく、サイドについているという奇妙な動画となりました。

テキストから動画を生成する際は、オブジェクトを説明するプロンプトも丁寧に書く必要がありそうですね。

やはり、「Enhance prompt」は基本的には有効にしておく方が良さそうです。

次は、風景動画をテキストから生成してみましょう。

プロンプト
Viewed from the top of Mt. Fuji at night, shooting stars can be seen in the beautiful starry sky. Time lapse video.
（夜の富士山の頂上から見る、美しい星空。流れ星が見える。タイムラプス動画。）

上記のプロンプトを入力し、「Enhance prompt」を有効にしてみます。

富士山の頂上から見える景色ではなく、富士山とその奥に美しい星空が、眼前にひろがっている動画が生成されました。（富士山の形状にやや違和感がありますが、許容範囲ということで(笑)）

ここらへんの修正は、プロンプトを詳細に指定していくことで改善できそうですね。

「タイムラプス」という指定は、風景動画とかなり相性が良さそうです。

では、最後に渋谷のスクランブル交差点の様子を動画生成してみます。

プロンプト
The bustling scene at Tokyo’s famous Shibuya scramble crossing. The sun warmly illuminates the city on a vibrant summer day. The perspective from a drone, shooting dynamic images from 50 meters above the ground, shows the energetic movement of the crowds. The camera smoothly pans out to show the surrounding skyscrapers, neon signs, and iconic landmarks of Shibuya.
（東京・渋谷のスクランブル交差点の賑わい。太陽が街を暖かく照らす、活気あふれる夏の日。地上50メートルからダイナミックな映像を撮影するドローンからの視点は、人混みのエネルギッシュな動きを映し出す。カメラは滑らかにパンアウトし、周囲の高層ビルやネオンサイン、渋谷の象徴的なランドマークを映し出す。）

上記のプロンプトを入力し、「Enhance prompt」を有効にしてみます。

「上空50メートルからの撮影動画」という指示にはこたえてくれませんでしたが、渋谷のスクランブル交差点のにぎやかな雰囲気はうまく表現されています。

作りたい動画のイメージがはっきりある人は、一度画像生成AIでイメージに合う画像をつくってから、「Luma Dream Machine」で動画生成することが良さそうです。

2022年の年末に初めて画像生成AI「Midjourney」を使用した時のことを思い出しました。

「Midjourney」も最初は、オブジェクトの詳細な描写はかなり微妙でしたが、2023年の夏頃には精度の高い画像を生成できるようになっていました。

「Luma Dream Machine」も現状では、自然な動画を生成するのは結構難しいなという印象ですが、おそらく半年後には、より簡単に、自然で美しい動画が一瞬で生成されるでしょう。

おわりに

今回は、動画生成AI「Luma Dream Machine」について、使い方や特徴について解説してきました。

無料で簡単に、高品質な動画が生成できることがお分かり頂けたのではないでしょうか。

動画生成AIは、画像生成AIとは異なるアプローチでのプロンプト生成をすることが、自然な動画をつくる上でのポイントとなります。

ぜひ、色々なプロンプトの書き方を試したり、「Enhance prompt」を活用したりしてみて下さいね。

冒頭でも触れましたが、「Runway Gen-3」の一般公開がそろそろというニュースが出回っており、動画生成AIの爆速な進化は今後も目を離せそうもありません。

また、「Runway Gen-3」が一般公開された際には、解説記事を書いていきますので、ぜひお楽しみに。

では、また！

Luma Dream Machineとは

Luma Dream Machineの3つの特徴

高品質でリアルな動画を瞬時に生成可能

一貫性のあるキャラクターと動作

無料で月30本の動画まで生成可能

Luma Dream Machineの料金プラン【無料で使えます】

商用利用について

Luma Dream Machineの使い方

Luma Dream Machineのプロンプトのコツ

画像から動画を生成するとイメージに近い動画が生成される

Enhance Prompt（エンハンス プロンプト）は活用した方が良さそう

公式ドキュメントに書かれている「How to prompt?」を理解すると、グッと精度が上がる

オブジェクトの動作の詳細を記述をする

カメラワーク、背景、全体の雰囲気を記述する

パン（Pan）

ティルト（Tilt）

ドリーショット（Dolly Shot）

トラッキングショット（Tracking Shot）

ズームイン（Zoom In）

ズームアウト（Zoom Out）

Luma Dream Machineで実際に動画を生成してみよう

画像から動画を生成する

テキストから動画を生成する

おわりに

Enhance Prompt（エンハンスプロンプト）は活用した方が良さそう