OpenAIがまたさらにやってくれました!
なんとテキスト(プロンプト)から映画のような動画を生成できてしまいます。
その最強の動画生AIを、OpenAIは「SORA」と名付けました。
これにより今までは専門のクリエーターしか作成できなかったような動画を1個人でも簡単に作れるようになります。
クリエイティブ作業にまたさらに新たな翼を与え、誰もがハイクオリティな動画制作者になれる可能性を秘めています。
想像してみてください。あなたが描いた物語が、テキストを入力するだけで画面上に生き生きと動き出す様子を。
これまで映画制作は、膨大な時間、コスト、技術が必要とされる専門的なプロセスでした。
しかし、SORAの登場により、そのすべてが一変します。
プロの映画制作者だけでなく、創作活動に情熱を燃やす一般人も、自分の想像を自由自在に映像化することが可能になるのです。
この記事では、「SORA」についての特徴、その能力、技術的背景、そしてこの革新がEコマース業界にもたらすであろう影響について掘り下げていきます。
- ChatGPTの最新情報が知りたい
- OpenAIが公表した最新動画生成AI「SORA」ってなに?
- ChatGPTで動画を作れたらどうなるの?
発表された動画を見た時は、驚きで言葉を失ったわ。ChatGPTは、2022年11月にロンチされてから、まだ1年強でここまで進化するスピードが速いとは、誰も思わなかったはず。
SORA – OpenAIが発表した最強の動画生成AI
SORAの特徴: ChatGPTで動画生成
「SORA」は、ChatGPTの開発元のOpenAIが2024年2月15日に発表した動画生成AIです。
プロンプト入力によって、最大1分間の動画を生成することができます。
プロンプト:Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.
<日本語訳>
美しく雪に包まれた東京は賑わっています。カメラは賑わう街の通りを通り抜け、美しい雪を楽しみながら、近くの商店街で買い物をしている何人かの人々を追っています。美しい桜の花びらが雪と一緒に風を通と共に舞っています。
こちらの動画は、ホームページで公開された動画サンプルのひとつです。
よく見ると違和感を覚える点がいくつかありますが、全体的に動画として非常に高いクオリティになっています。
これは、ただの新しい技術とは呼べないレベルで、パラダイムシフトが起ころうとしていると言えます。
Open AIが開発しているこの「 SORA」と呼ばれる「テキストtoビデオ」のAIモデルによって、チャット上のテキストからリアルな映像を生成できてしまいます。
ゲームチェンジャーになりうる可能性を秘めています。
画像生成においてもクオリティの高い画像をチャットとから生成できるようになってきており、中国ではすでにイラストレーター業界に変化が起きています。
プロンプトから自分が想定している画像を生成させるスキルがひとつの必須スキルになってきています。
高精度の動画がプロンプトから生成できるようになることは、どんなことを意味するでしょうか。
動画生成AI「SORA」の能力
- リアルでクリエイティブなビデオ生成:画像のつなぎ合わせのような動画ではなく、スムーズなモーションで一貫性のビジュアルの動画を生成します。
- 複数のキャラクターや人物、複雑なシーンに対応:特定の方法でインタラクトする複数の主体を描くことができます。細部までこだわった高品質な動画を作成できます。
- カメラモーションを含んだ動画を生成:ダイナミックなカメラモーションを含む動画を生成する能力がリマス。
簡単にクリエイティブ動画を生成できてしまう未来
プロンプトから高度なクリエイティブ動画が簡単に生成できる未来が、すぐそこに来ています。これを脅威だと受け止められたり、まだ実用的ではないと認識している人々もいるでしょう。
たとえ動画の精度に問題があるとしても、テキストから動画が生成できてしまう事実に、どう向き合っていくべきでしょうか。
これまでこのような動画を作る技術のなかった個人でも簡単にこのような動画を作成できるようになるということは、
個人プレイヤーが今まで以上に増えていくのは間違いないでしょう。
またこういった技術を用いて新しいサービスが生まれていくことでしょう。
そういった点もあるため、必ずしもネガティブに捉えるのではなく、プラスの可能性に注目していくことでチャンスが生まれるかも知れません。
YouTube動画や TikTok動画向けにこれまで表現が難しかったような面白い動画などをAIで作成できしまいますね。
「SORA」の登場は、きっとそんな未来の始まりに過ぎません。
動画生成AI 「SORA」の一般公開について
SORAの一般公開予定:いつから使えるのか?
ビジュアルアーティストや映画制作者など一部のユーザーに限定的に公開され、フィードバックを集めているとのことですが、一般公開の予定については言及されませんでした。
悪意のあるコンテンツ生成など安全性の問題を解決に向けて模索中とのことなので、一般公開まで今しばらく時間がかかりそうです。
この点については、後日アップデートがあり次第、追っていきます。
SORA: 一般公開時に無料で使えるのか?
最新アップデートの機能は、現在まで有料版でのみ利用できるようになっています。
したがって、あくまでも予想ですが有料版でのみ利用できることになる可能性が高いと思われます。
動画生成AI SORAで作成された動画例(Open AI社公開)
発表された動画の中から、その完成度に驚いたものをいくつかご紹介します。
- まるでCM動画のようなSUVが山道のオフロードを駆け抜けるまるで車の動画
プロンプト:Prompt: The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it’s tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene. The dirt road curves gently into the distance, with no other cars or vehicles in sight. The trees on either side of the road are redwoods, with patches of greenery scattered throughout. The car is seen from the rear following the curve with ease, making it seem as if it is on a rugged drive through the rugged terrain. The dirt road itself is surrounded by steep hills and mountains, with a clear blue sky above with wispy clouds.
<日本語訳
山の斜面に広がる針葉樹に囲まれたオフロードの坂道を駆けていく、黒いルーフラックを装備した白いビンテージSUVの後ろをカメラは追いかけます。そのSUVのタイヤからは土埃が舞い上がっています。太陽光がオフロードを颯爽に駆け抜けるSUVに当たり、シーン全体に暖かな輝きを与えます。オフロードは進むにつれゆるやかに曲がり、他の車や乗り物の姿はありません。道の両側にはレッドウッドの木々があり、緑が点在しています。車は後方からの視点で見え、カメラはカーブで緩やかに車を追いかけており、まるで険しい地形を突き進むハードなドライブコースにいるようです。オフロード自体は急な斜面の丘や山に囲まれ、上には透き通った青い空と細い雲が広がっています。
詳細なプロンプトの内容になっています。具体的な内容に沿って、動画が生成されていることがわかります。
太陽の光が差しており、それによって作り出される影まで詳細に描かれています。
2. 反射に映る描写が非常にリアルな動画
プロンプト:Prompt: Reflections in the window of a train traveling through the Tokyo suburbs.
<日本語訳>
東京郊外を移動する電車の窓に映る反射映像
東京郊外の様子がとてもよく描かれている点も素晴らしいが、何より反射されている描写に驚きです。
立っている女性がスマホを持って見ている様子が暗くなった一瞬にはっきり写ります。
この時にこちらの女性以外の人物や他の人の腕が写っているのですが、前後位置がまだはっきりしていません。
この点は課題点とはなりますが、シンプルな一行だけのプロンプトでこの動画が作成されていることが驚異的です。
3. まるで映画のようなCG動画
プロンプト:A giant, towering cloud in the shape of a man looms over the earth. The cloud man shoots lighting bolts down to the earth.
<日本語>
巨大でそびえ立つ人間の形をした雲が地球の上に現れています。その雲の人間は、地球に向かって稲妻を放ちます。
まるでアメリカの某コミック原作の映画のワンシーンに出てきそうな動画になっています。
リアルで現実的な動画だけでなく、こういったCG動画やアニメーション動画まで生成できてしまいます。
自分のイメージを言葉にして面白い動画を早く作ってみたくなりますね。
「How to use」SORA: AI動画生成のプロンプトガイド
- 詳細な動画構成がイメージできている場合は、SORAがイメージに出来るだけ近い動画を生成できるようにプロンプト(指示)を詳細に、明確に書く
- プロンプトの内容には、動画で表現したいシーンの描写、キャラクター、アクションを含める
- プロンプトの内容をいくつかのバージョンを作成し、アウトプットされる動画を比較する
- 生成された動画をレビューし、イメージしているものと差異がある場合は、プロンプトに修正を加えてブラッシュアップする
動画生成AI「SORA」の機能
SORAの機能概説:AIが動画を生成する仕組みとは
公式ホームページに記載されている内容を解説します。
Soraは、Diffusion Model(ディフュージョンモデル)と呼ばれる拡散モデルです。
ディフュージョンモデルとは(詳細説明)
画像、音声、テキスト生成など多様なデータを生成するための深層学習技術の一つです。この技術は、データの生成過程を自然界の拡散プロセス(例えば、ガスの分子が空間内でランダムに拡散するようなプロセス)に似せて模倣し、その逆過程を学習することで高品質なデータを生成します。
拡散モデルの基本的なアイデアは、まず元のデータに徐々にノイズ(ランダムな情報)を加えていき、最終的には完全にランダムなノイズの状態にします。このプロセスは「フォワードプロセス」と呼ばれます。次に、このランダムなノイズから元のデータを復元する「逆プロセス」を学習します。この逆プロセスを通じて、モデルは元のデータに似た新しいデータを生成することができます。
拡散モデルは、生成したいデータの種類に応じて様々な形で訓練されます。例えば、画像生成では、元の画像から始めて徐々にノイズを加え、最終的には完全なノイズの状態にすることで学習データを準備します。そして、そのノイズから元の画像を復元する方法をモデルに学習させます。
拡散モデルは、データに徐々にノイズを加えることでデータの分布を学習し、その後、加えたノイズを逆プロセスで取り除くことにより新しいデータを生成します。このプロセスは、高品質なデータ生成に有効であることが示されています。
Soraの特徴は、「拡散トランスフォーマー」です。トランスフォーマーについては、聞いたことがある方もいらっしゃると思います。
ChatGPTの「GPT」の「T」がこのトランスフォーマーに当たります。ちなみにGPTは、「Generative Pre-trained transformer」の略になっています。
トランスフォーマーは、自己注意機構を用いてデータ間の関係をモデル化する深層学習アーキテクチャです。
言語処理をはじめとした多くの領域で卓越した性能を発揮し、近年では画像や音声データの処理にも応用されています。
ChatGPTの開発背景や技術についてもう少し知りたいという方は、以下の記事を参考にして見てください。
そして「 SORA」は、上記で解説した拡散モデルとトランスフォーマーのアーキテクチャを組み合わせたものです。
拡散トランスフォーマーは、拡張モデルとトランスフォーマーの二つの技術の長所を組み合わせたものです。トランスフォーマーの強力な表現能力と、拡散モデルの逐次的なデータ生成能力を活用し、より複雑で高品質なデータを生成することが可能です。
特に、トランスフォーマーの自己注意機構は、データ生成プロセスの各ステップで重要な情報を捉え、より精度の高い生成結果を実現します。
大言語モデル(LLM)では、「トークン」と呼ばれる単位があるように、Soraでは、「パッチ」と呼ばれる単位があります。
画像や動画を「低次元潜在空間」に圧縮して、それらをさらにSORAが理解できる時空間(パッチ)単位に分解することでパッチが作成されます。
潜在時空間パッチ:圧縮された入力ビデオから、トランスフォーマーのトークンとして機能する時空間パッチの連続したものを抽出します。
つまり、圧縮されたビデオを入力として受け取るとき、ビデオから一連の小さな区切り(パッチ)を取り出します。これらは、ある種のAIモデルであるトランスフォーマーが処理するための小さな情報ブロックとして働きます。実は、この手法は画像にも応用可能です。画像は実質的には静止した1フレームのビデオとみなせるためです。
このパッチベースの方法によって、様々な画質、時間の長さ、画面比率を持つビデオや画像の分析と学習が可能となります。生成フェーズ、つまり新しいビデオや画像を作り出す時には、適当なサイズの枠にランダムに選ばれたパッチを配置することで、最終的なビデオや画像のサイズを調整することができるとのことです。
Soraは、横長の1920x 1080のアスペクト比動画だけでなく、縦長の1080 x 1920アスペクト比の動画、それらの間のサイズとなる動画を生成できるとのことです。
これにより様々なデバイス(モバイルなど)やSNS投稿などに対応したサイズで動画を生成することができます。
Open AI リサーチ記事より引用し解説
https://openai.com/research/video-generation-models-as-world-simulators#ref-13-0
動画生成AI 「SORA」に期待されること
SORAの可能性:AI動画生成の未来
発表時に公開されたSORAで生成されたビデオは、完璧とは言えませんが、AIで生成できる動画でどのようなことができるようになるのか、そのインサイトを与えてくれました。
1年前に、AIで作成した動画のクオリティとSORAが生成する動画の違いが非常に大きく、圧倒的なスピードで進化していくことが予想されます。
今後SORAがさらに進化していくことで、映像制作のハードル、コストが大幅に下がるでしょう。
これは、映画や広告、短い動画を作成する業界に大きな変化をもたらすでしょう。
従来の方法に比べて、作業が簡単になり、お金もあまりかからず、もっと早く、クリエイティブな動画を作成できます。
SORAの使い道
SORAはその汎用性で、様々な分野で幅広い応用が可能です。いくつか考えられる使い道を挙げましょう。
- 動画アイデアを形にする:映画制作者やアーティスト、デザイナーたちは、SORAを使って、今までにない新しいアイデアを形にできます。例えば、脚本から直接、映画のプランや短い動画を作ることができ、アイデアを具体化したり、準備作業を簡単にすることができます。
- 教育やトレーニング:SORAは、歴史上の出来事を再現したり、科学実験などをシミュレーションする教材動画を作るのにも使えます。これにより、学びが楽しく、没入感のあるビジュアルコンテンツを提供できでしょう。
- 広告やSNS投稿のための動画:テキストの説明から直接、目を引くビデオ広告を簡単に作成できます。これにより、宣伝のためのコンテンツ作りがスムーズになり、新しい広告のアイデアを生み出しやすくなります。また、クリエイティブな動画を生成しSNS投稿に活かすこともできるでしょう。
- 静止画から動画を生成する:静止画からそれを元にアニメーションを生成できます。
SORAのEコマース業界での役割を考察
Facebook, Instagram, Tiktok, YouTube, そしてX(旧ツイッター)などのデジタル広告の収入がテレビの広告収入を超えており、デジタル広告が主流となってきている。
その中で、商品をアピールする訴求力のある動画は、Eコマースの必須のツールとなっています。
静止画像とは異なり、動画はより豊かで魅力的な体験を提供し、顧客に商品をアクションで見せることができます。
この視覚的表現は、オンラインショッピングと店舗での購入の間のギャップを埋めるのに役立ちます。
Eコマースが年々、成長を続ける中で、高品質で情報豊富で魅力的な商品動画への需要はこれまで以上に明確になっています。
今までテレビで流れるようなCM動画が商品を広告する動画としてクオリティが高く訴求力が高いものとされてきましたが、最近では、よりユーザー目線に沿った動画が広告として使われるようになってきています。
それでSNSでユーザーが商品を使っている動画を広告に使ったり、インフルエンサーが実際に使っている動画を広告したりするようになりました。
これまで中小企業は、大企業のように大掛かりなCM動画を制作する予算を避けず、広告のクオリティで競争をすることは難しい点がありました。
SORAの登場で、高品質なビデオ制作への障壁が低くなるでしょう。
SORAはあらゆる規模のビジネスが視覚的ストーリーテリングの力を活用できるようにし、競争の激しいEコマースに新たな風を吹かすでしょう。
Eコマースでの商品動画制作にSORAを導入ことは、顧客とのエンゲージメントを深める新らな道を開拓するでしょう。
SORAにより、迅速かつ効果的に詳細で現実的なビデオを作成できるようになることで、企業が市場の動向や消費者の好みに素早く適応できるようにします。
消費者の注意を引きつけて保持することが売り上げに直接影響を及ぼす可能性があり、迅速に変化するEコマースの環境で極めて重要です。
今まで商品動画を制作するのにかかっていたプロセス、時間、コストよりはるかに短時間、ローコストで動画を生成できるようになるのが最大のアドバンテージです。
SORAによって生成されるAIビデオは、ブランドの特有のスタイルや雰囲気に合わせてカスタマイズ可能で、各ビデオが商品を紹介するだけでなくブランドの個性を強調します。
数パターンの動画を生成することで、A/Bテストも簡単にすることができます。
Eコマース市場がさらに競争が激しくなる中で、独自性と高品質を兼ね備えた商品ビデオで差をつけることは、大きなメリットとなります。
EコマースでSORAを使って動画を生成する際に気をつけるべきポイントは?
Soraによって生成された商品動画の信頼性を担保し、ポテンシャルを最大限に活用するために、Eコマース事業者が気をつけるべきポイントを挙げていきます。
- 正確性に焦点を当てる:動画が製品・商品を正確に表現していることを確認。これには、サイズ、色、機能性を含む
- 重要な特徴を強調する:重要な特徴や製品のアピールポイントをビデオで紹介し、ターゲットオーディエンスにとって重要な側面を強調する
- 一般的な質問に対処する:一般的な顧客の質問や懸念に先回りしてビデオコンテンツ内で対処し、製品についてより包括的に理解できるようにする
これらのポイントを押さえておくことで、Eコマース事業者はSORAを活用して、透明性を高めるだけでなく、顧客信頼の構築と維持に大きく貢献する商品動画を作成できます。
注意点としては、AIによって生成するため、商品の内容が誇張されてしまったり、現実と乖離している内容になってしまう可能性があるので、そうでないことを確認すること必須です。
将来を見据えると、今後Eコマース業界でもAIツールを活用されていき、その役割が拡大されていくでしょう。
結論として、AI生成の商品ビデオをEコマースに統合することは、デジタルマーケットプレイスにおける変革的なシフトを表しています。
革新的な技術のSORAは今後一般公開されより完成度が高いものになるにつれて、この変化をリードしていき、新しく意味のある方法で顧客とつながりをもたらす強力なツールになっていくでしょう。
まとめ
2024年2月にOpen AIが新しく発表した「SORA」について、この記事では、以下のことを解説してきました。
- 「SORA」の特徴
- 「SORA」の能力
- 生成された動画の具体例
- 「SORA」の技術的な背景の概要
- 「SORA」について今後期待されること
今回の発表を受けて、リリースが非常に待ち遠しく感じます。
実際に動画を試行錯誤で生成して見ないと、本当のクオリティは判断できませんが、現時点での期待度は非常に高いです。
リリース次第、より詳しい使い方などを解説しますのでそちらもまたご覧ください!
massa
当ブログでは、初心者からでもAIを学べるようAIについての知識の集約、解説、ChatGPTのおすすめスキルなどを発信して行きます。
よかったら、是非、ブックマーク&フォローしてください。