こいつ、動くぞ!文章から動画を自動生成するAI「Make-A-Video」をMETAが発表
[画像を見る]
画像を自動生成してくれるAIが人気だが、Meta(旧Facebook)が発表したのは、動画を自動生成するAI「Make-A-Video」だ。簡単な説明文(文字)を入力するだけで、AIがそれにあった動画を生成してくれる。
「肖像画を描くテディベア」や「スーパーマンのような犬」などの文字列を入力すると、自動的にそのシチュエーションの動画を生み出してくれる。
今にところ、不鮮明さや歪みがあるなど不自然さが目立つが、それでも近い将来、動画制作の方法がガラリと変わるだろうことを予感させるものだ。
・文字列だけで世界に一つだけの動画を生成
Metaはブログの中で次のように説明する。
生成AIの研究は、新しいコンテンツを素早く簡単に作成可能なツールを提供し、創造的表現を前進させますMetaのマーク・ザッカーバーグCEOは、Facebookの投稿で「驚くべき進歩」と述べ、個々のピクセルを生成するだけでなく、それが時間によってどう変化するのか予測する高度な技術であると説明する。・「Make-A-Video」で自動生成した動画
「Make-A-Video」は、ほんの数文字か数行のテキストを入力するだけで、想像力に命を吹き込み、鮮やかな色彩や風景に満ちた世界に一つだけの動画を作成します
AIモデルの性能は、実際に動画を目にすれば一目瞭然だ。生成されたものは、長くても5秒程度で音声もないが、バラエティ豊かでクリエイティブだ。
その一方、AIモデル自体が公開されていない点にも注意が必要だ。つまり、生成された動画の中でベストなものだけを選んで公表された可能性もあるということだ。
Facebookに投稿された動画は、順に「肖像画を描くテディベア」「火星に降り立つ宇宙船」「ノートブックパソコンを使う、ニット帽をかぶったナマケモノの赤ちゃん」「海の波でサーフィンするロボット」という文字列から生み出されたものだ。
[動画を見る]
今の段階では不自然なところもたくさんあるが、近い将来急激に改善する可能性は高い。
実際、画像生成AIはわずか数年のうちに、抽象画のような線を書くだけだったものが、写実的な画像を生成できるようになった。
動画生成はそれよりもずっと複雑なので、進歩はもう少し遅いかもしれないが、より多くの企業や研究者のチャレンジ精神を掻き立てるに違いない。
・動画生成AIの問題点We’re pleased to introduce Make-A-Video, our latest in #GenerativeAI research! With just a few words, this state-of-the-art AI system generates high-quality videos from text prompts.
— Meta AI (@MetaAI) September 29, 2022
Have an idea you want to see? Reply w/ your prompt using #MetaAI and we’ll share more results. pic.twitter.com/q8zjiwLBjb
Metaは「Make-A-Video」について、「クリエーターやアーティスト」に欠かせないものになると述べているが、懸念される点がないわけでもない。
フェイクやプロパガンダとして使われる危険性は周知の通りだし、画像生成AIなどで散見されるように、嫌がらせや脅迫などに使われかねない非合法ポルノが生成される可能性も高い。
Metaは「こうした新型生成AIシステムの作り方についてはよく検討する」と述べ、今のところAIモデルの論文を公開しただけだ。
それでも、いずれデモ版を公表する予定であるとのことだ(時期や方法は不明)。・動画生成AIが今熱い
なお、動画生成AIを開発するのはMetaだけではない。今年初め、清華大学と北京智源人工知能研究院(BAAI)もまた、Metaに先んじて「CogVideo」を発表している。
CogVideoによって生成された動画
[動画を見る]
Text to Video Samples - CogVideo by Tsinghua University
更に最近では、匿名の研究者が動画生成AI「Phenaki」を発表した。長い文章から最大2分の動画が作れるそうだ。
・動画生成AIの今後の課題Phenaki: Variable Length Video Generation from Open Domain Textual Descriptions
— AK (@_akhaliq) September 29, 2022
abs: https://t.co/gsZrW80Aax
project page: https://t.co/mIzxeMRKk8
Generating videos from text, with prompts that can change over time, and videos that can be as long as multiple minutes pic.twitter.com/GSDGEURaJD
Make-A-Videoの論文によると、同AIは画像とキャプションのペアや説明のない動画で学習したという。学習教材は、数十万時間におよぶ数百万本の動画でなる2種のデータセット(WebVid-10MおよびHD-VILA-100M)で、そのほかにShutterstockやネットで入手できる動画も使用されたとのこと。
論文では、映像の不鮮明さや歪み以上の技術的課題があるとも指摘されている。
たとえば今回の学習法では、手を振っている人が、右から左に振っているのか、それともその逆なのか、学ぶことができない。
さらには4秒以上の動画、複数のシーンがある動画、より高画質の動画の生成にも難がある。
現時点でMake-A-Videoが生成できるのは、解像度64x64ピクセルの16フレーム動画だけだ。これをまた別のAIで、768x768の動画に画質アップしているのだという。
また有害なものをはじめ、社会的なバイアスを学習し、それを誇張してしまう可能性もあるという。
実際、画像生成AIは、こうしたバイアスに基づき社会的な偏見を助長する危険性がある。たとえば、「テロリスト」の画像を生成しろと命じると、「タリバンの格好をした人物」が描かれがちだ。
だがAIがどのようなバイアスを学習したのかは、自由にアクセスできねば検証できない。
Metaは、「この生成AI研究と結果をコミュニティと共有してフィードバックを得つつ、今後も責任あるAIフレームワークに則り、この新しい技術のアプローチを洗練・進化させていきます」と述べている。
References:Make-A-Video / Introducing Make-A-Video: An AI system that generates videos from text / written by hiroching / edited by / parumo
『画像・動画、SNSが見れない場合はオリジナルサイト(カラパイア)をご覧ください。』