『ディープフェイク』前編
おはようございます😉
『ディープフェイク』前編タイ・VISTECで動画生成技術を研究するスパソーン・スワジャナコーン氏(左)と、AIスタートアップ Appier チーフAIサイエンティストを務めるミン・スン氏(右)フェイスブック CEO 、米国大統領 ドナルド・トランプ氏らの偽動画が公開された。こうした動画は「ディープフェイク」と呼ばれ、注目を浴びている。同時に、あまりに本物そっくりなので、社会問題になりつつある。ディープフェイクとはどういったもので、どんな可能性を秘めているのか。ディープフェイクの元の定義は「2つの写真や動画の一部をスワップ(交換)させる技術」のことだ。ただし、いま世間でいうディープフェイクは「フェイク動画」「偽動画」のことを指している。フェイクビデオが登場した背景には、AIの急激な進歩がある。名前のとおり、ディープフェイクは、画像認識に優れた機械学習アルゴリズム(算法)のディープラーニングを利用したもの。これにより偽(フェイク)の動画が作られるので、「ディープフェイク」と呼ばれているわけだ。2012年以前は、CG技術を使って顔の凹凸や目など、エリアごとに特徴を抽出し、画像を認識していた。それがディープラーニングの登場により、顔の特徴を簡単に把握できるようになり、わざわざスタジオの高価な器材を使わなくても、顔のスワッピングができるようになったのだ。タイ・VISTECで講師を務めるスパソーン・スワジャナコーン氏は「最近はディープフェイクの技術が高度化しています。たとえば音声も合成してフェイクビデオが作れます。私自身は音声から動画を作り出す技術を研究をしていますが、顔の表情も含めて簡単に変えられるようになりました」と語る。ディープフェイクは、どのようにして生成されるのだろうか。まず交換したいソース(元)の写真や動画を用意し、対象となる顔の特徴をつかんで、顔の交換が必要であれば顔を交換する。また顔の表情なども読み込み、3Dモデリング技術で操作できるようにする。台湾の国立清華大学で准教授を務めたあと、AIスタートアップのAppierに参画したミン・スン氏は「自然な頭や口の動き、顔の表情のほか、音声も使われるので、写真・動画・音声の素材がそろっていることが条件になります」と指摘する。偽の写真や動画の作成プロセスにディープラーニングを組み込むと、それらの質を効果的に上げることができる。ディープフェイクでは、教師なし学習の敵対的生成ネットワーク「GAN」(Generative Adversarial Network)が利用されるようになってきた。スワジャナコーン氏は「必ずしもディープフェイクにGANが使われるわけではありませんが、非常に有用な技術として注目を浴びています」と語る。GANは、本物と同様の内容を作り出そうとする「ジェネレーター」と、本物かどうかを識別する「ディスクリミネイター」という2つのネットワークから成り立つ。「たとえばGANで偽の動画をつくる場合、ジェネレーターで可能な限りリアルな偽の動画を作ります。一方、ディスクリミネイターで、その動画が偽物かどうかを検知します。GANは、この2つのネットワークが互いに競い合う仕組みです。最終的に学習が終わる頃には、偽の動画を作る技術がどんどん向上し、リアルな動画が作られていくのです」(スワジャナコーン氏)スン氏は「GANなしに顔を交換して生成する場合は、私自身が相手の顔の“表情”や身振り手振りを真似なければなりません。しかしGANを利用することで、到底真似られないような表情まで生成することが可能になります。そのため従来CG技術を使っていたプロセスに、GANが利用されるようになりました」と、その効果について語る。ただし他に優れた技術に代替される可能性もある。その1つが「VAE」だ。これは画像や動画を自動でエンコード・デコード(データを他の形式へ変換し、また戻す)する技術だが、単に圧縮伸長するのではなく、パラメータ(外部から投入されるデータ)で多様性を担保し、リアルな動画を生成できるものだ。スン氏は「すでにGANを利用した動画生成ツールは市場が出回っています。しかし以前はプログラマーでないとツール自体を使いこなせませんでした。今後は専門家でなくても使いやすいツールが出てくるでしょう」と予想する。世界の指導者が”イマジン”を唄うディープフェイク動画→https://youtu.be/ko9QLXLlndw