「二人」のオバマが同時にスピーチ!? 音声から話者の口の動きを学習するアルゴリズムが誕生

<米ワシントン大学の研究チームは、音声データをもとにその話者とそっくりな口の形を自動生成するアルゴリズムを開発。さらに、この口の形を、別の動画に合成することにも成功した>

明らかに異なる場所や時間に存在しながら同時に同じ言葉を話す"二人"のオバマ前大統領の様子が、動画共有プラットフォーム『ユーチューブ』で公開された。

音声データをもとに生成した本物そっくりの口の形を動画に合成

もちろん、この動画は本物ではない。右側の動画は、オバマ前大統領のスピーチの音声データをもとに人工的に生成した本物そっくりの口の形を、在職中にホワイトハウスで撮影された動画に合成したものだ。そして、この本物そっくりの口の形には、人工知能における機械学習の手法が用いられている。



米ワシントン大学の研究チームは、2017年7月、音声データをもとにその話者とそっくりな口の形を自動生成するアルゴリズムを開発。さらに、この研究チームが2015年に開発した合成技術と組み合わせることで、このアルゴリズムによって生成された口の形を、別の動画に合成することにも成功した。

一般に、音声から動画に変換するには、特定の音と口の形がどのように関連しているのかを把握することが必要だ。従来は、複数の人々に同じセンテンスを何度も繰り返して話してもらい、その様子を撮影するという手法がとられていたが、時間や手間がかかるのが課題であった。

1 2 次へ

関連記事(外部サイト)