NEWS

グーグルのAI(人工知能)DeepMind が画像分析に長けていることは広く知られているが、新たに動画を使って読唇術を習得させる研究が成果を出しつつある。

AIを構成する要素から「Watch, Listen, Attend, and Spell」(見て、聞いて、処理して、文字を綴る;以下WLAS)プログラムと名付けられたソフトは、映像の中で人が話していることを文字にして書き出す機能を保有。

11月中旬の時点ではまだ道半ばではあるものの、AIは人間のプロの読唇術者との比較において、はるかに良い成績を収めたという。

使われたのはBBCのテレビ番組約5000時間分

オックスフォード大学とDeepMind の研究者が共同で取り組んだのは、BBC(英国放送協会)が所有する6種類のテレビ番組の映像を使い、人の唇の動きを読み取るAIを開発するというプロジェクト。

AIの学習に使用されたビデオは約5000時間にも及び、そこには11万8000のセンテンスと、1万7500の単語という膨大なデータが含まれていたという。

同じテストで人の4倍の好成績を収める!

大量のデータから規則性を見出す「機械学習」という手法により、AIは“人の口の形”と“発している音”の繋がりを学習。

BBCのコンテンツからランダムに選んだ200のビデオクリップでテストしたところ、人間のプロの読唇術者が正確に単語を書き出した割合は12.4%だったのに対し、AIの正解率は46.8%に達したそう。

しかも、AIが犯したエラーのほとんどは、単語の最後に“s”をつけなかったというような、些細な間違いだったというから、驚きだ。

DeepMind AI Now Better Than Humans at Lip Reading

「WLAS」はこのように話し言葉をリアルタイムで文字化する。

聴覚障害者はもちろん、スマホのアシスタント機能への応用も

「WLAS」の今後について、DeepMindの研究者は「聴覚障害を持つ人たちが会話を理解するのを手助けするアプリケーションを始め、さまざまな実用的な使い方が考えられる」としている。

たとえば、雑音が多く音が聞き取りにくい環境において、「Siri」(Appleの音声認識アシスタントソフト;Speech Interpretation and Recognition Interface)のようなアプリに唇を解読させ、メッセージを文字に変換させたり、サイレント映画の俳優の口の動きから字幕をつけるといったことも、「WLAS」で可能になると言うのだ。

そして、完全な自動読唇システムを構築するために、同じ分野の研究者たちが使えるよう、BBCの映像データセットをオープンソースとして公開すると表明している。

先行発表された「LipNet」との違いは?

実はオックスフォードでは別の研究グループが「LipNet」という自動読唇術システムを先行開発しており、11月頭に「人間の精度が52.3%だったのに対し、LipNetは93.4%を達成した」と発表している。

ただ、そちらで使用された読唇術学習用のデータセットは「GRID」というもので、わずか51の単語しか含まれていない。これはBBCのデータセットが1万7500単語から構成されていたのに比べると、圧倒的に少ない。

また、センテンスに関してもBBCの映像が12万近い数を有していたのに対し、「GRID」は3万3千と1/3以下。文法も同じパターンのもので、コンピュータが正解を予測するのは、はるかに簡単だったとのこと。

「WLAS」の発表を受けて「LipNet」の研究者の1人であるYannis Assael氏は、「公開されるBBCの映像データセットを使うのを、とても楽しみにしている」とコメントしている。

引用・参照

http://www.theverge.com/2016/11/24/13740798/google-deepmind-ai-lip-reading-tv
https://www.newscientist.com/article/2113299-googles-deepmind-ai-can-lip-read-tv-shows-better-than-a-pro/
13 件