ディープラーニングの最先端から見る将来

ブームになっている人工知能の中でも特に注目を集めているキーワード「ディープラーニング」。ここでは、ディープラーニングについて簡単にその概要について説明したうえで、その成果や今後について考えたい。

ディープなニューラルネットワーク

ディープラーニングは、コンピュータがデータから自動的にルールを獲得する機械学習の1手法である。具体的には、人の脳の動きを模した機械学習手法ニューラルネットワークの発展系であり、従来は主に3層、ニューロン数では数百個で計算していたものを、まさに人間の脳のように、層が数十層、ニューロン数で数百万個という深い(ディープな)ニューラルネットワークを実現したものがディープラーニングである。

図1 ディープラーニングの構造

図1 ディープラーニングの構造

従来の機械学習では、推論をする際に、判断基準(例えば顔であれば口・目などの配置や色、輪郭など)を人間が設計して与えていたが、ディープラーニングではその判断基準を学習により自ら生成し判断する。この仕組みが大きなパラダイムシフトであり、ディープラーニングを利用した画像認識や音声認識が断トツの精度を叩きだしたことで、ディープラーニングは一躍注目の技術となった。

ディープラーニングがもたらしたすごい成果

ではディープラーニングはどんな成果をもたらしたのか。世界トップ級のプロ棋士を負かした囲碁AI「アルファ碁」やAppleの音声アシスタンス「Siri」などでディープラーニングが活用されているのは有名だが、ここでは筆者がすごいと思った成果をいくつか紹介したい。

(1)突出した精度の顔画像認識

画像認識では既に人間の精度を超えつつある。2015年3月に発表されたFlorian Schroffら(Google)の研究では、約2億枚の画像から800万人の人間を見分けて、その精度はなんと99.63%。間違えた顔画像も、人がやっても間違えるような顔画像ばかりだった。

図2 コンピュータが同一人物と誤判断した顔画像

出所:Florian Schroff, Dmitry Kalenichenko, James Philbin, “FaceNet: A Unified Embedding for Face Recognition and Clustering”

出所:Florian Schroff, Dmitry Kalenichenko, James Philbin,
“FaceNet: A Unified Embedding for Face Recognition and Clustering”

(2)白黒画像のカラー化

面白い成果も多数登場している。先日早稲田大学の研究グループが発表したものは白黒とカラーが組となった大量の画像から学習し、白黒画像をカラー画像化する。ユーザテストでは、約90%の色付け結果が自然であるという回答を得たという。

図3 白黒画像のカラー画像化

出所:https://github.com/satoshiiizuka/siggraph2016_colorization

出所:https://github.com/satoshiiizuka/siggraph2016_colorization

(3)顔イラストの自動生成/画風の自動変換

PFNの研究者が発表した顔イラストの自動生成画像の画風の自動変換などもすごい。顔イラストの自動生成では、「赤髪」や「金髪」、「制服」などのパラメータを調整することで、そのパラメータに応じた新しい顔イラストが自動生成される。Webデモもあるのでぜひ体験してみてほしい。

図4 顔イラストの自動生成

56f4f456-6666-f2f0-e80e-945432d8516f

出所:Chainerで顔イラストの自動生成- Qiita,
http://qiita.com/mattya/items/e5bfe5e04b9d2f0bbd47

他にも、画像からの店舗内の顧客行動の分析や運転手の状態検知など、画像認識や音声認識が絡む領域を中心としてビジネスの現場での実用化も進んでいる。

文脈を踏まえた推論処理の実現

すごい成果が次々と生まれてきているが、ディープラーニングはまだまだこれからの技術であり、もっと大きな可能性を秘めている。

注目領域は異なる種類の情報(マルチモーダル)による精度向上だ。画像とテキストのデータをうまく扱った画像への説明文の自動生成や、口唇画像と音声を組み合わせた音声認識など、マルチモーダルな情報をうまく融合した成果が発表され、注目を集めている。ディープラーニングでは、特徴量設計が不要なこともあり、今まで人の手では難しかったマルチモーダルな情報を比較的容易に扱えることが明らかになりつつあり、より複雑な環境の理解が進みつつある。例えば、防犯における不審者検知や自動運転における環境認識などが応用先として想定される。

外部記憶を持ったニューラルネットワークによる質問応答の進化も注目だ。複雑なストーリーを記憶し、それを考慮したうえで論理的に回答するというタスクが取り組まれており、成果が上がりつつある。これにより今一つだった対話エージェントや翻訳の精度が大きく向上すれば、自動応答や会話型コマースの導入が一気に進むだろう。

他にも囲碁AI「アルファ碁」に使われた深層強化学習も、囲碁のように取りうる手が有限な事象には適用性が高く、産業用ロボットや自動運転などの精度向上に大きく貢献する可能性がある。

オープン化がもたらす爆発的進化

ここで挙げてきたような研究成果のほとんどはGitHubでソースコードが公開されており、容易にトレースすることが可能だ。GoogleのTensorFlowやFacebookのtorch7など、ディープラーニングを実装するためのライブラリも多くがオープン化されている。こういったオープン化の流れがディープラーニングの爆発的進化をもたらしており、多数のベンチャーが生まれる下地ともなっている。

ディープラーニングを中心とした人工知能分野では、5年先と思われていたものがあっという間に実現され、少し活用に二の足を踏んでいるとあっという間に取り残されてしまう。取り残されないためには、技術探索やサービス動向の収集・分析をしつつ、その中で出てきた萌芽を過小評価しないことが重要である。