AIにも”リビング学習”

“リビング学習”という言葉をご存知だろうか。子供部屋ではなく、リビングなど保護者の目が届く範囲で子供が勉強する学習方法のことである。主に小学生にとって、学習習慣の定着を促すために効果的な方法といわれている。

一方、2017年に発表された論文によると、Googleなどの大手IT企業が開発したAIの知能指数は6歳児のそれにどうにか近づいたというレベルであった。

AIにも“リビング学習”が必要なのだろうか。

AIが“間違った学習”をすることへの不安

実際にシステム構築の現場において、「AIの精度は維持されるのか」「AIがおかしな挙動をしたらどうするのか」といった声をよく耳にする。

AIは、全ての動作がプログラムで直接指定されているわけではなく、データから学習して、自らの挙動を変えていく。初見のデータから“間違った学習”をする可能性はゼロではない。

機械学習システムにおける学習環境の整備はまだ試行錯誤

2016年に、機械学習のトップカンファレンスであるNIPSにおいて、Googleは機械学習を利用したシステムのテスト・モニタリングに関する論文「What’s your ML test score? A rubric for ML production systems」（以下、本論文）を発表した。

機械学習システムにおける学習環境の整備は、決まった標準プロセスがあるわけではなく、まだ国際学会で議論されるようなテーマなのだ。各社が苦労しながら、試行錯誤している状況だ。

AIも外に出すには、まだまだ手がかかる

本論文では、Googleが実施している28個のテスト・モニタリング項目が示されている。ディープラーニングをはじめ、世界最先端の技術を活用したGoogleのAIでさえ、数多くのテストを受けた上でリリースされ、常に多くの指標をモニタリングされている。

問題があれば、すぐに対処できるような体制が組まれており、AIとはいえ、多くの人の手に支えられている。AIが独り立ちして、全自動で正しく学習していってくれるというのは、まだまだ先の話だ。

他社AIサービスを利用していても、テスト・モニタリングは必須

では、システムのコアである機械学習部分をGoogleやIBM Watsonなど、他社サービスを利用してはどうだろうか。大手IT企業のお墨付きAIを組み込むだけなら、自分たちでチェックする必要はないのか。結論は、Noだ。

機械学習を利用したシステムは多くの場合、元データの取得、特徴量の作成、学習、予測、結果出力に至るまで、多くの処理が複雑に連結されている。たとえ、学習と予測を他社サービスに任せたとしても、前後の処理と複雑に関係しているため、全体を通したテスト・モニタリングが必須である。

例えば「外的要因によって元データの内容が変更されていないか」「予期せぬバイアスを学習させるような特徴量になっていないか」「結果出力時に誤った解釈をしていないか」などのチェックは欠かせない。

エンジニアだけではなく、チーム全体で育てる

「テスト・モニタリング」と聞くと、エンジニアの作業をイメージするかもしれない。しかし、機械学習を利用したシステムが正しく、持続的に学習していくような環境を整備していくためには、機械学習で解く問題の定義、ビジネス的なKPIとの関連付け・仮設設定から見直していくことも必要になる。

モデリングの方針を決めるデータサイエンティスト、マーケティングや生産管理など、機械学習の先にあるKPIを管理するビジネスサイドの人間に対してもテスト・モニタリング結果を共有し、改善策を議論していく体制が必要である。

AIの利用を恐れない

AIが持続的にその有効性を発揮していくためには、人間の目が届く範囲で、コミュニケーションをとりつつ、AIの学習状況を把握、チーム全体で共有・議論しながら、適切な学習環境を整えてあげる必要がある。

一方、十分なテスト・モニタリングをおこなえば、機械学習をシステムに組み込み、ユーザー公開していくことを恐れる必要はない。

Google基準による辛口チェックシート

本論文にはテスト・モニタリングの仕組みを評価する採点基準も提案されている。全28個の項目について、手動でも実施していれば1点、自動化していればさらに1点の点数が与えられ、「データと特徴量」「モデル開発」「インフラ」「パフォーマンス監視」の4つの観点ごとに合計点を算出、その最小値が最終的な点数となる。

5点以上の獲得が望ましいとされているが、実運用システムにおける機械学習の利用に長い経験をもつGoogleの基準だけあって、かなり辛口な印象を受ける。論文をもとに下記チェックシートを作成したので、このチェックシートを参考に、自社の機械学習システムがGoogleの基準と比較してどうなっているか、チェックしてみることから始めてみてはどうだろうか。

“子供部屋”に籠もってブラックボックス化してしまったAIを、保護者であるチームメンバーの目が届く“リビング”で見守りつつ、正しく学習できるようガイドしてもらいたい。

機械学習システムチェックシート（clickで拡大）

終わりに

本論文の筆頭著者であるGoogle, Inc.のEric Breck氏には引用・翻訳を快諾していただいた。さらに、本論文をより具体的に発展させた論文「The ML Test Score: A Rubric for ML Production Readiness and Technical Debt Reduction」もぜひ取り上げてほしいとのこと。実際にシステムの開発やテストを行なう人はこちらの論文も参考にしていただきたい。Thank you, Eric.