機械学習を実行するためのハードル

機械学習とは、大量のデータに対して反復計算を繰り返すことにより、そこに潜むパターンを見つけ出すことだ。言葉で言うだけであれば簡単そうだが、実際に機械学習を行うためには、かなりの準備が必要になる。

具体的なステップを挙げると、データを収集してからシステムで扱える状態へと加工し、特徴量(分析に有効なデータ項目)を設計し、ようやく機械学習を実行する段になるのだが、まず分析対象になるデータの収集・整備を行おうとしても、データがそろっていないことがよくある。ある時期のデータが欠落していたり、データ項目に抜けがあったり、間違いや異常値があったりするのだ。また、文字列をコードに置き換える必要もあるだろう。こうしたデータプレパレーション(Preparation)には、膨大な手間が掛かってしまう。

それをクリアしたとしても、次のステップである特徴量の設計も高いハードルとなる。例えば、ある商品の需要を予測する場合に、地域や時間、価格、併売する商品など、さまざまなデータ項目からどの項目群が予測に効くのかを選んだり、加工して新しい項目を作り出したりする作業が必要となるが、各項目は複雑に絡み合っているからだ。

項目同士の関連を読み解き、適切な特徴量を抽出するには、ビジネスや業務だけでなく扱うデータに関する専門知識が必要になり、この作業は通常、人間が試行錯誤しながらセットしているのが現状だという。

続いて行う機械学習自体についても、非常に手間を要する。さまざまな機械学習のアルゴリズムから適切なものを選び、学習させることになるものの、それぞれのデータ分析についてどのアルゴリズムが適当なのかを一回で判断するのは難しく、通常は試行錯誤していくことになるし、収集するデータの種類が増えれば作業はさらに膨大になる。

従来は、これら一連の手順を実行するのに、一回につき数カ月の時間を要していたという。さらに、各プロセスを実行するためには、データサイエンティストをはじめ、専門スキルを持ったさまざまな人材が必要とされており、その確保も大きな課題とされてきた。

このように、機械学習に取り組もうとしても高いハードルに阻まれ、多くの企業では実行段階にまで至っていないのが現実だ。

機械学習の自動化とその価値

しかし、このままではいつまでたっても機械学習はニッチな技術にとどまってしまう。そこで登場してきたのが、機械学習の自動化というソリューションである。

これらのソリューションでは、データプレパレーションから機械学習に至る一連のプロセス、特に、その中でも大きな負担となっている特徴量の設計を自動化することができ、所要期間を数カ月から数日へと短縮できるとアピールしている。

具体的な製品としては、広く知られている米DataRobotの「DataRobot」をはじめ、NECからカーブアウトした米dotDataの「dotData」、米Alteryxの「Alteryx」、米H2O.aiの「Driverless AI」などが国内でも展開されている。

ただしカバーする範囲は多少異なり、例えばAlteryxはデータプレパレーションに強く、逆にDriverless AIは同機能をカバーしない。またDataRobotでは、2019年12月にデータプレパレーションで実績を持つ米Paxataを買収し、この分野を強化している。

こうしたソリューションが「AIの民主化」を実現しているといわれているのは、業種や業務、データに依存せずに分析プロセスを自動化できるため、「誰でもがAIを使える」状況を支援するからだ。

DataRobotのチーフデータサイエンティストであるシバタ アキラ氏は、「DataRobotの特徴は、クリックするだけで簡単に使えるという点にあります。とにかく触ってみれば、直感的な操作で使うことができるのです」と自社製品の特徴を説明している。

現在のAIはまだまだ発展途上であり、汎用(はんよう)的に使えるAIがあるわけではない。単にしゃべり掛けると、何でもやってくれるというわけにはいかないため、担当者がきちんと見極める必要がある。そのためには、機械学習に精通した貴重な人材であるデータサイエンティストに頼ってばかりではなく、できるだけ多くの人がAIを使える環境を整える必要がある。つまり、AI活用の裾野を広げるためには、機械学習の自動化は欠かせないテクノロジーだといえよう。

別の面では、「透明性の確保」も重要な要素となっている。機械学習を用いたデータ分析を行ったとしても、そこから導き出された結果の根拠が不透明では、実ビジネスには活用したくない、と考える経営者もいるだろう。高度な機械学習モデルはブラックボックス化しがちなものだが、その透明性を向上させるために、例えばdotDataでは、特徴量が自然言語により説明され、製品が特徴量を作り出す過程が可視化されるようになっている。

一方、DataRobotもこうした透明性の確保には注力しており、安心して予測を使用することができるとアピールする。シバタ氏も、この点について「確かに、受注見込みを予測した際に受注確率70%と言われて、それはなぜかということを営業部門が知りたいのは当然です。しばらく訪問していないからなのか、相手が何かに興味を持っているのか、あるいは全く違う要素からそうした予測値が出たのか、などですね。そこでDataRobotではAIの予測理由を利用者へと伝えるようにしました。この改善がお客様から高い評価を得ています。今後、AIの民主化が進むに従い、AIの判断理由を明確にするといった動きは加速するでしょう」と述べ、その必要性を指摘した。

NECによって設立されたdotData

幾つかのベンダーの中で、国内で注目度が高まってきたのは、前述のようにNECによって設立されたdotDataだろう。

NECの「2020中期経営計画」では、実行力の改革を掲げ、競争力がある技術を、多様なスキームを活用してマネタイズすることに取り組んでいる。dotDataはその第1弾と位置付けられ、社外の資本を得ながら事業開発を加速させる「戦略的カーブアウトスキーム」によってスタートした。

この手法を採用した目的は、NECが持つ技術をいち早く事業化することだ。同社の新野 隆社長は、これまでとは異なる手法に取り組むことにより、優位性のある技術の迅速な事業化を目指すと説明していた。

dotDataは既に国内外に顧客を持ち、2019年第1四半期から第3四半期にかけて、売上高が300%以上増加するなど急成長を遂げている。また2019年6月には米Amazon Web Services(AWS)、10月には米Microsoftと提携したほか、米国のリサーチ会社であるフォレスターが、機械学習自動化(AutoML)における「リーダー」にdotDataを認定するなど、第三者からの評価も高い。

2019年10月には、シリーズAラウンドとして、ジャフコおよびゴールドマン・サックス証券から2,300万ドルの資金調達を完了している。

なおdotDataのCEOには、NEC主席研究員だった藤巻 遼平氏が就任しているが、同氏は、「誰もがデータを分析し、より良いサービスやプロダクトを生み出すことをビジョンに掲げている。現在は、データサイエンティストなどの高度な人材が不足しており、機械学習の前段階に80%ほどの時間がかかっているという課題がある。ビジネスに適用するには特徴量を設計することが必要であり、ここを自動化することで全体的なプロセスを短縮できる」と述べ、今後も機械学習の自動化へ注力していくことを強調していた。

参入してくる企業が増えているとはいえ、機械学習の自動化はまだまだ完成された分野とはいえない。ビジネスで先行し知名度の高いDataRobotやほかの競合企業と共に、今後もAI活用の裾野を拡大するための取り組みを進めてもらいたいところだ。

【仕事が変わる】AI・IoT・RPA特集(即効!ITライブラリー)

  • * 本稿に記載された各種IT製品、テクノロジーにつきましては、記事制作時の技術動向に関する幅広い知見を基にして構成されています。これは制作を担当したクラウドWatch編集部(株式会社インプレス)の所見であり、大塚商会においてお取り扱いのないものも含まれております。あらかじめご了承いただきますようお願いします。