ビジネスお役立ち情報 > ビジネスColumn

ビジネスColumnビジネスColumn CADを利用して設計を行う際に必要なノウハウを紹介。

ビジネスColumnのトップへ

膨大な文字の海から有益な情報を探す
テキストマイニング技術

企業システムには多種多様なデータが大量に蓄積されている。特にワープロ文書やメール、Webなどの形で保存されているテキストデータは膨大な量になる。このテキストデータから、自動解析によって有益な情報を探し出すのが「テキストマイニング」と呼ばれる技術である。

定型データ分析のデータマイニングから進化
非定型の文書を分析するテキストマイニング

企業で運用されるシステムには、受発注、売上、在庫などの多種多様なデータが存在しており、これらは日々の蓄積によって膨大な量のデータとしてストレージに保存されていく。重要な情報だが、あまりにも情報量が多すぎて、有益な情報が引き出されぬまま埋没してしまう恐れがある。

これら大量のデータをコンピュータによって解析し、その中に潜んでいるデータ間の相関関係、パターンを発見する技術として発達してきたものが「データマイニング」である。データマイニングの「マイニング」とは、鉱山から資源を掘り出す「採鉱」という意味。大量のデータを鉱山と見立て、そこから有用な情報資源を採鉱するという意味でデータマイニングという言葉が作られた。

データマイニングは、商品の販売データなどを解析して相関関係を可視化し、そこから新しいビジネスチャンスを見つけ出す仕組みとしてスタートした。データを格納するリレーショナルデータベース、検索や分析を行うデータウェアハウスなどの技術を足がかりとして、既に10年以上前から活用されてきた。ところが、企業システムに眠っているデータは定型化された数値が中心のデータばかりではなく、一律で単純な自動解析手法だけでは満足な結果が得られなくなってきた。とりわけ、急速な勢いで増え続けているワープロ文書やメール、そしてWebファイルとして保存されている非定形のテキストデータは、さらに高度な解析処理が必要となる。

こうしたテキストデータには、企業のビジネスにとって有益な情報が隠されている。これを得るために、テキストをデータマイニングの手法を応用して解析するのが「テキストマイニング」である。

テキストマイニングが注目されるようになったのは比較的最近のことである。売上表などの文書形式や入力数値が定型化されているものが分析対象の中心となるデータマイニングとは違い、人間が日常で用いる自然文で書かれているテキストをコンピュータが解析することは難しい技術だった。さらに、日本語は欧米の言語とは異なり、単語をスペースで区切る書き方をしない。スペースで文を分割すれば単語が得られる欧米とは違い、そもそも日本語では文章を単語単位で切り分けていく前処理が必要となる。そのため、日本では海外に比べてテキストマイニング技術が遅れていると評価されてきて、事実これまでは、テキストデータの意味をわざわざ人間が読み解くことが必要不可欠であり、そのコンピュータ処理化に頭を悩ませる企業が多かった。

しかし、コンピュータ技術だけではなく、言語学など他分野における多くの研究の成果もあって、現在では文章から単語を抽出する技術も確立、実用的なレベルのテキストマイニングが行われるようになっている。膨大なテキストデータを単語や連語で分割して、その言葉が使われている頻度や相関関係をデータマイニングと同様の手法を使って探し出し、次のビジネスに活用する仕組みを運用している企業も増えている。

テキスト分析技術の活躍する現場
コンタクトセンターなどの分野で徐々に実用化

テキストマイニングは、実際にどのような分野でよく使われているのだろうか。

まず挙げられるのは、顧客サポート業務などを担当するコンタクトセンターの分野である。コンタクトセンターにおいて顧客とオペレータとの間でやりとりされた記録、あるいは顧客から寄せられた記述式のアンケートをテキストマイニングで処理することで、自社の商品のどんな部分への問い合わせが多いのか、どんなクレームが発生しているのか、どのように評価されているのかといった調査が行える。

調査手法としては、頻出語句の登場回数をリストアップ、一定条件に合った語句の登場文書を探す、商品別や年代別などの分類で頻出語句の変化を見るなどがある。しかし、分析対象となるテキストデータは必ずしも分析に理想的な形式で整えられてはいなく、文書作成者ごとにフォーマットや語句の用い方が違うのは避けられない。また、語句の抽出にしても、例えば「故障」を単純検索した場合、「故障した」も「故障しなかった」も抽出されてしまう。このような、自然文だからこその問題を吸収して、正確な分析結果を得られるのがテキストマイニングの利点となる。この分析結果から商品やサービスに改善を施し、その後の評価をさらに時系列で分析し続けることで、顧客満足度を高めるサイクルを確立していくのだ。

また、テキストマイニング技術の活用が進みつつあるのが、Webマーケティングの分野である。例えば、インターネット上に存在する掲示板やブログのテキストデータを収集し、それをテキストマイニング処理することによって、自社の商品がどのような評価を受けているのかが分かってくる。この方法ならば、自社で行うアンケートよりも多くの数が容易に集められ、何より消費者の生の声が得られやすくなる。そして集まる情報は万単位となるため、もはや人間の手では足りずコンピュータ処理が活躍する。全体の傾向分析はもちろん、人間では見落としがちな希少意見の吸い上げにも効力を発し、次の商品開発やビジネス展開への重要なヒントとして役立つことになる。

企業の内部で使われるだけではなく、私たちが直接使えるサービスとしてもテキストマイニングは活躍している。インターネットにおける検索機能がそれだ。検索サイトで語句を入力して結果を表示させたときに、類する情報も提供されたことがあるだろう。また、ショッピングサイトで商品を探すときにも、キーワードから関連の商品や店舗オススメの商品が表示されることがある。これらも、検索のキーワードとサイトの持つデータベースをテキストマイニングの分析によって結びつけ、結果を表示させているのだ。このようにテキストマイニングでは、消費者の動向から次に何が最適かを予測することも可能になってきており、一種の人工知能としても働いている。

意味だけではなく感情まで読み取る
情報分析の技術革新とノウハウの未来

現時点のテキストマイニングには、まだまだ残されている課題もある。第一に、テキストマイニングによって解析する前作業となる、テキストデータからの言葉の抽出に関しては、テキスト作成者ごとの類語や言葉使いの揺れ、あるいは入力ミスなどを判別するさらなる精度向上が求められる。また、メールや文書ファイルのようにあらかじめデータ化されたテキストならば技術対応は進んできたが、その他の形で記録された情報、つまりは電話でやりとりした音声、FAXや郵便で寄せられた紙文書をデータ化する音声認識技術や画像認識技術などの関連技術も同時に発達することが必要になる。

さらに将来的には、コンピュータが自然文を理解し、文章から抜き出した言葉から「感情」を読み解くことまでもシステム化が目指されている。

最も重要と言えるのが、テキストマイニングからどんな情報を得るのかというノウハウの確立と蓄積だろう。技術的な進歩があったとしても、テキストマイニングの結果をどのようにビジネスへと活用するかには、実務を行う担当者の専門的な知識と判断が必要になってくる。こうした人に頼る部分を、ノウハウとしてできる限り蓄積していくことが、今後のデータマイニングには必要になってくるだろう。

(掲載:2008年7月)

関連リンク

企業のITセキュリティ講座