Skip to main content
IBM 100年の軌跡
 

TAKMI

構造化されていないデータに秩序をもたらす
IBM100 TAKMI iconic mark
 

1997年、IBM東京基礎研究所の研究員たちが新しい強力なテキスト分析ツールのプロトタイプを開発しました。膨大なテキストのデータベースの中にある大量の埋もれた知識を効率良く獲得し、利用するための新たな扉を、TAKMI(Text Analysis and Knowledge Mining)と名付けたこのシステムが開いたのです。

当時でも、探しているものが何か分かっていれば、その内容を含むテキストを検索することはできました。しかし、困難なのは、データベースの中に一体何が含まれているかを理解すること、および目を通して把握することのできない膨大なテキストコンテンツをどう利用するかを考えることでした。
TAKMIの開発によって、来るべきビジネス・インテリジェンスの変革の土台が静かに作られました。1997年以前は、解析ツールの分野で主に扱っていたのは、数値データなどの「構造化された」データ、例えばデータベースやスプレッドシートなど、データ・コレクション内の決められたフィールドに格納されていて、型が決まっており、標準的な統計解析のデータ・マイニング手法によって分析できる情報として認識されたデータのみでした。
TAKMIのテクノロジーの影響力は、「構造化されていない」データ、例えば本、定期刊行物、テキスト・メッセージ、電子メールから健康記録、オーディオやビデオのファイルまで、あらゆるものに含まれている単語、文法、その他のテキスト要素の中にあるデータとメタデータを扱う能力にありました。企業などの組織のデータの80から90パーセントは構造化されていないと今日のアナリストは推定しています。さらに、ブログやソーシャル・メディアのプラットフォームなどのインタラクティブなウェブ・テクノロジーの利用が増加し、そのコンテンツが非常な勢いで量産されています。こうしたデータは毎年40から60パーセントの割合で増えています。
TAKMIの成功の鍵は自然言語処理(NLP)テクノロジーでした。例えば英語圏のデータ・マイニング研究者の大半は、空白スペースを頼りに文字列から単語を抽出することにより、英語のテキスト・データを単語の集合体として扱っていました。しかし、日本語のテキスト・データには単語を区切る空白スペースがないため、東京のIBM研究者は単語の抽出にNLPを適用し、形態素解析器で単語を区切ると共に文法上の特徴を分析し、構文解析器で単語間の関係を特定しました。このような綿密な分析の結果を活用することで、テキストマイニングにより良い結果がもたらされました。最先端のテキストマイニング・テクノロジーが日本で始まったのはこのためです。

このような非構造化データを活用できることで、あらゆる種類の企業に大きなチャンスが生まれます。IBMアルマデン研究所のテキストマイニングとソフトウェア開発部門のシニア・テクニカル・スタッフで『Mining the Talk: Unlocking the Business Value in Unstructured Information(トーク・マイニング:非構造化情報の中のビジネス・バリューを発見する)』の共著者でもあるスコット・スパングラーは次のように説明しています。「構造化された情報は、質問内容がわかっている問いに対する答えを与えてくれます。しかし構造化されていない情報は、存在することすら気づかなかった問いへの答えを教えてくれます。あなたが知らないことを知らせてくれるのです。」
TAKMIの機能を活用して、情報抽出を行い、抽出結果の分析を実践することで、大量のデータに埋もれているさまざまな傾向を発見し、製品の欠陥や評判の良くない広告から顧客行動や従業員の仕事ぶりまで、ビジネス上の重大な問題をモニタリングすることができます。状況を把握した上で意思決定を行い、情報に基づいて問題解決する手段を提供することによって、TAKMIは情報管理の分野で実践されてきた運営効率の向上をナレッジ・マネジメントの分野で実現します。
テクノロジーの観点において、TAKMIのフレームワークでは、大量の文書を扱う上での重点を文書の検索や整理から知識の発見と活用に移しました。当時の製品や技術の方向性では、情報検索と文書クラスタリングの技術をベースに、データ全体から主なトピックを特定し、その分布を見出そうとしていました。しかしTAKMIでは、より深い分析を追求し、自然言語処理、データ・マイニングおよび視覚化の技術を活用することで、特徴的な表現や係り受けパターンの認識により、意味を重視した概念抽出を実現、その概念の分布の偏りや変化を捉えた上で、着目した内容を深掘りする仕組みを構築しました。この仕組みによって、高度でしかも実用的なビジネス・インテリジェンスを実現することができました。
システムの典型的な利用例としては、日米のIBM PCヘルプ・センターのコール・ログ(問い合わせ内容とその対応の概要をテキスト化したデータ)の分析に適用した結果、顧客からの問い合わせの傾向をタイムリーに把握できるようになりました。例えば、「1998年6月から7月にかけての顧客からの問い合わせにおいては、Microsoft Windows 98に関する内容が急増しており、具体的には、その大半が自分のマシンに安全にインストールできるかどうかの問い合わせであった」といったことが簡単に分かるようになりました。IBMでは、コール・センターへ寄せられた問い合わせに目立つ内容を分析し、その回答をヘルプ・センターのホームページへタイムリーに掲載することによって、ホームページでの問題解決率を大幅に向上させました。その結果、顧客サービスの満足度を向上させると共に、コール・センターの利用回数を減らすことができました。
さらに、製品の欠陥を初期の段階で発見することでTAKMIの威力が発揮されました。これは多くの場合、数百万ドル規模の大幅な経費削減につながりました。個々のデータを人間が読みながら分析する作業と異なり、TAKMIは、コール・ログ全体において特定のトラブルに関連した表現が特定製品に偏って分布している状態を容易に発見することができます。トラブルは予想外であることが多いので、予め定義されたトラブル・コードをコール・ログに人手で割り当てた結果を集計する従来のトラブル発見アプローチには限界があります。
TAKMIのテクノロジーは、IBM以外でも、医療従事者が患者により良いケアを提供することなどに役立っています。2007年にIBM リサーチとIBMグローバル・ビジネス・サービスは日本の国立がんセンターとチームを組んで、蓄積されてきた膨大な量の生物医学情報のマイニングに利用するため、このシステムの拡張を行いました。MedTAKMI-CDIと名付けたシステムは複数のソースから臨床データを集め、解釈、分析し、診断結果、臨床検査結果、年齢、治療反応などのカテゴリーに基づく患者グループの情報を提供します。こうしたデータにおけるパターンを分析することによって、臨床医は解析ルールを作り、特定の患者グループに最適な治療を行うことができます。
2009年、TAKMIは一体化された解析プラットフォームであるIBM Content Analyticsとして製品化されました。顧客にとって特に価値があるのは、このシステムが、それまで分断されていた構造化データと非構造化データの橋渡しをし、販売データや顧客の郵便番号などの構造化データと一緒に、電子メール、ブログの投稿メッセージ、チャット・ログなどから企業活動に関するコンテンツを解析できることです。
今日、ビジネス・インテリジェンスのイノベーションを推進するIBMの継続的な取り組みは、他の解析ツール製品のラインアップにも示されています。その全ては、顧客から発生するコンテンツから、たとえそのコンテンツがどこにあろうと、その価値を発掘することを目的としています。2010年にリリースされたIBMの予測解析ソフトウェアでは、顧客の態度や行動を発見し、追跡し、さらには予測をすることを目指して、テキストマイニング機能を高めており、ソーシャル・メディアのソースにおけるテキストやその他のデータも分析対象に含められるようになっています。このソフトウェアでは、スラングや業界用語、そしてあちこちで目にするようになった感情表現の顔文字も扱うことができます。
解析ツールは、今後も、ほとんどすべての業界において、ビジネス、科学、社会の進歩を促進する重要な役割を担うでしょう。実際、IBMのInstitute for Business ValueとMIT Sloan Management Review誌が共同で執筆した2010年の白書には、業績がトップの企業では、業績の低い他社に比べ、解析ツールを5倍活用していると述べられています。
TAKMIやその後継システムのような画期的なテクノロジーのおかげで、これまでしまい込まれていたテキストなどの非構造化データは今や陽の当たる場所へと姿を現し、世界をより良く機能させる上で役立てられています。

 

この「進歩の象徴」に貢献したえり抜きのチーム・メンバー

  • 那須川哲哉 IBM主席研究員
  • 武田浩一 技術理事、IBM東京基礎研究所、アナリティクス&インテリジェンス マネージャー、自然言語処理
  • 渡辺日出雄 IBM東京基礎研究所、ナレッジ・インフラストラクチャー・グループ マネージャー、自然言語処理
  • 荻野紫穂 研究員、自然言語処理
  • 村上明子 研究員、ソーシャル・アナリティックス
  • 金山博 研究員、自然言語処理(構文解析・意味解析)
  • 竹内広宣 研究員、自然言語処理・知能ソフトウェア工学
  • 吉田一星 研究員、データベース・検索・大規模データ処理
  • 坪井祐太 研究員、統計的自然言語処理
  • 宅間大介 研究員、検索
  • 伊川洋平 研究員、データ工学、テキストマイニング
  • 西山莉紗 研究員、自然言語処理