ホーム
Topics
テキスト・マイニングとは
テキスト・マイニングはテキスト・データ・マイニングとも呼ばれ、構造化されていないテキストを構造化された形式に変換し、意味のあるパターンと新しい洞察を特定するプロセスです。 ナイーブ・ベイズ、サポート・ベクター・マシン(SVM)、その他のディープ・ラーニング・アルゴリズムなどの高度な分析技術を適用することで、企業は非構造化データの中に隠れた関係を探り、発見することができるようになります。
テキストは、データベースで最も一般的なデータ型のひとつです。 データベースの種類によって、このデータは以下のように分類できます。
世界中に存在するデータの80% が非構造化フォーマット (ibm.com外部へのリンク)であるため、テキスト・マイニングは様々な組織にとって大変重要な手法です。 テキスト・マイニング・ツールや 情報抽出 (PDF、131 KB)(IBM外部へのリンク)などの 自然言語処理 (NLP)技術を利用することにより、非構造化文書を構造化し、データの分析や質の高い洞察の取得が可能になります。 結果として組織の意思決定が改善され、ビジネス成果の向上につながります。
テキスト・マイニングとテキスト解析という言葉は、一般的な会話の中ではどちらもほぼ同義ですが、ニュアンスは少し異なります。 テキスト・マイニングとテキスト分析は、機械学習、統計学、言語学などを用いて、非構造化データの中からテキストのパターンと傾向を特定します。 データをより構造化された形式に変換するのがテキスト・マイニングやテキスト分析で、そこからより定量的な洞察を得ることができるのがテキスト解析です。 そしてデータ可視化技術を活用することで、より多くの人にその成果を伝えることができます。
テキスト・マイニングのプロセスは、構造化されていないテキスト・データから情報を推論するためのいくつかの処理から構成されています。 各種のテキスト・マイニングの技術を適用する前に、最初にテキスト・データのクリーニングと、テキスト・マイニングに使用できるフォーマットへの変換を行う、テキストの前処理から始める必要があります。 この作業が自然言語処理(NLP)における本質で、一般的には言語識別、トークン化、品詞タグ付け、チャンキング、構文解析などの技術を使用して、解析できるようにデータを適切にフォーマットします。 テキストの前処理が完了したら、テキスト・マイニング・アルゴリズムを適用して、データから洞察を導き出せます。 このような一般的なテキスト・マイニングには、以下の技術があります。
情報検索(IR)は、事前に設定されたクエリやフレーズに基づいて、関連する情報や文書を検索します。 IRシステムはアルゴリズムを使用してユーザーの行動を追跡し、その行動に関連するデータを識別します。 情報検索は図書館の目録システムやGoogleなどの一般的な検索エンジンで多く利用されています。 一般的なIRサブタスクには以下の処理が含まれます:
自然言語処理は計算言語学から発展したもので、コンピューター・サイエンス、人工知能、言語学、データサイエンスなどさまざまな分野の手法を用いて、人間の言語を文書と音声の両方でコンピューターが理解できるようにする技術です。 NLPのサブタスクで文の構造や文法を解析することで、コンピューターは「読む」ことが可能になります。 一般的なサブタスクには以下の技術がありあす:
情報抽出(IE)は、様々な文書を検索する際に、関連する各種のデータを抽出します。 また、フリー・テキストから構造化された情報を抽出して、それらの固有表現、属性、関連情報をデータベースに格納することも、その重要な目的です。 一般的な情報抽出サブタスクには以下の処理があります。
データ・マイニングは、ビッグ・データから各種のパターンを識別して、有用な洞察を抽出するプロセスです。 この手法は構造化データと非構造化データの両方を評価して新しい情報を見出すもので、一般的にはマーケティングやセールスにおいて消費者行動の分析によく利用されます。 テキスト・マイニングは非構造化データを構造化して分析することで新たな洞察を得ることに主眼を置いており、本質的にはデータ・マイニングのサブフィールドといえます。 上記の技術はデータ・マイニングの形態ですが、テキスト・データ解析の範囲に含まれます。
テキスト分析ソフトウェアは、これまでに数多くの業界の業務形態を改善し、製品のユーザー体験を向上させ、より迅速でより良いビジネス上の意思決定を行うことを可能にしてきました。 以下のようなユースケースがあります。
カスタマー・サービス:お客様の声は様々な方法で募集されています。 チャットボット、顧客調査、NPS(ネット・プロモーター・スコア)、オンライン・レビュー、サポート・チケット、ソーシャル・メディア・プロファイルなどのフィードバック・システムをテキスト分析ツールと組み合わせることで、企業は顧客体験を迅速に向上させることができます。 テキスト・マイニングとセンチメント分析を併用することにより、企業は顧客の重要な課題にプライオリティーを置くことで、緊急の問題にリアルタイムで対応して顧客満足度を高めることが可能になります。 Verizonがカスタマー・サービスでテキスト分析をどのように活用しているかをご紹介します。
リスク管理:テキスト・マイニングはリスク管理にも応用されており、センチメントの変化をモニタリングしたり、アナリストのレポートやホワイト・ペーパーから情報を抽出することで、業界のトレンドや金融市場に関する洞察を得ることができます。 特に銀行業界にとっては、様々な分野への事業投資の検討において、ここで得られたデータを活用することで、より確信を持って検討ができます。 CIBCとEquBotがリスク軽減のためにテキスト解析をどのように活用しているかをご紹介します。
メンテナンス:テキスト・マイニングを利用すれば、製品や機械の動作や機能に関する豊富で包括的な情報が提供されます。 テキスト・マイニングを継続使用することで、問題や予防・事後保守の手順のパターンが数多く明らかになり、やがて自動的な意思決定が可能となります。 テキスト分析により、保守担当者は課題や故障の根本原因をより迅速に解明することができます。
ヘルスケア:テキスト・マイニングの技術は、特に情報のクラスタリングにおいて、バイオメディカル分野の研究者にとってますます貴重なものとなってきています。 膨大な医学研究資料を手作業で調査するにはコストも時間もかかりますが、テキスト・マイニングを活用すれば医学文献から貴重な情報を自動的に抽出できます。
スパム・フィルター:多くのスパム・メールは、ハッカーがコンピューター・システムをマルウェアに感染させるための入り口となります。 テキスト・マイニングを利用すれば、スパム・メールをフィルタリングして受信ボックスから除外できるだけでなく、ユーザー体験全般を向上させ、エンド・ユーザーへのサイバー攻撃のリスクを最小限に抑えることができます。
IBM Watson Discoveryは、受賞歴に輝くAI搭載検索テクノロジーです。データのサイロを解消し、エンタープライズ・データ内の埋もれた情報を取得します。
Watson Natural Language Understandingは、ディープ・ラーニングの技術を用いてテキストからキーワード、感情、構文などのメタデータを抽出するクラウドネイティブの製品です。
NLPは、あなたのビジネスの言語を話すAIです。 IBM Watson Discoveryを使用して、3年間で383%のROIを実現するソリューションを構築してください。