非構造化データとは、あらかじめ定義された形式のない情報です。非構造化データセットは非常に大規模で(しばしばテラバイトまたはペタバイト単位)、企業が生成するデータの90%を占めます。1
非構造化データの急増は、テキスト文書、SNS、画像・音声ファイル、インスタント・メッセージ、スマート・デバイスなど、多様かつ広範なデータ・ソースによって促進されています。今日生成される新しいデータのほとんどは非構造化であり、送信されるメッセージ、アップロードされる写真、トリガーされるセンサーなどのすべてがデータをさらに増大させています。
構造化データ(あらかじめ定義されたデータ・モデルを持つもの)とは異なり、非構造化データは従来のデータベースの固定スキーマに容易には適合しません。代わりに、非構造化データはファイル・システム、非リレーショナル(またはNoSQLデータベース)、またはデータ・レイクに保存されることが多いです。
非構造化データの複雑さと非均一なデータ構造は、より高度なデータ分析手法を必要とします。機械学習(ML)や自然言語処理(NLP)などの技術は、非構造化データセットから洞察を抽出するために一般的に活用されています。
かつて非構造化データは、問題の多いいわゆるダーク・データと見なされていました。非構造化データの課題(すなわち、その膨大な量と均一性の欠如)は、多くのビジネス用途において利用困難なものでした。
しかし今日では、豊富な非構造化データを保有する企業は重要な戦略的資産を持っています。構造化データと非構造化データを組み合わせることで、企業全体のデータの包括的な全体像を把握することができます。また、特に現在では、企業が生成AIを最大限に活用するのにも非構造化データは役立ちます。
Eメールでのメッセージ、Word文書、PDF、ブログ、ソーシャル・メディアの投稿など、ほとんどの非構造化データはテキスト形式です。テキスト形式の非構造化データには、Microsoft TeamsやSlackなどの通話記録やメッセージ・テキスト・ファイルも含まれます。
しかし、非構造化データには非テキスト形式のものも含まれます。非テキスト形式の非構造化データの一般的な例には、JPEG、GIF、PNGなどの画像ファイル、マルチメディア・ファイル、動画ファイル、モバイルの活動データ、モノのインターネット(IoT)デバイスからのセンサー・データなどがあります。
データは、形式やスキーマ・ルールに基づき、構造化、非構造化、または半構造化に分類されることがよくあります。名前が示すとおり、半構造化データは構造化データと非構造化データの両方の特性を持ちます。データの各種類の簡単な概要は以下のとおりです。
構造化データ
非構造化データ
半構造化データ
非構造化データは、企業で生成されるすべてのデータの大部分を占めます。この種のデータは多様で柔軟性が高く、構造化データセットには存在しない可能性のある洞察も豊富に含まれています。構造化データは依然として非常に価値がありますが、今日の多くの企業は、ほとんど活用されていない膨大な非構造化データを保有しています。
非構造化データは現代のAIにとっても重要な役割を果たしています。非構造化データ(公開データおよび内部の独自データの形態)は、AIモデルの学習やモデル性能の向上に活用できます。
生成AIは、膨大なデータに含まれるパターンや関連性を識別し、符号化するディープラーニングモデルに依存しています。非構造化データは、通常インターネット由来であり、トレーニングに必要な大量の豊富かつラベル付けされていないデータを提供するのに適しています。
RAGは、組織の内部非構造化データなどの追加の外部ナレッジ・ベースへのアクセスを提供することで、生成AIモデルの性能を最適化するアーキテクチャーです。このプロセスにより、モデルをドメイン固有のユースケースに適応させ、より適切な回答を提供できるようにします。
センチメント分析は、大量のテキストを解析し、それが肯定的、否定的、または中立的な感情を表しているかを判定します。顧客行動を理解するためのツールとして、感情分析はデジタルチャネル全体で顧客によって生成される膨大な非構造化テキスト・データを活用します。
企業は予測分析を用いて、過去のデータを基に将来の結果を予測し、リスクや機会を特定します。例えば、医療機関が診療記録(非構造化テキスト・データ)を解析し、特定の疾患がどのように診断・治療されてきたかを把握し、その結果に基づいて予測モデルを作成することができます。
非構造化データに関する人工知能関連のユースケースは、AIイノベーションを取り入れる企業にとってますます重要な焦点となっています。ChatGPTやその他の話題のAIアプリの基盤となっている技術である生成AIを考えてみましょう。それは、一般的に大規模言語モデル(LLM)である基盤モデルから始まります。
基盤モデルの作成には、通常インターネット由来の膨大な非構造化データを用いてディープラーニング・アルゴリズムをトレーニングすることが含まれます。この非構造化データは多様かつ膨大で、AIモデルにコンテキストやニュアンスを学習させます。
しかし、非構造化トレーニング・データは、領域や組織に特化しているというよりも非常に一般的であり、かつ陳腐化している可能性があります。最終的なモデルは、領域固有の回答を求めるプロンプトに対応するのが難しい場合があります。
このような課題に対処するために、組織は事前にトレーニングされたモデルを特定のユースケースやタスクに適応させることができます。1つの方法であるファイン・チューニングは、小規模でタスク特化型のデータセットを用いてベースモデルをトレーニングし、調整する手法です。この手法には、高品質な構造化データが必要であり、多くの場合、独自データや専門的なドメイン固有の知識が用いられます。
しかし、別の方法である検索拡張生成(RAG)は、非構造化データを取り込むことができます。LLMは通常、トレーニングデータから情報を取得しますが、RAGはAIワークフローに情報検索コンポーネントを追加し、関連データを収集してモデルに供給することで、応答内容の品質を向上させます。このデータには、内部の非構造化データセットが含まれる場合があります。
ファイン・チューニングと比較して、RAGは応答生成中に常に最新情報を取得するため、より迅速かつ正確な結果を保証します。これにより、AIの取り組みを時代遅れで汎用的なものから、カスタマイズされ、関連性が高く、影響力のあるものへと変革できます。
構造化データと同様に、非構造化データもAIに利用する前に適切なデータ・ガバナンスとデータ管理が必要です。それを分類し、データ品質を評価し、PIIをフィルタリングし、重複排除する必要があります。
適切なツールやAIの支援を活用することで、企業は非構造化データを変換し、利用可能な状態にできます。データの混沌を効果的に整理する方法を知っていることは、今や競争上の差別化要因であり、エンタープライズ生成AIの触媒となります。
非構造化データは通常、ネイティブ形式で保存され、これによりストレージの選択肢が広がります。非構造化データの一般的なデータ・ストレージ環境には、次のようなものがあります。
オブジェクト・ストレージ(またはオブジェクトベース・ストレージ)は、データ、メタデータ、および一意の識別番号を含むシンプルで独立したリポジトリーとしてデータをオブジェクトとして保存します。このアーキテクチャーは、大量の静的な非構造化データの保存、アーカイブ、バックアップ、管理に最適です。クラウドベースのオブジェクト・ストレージは、AIワークロードのストレージ・コストとデータ利用を最適化するためによく使用されます。
データレイクは、あらゆるデータ形式の大量の生データ、特にインターネット接続アプリやサービスによって生成されるビッグデータの洪水を処理するために設計されたデータ・ストレージ環境です。これらはクラウド・コンピューティングを利用し、データ・ストレージをよりスケーラブルかつ低コストにします。そして一般的に、データレイクはAzure Blob Storage、Google Cloud Storage、IBM Cloud® Object Storageなどのクラウドベースのオブジェクト・ストレージを使用します。
非構造化データが保存された後は、ビジネス・インテリジェンスや非構造化データ分析などの下流のユースケースで効果的に活用するために、処理が必要となることがよくあります。
一部の組織は、大規模な非構造化データセットを処理するためにオープンソースのフレームワークを使用しています。例えば、Apache Hadoopは、非構造化データや半構造化データ(ストリーミング音声やソーシャルメディアの感情など)のバッチ処理を可能にするために、データレイク・アーキテクチャーに統合されることがよくあります。Apache Sparkは、ビッグデータ処理のためのもう1つのオープンソースのフレームワークです。しかし、Sparkはインメモリー処理を使用し、非常に高速であるため、機械学習やAIアプリケーションにより適しています。
構造化データと非構造化データの両方を扱うために特別に設計された最新のデータ統合プラットフォームも存在します。これらの多目的統合ツールは、未加工データを自動的に取り込み、整理し、処理済みデータをターゲット・データベースに移動します。これらの機能により、未加工の非構造化データをAI向けに準備するデータサイエンス・チームの時間を要する手作業が大幅に削減されます。
組織が非構造化データから洞察を引き出すために使用できるツールや技術はさまざまあります。
テキスト・マイニングは、ナイーブ・ベイズ、サポート・ベクター・マシン(SVM)などのディープラーニング・アルゴリズムを使用し、組織が非構造化データ内の隠れた関係性を探索・発見するのを支援します。情報検索、情報抽出、データ・マイニング、自然言語処理など、テキスト・マイニングにはさまざまな手法が用いられます。
IBMのデータベース・ソリューションを活用して、ハイブリッドクラウド全体のさまざまなワークロードのニーズに対応しましょう。
構造化データの保管と管理に高性能で拡張性と信頼性を備えたリレーショナル・データベースであるIBM Db2をご覧ください。IBM Cloud上でSaaSとして、もしくはセルフホスティングとしてご利用いただけます。
IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。
1、2 「Untapped value: What every executive needs to know about unstructured data」、 IDC社、2023年8月。