タグ

非構造化データとは

執筆者

Alexandra Jonker

Staff Editor

IBM Think

Alice Gomstyn

Staff Writer

IBM Think

非構造化データとは

非構造化データとは、あらかじめ定義された形式のない情報です。非構造化データセットは非常に大規模で（しばしばテラバイトまたはペタバイト単位）、企業が生成するデータの90％を占めます。¹

非構造化データの急増は、テキスト文書、SNS、画像・音声ファイル、インスタント・メッセージ、スマート・デバイスなど、多様かつ広範なデータ・ソースによって促進されています。今日生成される新しいデータのほとんどは非構造化であり、送信されるメッセージ、アップロードされる写真、トリガーされるセンサーなどのすべてがデータをさらに増大させています。

構造化データ（あらかじめ定義されたデータ・モデルを持つもの）とは異なり、非構造化データは従来のデータベースの固定スキーマに容易には適合しません。代わりに、非構造化データはファイル・システム、非リレーショナル（またはNoSQLデータベース）、またはデータ・レイクに保存されることが多いです。

非構造化データの複雑さと非均一なデータ構造は、より高度なデータ分析手法を必要とします。機械学習（ML）や自然言語処理（NLP）などの技術は、非構造化データセットから洞察を抽出するために一般的に活用されています。

かつて非構造化データは、問題の多いいわゆるダーク・データと見なされていました。非構造化データの課題（すなわち、その膨大な量と均一性の欠如）は、多くのビジネス用途において利用困難なものでした。

しかし今日では、豊富な非構造化データを保有する企業は重要な戦略的資産を持っています。構造化データと非構造化データを組み合わせることで、企業全体のデータの包括的な全体像を把握することができます。また、特に現在では、企業が生成AIを最大限に活用するのにも非構造化データは役立ちます。

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

非構造化データの例は

Eメールでのメッセージ、Word文書、PDF、ブログ、ソーシャル・メディアの投稿など、ほとんどの非構造化データはテキスト形式です。テキスト形式の非構造化データには、Microsoft TeamsやSlackなどの通話記録やメッセージ・テキスト・ファイルも含まれます。

しかし、非構造化データには非テキスト形式のものも含まれます。非テキスト形式の非構造化データの一般的な例には、JPEG、GIF、PNGなどの画像ファイル、マルチメディア・ファイル、動画ファイル、モバイルの活動データ、モノのインターネット（IoT）デバイスからのセンサー・データなどがあります。

非構造化データ、構造化データ、半構造化データの違い

データは、形式やスキーマ・ルールに基づき、構造化、非構造化、または半構造化に分類されることがよくあります。名前が示すとおり、半構造化データは構造化データと非構造化データの両方の特性を持ちます。データの各種類の簡単な概要は以下のとおりです。

構造化データ

明確な事前定義されたスキーマがある
Excelのスプレッドシートやリレーショナル・データベース管理システム（RDBMS）に見られるように、行と列にきちんと収まるデータ
例：電話番号、SEOタグ、および顧客データ

非構造化データ

事前定義されたスキーマがない
従来のリレーショナル・データベースの厳格な構造には準拠していない
例としては、ウェブページのテキスト、通話記録、メディアファイルなどがあります。

半構造化データ

あらかじめ定義されたスキーマはありませんが、インデックス作成や分析を可能にするタグやセマンティック・マーカーなどのメタデータがあります。
従来のリレーショナル・データベースの厳格な構造には準拠していない
例としては、JavaScript Object Notation（JSON）、CSV、eXtensible Markup Language（XML）ファイルなどがあります。

非構造化データが重要な理由

非構造化データは、企業で生成されるすべてのデータの大部分を占めます。この種のデータは多様で柔軟性が高く、構造化データセットには存在しない可能性のある洞察も豊富に含まれています。構造化データは依然として非常に価値がありますが、今日の多くの企業は、ほとんど活用されていない膨大な非構造化データを保有しています。

非構造化データは現代のAIにとっても重要な役割を果たしています。非構造化データ（公開データおよび内部の独自データの形態）は、AIモデルの学習やモデル性能の向上に活用できます。

IBMお客様事例

お客様のビジネス課題（顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など）を解決した多岐にわたる事例のご紹介です。

非構造化データのユースケースとは

適切なツールを用いることで、非構造化データは次のような多様なユースケースを提供できます。

生成AI

生成AIは、膨大なデータに含まれるパターンや関連性を識別し、符号化するディープラーニングモデルに依存しています。非構造化データは、通常インターネット由来であり、トレーニングに必要な大量の豊富かつラベル付けされていないデータを提供するのに適しています。

検索拡張生成（RAG）

RAGは、組織の内部非構造化データなどの追加の外部ナレッジ・ベースへのアクセスを提供することで、生成AIモデルの性能を最適化するアーキテクチャーです。このプロセスにより、モデルをドメイン固有のユースケースに適応させ、より適切な回答を提供できるようにします。

顧客行動とセンチメント分析

センチメント分析は、大量のテキストを解析し、それが肯定的、否定的、または中立的な感情を表しているかを判定します。顧客行動を理解するためのツールとして、感情分析はデジタルチャネル全体で顧客によって生成される膨大な非構造化テキスト・データを活用します。

予測データ分析

企業は予測分析を用いて、過去のデータを基に将来の結果を予測し、リスクや機会を特定します。例えば、医療機関が診療記録（非構造化テキスト・データ）を解析し、特定の疾患がどのように診断・治療されてきたかを把握し、その結果に基づいて予測モデルを作成することができます。

チャットボットのテキスト分析

エンタープライズ・グレードのチャットボットは、顧客や従業員との対話に含まれる非構造化テキストデータを分析し、洞察を抽出できます。通常、この分析は自然言語処理（NLP）や機械学習などの技術を用いて実行されます。分析されたテキストデータから得られる洞察は、顧客行動の把握やチャットボットの性能向上に役立ちます。

AI向けの非構造化データ：詳細

非構造化データに関する人工知能関連のユースケースは、AIイノベーションを取り入れる企業にとってますます重要な焦点となっています。ChatGPTやその他の話題のAIアプリの基盤となっている技術である生成AIを考えてみましょう。それは、一般的に大規模言語モデル（LLM）である基盤モデルから始まります。

基盤モデルの作成には、通常インターネット由来の膨大な非構造化データを用いてディープラーニング・アルゴリズムをトレーニングすることが含まれます。この非構造化データは多様かつ膨大で、AIモデルにコンテキストやニュアンスを学習させます。

しかし、非構造化トレーニング・データは、領域や組織に特化しているというよりも非常に一般的であり、かつ陳腐化している可能性があります。最終的なモデルは、領域固有の回答を求めるプロンプトに対応するのが難しい場合があります。

このような課題に対処するために、組織は事前にトレーニングされたモデルを特定のユースケースやタスクに適応させることができます。1つの方法であるファイン・チューニングは、小規模でタスク特化型のデータセットを用いてベースモデルをトレーニングし、調整する手法です。この手法には、高品質な構造化データが必要であり、多くの場合、独自データや専門的なドメイン固有の知識が用いられます。

しかし、別の方法である検索拡張生成（RAG）は、非構造化データを取り込むことができます。LLMは通常、トレーニングデータから情報を取得しますが、RAGはAIワークフローに情報検索コンポーネントを追加し、関連データを収集してモデルに供給することで、応答内容の品質を向上させます。このデータには、内部の非構造化データセットが含まれる場合があります。

ファイン・チューニングと比較して、RAGは応答生成中に常に最新情報を取得するため、より迅速かつ正確な結果を保証します。これにより、AIの取り組みを時代遅れで汎用的なものから、カスタマイズされ、関連性が高く、影響力のあるものへと変革できます。

構造化データと同様に、非構造化データもAIに利用する前に適切なデータ・ガバナンスとデータ管理が必要です。それを分類し、データ品質を評価し、PIIをフィルタリングし、重複排除する必要があります。

適切なツールやAIの支援を活用することで、企業は非構造化データを変換し、利用可能な状態にできます。データの混沌を効果的に整理する方法を知っていることは、今や競争上の差別化要因であり、エンタープライズ生成AIの触媒となります。

非構造化データの使用方法

非構造化データは通常、ネイティブ形式で保存され、これによりストレージの選択肢が広がります。非構造化データの一般的なデータ・ストレージ環境には、次のようなものがあります。

Object Storage

オブジェクト・ストレージ（またはオブジェクトベース・ストレージ）は、データ、メタデータ、および一意の識別番号を含むシンプルで独立したリポジトリーとしてデータをオブジェクトとして保存します。このアーキテクチャーは、大量の静的な非構造化データの保存、アーカイブ、バックアップ、管理に最適です。クラウドベースのオブジェクト・ストレージは、AIワークロードのストレージ・コストとデータ利用を最適化するためによく使用されます。

データレイク

データレイクは、あらゆるデータ形式の大量の生データ、特にインターネット接続アプリやサービスによって生成されるビッグデータの洪水を処理するために設計されたデータ・ストレージ環境です。これらはクラウド・コンピューティングを利用し、データ・ストレージをよりスケーラブルかつ低コストにします。そして一般的に、データレイクはAzure Blob Storage、Google Cloud Storage、IBM Cloud® Object Storageなどのクラウドベースのオブジェクト・ストレージを使用します。

データレイクハウス

データレイクハウスは、データレイクとデータウェアハウスの長所を組み合わせた、データ管理の次の進化形と見なされています。これらは、高速かつ低コストのストレージを提供し、データ分析やAI/MLワークロードをサポートする柔軟性を備えています。データレイクハウスはリアルタイムのデータ取り込みにも対応しており、リアルタイムの意思決定を支援するAIアプリケーションにとって重要です。

NoSQLデータベース

構造化照会言語（SQL）は、データの保存、操作、取得に使用される標準化された領域固有のプログラミング言語です。NoSQL、または非SQLデータベースは、スキーマを使用せず、従来のSQLデータベース構造の外でデータを保存するように設計されています。NoSQLデータベースは、大規模な非構造化データセットを管理するために必要な速度と拡張性を提供します。例としては、 MongoDB、 Redis、 HBaseなどがあります。

非構造化データを処理するためのツールとは

非構造化データが保存された後は、ビジネス・インテリジェンスや非構造化データ分析などの下流のユースケースで効果的に活用するために、処理が必要となることがよくあります。

一部の組織は、大規模な非構造化データセットを処理するためにオープンソースのフレームワークを使用しています。例えば、Apache Hadoopは、非構造化データや半構造化データ（ストリーミング音声やソーシャルメディアの感情など）のバッチ処理を可能にするために、データレイク・アーキテクチャーに統合されることがよくあります。Apache Sparkは、ビッグデータ処理のためのもう1つのオープンソースのフレームワークです。しかし、Sparkはインメモリー処理を使用し、非常に高速であるため、機械学習やAIアプリケーションにより適しています。

構造化データと非構造化データの両方を扱うために特別に設計された最新のデータ統合プラットフォームも存在します。これらの多目的統合ツールは、未加工データを自動的に取り込み、整理し、処理済みデータをターゲット・データベースに移動します。これらの機能により、未加工の非構造化データをAI向けに準備するデータサイエンス・チームの時間を要する手作業が大幅に削減されます。

非構造化データ分析技術

組織が非構造化データから洞察を引き出すために使用できるツールや技術はさまざまあります。

AI分析

AI分析ツールは、大量のデータを迅速に処理する人工知能の能力に依存しており、膨大な非構造化データセットから価値ある洞察を見つけたい組織に欠かせません。機械学習と自然言語処理を用いて、AIアルゴリズムは非構造化データを精査し、パターンを見つけ、リアルタイムで予測を行ったり、推奨を提供したりします。これらの分析モデルは、既存のダッシュボードやAPIに統合して、意思決定を自動化することもできます。

テキスト・マイニング

テキスト・マイニングは、ナイーブ・ベイズ、サポート・ベクター・マシン（SVM）などのディープラーニング・アルゴリズムを使用し、組織が非構造化データ内の隠れた関係性を探索・発見するのを支援します。情報検索、情報抽出、データ・マイニング、自然言語処理など、テキスト・マイニングにはさまざまな手法が用いられます。

自然言語処理（NLP）

NLPは、機械学習を用いてコンピューターが人間の言語を理解し、対話できるようにします。非構造化データ分析のコンテキストにおいて、NLPは顧客レビューやSNSへの投稿など、非構造化テキスト・データからの洞察抽出を可能にします。感情分析など、高度な言語処理や理解を提供することで、テキスト・マイニングを強化するために利用できます。