「構造化」と「非構造化」は、データの形式とスキーマ・ルールの有無に基づいてデータを分類するために使用される用語です。
構造化データには固定されたスキーマがあり、名前と電話番号など、行と列で表現できるものにうまく適合します。非構造化データには固定されたスキーマがなく、オーディオ・ファイルやウェブページなど、より複雑な形式を取ることができます。
構造化データと非構造化データが異なる主要な領域は、次のとおりです。
以下、構造化データと非構造化データの定義、ユースケース、メリットについて詳しく説明します。
IBMニュースレター
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
構造化データは明確な事前定義された形式で整理されます。構造化データは標準化されているため、データ分析ツール、機械学習アルゴリズム、および人間のユーザーによって簡単に解読できます。
構造化データには、定量的データ(価格や収益の数値など)と定性的データ(日付、名前、住所、クレジット・カード番号など)の両方を含めることができます。例えば、会社名、経費値、調査対象期間が行と列に整理された財務レポートは、構造化データと見なされます。
構造化データは通常、Excelスプレッドシートやリレーショナル・データベース(またはSQLデータベース)などの表形式で保存されます。ユーザーは、構造化照会言語(SQL)を使用して、リレーショナル・データベース管理システム(RDBMS)内で構造化データを効率的に入力、検索、操作できます。1974年にIBM®によって開発された構造化照会言語は、構造化データの管理に使用されるプログラミング言語です。
構造化データのユースケースには、次のようなものがあります。
構造化データのメリットは、その使いやすさとアクセスのしやすさにあります。
構造化データの課題は、データの柔軟性の欠如に関係しています。
非構造化データには事前定義された形式がありません。非構造化データセットは通常、規模が大きく(テラバイトまたはペタバイト単位のデータ)、企業が生成するすべてのデータの90%を占めます。このように量が膨大になったのは、ビッグデータ(インターネットやその他の接続テクノロジーから得られる膨大で複雑なデータセット)の出現によるものです。1
非構造化データには、テキスト・データと非テキスト・データの両方、および定性的データ(ソーシャル・メディアのコメント)データと定量的データ(テキストに埋め込まれた図)データの両方が含まれます。
テキスト・データ・ソースからの非構造化データの例には次のようなものがあります。
非テキスト非構造化データの例には次のようなものがあります。
非構造化データには、データ形式、速度、ストレージにおける次のようなメリットがあります。
非構造化データの課題は専門知識と利用可能なリソースに集中します。
AIは大量のデータを迅速に処理できます。これは、膨大な量の非構造化データを実用的な洞察に変換したい組織にとって重要な機能です。
機械学習と自然言語処理(NLP)を使用すると、AIアルゴリズムは非構造化データをふるいにかけてパターンを見つけ、リアルタイムの予測や推奨を行うことができます。組織はこれらの分析モデルを既存のダッシュボードやアプリケーション・プログラミング・インターフェース(API)に組み込み、意思決定プロセスを自動化できます。
半構造化データは、構造化データと非構造化データの橋渡しをするもので、ウェブ・スクレイピングやデータ統合に役立ちます。
半構造化データには事前定義されたデータ・モデルがありません。ただし、特定のデータ特性を識別し、データをレコードや事前設定されたフィールドにスケーリングするために、メタデータ(タグやセマンティック・マーカーなど)が使用されます。メタデータにより、最終的には半構造化データのカタログ化、検索、分析が非構造化データよりも適切に実行できるようになります。
半構造化データの例には、JavaScript Object Notation(JSON)、カンマ区切り値(CSV)、拡張マークアップ言語(XML)ファイルなどがあります。より一般的に引用される例としては、Eメールが挙げられます。それには一部のデータ・セクションに標準化された形式(ヘッダーや件名など)があるものの、そのセクション内には非構造化データ・コンテンツがあります。
企業が繁栄するには、データを活用して顧客ロイヤルティーを構築し、ビジネス・プロセスを自動化し、AI駆動型のソリューションで業務を刷新する必要があります。
IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。
より良い意思決定を可能にする、AIを活用して洞察を引き出すCognos Analytics 12.0をご紹介します。