データ・セットとは

2024年12月10日

共同執筆者

Matthew Kosinski

Enterprise Technology Writer

データ・セットとは

データ・セットは、簡単に取得および分析できるように、通常、テーブル、配列、または特定の形式(CSVやJSONなど)で整理されたデータのコレクションです。データ・セットは、データ分析、機械学習(ML)、人工知能(AI)、および信頼性が高くアクセス可能な データを必要とするその他のアプリケーションに不可欠です。

今日の組織は、顧客とのやり取り、金融取引、IoTデバイス、SNSプラットフォームなど、さまざまなソースから大量のデータを収集しています。

こうしたデータすべてのビジネス価値を引き出すには、多くの場合、データをデータ・セット、つまり分析や適用のために情報にアクセスできるようにする整理されたコレクションに整理する必要があります。

データ・セットの種類によって、データはさまざまな方法で保管されます。例えば、構造化データ・セットでは、多くの場合、行と列が定義されたテーブルにデータ・ポイントが配置されます。非構造化データ・セットには、テキスト・ファイル、画像、オーディオなど、さまざまな形式を含めることができます。

すべてのデータ・セットに構造化データが含まれているわけではありませんが、定義されたスキーマであれ、JSONやXMLなどの半構造化データ形式で緩く編成された構文であれ、データ・セットには常に何らかの一般的な構造があります。

データ・セットの例は次のとおりです。

  • サポートのやり取りと解決を追跡するカスタマー・サービスのデータ・セット。
  • 機器のパフォーマンス・メトリクスを監視する製造データ・セット。
  • 取引パターンと消費者行動を分析する販売データ・セット。
  • キャンペーンの効果とエンゲージメントを測定するマーケティング・データ・セット。

組織では、データ分析ビジネス・インテリジェンス(BI)などのさまざまなビジネス・イニシアチブをサポートするために、複数のデータ・セットを使用および管理することがよくあります。

特に、ビッグデータは、価値を提供するために大規模で複雑なデータ・セットに依存しています。これらのデータ・セットは、ビッグデータ分析を使用して適切に収集、管理、分析されると、新たな洞察の発見やデータに基づく意思決定の実現に役立ちます。

近年、人工知能(AI)機械学習 の台頭により、データ・セットへの注目がさらに高まっています。組織では、正確な機械学習モデルを開発し、予測アルゴリズムを改良するために、広範かつ適切に整理されたトレーニング・データが必要です。

調査会社のGartner社によると、61%の組織がAIテクノロジーの影響により、データと分析の運用モデルを進化させるか、再考する必要があると報告しています。1AI

トラック上を転がるボールの3Dデザイン

最新のAIニュース + インサイト 


AIやクラウドなどについて、専門家が厳選したインサイトやニュースを、Thinkニュースレターで毎週お届けします。

データ・セットを正しく理解する

「データ・セット」という用語は広く使用されることが多いですが、データの集合がデータ・セットを構成するかどうかは特定の性質によって決まります。一般に、データ・セットには、変数、スキーマ、メタデータという3つの基本的な特性があります。

  • 変数は、データ・セット内で調査される特定の属性または特性を表します。例えば、販売データ・セットでは、変数には製品 ID、価格、購入日などが含まれる場合があります。変数は、多くの場合、機械学習アルゴリズムや統計分析の入力として使用されます。
  • スキーマは、変数間の関係や構文など、データ・セットの構造を定義します。例えば、表形式のデータ・セットのスキーマでは、データ・セットの形式と列ヘッダー(「日付」、「金額」、「カテゴリー」など)の概要が示される場合があります。JSONスキーマは、「名前」、「電子メール」、および「注文履歴」オブジェクトの配列などの属性を持つ顧客プロファイルなどのネストされたデータ構造を記述する場合があります。
  • メタデータまたはデータに関するデータは、データ・セットの出所、目的、使用ガイドラインに関する詳細など、データ・セットに関する重要なコンテキストを提供します。この情報は、データ・セットが解釈可能な状態を維持し、他のシステムと効果的に統合されることを保証するのに役立ちます。

すべてのデータのコレクションがデータ・セットとして適格であるとは限りません。無関係なデータ・ポイントをランダムに集めても、意味のある分析を可能にする適切な構成と構造がなければ、データ・セットを構成することはできません。

同様に、アプリケーション・プログラミング・インターフェース(API)、データベース、およびスプレッドシートはデータ・セットとやり取りしたりデータ・セットを格納したりできますが、それ自体がデータ・セットである必要はありません。

APIを使用すると、アプリケーションが相互に通信できるようになりますが、そのため、データ・セットへのアクセスや交換が必要になることもあります。データベースとスプレッドシートは、データ・セットを含めることができる情報のコンテナです。

データ・セットの種類

組織では通常、処理するデータのタイプに基づいて分類される3つの主な種類のデータ・セットを扱います。

  • 構造化データ・セット
  • 非構造化データ・セット
  • 半構造化データ・セット

組織は、包括的なデータ分析をサポートするために、複数の種類のデータ・セットを組み合わせて使用することがよくあります。例えば、小売業では、構造化された販売データを、構造化されていない顧客レビューや半構造化されたWeb分析と併せて分析することで、顧客の行動や好みに関するより優れた洞察を得ることができます。

構造化データ・セット

構造化データ・セットは、事前に定義された形式(通常は行と列が明確に定義されたテーブル)で情報を整理します。これらのデータ・セットは、顧客関係管理(CRM) や在庫管理など、多くの重要なビジネス・プロセスの基盤となります。

構造化データ・セットは一貫したスキーマに従うため、高速なクエリーと信頼性の高い分析が可能になります。そのため、正確で定量化可能なデータを必要とするビジネス・インテリジェンス・ツールやレポート・システムに最適です。

構造化データ・セットの一般的な例は次のとおりです。

  • 日付、金額、カテゴリーの定義済みフィールドを持つExcelスプレッドシートに整理された財務記録。
  • 連絡先情報と購入履歴の標準化された形式を備えた顧客データベース。
  • 製品の数量、場所、移動を追跡する在庫システム。
  • 機器の監視と予測メンテナンスのための統一されたメトリクスを提供するセンサー・データ・ストリーム。

非構造化データ・セット

非構造化データ・セットには、従来のデータ・モデルや厳格なスキーマに準拠しない情報が含まれています。これらのデータ・セットにはより高度な処理ツールが必要ですが、構造化データ形式では取得できない豊富な洞察が含まれていることがよくあります。

組織は、人工知能や機械学習モデルを強化するために非構造化データ・セットに依存しています。これらのデータ・セットは、AIモデルをトレーニングし、より高度な分析機能を開発するために必要な、多様な現実世界のデータを提供します。

データ・セットの一般的な例には、次のようなものがあります。

  • Eメール、レポート、Webページなどのテキスト・ドキュメント。
  • 機械学習モデルのトレーニングに使用される画像と動画。
  • 実際のアプリケーションからのオーディオ録音。
  • チャットログとカスタマー・サービスのトランスクリプト。

半構造化データ・セット

半構造化データ・セットは、構造化データと非構造化データの間のギャップを埋めます。厳格なスキーマには従いませんが、定義された構文やマーカーを組み込むことで、柔軟かつ解析可能な形式で情報を整理するのに役立ちます。

このハイブリッド・アプローチにより、半構造化データ・セットは、ある程度の組織構造を維持しながら多様なデータ・タイプを処理する必要がある最新のデータ統合プロジェクトやアプリケーションにとって価値のあるものになります。

半構造化データ・セットの一般的な例は次のとおりです。

  • WebアプリケーションおよびAPIで使用される JSON、HTML、およびXMLファイル。
  • フォーマットされたフィールドと自由形式のテキストの両方を含むログ・ファイル。
  • より幅広いアクセス性を実現するために複数のデータ形式を組み合わせたパブリック・データ・セット。
Mixture of Experts | ポッドキャスト

AIを解読する:1週間のニュースのまとめ

エンジニア、研究者、製品リーダーなど、世界をリードするパネリストがAIに関する最新のニュースとインサイトをお届けします。

データ・セットの出所(データ・ソース)

組織は複数のソースからデータを収集し、さまざまなビジネスイニシアチブをサポートするデータ・セットを構築します。データ・ソースは、データ・セットの品質と有用性の両方を直接決定できます。

一般的なデータ・ソースには次のようなものがあります。

  • データ・リポジトリー
  • データベース
  • アプリケーション・プログラミング・インターフェース(API)
  • パブリック・データ・プラットフォーム

データ・リポジトリー

データ・リポジトリーは、データの一元化された保管です。独自のデータ・リポジトリーには、多くの場合、顧客記録、金融取引、競争上の優位性をもたらす運用指標など、機密データやビジネス上重要なデータが保存されています。

その他のデータ・リポジトリーは公開されています。例えば、GitHubなどのプラットフォームでは、コードとともにオープンソース・データ・セットがホストされます。研究者や組織は、これらの公開データ・セットを使用して、機械学習モデルやデータ・サイエンス・プロジェクトでオープンに共同作業を行うことができます。

データベース

データベースは、データを安全に保存し、必要に応じて簡単に取得できるように最適化されたデジタル・データ・リポジトリーです。

データベースには、単一のデータ・セットまたは複数のデータ・セットを含めることができます。ユーザーは、構造化クエリー言語(SQL)などの特殊な言語を使用するデータベース・クエリーを実行することで、関連するデータ・ポイントを素早く抽出できます。

アプリケーション・プログラミング・インターフェース(API)

APIはソフトウェア・アプリケーションを接続して通信できるようにします。データ・コンシューマーはAPIを使用して、Webサービスやデジタル・プラットフォームなどの接続されたソースからデータをリアルタイムで取得し、他のアプリやリポジトリーに送信して使用することができます。

データサイエンティストは、API統合やデータ処理のための堅牢なライブラリを提供するPythonなどの言語を使用して、自動データ収集 パイプライン を構築することがよくあります。例えば、小売分析システムでは、これらの自動化されたパイプラインを使用して、eコマースストアや在庫管理システムから顧客の購入データや在庫レベルを継続的に収集する場合があります。

パブリック・データ・プラットフォーム

Data.govなどのサイトや、New York City Open Dataなどの都市レベルのオープンデータ・イニシアチブでは、医療、交通、環境の指標を含むデータ・セットへの無料アクセスを提供しています。研究者はこれらのデータ・セットを使用して、交通パターンから公衆衛生の傾向まであらゆるものを研究できます。

データ・セットのユースケース

人工知能の強化からデータ主導の洞察の実現まで、データ・セットはいくつかの重要なビジネスおよびテクノロジーの取り組みの基盤となります。

データ・セットの最も一般的な用途には次のようなものがあります。

  • 人工知能(AI)と機械学習
  • データ分析と洞察
  • ビジネス・インテリジェンス(BI)

人工知能(AI)と機械学習

人工知能(AI)は、多くの組織にとって重要な差別化要因となる可能性があります。

IBM Institute for Business Valueによると、トップクラスの業績を上げているCEOの72%は、自社の競争優位性は最先端の生成AIの導入にかかっていると考えています。これらの最先端のAIシステムは、モデルを効果的にトレーニングするために、ラベル付きとラベルなしの両方の膨大なデータ・セットに依存しています。

包括的なトレーニング・データがあれば、組織は次のような複雑なタスクを実行するAIシステムを開発できます。

  • 自然言語処理(NLP)NLP・モデルは英語と多言語のデータ・セットを利用して人間の言語を理解し、大規模言語モデル(LLM)チャットボット、翻訳サービス、テキスト分析ツールなどのアプリケーションを強化します。例えば、カスタマー・サービス・チャットボットはNLPを使用して過去のサポート会話のデータ・セットを分析し、一般的な質問にどのように応答するかを学習できます。
  • コンピューター・ビジョン:ラベル付けされた画像データ・セットを使用して、AIはオブジェクト、顔、視覚パターンを認識することを学習できます。コンピューター・ビジョンは、自律走行車、医療画像分析などのイノベーションを推進するのに役立ちます。例えば、ヘルスケア分野のAIシステムは、医療スキャンのデータ・セットを分析して、病気の初期兆候を高い精度で特定できます。
  • 予測分析予測分析では、構造化されたデータ・セットを使用してモデルをトレーニングし、住宅価格や消費者需要などの現実世界の結果を予測します。これらの回帰モデルは、季節的な需要を予測し在庫レベルを最適化するために何年にもわたる販売データを分析するなど、履歴データ・パターンを分析して正確な予測を行います。
  • 研究:AIシステムは膨大な研究データ・セットを処理して新たな洞察を発見し、イノベーションを加速できます。例えば、製薬会社はAIを使用して分子データ・セットを分析し、従来の方法よりも迅速に有望な新薬候補を特定できます。

データ分析と洞察

データサイエンティストとアナリストは、データ・セットを使用して貴重な洞察を抽出し、分野を超えて発見を促進します。組織がこれまで以上に多くのデータを収集するにつれて、仮説を検証し、傾向を特定し、戦略的な意思決定に役立つ関係性を明らかにするためにデータ分析が重要になってきました。

データ・セットがデータ分析を支援する一般的な方法には次のようなものがあります。

  • パターン認識:大規模なデータ・セットの集合を高度に分析することで、隠れた傾向、相関関係、異常を明らかにし、組織が機会を特定してリスクを軽減できるようにします。例えば、小売企業は取引データを分析することでホリデー・シーズン中の購買傾向を明らかにすることができます。
  • データの視覚化視覚化ツールは、チャート、グラフ、ダッシュボードを使用してデータにアクセスしやすくすることで、複雑なデータ・セットを明確で実用的な洞察に変換します。例えば、企業はインタラクティブなダッシュボードを使用して売上と収益の傾向を表示し、経営陣がパフォーマンス指標を迅速に把握し、情報に基づいた意思決定を行えるようにすることができます。
  • 統計分析:・データサイエンティストは、厳密な統計手法を使用して、生のデータ・セットを定量化可能な洞察に変換し、重要性を測定して調査結果を検証するのに役立ちます。例えば、金融アナリストはデータ・セットから主要な指標を計算して市場のパフォーマンスを評価する場合があります。
  • 仮説検定:・データサイエンティストは、実験データ・セットを使用して理論を検証し、潜在的な解決策を評価し、ビジネスおよび研究の意思決定に証拠に基づくサポートを提供できます。例えば、製薬会社は臨床試験のデータ・セットを分析して新薬の有効性を判断する場合があります。

ビジネス・インテリジェンス(BI)

組織はビジネス・インテリジェンス(BI)を使用してデータ・セット内の洞察を明らかにし、リアルタイムの意思決定を促進します。

BI・ツールは、さまざまな種類のデータを分析して傾向を特定し、パフォーマンスを監視し、新しい機会を発見するのに役立ちます。例えば、次のようなアプリケーションがあります。

  • リアルタイム・モニタリング: メトリクス・データ・セットと 主要業績評価指標(KPI) により、組織は運用効率とシステム・パフォーマンスを継続的に把握できます。例えば、物流会社は、ホリデー・シーズンのピーク時にリアルタイム監視を使用して配達時間を追跡し、遅延に迅速に対処します。
  • 顧客行動分析:トランザクションとエンゲージメントのデータ・セットは、購入パターンと顧客の好みを明らかにするのに役立ちます。組織はこれらの洞察を活用して、ターゲットを絞ったマーケティング戦略を策定し、タッチポイント全体で顧客体験を向上させることができます。
  • 時系列分析:組織は、連続データ・セットと履歴データ・セットを利用して、時間の経過に伴うパフォーマンスの傾向とパターンをより適切に追跡できます。例えば、エネルギー・プロバイダーは時系列データを分析して電力需要のピークを予測し、それに備え、電力網の信頼性と顧客サービスを向上させます。
  • サプライチェーンの最適化:統合されたデータ・セットにより、組織は物流とサプライヤー管理を効率化できます。例えば、小売業者は在庫レベル、出荷データ、サプライヤーのパフォーマンス指標を分析して、補充スケジュールを最適化し、輸送コストを削減します。

データ・セットの考慮事項

あらゆる取り組みにおいて大規模で複雑なデータ・セットを処理する際には、さまざまな課題や考慮事項に直面する可能性があります。最も顕著なものには次のようなものがあります。

  • データ品質:データ・セット内のデータの整合性と品質を維持することは非常に重要です。そうしないと、不完全または不正確なデータによって誤解を招く結果が生じる可能性があります。例えば、列間で形式が一貫していない新しいデータ・セットは、ワークフローを混乱させ、分析を歪める可能性があります。形式の標準化や重複の削除などの検証手法は、データ・セットの規模に応じて正確性と一貫性を確保するのに役立ちます。
  • 相互運用性とデータ統合: 異なるソースまたは形式のデータ・セットを統合すると、CSV・ファイルと JSONデータのマージなど、課題が生じる可能性があります。統一されたスキーマを作成したり、データ形式を標準化したりすることで、これらの課題に対処し、データ構造を調整してシステムの互換性を確保することができます。
関連ソリューション
分析ツールとソリューション

企業が繁栄するには、データを活用して顧客ロイヤルティーを構築し、ビジネス・プロセスを自動化し、AI駆動型のソリューションで業務を刷新する必要があります。

分析ソリューションの詳細はこちら
データ分析コンサルティングサービス

IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。

分析サービスを発見する
IBM Cognos Analytics

より良い意思決定を可能にする、AIを活用して洞察を引き出すCognos Analytics 12.0をご紹介します。

Cognos Analyticsの詳細はこちら
次のステップ

企業が繁栄するには、データを活用して顧客ロイヤルティーを構築し、ビジネス・プロセスを自動化し、AI駆動型のソリューションで業務を刷新する必要があります。

分析ソリューションの詳細はこちら 分析サービスを発見する