データ・セットは、簡単に取得および分析できるように、通常、テーブル、配列、または特定の形式(CSVやJSONなど)で整理されたデータのコレクションです。データ・セットは、データ分析、機械学習(ML)、人工知能(AI)、および信頼性が高くアクセス可能な データを必要とするその他のアプリケーションに不可欠です。
今日の組織は、顧客とのやり取り、金融取引、IoTデバイス、SNSプラットフォームなど、さまざまなソースから大量のデータを収集しています。
こうしたデータすべてのビジネス価値を引き出すには、多くの場合、データをデータ・セット、つまり分析や適用のために情報にアクセスできるようにする整理されたコレクションに整理する必要があります。
データ・セットの種類によって、データはさまざまな方法で保管されます。例えば、構造化データ・セットでは、多くの場合、行と列が定義されたテーブルにデータ・ポイントが配置されます。非構造化データ・セットには、テキスト・ファイル、画像、オーディオなど、さまざまな形式を含めることができます。
すべてのデータ・セットに構造化データが含まれているわけではありませんが、定義されたスキーマであれ、JSONやXMLなどの半構造化データ形式で緩く編成された構文であれ、データ・セットには常に何らかの一般的な構造があります。
データ・セットの例は次のとおりです。
組織では、データ分析やビジネス・インテリジェンス(BI)などのさまざまなビジネス・イニシアチブをサポートするために、複数のデータ・セットを使用および管理することがよくあります。
特に、ビッグデータは、価値を提供するために大規模で複雑なデータ・セットに依存しています。これらのデータ・セットは、ビッグデータ分析を使用して適切に収集、管理、分析されると、新たな洞察の発見やデータに基づく意思決定の実現に役立ちます。
近年、人工知能(AI)と機械学習 の台頭により、データ・セットへの注目がさらに高まっています。組織では、正確な機械学習モデルを開発し、予測アルゴリズムを改良するために、広範かつ適切に整理されたトレーニング・データが必要です。
調査会社のGartner社によると、61%の組織がAIテクノロジーの影響により、データと分析の運用モデルを進化させるか、再考する必要があると報告しています。1AI
「データ・セット」という用語は広く使用されることが多いですが、データの集合がデータ・セットを構成するかどうかは特定の性質によって決まります。一般に、データ・セットには、変数、スキーマ、メタデータという3つの基本的な特性があります。
すべてのデータのコレクションがデータ・セットとして適格であるとは限りません。無関係なデータ・ポイントをランダムに集めても、意味のある分析を可能にする適切な構成と構造がなければ、データ・セットを構成することはできません。
同様に、アプリケーション・プログラミング・インターフェース(API)、データベース、およびスプレッドシートはデータ・セットとやり取りしたりデータ・セットを格納したりできますが、それ自体がデータ・セットである必要はありません。
APIを使用すると、アプリケーションが相互に通信できるようになりますが、そのため、データ・セットへのアクセスや交換が必要になることもあります。データベースとスプレッドシートは、データ・セットを含めることができる情報のコンテナです。
組織では通常、処理するデータのタイプに基づいて分類される3つの主な種類のデータ・セットを扱います。
組織は、包括的なデータ分析をサポートするために、複数の種類のデータ・セットを組み合わせて使用することがよくあります。例えば、小売業では、構造化された販売データを、構造化されていない顧客レビューや半構造化されたWeb分析と併せて分析することで、顧客の行動や好みに関するより優れた洞察を得ることができます。
構造化データ・セットは、事前に定義された形式(通常は行と列が明確に定義されたテーブル)で情報を整理します。これらのデータ・セットは、顧客関係管理(CRM) や在庫管理など、多くの重要なビジネス・プロセスの基盤となります。
構造化データ・セットは一貫したスキーマに従うため、高速なクエリーと信頼性の高い分析が可能になります。そのため、正確で定量化可能なデータを必要とするビジネス・インテリジェンス・ツールやレポート・システムに最適です。
構造化データ・セットの一般的な例は次のとおりです。
非構造化データ・セットには、従来のデータ・モデルや厳格なスキーマに準拠しない情報が含まれています。これらのデータ・セットにはより高度な処理ツールが必要ですが、構造化データ形式では取得できない豊富な洞察が含まれていることがよくあります。
組織は、人工知能や機械学習モデルを強化するために非構造化データ・セットに依存しています。これらのデータ・セットは、AIモデルをトレーニングし、より高度な分析機能を開発するために必要な、多様な現実世界のデータを提供します。
データ・セットの一般的な例には、次のようなものがあります。
半構造化データ・セットは、構造化データと非構造化データの間のギャップを埋めます。厳格なスキーマには従いませんが、定義された構文やマーカーを組み込むことで、柔軟かつ解析可能な形式で情報を整理するのに役立ちます。
このハイブリッド・アプローチにより、半構造化データ・セットは、ある程度の組織構造を維持しながら多様なデータ・タイプを処理する必要がある最新のデータ統合プロジェクトやアプリケーションにとって価値のあるものになります。
半構造化データ・セットの一般的な例は次のとおりです。
組織は複数のソースからデータを収集し、さまざまなビジネスイニシアチブをサポートするデータ・セットを構築します。データ・ソースは、データ・セットの品質と有用性の両方を直接決定できます。
一般的なデータ・ソースには次のようなものがあります。
データ・リポジトリーは、データの一元化された保管です。独自のデータ・リポジトリーには、多くの場合、顧客記録、金融取引、競争上の優位性をもたらす運用指標など、機密データやビジネス上重要なデータが保存されています。
その他のデータ・リポジトリーは公開されています。例えば、GitHubなどのプラットフォームでは、コードとともにオープンソース・データ・セットがホストされます。研究者や組織は、これらの公開データ・セットを使用して、機械学習モデルやデータ・サイエンス・プロジェクトでオープンに共同作業を行うことができます。
データベースは、データを安全に保存し、必要に応じて簡単に取得できるように最適化されたデジタル・データ・リポジトリーです。
データベースには、単一のデータ・セットまたは複数のデータ・セットを含めることができます。ユーザーは、構造化クエリー言語(SQL)などの特殊な言語を使用するデータベース・クエリーを実行することで、関連するデータ・ポイントを素早く抽出できます。
APIはソフトウェア・アプリケーションを接続して通信できるようにします。データ・コンシューマーはAPIを使用して、Webサービスやデジタル・プラットフォームなどの接続されたソースからデータをリアルタイムで取得し、他のアプリやリポジトリーに送信して使用することができます。
データサイエンティストは、API統合やデータ処理のための堅牢なライブラリを提供するPythonなどの言語を使用して、自動データ収集 パイプライン を構築することがよくあります。例えば、小売分析システムでは、これらの自動化されたパイプラインを使用して、eコマースストアや在庫管理システムから顧客の購入データや在庫レベルを継続的に収集する場合があります。
Data.govなどのサイトや、New York City Open Dataなどの都市レベルのオープンデータ・イニシアチブでは、医療、交通、環境の指標を含むデータ・セットへの無料アクセスを提供しています。研究者はこれらのデータ・セットを使用して、交通パターンから公衆衛生の傾向まであらゆるものを研究できます。
人工知能の強化からデータ主導の洞察の実現まで、データ・セットはいくつかの重要なビジネスおよびテクノロジーの取り組みの基盤となります。
データ・セットの最も一般的な用途には次のようなものがあります。
人工知能(AI)は、多くの組織にとって重要な差別化要因となる可能性があります。
IBM Institute for Business Valueによると、トップクラスの業績を上げているCEOの72%は、自社の競争優位性は最先端の生成AIの導入にかかっていると考えています。これらの最先端のAIシステムは、モデルを効果的にトレーニングするために、ラベル付きとラベルなしの両方の膨大なデータ・セットに依存しています。
包括的なトレーニング・データがあれば、組織は次のような複雑なタスクを実行するAIシステムを開発できます。
データサイエンティストとアナリストは、データ・セットを使用して貴重な洞察を抽出し、分野を超えて発見を促進します。組織がこれまで以上に多くのデータを収集するにつれて、仮説を検証し、傾向を特定し、戦略的な意思決定に役立つ関係性を明らかにするためにデータ分析が重要になってきました。
データ・セットがデータ分析を支援する一般的な方法には次のようなものがあります。
組織はビジネス・インテリジェンス(BI)を使用してデータ・セット内の洞察を明らかにし、リアルタイムの意思決定を促進します。
BI・ツールは、さまざまな種類のデータを分析して傾向を特定し、パフォーマンスを監視し、新しい機会を発見するのに役立ちます。例えば、次のようなアプリケーションがあります。
あらゆる取り組みにおいて大規模で複雑なデータ・セットを処理する際には、さまざまな課題や考慮事項に直面する可能性があります。最も顕著なものには次のようなものがあります。
すべてのリンク先は、ibm.comの外部です。
1 Organizations are evolving their D&A operating model because ofAItechnologies(組織はAIテクノロジーによってD&A運用モデルを進化させている)、Gartner社、2024年4月29日。
ABIソリューションの進化する状況について独自の洞察を提供し、データおよび分析のリーダーにとって重要な調査結果、仮定、推奨事項をご覧ください。
データ・アクセスを簡素化し、データ・ガバナンスを自動化します。ワークロードのコスト最適化、AIと分析の拡張など、データレイクハウス戦略をデータ・アーキテクチャーに統合することで、あらゆるデータをあらゆる場所で利用できるようになります。
データ駆動型の組織を構築し、ビジネス上の優位性を推進するためのデータ・リーダー向けガイドはこちらです。
オープンなデータレイクハウス・アプローチがどのように信頼できるデータを提供し、分析とAIプロジェクトをより迅速に実行できるかをご覧ください。
4つの重要なステップで、データおよび分析戦略をビジネス目標に結び付けましょう。
ビジネス・インテリジェンスの課題がなぜ解決されないのか、そしてそれが組織全体のユーザーにとって何を意味するのかを詳しく見てみましょう。
企業が繁栄するには、データを活用して顧客ロイヤルティーを構築し、ビジネス・プロセスを自動化し、AI駆動型のソリューションで業務を刷新する必要があります。
IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。
より良い意思決定を可能にする、AIを活用して洞察を引き出すCognos Analytics 12.0をご紹介します。