データとは

By Annie Badman , Matthew Kosinski

定義されたデータ

データとは、事実、数値、単語、観察内容、またはその他の有用な情報の集まりです。データ処理とデータ分析を通じて、組織は未加工データ・ポイントを価値ある洞察へと変換し、意思決定を改善し、より良いビジネス成果を推進します。

組織は、非数値的定性データ（お客様レビューなど）や数値的定量データ（売上高など）を含む、さまざまなソースや形式でデータを収集します。他のデータの例には、官公庁・自治体の統計書や国勢調査記録などの公開データや、顧客の購入履歴や個人の医療記録などの非公開トデータが含まれます。

過去10年間、ソーシャルメディア、電子商取引、金融取引などのソースから得られるビッグデータが、さまざまな業種・業務のデジタル・トランスフォーメーションを推進してきました。実際、ビッグデータはビジネスの成長とイノベーションの駆動力となる価値があり「新たな石油」と称されています。

近年、人工知能（AI）の台頭により、データへの関心がさらに高まっています。組織は、機械学習（ML）モデルをトレーニングし、予測アルゴリズムを改良するためのデータを必要としています。これらのAIシステムは、分析するデータの質が高ければ高いほど、より正確で効果的になります。

データの量、複雑さ、重要性が増すにつれて、組織は情報を整理し、データ分析のためにアクセス可能な状態に保つための効果的なデータ管理プロセスを必要としています。

同時に、ユーザーと規制当局の両方からデータ・セキュリティーとプライバシーに関する懸念が高まり、データ保護と、一般データ保護規則 (GDPR)やCalifornia Consumer Privacy Act (CCPA)などの法律の遵守がますます重要視されるようになりました。

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

データの種類

データにはさまざまな形式があり、それぞれが独自の特性、ソース、形式によって定義されます。これらの違いを理解することで、データの種類によってサポートするユースケースが異なるため、より効果的な組織とデータ分析が可能になります。

さらに、単一のデータ・ポイントまたはデータ・セットが複数のカテゴリーに分類される場合があります。たとえば、構造化・定量的データ、非構造化・定性的デー他などです。

データの最も一般的な種類には、以下のようなものがあります。

定量データ
定性データ
構造化データ
非構造化データ
半構造化データ
メタデータ
ビッグデータ

定量データ

定量データは、数値的に測定できる値で構成されています。定量データの例としては、個別のデータ・ポイント（製品の販売数など）や継続的なデータ・ポイント（温度や収益の数値など）が挙げられます。

定量データは構造化されていることが多く、数学的ツールやアルゴリズムを使用して簡単に分析できます。

定量データの一般的なユースケースには、予測、統計分析、予算編成、パターンの特定、性能測定などがあります。

定性データ

定性データは、数値ではなく記述的なデータで、数字では測定できない特性、概念、またはエクスペリエンスを捉えるものです。例としては、お客様からのフィードバック、製品のレビュー、ソーシャル・メディアのコメントなどが挙げられます。

定性データには、構造化された調査済みの回答（コード化されたアンケートの回答など）と非構造化されたデータ（自由形式のテキスト回答やインタビューの記録など）があります。

定性データの一般的なユースケースには、顧客行動、市場動向、ユーザー・エクスペリエンスの理解などが含まれます。

構造化データ

構造化データは明確で定義された形式で整理され、多くの場合、リレーショナル・データベースやスプレッドシートに保管されます。このデータは定量データ（売上数値など）と定性データ（「はい・いいえ」などのカテゴリー・ラベル）の両方で構成されます。

構造化データの例としては、顧客記録や財務レポートなどがあります。この場合、データはあらかじめ定義されたフィールドを持つ行や列に整然と収まっています。

構造化データは高度に組織化されているため、迅速なクエリーやデータ分析が可能であり、ビジネス・インテリジェンス・システムやレポート作成プロセスで役立ちます。

非構造化データ

非構造化データには、厳密に定義された形式がありません。多くの場合、テキスト文書、画像、動画などの複雑な形式で提供されます。非構造化データには、定性的情報（顧客のコメントなど）と定量的要素（テキストに埋め込まれた数値など）の両方が含まれます。

非構造化データの例には、Eメール、ソーシャル・メディア・コンテンツ、マルチメディア・ファイルなどがあります。

非構造化データは従来のリレーショナル・データベースに簡単には適合しないため、組織ではしばしば非構造化データの分析を効率化するために自然言語処理 (NLP)や機械学習などの技術を使用します。

感情分析、複雑なパターン認識、その他の高度な分析プロジェクトでは、非構造化データが重要な役割を果たすことがよくあります。

構造化データと非構造化データの詳細はこちら

半構造化データ

半構造化データは、構造化データと非構造化データの要素をブレンドしたものです。厳格な形式には従いませんが、整理と分析を容易にするタグやマーカーを含めることができます。半構造化データの例としては、XMLファイルやJSONオブジェクトなどが挙げられます。

半構造化データは、検索や分析のための構造を維持しながら柔軟性を提供するため、Web スクレイピングやデータ統合プロジェクトなどのシナリオで広く使用されています。

メタデータ

メタデータはデータに関するデータです。言い換えれば、ファイル名、作成者、作成日、データ型など、データ・ポイントやデータ・セットの属性に関する情報になります。

メタデータは、データの組織、検索性、管理を強化します。ユーザーが必要なデータをより簡単に分類して見つけるのに役立つため、データベースや、デジタル・ライブラリー、コンテンツ管理プラットフォームなどのシステムにとって非常に重要なものです。

ビッグデータ

ビッグデータとは、通常のシステムでは処理できない、大規模で複雑なデータセットを指します。これには、センサー、ソーシャルメディア、トランザクションなどのソースからの構造化データと非構造化データの両方が含まれます。

ビッグデータ分析は、組織がこれらの大規模なデータ・セットを処理・分析し、貴重な洞察を体系的に抽出するのに役立ちます。多くの場合、機械学習などの高度なツールが必要になります。

ビッグデータの一般的なユースケースには、顧客行動分析、不正アクセス検知、予知保全などがあります。

AI Academy

生成AIの成功の鍵はデータ管理

生成AIの使用を成功させるために、高品質のデータが不可欠である理由をご覧ください。

エピソードに移動

データが重要な理由

データにより、組織は未加工情報を実行可能なインサイト（洞察）に変換し、顧客の行動を予測し、サプライチェーンを最適化し、イノベーションを促進できます。

「データ」という用語は、「与えられたもの」を意味するラテン語の「datam」の複数形に由来し、この定義は、今日においても同様の関連性をもつものです。毎日、何百万人もの人々が、インプレッション、クリック、トランザクション、センサーの読み取り、あるいは単なるオンラインでの閲覧といったインタラクションを通じて、企業にデータを提供しています。

さまざまな業界の組織は、この継続的な情報の流れを利用して成長とイノベーションを推進できます。たとえば、eコマース小売業者は、膨大なデータ・セットと分析を使用して需要を予測し、適切な製品を適切なタイミングで在庫できるようにしています。

同様に、データ駆動型のストリーミング・プラットフォームは、コンテンツを推奨するだけでなく、それを最適化して、どのシーンが視聴者の共感を呼んでいるかを分析するために機械学習を使用し、将来の制作決定に役立てています。

また、人工知能（AI）の時代にはデータの重要性が高まっており、機械学習モデルのトレーニングには大規模で高品質のデータセットが必要です（詳細については、「人工知能（AI）におけるデータの役割」を参照してください）。

さらに、AIのリアルタイムでのデータ処理能力は、迅速なデータ分析によって拡大前に脅威を特定するサイバーセキュリティー、一瞬の判断が利益に影響を与える金融取引、データをソースの近くで処理することでより迅速に洞察を得るエッジコンピューティングなどの分野に欠かせません。

データの使用方法

さまざまな業種・業務の組織が、意思決定の改善、オペレーションの合理化、イノベーションの推進など、さまざまな目的でデータを使用しています。

組織が業務でデータを使用する一般的な方法には、以下が含まれます。

予測分析
生成AI
ヘルスケアにおけるイノベーション
社会科学面での調査
サイバーセキュリティーとリスク管理
運用効率
顧客体験
官公庁・自治体の取り組み
ビジネス・インテリジェンス（BI）

予測分析

予測分析は、履歴データを統計モデリング、データ・マイニング、機械学習と組み合わせて使用し、将来の傾向と結果を予測する高度分析の分野のひとつです。

eコマース企業は、予測分析を頻繁に使用して、過去のトランザクションに基づいて顧客の購買行動を予測します。製造や輸送業界では、予測分析によってリアルタイムの機器データを分析して、設備が故障しそうな時期を予測し、予知保全を推奨することで、予知保全が可能になります。

生成AI

ジェネレーティブAIとも呼ばれる生成AIは、ユーザーのプロンプトやリクエストに応じてテキスト、画像、動画、音声、ソフトウェアコードなどのオリジナル・コンテンツを作成できる人工知能（AI）です。

生成AIは、ディープラーニングモデルと呼ばれる高度な機械学習モデルに依存しています。これらのモデルは膨大なデータ・セットでトレーニングされているため、ユーザーの要求を理解したり、パーソナライズされたマーケティング・コンテンツを生成したり、コードを作成したりすることができます。

ヘルスケアにおけるイノベーション

データ分析は、医療従事者が患者ケアを改善し、病気の発生を予測し、治療プロトコルを強化するのに役立ちます。

たとえば、患者のバイタルを経時的に追跡するなど、時系列データを通じて患者をモニタリングすることで、患者の状態についてリアルタイムのインサイトが得られます。これにより、より迅速な介入とよりパーソナライズされた治療が可能になります。

社会科学面での調査

社会科学の研究者らは、調査や、国勢調査報告書、ソーシャル・メディアからの定量データと定性データを頻繁に分析しています。これらのデータ・セットを調べることで、行動、傾向、ポリシーの影響を学ぶことができます。

たとえば、研究者は国勢調査データを使用して人口の変化を追跡し、調査済み回答を使用して世論を測定し、ソーシャルメディアデータを使用して新たな傾向を分析する場合があります。

サイバーセキュリティーとリスク管理

サイバー攻撃やデータ侵害が頻発する中、脅威をより迅速に特定して対応し、被害を最小限に抑え、ダウンタイムを削減するために、データ分析にますます注目する組織が増えています。

たとえば、セキュリティー情報およびイベント管理（SIEM）システムは、ネットワーク全体からのセキュリティーアラートを集約して分析することで、異常をリアルタイムで検知して対応するのに役立ちます。

運用効率

膨大なデータ・セットでトレーニングされた機械学習アルゴリズムは、物流の最適化、需要の予測、スケジューリングの改善、ワークフローの自動化により、組織の業務効率の向上に役立ちます。

たとえば、eコマース企業はリアルタイムの販売データを頻繁に収集して分析し、在庫管理に通知することで、在庫切れや在庫余剰の可能性を減らします。

顧客体験

データは、特にマーケティング分野では、パーソナライズされた顧客エクスペリエンスのバックボーンであり、組織はデータ分析を使用してコンテンツや広告をさまざまなユーザーに合わせて調整することができます。

たとえば、ストリーミング・サービスは、機械学習アルゴリズムを利用して視聴習慣を分析し、コンテンツを推奨しています。

官公庁・自治体の取り組み

世界中の官公庁・自治体はよくオープン・データ・ポリシーを採用して貴重なデータセットを一般公開し、企業や組織がこれらの参考情報を研究やイノベーションに活用することを奨励しています。

たとえば、米国政府のData.govプラットフォームでは、医療、教育、運輸にわたるさまざまなデータセットへのアクセスを提供しています。このアクセス提供により、透明性が促進され、さまざまな業種・業務の企業が公開されている情報に基づいてデータ駆動型のソリューションを開発することができます。

ビジネス・インテリジェンス（BI）

Business Intelligence（BI）は、データを収集、管理、分析し、未加工データをビジネス上の意思決定に役立つインサイトへと変換するための一連の技術プロセスです。

ビジネス分析は、組織がグラフ、ダッシュボード、レポートを通じてデータを解釈および視覚化できるようにしてBIを補完し、トレンドの把握や情報に基づいた意思決定を促進します。

データ収集

データ収集は、さまざまなソースからデータを収集し、その品質と整合性を確保する体系的なプロセスです。通常、データサイエンティストとアナリストによって実行され、正確で信頼性の高いデータ分析の基盤となります。

データ収集は、明確な目標を設定し、関連するソースを特定することから始まります。その後、データが取得され、クリーニングされてから、統一データ・セットへと統合されます。データ・ストレージシステムと継続的な品質チェックにより、収集されたデータの正確性と信頼性が確保されます。

適切なデータ収集がなければ、組織は不完全なデータ、不正確なデータ、または誤解を招くデータに基づいて分析を行うリスクがあり、インサイトや意思決定が損なわれる恐れがあります。

一般的なデータ・ソースには次のようなものがあります。

ソーシャルメディアでのインタラクション：ツイッターやフェイスブックなどのプラットフォームからのリアルタイム・データは、ブランド・エンゲージメントの追跡、世論の測定、消費者感情の発見に利用できます。

公開データ：国勢調査データや経済指標など、政府や組織が無料で利用できるデータ・セットは、人口動態の変化、市場セグメンテーション、財務分析のコンテキストの提供に役立ちます。

オープンなデータセット：官公庁・自治体や教育機関の気候変動や地理空間データなどのトピックに関するデータセットは、しばしば研究や政策立案に使用されます。

トランザクション・データ ：販売記録、請求書、支払い情報などのビジネス・トランザクションからのデータは、企業がパフォーマンスを追跡し、料金体系を最適化し、顧客体験を向上させるのに役立ちます。

調査およびアンケート：顧客からのフィードバックや調査を通じて収集された定性データまたは定量データは、嗜好、意見、傾向に関するインサイトを提供することができます。

ウェブ分析：ページビューやクリックスルー率など、ウェブサイトのインタラクションから得られるデータは、企業がユーザーの行動を理解し、コンテンツを最適化し、ユーザー・エクスペリエンスを向上させるのに役立ちます。

IoTデバイス：スマート・メーターやウェアラブル・トラッカーなどのIoT（モノのインターネット）デバイスからのデータは、リアルタイム分析と予知保全をサポートし、設備のダウンタイムを防ぐことができます。

データ管理

組織は、パブリッククラウドやプライベートクラウドに分散したさまざまな形式の膨大なデータを処理するため、データの断片化や管理ミスが大きな課題となっています。

IBM Data Differentiatorによると、企業の82%がワークフローを混乱させるデータサイロに悩まされており、さらにデータの68%が未分析のままで、その潜在能力は十分に発揮されていません。

データ管理とは、安全かつ効率的にデータを収集、処理、使用することでビジネスの成果を向上させるプラクティスです。大規模なデータセットの管理、サイロの解消、一貫性のないデータ形式の処理など、重要な課題に対処します。

データ管理ソリューションは通常、既存のインフラストラクチャーと統合され、データ・サイエンティストやアナリストをはじめとする利害関係者が高品質で使用可能なデータに確実にアクセスできるようにします。これらのソリューションには、多くの場合、データレイク、データウェアハウス、またはデータ・レイクハウスが組み込まれており、一つのデータ・ファブリックに組み合わされています。

データレイクは生の非構造化データを格納する低コストのストレージ環境であり、後からでデータを処理・分析できます。

データウェアハウスは、データ・マイニングおよびデータ分析のタスクに合わせて最適化された、さまざまなソースからの構造化データが保管されます。

データ・レイクハウスは、データウェアハウスとデータレイクの優れた点を融合し、構造化データと非構造化データの両方を管理するための統合ソリューションを提供します。

これらのシステムは、強固なデータ管理基盤の構築に役立ち、ビジネス・インテリジェンス（BI）ツールやダッシュボード、機械学習（ML）や生成AIを含むAIモデルに高品質のデータを供給します。

さらに、AI は組織がデータを処理する方法に変革をもたらしています。AIデータ管理とは、データ管理のライフサイクルで人工知能（AI）と機械学習を使用する手法のことです。例としては、AIを適用して、データ収集、データ・クリーニング、データ分析、データ・セキュリティー、その他のデータ管理プロセスを自動化または合理化することなどが挙げられます。

データサイエンティストとデータアナリスト

さまざまな業種の企業が意思決定を推進し、オペレーションを改善し、顧客体験を向上させるうえでデータへますます依存するなか、熟練したデータ専門家の需要が急増しています。

データサイエンスの分野で最も重要な役割の2つは、データサイエンティストとデータアナリストです。

データサイエンティスト ：データサイエンティストは、複雑で基礎的なデータ・タスクを実行します。たとえば、多くの場合、機械学習や予測モデリングなどの高度なツールを使用して、大規模なデータ・セットからインサイト（洞察）を見つけるためのモデルやアルゴリズムを作成します。

データアナリスト：データアナリストは、より即時的で実用的なタスクに焦点を当てます。統計を使用してデータを分析し、特定のビジネス上の質問に答えます。その主な目標は、日常の意思決定やストラテジーに役立つ有益なインサイトを見つけることです。

どちらの役割も、データの収集、データ・モデリング、データ分析、高品質データの確保などに携わります。アナリストやサイエンティストは、Microsoft Excel、Python、構造化クエリ言語（SQL）など、さまざまな方法論やツールを使用してデータを処理および準備することがあります。

また、ダッシュボードやグラフなどのデータの可視化手法を使用して、データの傾向、相関関係、インサイトをさまざまな方法で発見することもできます。

例えば、データサイエンティストは、機械学習を使用して顧客の将来の行動を予測するモデルを開発する場合があります。このモデルは、企業がトレンドを予測し、マーケティング・キャンペーンをパーソナライズし、情報に基づいた長期的な戦略的意思決定を行うのに役立ちます。

これに対し、データアナリストは同じプロジェクトで、視覚化ツールを使用して、長期にわたる顧客の行動パターンを示すダッシュボードを作成することができます。過去の売上傾向をエンゲージメント指標とともにグラフ化するこの機能により、チームは現在のマーケティング戦略を最適化したり、製品の提供を調整して利益を増やすことができます。

データ保護

データ保護は、機密情報をデータの損失、盗難、破損から保護することです。組織は複雑で分散した環境で大量の機密データを扱うため、データ保護の重要性はますます高まっています。

サイバー脅威のリスクの増大とデータ・プライバシー規制の厳格化により、データ保護は企業や消費者にとっての優先事項となっています。最近の調査によると、アメリカ人の81％が、企業が自分について収集したデータをどのように使用するかについて懸念を抱いていることが分かっています。¹

また、データ保護がいかに重要で優先すべき点なのかを示すビジネス・ケースもあります。IBMの「データ侵害のコストに関する調査」によると、データ侵害の平均コストは、ビジネスの損失、システムのダウンタイム、評判の低下、対応措置などにかかる費用などにおいて、488万米ドルの損害を組織に与えています。

データ保護の詳細はこちら

データ・セキュリティーとデータ・プライバシー

データ保護には、データ・セキュリティーとデータ・プライバシーという2つの重要な下位分野があります。両分野とも、データの保護と管理において、それぞれ異なるながらも補完的な役割を担っています。

データ・セキュリティーには、デジタル情報を不正アクセス、破損、盗難から保護することが含まれます。これは物理的なセキュリティー、組織のポリシー、アクセス制御など、情報セキュリティーのさまざまな側面を包含しています。

データ・プライバシーは、個人が自分の個人データを管理すべきであるという一般原則をサポートするポリシーに焦点を当てており、組織がデータをどのように収集し、保存し、使用するかを決定できることも含まれます。

データ脆弱性

特にAI機能が進歩するにつれて、データは多くの脆弱性と潜在的なサイバー脅威に直面します。

最も一般的な脅威には次のものがあります。

内部者の脅威：承認されたアクセス権を持つ従業員または請負業者が、重大なリスクをもたらす可能性があります。データ侵害のコストに関する調査によると、悪意のあるインサイダーによるデータ侵害のコストは平均で499万ドルに達します。

ソーシャル・エンジニアリング ：脅威アクターは、フィッシングなどのソーシャル・エンジニアリング攻撃を使用して、人間の弱点をエクスプロイトし、個人を騙して機密情報を開示させることがよくあります。今や生成AIツールが説得力のあるフィッシング・メールを作成できるようになったため、このような攻撃の成功率が高まっています。

ランサムウェア：サイバー犯罪者はランサムウェアを使用して組織のデータを暗号化し、復号キーと引き換えに身代金を要求します。医療システム、金融機関、官公庁・自治体データ機関は、これらの攻撃に対して特に脆弱です。

クラウド・セキュリティー：クラウド・サービスの普及に伴い、誤った構成、安全でないAPI、不十分なアクセス制御により、パブリッククラウドのデータ漏洩の発生につながる可能性が高まっています。データ侵害のコストに関する調査によると、パブリッククラウドに関連するデータ漏洩は最もコストが高く、平均で517万米ドルものコストがかかります。

データ保護ソリューション

組織は、脅威アクターからデータを保護し、データの整合性・機密性・可用性を確保するため、さまざまなデータ保護テクノロジーを使用しています。

最も一般的なソリューションには、次のようなものがあります。

暗号化では、対称暗号化または非対称暗号化を使用して、保存中および転送中のデータを保護し、攻撃者がデータを読み取ったり悪用したりするのを防ぎます。エンドツーエンド暗号化（E2EE）は、データを別のエンドポイントに転送する前にデータを特別に暗号化し、転送中ずっとデータを安全に保ちます。

データのバックアップは、クリティカルなデータのコピーを定期的に作成・保管することで、ダウンタイムを最小限に抑えながら、損失や破損が発生した場合に迅速に復元できるようにします。

ファイアウォールはネットワーク・トラフィックを監視・制御し、不正アクセスをブロックするための防御の最前線として機能します。

認証と承認 は、ユーザーの身元を確認し、機密情報へのアクセスを制御します。多要素認証（MFA）では、ユーザーは複数の形式で検証を提供する必要があるため、セキュリティーをさらに強化することができます。

IDおよびアクセス管理 (IAM) はユーザーがデジタルリソースにアクセスする方法と、それらの参考情報で実行できる操作を管理して、内部脅威を軽減し、不正アクセスを防止します。

ウイルス対策とマルウェア対策のツールは、ウイルス、スパイウェア、ランサムウェアなど、データを危険にさらす可能性のある悪意のあるソフトウェアを検知、防止、削除します。

データ損失防止（DLP）ツールはユーザーのアクティビティーを監視し、疑わしい動作にフラグを立てて、機密情報の不正アクセス、送信、漏洩を防止します。

人工知能（AI）におけるデータの役割

トップクラスの業績を上げているCEOの72％は、競争上の優位性を得るには最先端の生成AIを導入する必要があることに同意しています。しかし、最先端のAIの導入は、方程式の一部にすぎません。適切に管理され、アクセスできるデータがなければ、最も強力なAIツールでさえその可能性を最大限に発揮することはできません。

データは、人工知能の進歩と成功の基盤となる存在です。AIシステム、特に機械学習モデルは、学習し、適応し、各業種で価値を実現するのに、データに依存しています。

データの品質とバイアス

機械学習モデルは膨大なデータ・セットでトレーニングされ、このデータを使用してパターンを特定し、意思決定を行います。

AIモデルのトレーニング・データのダイバーシティーとデータ品質は、その性能に直接影響します。データに偏りがあったり、不完全であったりする場合、AIのアウトプットは不正確で信頼性の低いものになる可能性があります。

たとえば、医療分野では、偏ったデータ・セットでトレーニングされたAIモデルが特定の人種グループを過小評価し、診断結果が不十分になる可能性があります。同様に、採用においても、データ品質が低いと予測に問題が生じ、ジェンダーや人種に関する固定電話の判断が強化されたり、一部の人口グループを他の人口グループよりも有利に扱うAIモデルが作られる可能性があります。

要するに、AIの性能は処理するデータと同程度になります。

包括的なデータ検証とクレンジングを通じて高品質のインプットを確保することは、バイアスの永続化を避ける倫理的で信頼性の高いAIシステムを構築するために不可欠です。