データとは、事実、数値、単語、観察内容、またはその他の有用な情報の集まりです。データ処理とデータ分析を通じて、組織は未加工データ・ポイントを価値ある洞察へと変換し、意思決定を改善し、より良いビジネス成果を推進します。
組織は、非数値的定性データ(お客様レビューなど)や数値的定量データ(売上高など)を含む、さまざまなソースや形式でデータを収集します。他のデータの例には、官公庁・自治体の統計書や国勢調査記録などの公開データや、顧客の購入履歴や個人の医療記録などの非公開トデータが含まれます。
過去10年間、ソーシャルメディア、電子商取引、金融取引などのソースから得られるビッグデータが、さまざまな業種・業務のデジタル・トランスフォーメーションを推進してきました。実際、ビッグデータはビジネスの成長とイノベーションの駆動力となる価値があり「新たな石油」と称されています。
近年、人工知能(AI)の台頭により、データへの関心がさらに高まっています。組織は、機械学習(ML)モデルをトレーニングし、予測アルゴリズムを改良するためのデータを必要としています。これらのAIシステムは、分析するデータの質が高ければ高いほど、より正確で効果的になります。
データの量、複雑さ、重要性が増すにつれて、組織は情報を整理し、データ分析のためにアクセス可能な状態に保つための効果的なデータ管理プロセスを必要としています。
同時に、ユーザーと規制当局の両方からデータ・セキュリティーとプライバシーに関する懸念が高まり、データ保護と、一般データ保護規則 (GDPR)やCalifornia Consumer Privacy Act (CCPA)などの法律の遵守がますます重要視されるようになりました。
データにはさまざまな形式があり、それぞれが独自の特性、ソース、形式によって定義されます。これらの違いを理解することで、データの種類によってサポートするユースケースが異なるため、より効果的な組織とデータ分析が可能になります。
さらに、単一のデータ・ポイントまたはデータ・セットが複数のカテゴリーに分類される場合があります。たとえば、構造化・定量的データ、非構造化・定性的デー他などです。
データの最も一般的な種類には、以下のようなものがあります。
定性データ
構造化データ
非構造化データ
半構造化データ
メタデータ
ビッグデータ
定量データは、数値的に測定できる値で構成されています。定量データの例としては、個別のデータ・ポイント(製品の販売数など)や継続的なデータ・ポイント(温度や収益の数値など)が挙げられます。
定量データは構造化されていることが多く、数学的ツールやアルゴリズムを使用して簡単に分析できます。
定量データの一般的なユースケースには、予測、統計分析、予算編成、パターンの特定、性能測定などがあります。
定性データは、数値ではなく記述的なデータで、数字では測定できない特性、概念、またはエクスペリエンスを捉えるものです。例としては、お客様からのフィードバック、製品のレビュー、ソーシャル・メディアのコメントなどが挙げられます。
定性データには、構造化された調査済みの回答(コード化されたアンケートの回答など)と非構造化されたデータ(自由形式のテキスト回答やインタビューの記録など)があります。
定性データの一般的なユースケースには、顧客行動、市場動向、ユーザー・エクスペリエンスの理解などが含まれます。
構造化データは明確で定義された形式で整理され、多くの場合、リレーショナル・データベースやスプレッドシートに保管されます。このデータは定量データ(売上数値など)と定性データ(「はい・いいえ」などのカテゴリー・ラベル)の両方で構成されます。
構造化データの例としては、顧客記録や財務レポートなどがあります。この場合、データはあらかじめ定義されたフィールドを持つ行や列に整然と収まっています。
構造化データは高度に組織化されているため、迅速なクエリーやデータ分析が可能であり、ビジネス・インテリジェンス・システムやレポート作成プロセスで役立ちます。
非構造化データには、厳密に定義された形式がありません。多くの場合、テキスト文書、画像、動画などの複雑な形式で提供されます。非構造化データには、定性的情報(顧客のコメントなど)と定量的要素(テキストに埋め込まれた数値など)の両方が含まれます。
非構造化データの例には、Eメール、ソーシャル・メディア・コンテンツ、マルチメディア・ファイルなどがあります。
非構造化データは従来のリレーショナル・データベースに簡単には適合しないため、組織ではしばしば非構造化データの分析を効率化するために自然言語処理 (NLP)や機械学習などの技術を使用します。
感情分析、複雑なパターン認識、その他の高度な分析プロジェクトでは、非構造化データが重要な役割を果たすことがよくあります。
半構造化データは、構造化データと非構造化データの要素をブレンドしたものです。厳格な形式には従いませんが、整理と分析を容易にするタグやマーカーを含めることができます。半構造化データの例としては、XMLファイルやJSONオブジェクトなどが挙げられます。
半構造化データは、検索や分析のための構造を維持しながら柔軟性を提供するため、Web スクレイピングやデータ統合プロジェクトなどのシナリオで広く使用されています。
メタデータはデータに関するデータです。言い換えれば、ファイル名、作成者、作成日、データ型など、データ・ポイントやデータ・セットの属性に関する情報になります。
メタデータは、データの組織、検索性、管理を強化します。ユーザーが必要なデータをより簡単に分類して見つけるのに役立つため、データベースや、デジタル・ライブラリー、コンテンツ管理プラットフォームなどのシステムにとって非常に重要なものです。
データにより、組織は未加工情報を実行可能なインサイト(洞察)に変換し、顧客の行動を予測し、サプライチェーンを最適化し、イノベーションを促進できます。
「データ」という用語は、「与えられたもの」を意味するラテン語の「datam」の複数形に由来し、この定義は、今日においても同様の関連性をもつものです。毎日、何百万人もの人々が、インプレッション、クリック、トランザクション、センサーの読み取り、あるいは単なるオンラインでの閲覧といったインタラクションを通じて、企業にデータを提供しています。
さまざまな業界の組織は、この継続的な情報の流れを利用して成長とイノベーションを推進できます。たとえば、eコマース小売業者は、膨大なデータ・セットと分析を使用して需要を予測し、適切な製品を適切なタイミングで在庫できるようにしています。
同様に、データ駆動型のストリーミング・プラットフォームは、コンテンツを推奨するだけでなく、それを最適化して、どのシーンが視聴者の共感を呼んでいるかを分析するために機械学習を使用し、将来の制作決定に役立てています。
また、人工知能(AI) の時代にはデータの重要性が高まっており、機械学習モデルのトレーニングには大規模で高品質のデータセットが必要です(詳細については、「人工知能(AI)におけるデータの役割」を参照してください)。
さらに、AIのリアルタイムでのデータ処理能力は、迅速なデータ分析によって拡大前に脅威を特定するサイバーセキュリティー、一瞬の判断が利益に影響を与える金融取引、データをソースの近くで処理することでより迅速に洞察を得るエッジコンピューティングなどの分野に欠かせません。
さまざまな業種・業務の組織が、意思決定の改善、オペレーションの合理化、イノベーションの推進など、さまざまな目的でデータを使用しています。
組織が業務でデータを使用する一般的な方法には、以下が含まれます。
予測分析
生成AI
ヘルスケアにおけるイノベーション
社会科学面での調査
サイバーセキュリティーとリスク管理
運用効率
顧客体験
官公庁・自治体の取り組み
ビジネス・インテリジェンス(BI)
ジェネレーティブAIとも呼ばれる生成AIは、ユーザーのプロンプトやリクエストに応じてテキスト、画像、動画、音声、ソフトウェアコードなどのオリジナル・コンテンツを作成できる人工知能(AI)です。
生成AIは、ディープラーニングモデルと呼ばれる高度な機械学習モデルに依存しています。これらのモデルは膨大なデータ・セットでトレーニングされているため、ユーザーの要求を理解したり、パーソナライズされたマーケティング・コンテンツを生成したり、コードを作成したりすることができます。
データ分析は、医療従事者が患者ケアを改善し、病気の発生を予測し、治療プロトコルを強化するのに役立ちます。
たとえば、患者のバイタルを経時的に追跡するなど、時系列データを通じて患者をモニタリングすることで、患者の状態についてリアルタイムのインサイトが得られます。これにより、より迅速な介入とよりパーソナライズされた治療が可能になります。
社会科学の研究者らは、調査や、国勢調査報告書、ソーシャル・メディアからの定量データと定性データを頻繁に分析しています。これらのデータ・セットを調べることで、行動、傾向、ポリシーの影響を学ぶことができます。
たとえば、研究者は国勢調査データを使用して人口の変化を追跡し、調査済み回答を使用して世論を測定し、ソーシャルメディアデータを使用して新たな傾向を分析する場合があります。
サイバー攻撃やデータ侵害が頻発する中、脅威をより迅速に特定して対応し、被害を最小限に抑え、ダウンタイムを削減するために、データ分析にますます注目する組織が増えています。
たとえば、セキュリティー情報およびイベント管理(SIEM)システムは、ネットワーク全体からのセキュリティーアラートを集約して分析することで、異常をリアルタイムで検知して対応するのに役立ちます。
膨大なデータ・セットでトレーニングされた機械学習アルゴリズムは、物流の最適化、需要の予測、スケジューリングの改善、ワークフローの自動化により、組織の業務効率の向上に役立ちます。
たとえば、eコマース企業はリアルタイムの販売データを頻繁に収集して分析し、在庫管理に通知することで、在庫切れや在庫余剰の可能性を減らします。
データは、特にマーケティング分野では、パーソナライズされた顧客エクスペリエンスのバックボーンであり、組織はデータ分析を使用してコンテンツや広告をさまざまなユーザーに合わせて調整することができます。
たとえば、ストリーミング・サービスは、機械学習アルゴリズムを利用して視聴習慣を分析し、コンテンツを推奨しています。
世界中の官公庁・自治体はよくオープン・データ・ポリシーを採用して貴重なデータセットを一般公開し、企業や組織がこれらの参考情報を研究やイノベーションに活用することを奨励しています。
たとえば、米国政府のData.govプラットフォームでは、医療、教育、運輸にわたるさまざまなデータセットへのアクセスを提供しています。このアクセス提供により、透明性が促進され、さまざまな業種・業務の企業が公開されている情報に基づいてデータ駆動型のソリューションを開発することができます。
Business Intelligence(BI)は、データを収集、管理、分析し、未加工データをビジネス上の意思決定に役立つインサイトへと変換するための一連の技術プロセスです。
ビジネス分析は、組織がグラフ、ダッシュボード、レポートを通じてデータを解釈および視覚化できるようにしてBIを補完し、トレンドの把握や情報に基づいた意思決定を促進します。
データ収集は、さまざまなソースからデータを収集し、その品質と整合性を確保する体系的なプロセスです。通常、データサイエンティストとアナリストによって実行され、正確で信頼性の高いデータ分析の基盤となります。
データ収集は、明確な目標を設定し、関連するソースを特定することから始まります。その後、データが取得され、クリーニングされてから、統一データ・セットへと統合されます。データ・ストレージシステムと継続的な品質チェックにより、収集されたデータの正確性と信頼性が確保されます。
適切なデータ収集がなければ、組織は不完全なデータ、不正確なデータ、または誤解を招くデータに基づいて分析を行うリスクがあり、インサイトや意思決定が損なわれる恐れがあります。
一般的なデータ・ソースには次のようなものがあります。
組織は、パブリッククラウドやプライベートクラウドに分散したさまざまな形式の膨大なデータを処理するため、データの断片化や管理ミスが大きな課題となっています。
IBM Data Differentiatorによると、企業の82%がワークフローを混乱させるデータサイロに悩まされており、さらにデータの68%が未分析のままで、その潜在能力は十分に発揮されていません。
データ管理とは、安全かつ効率的にデータを収集、処理、使用することでビジネスの成果を向上させるプラクティスです。大規模なデータセットの管理、サイロの解消、一貫性のないデータ形式の処理など、重要な課題に対処します。
データ管理ソリューションは通常、既存のインフラストラクチャーと統合され、データ・サイエンティストやアナリストをはじめとする利害関係者が高品質で使用可能なデータに確実にアクセスできるようにします。これらのソリューションには、多くの場合、データレイク、データウェアハウス、またはデータ・レイクハウスが組み込まれており、一つのデータ・ファブリックに組み合わされています。
これらのシステムは、強固なデータ管理基盤の構築に役立ち、ビジネス・インテリジェンス(BI)ツールやダッシュボード、機械学習(ML)や生成AIを含むAIモデルに高品質のデータを供給します。
さらに、AI は組織がデータを処理する方法に変革をもたらしています。AIデータ管理とは、データ管理のライフサイクルで人工知能 (AI)と機械学習を使用する手法のことです。例としては、AIを適用して、データ収集、データ・クリーニング、データ分析、データ・セキュリティー、その他のデータ管理プロセスを自動化または合理化することなどが挙げられます。
さまざまな業種の企業が意思決定を推進し、オペレーションを改善し、顧客体験を向上させるうえでデータへますます依存するなか、熟練したデータ専門家の需要が急増しています。
データサイエンスの分野で最も重要な役割の2つは、データサイエンティストとデータアナリストです。
どちらの役割も、データの収集、データ・モデリング、データ分析、高品質データの確保などに携わります。アナリストやサイエンティストは、Microsoft Excel、Python、構造化クエリ言語(SQL)など、さまざまな方法論やツールを使用してデータを処理および準備することがあります。
また、ダッシュボードやグラフなどのデータの可視化手法を使用して、データの傾向、相関関係、インサイトをさまざまな方法で発見することもできます。
例えば、データサイエンティストは、機械学習を使用して顧客の将来の行動を予測するモデルを開発する場合があります。このモデルは、企業がトレンドを予測し、マーケティング・キャンペーンをパーソナライズし、情報に基づいた長期的な戦略的意思決定を行うのに役立ちます。
これに対し、データアナリストは同じプロジェクトで、視覚化ツールを使用して、長期にわたる顧客の行動パターンを示すダッシュボードを作成することができます。過去の売上傾向をエンゲージメント指標とともにグラフ化するこの機能により、チームは現在のマーケティング戦略を最適化したり、製品の提供を調整して利益を増やすことができます。
データ保護は、機密情報をデータの損失、盗難、破損から保護することです。組織は複雑で分散した環境で大量の機密データを扱うため、データ保護の重要性はますます高まっています。
サイバー脅威のリスクの増大とデータ・プライバシー規制の厳格化により、データ保護は企業や消費者にとっての優先事項となっています。最近の調査によると、アメリカ人の81%が、企業が自分について収集したデータをどのように使用するかについて懸念を抱いていることが分かっています。1
また、データ保護がいかに重要で優先すべき点なのかを示すビジネス・ケースもあります。IBMの「データ侵害のコストに関する調査」によると、データ侵害の平均コストは、ビジネスの損失、システムのダウンタイム、評判の低下、対応措置などにかかる費用などにおいて、488万米ドルの損害を組織に与えています。
データ保護には、データ・セキュリティーとデータ・プライバシーという2つの重要な下位分野があります。両分野とも、データの保護と管理において、それぞれ異なるながらも補完的な役割を担っています。
データ・セキュリティーには、デジタル情報を不正アクセス、破損、盗難から保護することが含まれます。これには、物理的なセキュリティー、組織のポリシー、アクセス制御など、情報セキュリティーのさまざまな側面が含まれます。
データ・プライバシーは、個人は自分の個人データを管理すべきであるという一般原則をサポートするポリシーに焦点を当てており、組織がデータをどのように収集し、保存し、使用するかを決定できることも含まれます。
特にAI機能が進歩するにつれて、データは多くの脆弱性と潜在的なサイバー脅威に直面します。
最も一般的な脅威には次のものがあります。
組織は、脅威アクターからデータを保護し、データの整合性・機密性・可用性を確保するため、さまざまなデータ保護テクノロジーを使用しています。
最も一般的なソリューションには、次のようなものがあります。
トップクラスの業績を上げているCEOの72%は、競争上の優位性を得るには最先端の生成AIを導入する必要があることに同意しています。しかし、最先端のAIの導入は、方程式の一部にすぎません。適切に管理され、アクセスできるデータがなければ、最も強力なAIツールでさえその可能性を最大限に発揮することはできません。
データは、人工知能の進歩と成功の基盤となる存在です。AIシステム、特に機械学習モデルは、学習し、適応し、各業種で価値を実現するのに、データに依存しています。
機械学習モデルは膨大なデータ・セットでトレーニングされ、このデータを使用してパターンを特定し、意思決定を行います。
AIモデルのトレーニング・データのダイバーシティーとデータ品質は、その性能に直接影響します。データに偏りがあったり、不完全であったりする場合、AIのアウトプットは不正確で信頼性の低いものになる可能性があります。
たとえば、医療分野では、偏ったデータ・セットでトレーニングされたAIモデルが特定の人種グループを過小評価し、診断結果が不十分になる可能性があります。同様に、採用においても、データ品質が低いと予測に問題が生じ、ジェンダーや人種に関する固定電話の判断が強化されたり、一部の人口グループを他の人口グループよりも有利に扱うAIモデルが作られる可能性があります。
要するに、AIの性能は処理するデータと同程度になります。
包括的なデータ検証とクレンジングを通じて高品質のインプットを確保することは、バイアスの永続化を避ける倫理的で信頼性の高いAIシステムを構築するために不可欠です。
生成AIは価値あるコンテンツを作成できる一方で、新たな課題ももたらします。AIモデルは、間違ったデータや誤解を招くデータを生成する可能性があり、攻撃者はそれをエクスプロイト(虚弱性/欠陥の悪用)してシステムや個人を欺くことができます。
データの信頼性とセキュリティーに対する懸念は高まっています。最近の報告書によると、サイバーセキュリティーの上級専門家の75%がサイバー攻撃が増えていると見ており、85%が生成AIを使用する悪意のある攻撃者の増加に起因するとしています。2
これらの脅威に対抗するために、多くの組織がAIセキュリティーに目を向け、AIを使用して検知、防止、対応を自動化し、データ保護を強化しています。
すべてのリンク先は、ibm.comの外部です。
1 How Americans View Data Privacy, Pew Research Center, 18 October 2023.
2 AI advances risk facilitating cyber crime, top US officials say, Reuters, 9 January 2024.
企業が繁栄するには、データを活用して顧客ロイヤルティーを構築し、ビジネス・プロセスを自動化し、AI駆動型のソリューションで業務を刷新する必要があります。
IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。
より良い意思決定を可能にする、AIを活用して洞察を引き出すCognos Analytics 12.0をご紹介します。