データ駆動型の意思決定、データ分析、人工知能(AI)といった現代のビジネスの基本はすべて、大量の高品質なデータの利用可能性に依存しています。データ取得は、こうした的確な意思決定やテクノロジーを可能にするデータを取得するものです。概念自体は単純に見えるかもしれませんが、データの取得は複雑になることがあります。特にビッグデータの時代においてはそうです。
今日のデータセットは膨大かつ複雑です。それらはテラバイトからペタバイトに及ぶ規模で、構造化形式や非構造化形式で存在し、多様なソースに分散しています。こうした複雑さにより、データ取得プロセス全体において、データ量の管理、ガバナンス、セキュリティーに関する課題が生じます。
しかし、効果的に実施された場合、データ取得プロセスは戦略的な取り組みのための高品質な燃料を供給するパイプラインとなり得ます。実際、「Harvard Business Review」誌の調査によると、ビッグデータとAIをうまく活用している組織は、業務効率、収益成長、顧客体験といった主要なビジネス指標において、同業他社を上回っていました。1
IBMニュースレター
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
米国地質調査所(USGS)によると、データを取得する方法は4つあります。2
データ収集とは、調査、インタビュー、センサー、あるいはモノのインターネット(IoT)デバイスなどの直接的な手段を用いて、オリジナルのデータを生成することです。企業はこの手法を、市場調査や業務モニタリングに頻繁に利用します。
データ交換とは、システムや組織間でデータを転送することです。それは、オープンデータの政府プログラム、都市のデータ交換、商業的なデータ・プロバイダーを通じて行われることがあります。技術的な交換メカニズムには、アプリケーション・プログラミング・インターフェース(API)、ファイル転送、ストリーミング・パイプライン、クラウドベースのプラットフォームなどがあります。
組織は、データ・マーケットプレイスから外部データを購入することもできます。これらのプラットフォームは、買い手と売り手の間のギャップを埋め、商業的な入手可能性、アクセス性、拡張可能なメリットを提供します。キュレートれたすぐに利用可能なデータ製品は、データ収集にかかる負担を軽減するのに役立ちます。
組織は、事実上無限ともいえる数のソースからデータを収集することができます。データは構造化・非構造化の両方であり、内部データである場合も外部データである場合もあります。最も一般的なデータソースには、次のようなものがあります。
データを取得する組織は、取得プロセス全体を通じていくつかの点を念頭に置いておく必要があります。
データ・プライバシー(情報プライバシーとも呼ばれる)とは、人々が組織による個人データの収集、保存、利用方法を自らコントロールできるべきだという考え方です。データ取得の際、組織はメールアドレスや生体認証データといったユーザー情報を収集する場合があります。このデータを処理する前にユーザーの同意を得ること、悪用から保護すること、そしてユーザーが積極的に管理できるツールを提供することが極めて重要です。
多くの企業は、一般データ保護規則(GDPR)のような規制の下で、これらの取り組みに従う法的義務を負っています。しかし、正式なデータ・プライバシー法が存在しない場合でも、データ・プライバシー対策を実施することにはメリットがあります。多くの場合、ユーザーのプライバシーを保護するための実践やツールは、不正アクセス、破損、あるいは盗難からデジタル情報を保護することにも役立ちます。
データ品質を確保することは、多様なソースからデータを取得する組織にとって最優先事項であるべきです。データ品質とは、データセットが正確性、完全性、有効性、一貫性、一意性、適時性、そして目的への関連性といった基準をどの程度満たしているかを指します。高品質なデータは、ビジネス目標に沿った正確で公正かつ効果的な意思決定を支えます。
データ品質は、日々の業務における重要性にとどまりません。高品質なトレーニング・データは、人工知能や自動化を効果的に活用するための鍵となります。しかし、よく知られたAIの格言「ごみを入れれば、ごみが出る」は広く当てはまります。どのようなユースケースであっても、質の低いデータは質の低いアウトプットにつながります。
組織が多様なソースからデータセットを取得する際には、それらをシステムにロードする前に互換性の問題へ対処する必要があります。データ・クレンジングの実践や標準化によって、データが一貫した形式と構造に従うようにでき、後続のパイプラインで理解や分析がしやすくなります。例えば、通りの名前には「North」や「West」といった方角が含まれることがよくありますが、標準化によって、これらの値は「N」や「W」といった形式に統一されます。
金融やヘルスケアといった厳しく規制された業界の組織は、追加のデータ標準ルールや規制に直面する可能性があります。例えば、医療保険の相互運用性と説明責任に関する法律(HIPAA)は、診断や処置の標準コード体系を定め、ヘルスケア・データに共通言語をもたらしました。
しばしば同じ意味で使われますが、データ取得とデータ収集は異なる意味を持っています。
データ収集とは、さまざまなソースから生の情報を直接集めるプロセスであり、通常はデータサイエンティストやアナリストが実施します。対照的に、データ取得はデータ収集を含む、より広い概念です。しかし、データ取得には、パートナーシップ、ライセンス契約、データ購入、レガシー・データの変換といった追加的な方法によるデータの入手も含まれます。
最も業績の高いCEOの72%によると、競争優位性の獲得は、最先端の生成AIを持つことにかかっています。しかし、最も高度な機械学習アルゴリズムであっても、その効果は学習に使用されるデータの質に左右されます。AIシステムが学習し、適応し、真の価値を提供するためには、高品質なデータが不可欠です。
しかし実際には、AIモデルをトレーニングするのに十分な関連データを取得することは容易ではありません。プライバシー上の懸念、高コスト、法的または規制上の制約により、ウェブ・スクレイピングやパブリック・データセットといった価値のあるデータ取得手法やソースへのアクセスが制限されることがあります。場合によっては、規制により、特定の種類のデータをAIの利用目的で収集すること自体が禁止されていることすらあります。
こうした障壁を緩和するため、多くの組織は現実のデータを模倣して人工的に生成されたデータである「合成データ」に注目しています。統計的手法や、ディープラーニングや生成AIなどの高度な人工知能技術を用いて作成される合成データは、より高度なカスタマイズ、効率的な取得、データプライバシーの向上、そして全体的により豊富なデータといったいくつかのメリットを提供します。
データ・サイロを排除し、複雑さを軽減し、データ品質を向上させることで、卓越した顧客体験と従業員体験を実現するデータ・ストラテジーを設計します。
watsonx.dataを使用すると、オープンでハイブリッド、かつ管理されたデータ・ストアを通じて、データがどこに保存されていても、すべてのデータを使用して分析とAIを拡張できます。
IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。
1 「Big on data: Study shows why data-driven companies are more profitable than their peers」、「Harvard Business Review」誌がGoogle Cloudに対して実施した調査、2023年3月24日。
2 「Data Acquisition Methods」、米国地質調査所