データ収集とは

右側に伸びる青い乱雑な点と線

執筆者

Alexandra Jonker

Staff Editor

IBM Think

Tom Krantz

Staff Writer

IBM Think

データ収集とは

データ取得とは、さまざまな方法を用いて複数のソースからデータを収集するプロセスです。それはデータ取り込みパイプラインにおける重要なステップであり、その後にデータ検証、変換、ロードが続きます。

データ駆動型の意思決定、データ分析、人工知能(AI)といった現代のビジネスの基本はすべて、大量の高品質なデータの利用可能性に依存しています。データ取得は、こうした的確な意思決定やテクノロジーを可能にするデータを取得するものです。概念自体は単純に見えるかもしれませんが、データの取得は複雑になることがあります。特にビッグデータの時代においてはそうです。

今日のデータセットは膨大かつ複雑です。それらはテラバイトからペタバイトに及ぶ規模で、構造化形式や非構造化形式で存在し、多様なソースに分散しています。こうした複雑さにより、データ取得プロセス全体において、データ量の管理、ガバナンスセキュリティーに関する課題が生じます。

しかし、効果的に実施された場合、データ取得プロセスは戦略的な取り組みのための高品質な燃料を供給するパイプラインとなり得ます。実際、「Harvard Business Review」誌の調査によると、ビッグデータとAIをうまく活用している組織は、業務効率、収益成長、顧客体験といった主要なビジネス指標において、同業他社を上回っていました。1

データ収集の別の定義

「データ取得」という用語は、現実世界の状況を測定する物理的または電気的信号、一般的にはセンサー・データの収集を指す場合もあります。その例としては、温度測定、圧力、その他の物理的現象があります。

これらの信号は、データ取得デバイス(DAQデバイス)を使用して処理され、利用可能なデジタル値に変換されます。この用法は、環境モニタリング、産業オートメーション、科学研究といった分野で一般的です。

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

ご登録いただきありがとうございます。

ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。

4つのデータ収集方法

米国地質調査所(USGS)によると、データを取得する方法は4つあります。2

  • 新しいデータの収集
  • レガシー・データの変換または変換
  • データの共有または交換
  • データの購入
新しいデータの収集

データ収集とは、調査、インタビュー、センサー、あるいはモノのインターネット(IoT)デバイスなどの直接的な手段を用いて、オリジナルのデータを生成することです。企業はこの手法を、市場調査や業務モニタリングに頻繁に利用します。

レガシー・データの変換または変換

この方法は、組織のレガシー・データを取得し、それを標準化された利用可能な形式に変換することに重点を置いています。このプロセスは、日付のような単純なフィールド変換から、高度なデータサイエンスの専門知識を必要とする可能性のある複雑な正規化まで多岐にわたります。

データの共有または交換

データ交換とは、システムや組織間でデータを転送することです。それは、オープンデータの政府プログラム、都市のデータ交換、商業的なデータ・プロバイダーを通じて行われることがあります。技術的な交換メカニズムには、アプリケーション・プログラミング・インターフェース(API)ファイル転送ストリーミング・パイプライン、クラウドベースのプラットフォームなどがあります。

データの購入

組織は、データ・マーケットプレイスから外部データを購入することもできます。これらのプラットフォームは、買い手と売り手の間のギャップを埋め、商業的な入手可能性、アクセス性、拡張可能なメリットを提供します。キュレートれたすぐに利用可能なデータ製品は、データ収集にかかる負担を軽減するのに役立ちます。

AI Academy

生成AIの成功の鍵はデータ管理

生成AIの使用を成功させるために、高品質のデータが不可欠である理由をご覧ください。

共通のデータ・ソース

組織は、事実上無限ともいえる数のソースからデータを収集することができます。データは構造化・非構造化の両方であり、内部データである場合も外部データである場合もあります。最も一般的なデータソースには、次のようなものがあります。

  • ビジネス・アプリケーション:エンタープライズ・リソース・プランニング(ERP)、カスタマー・リレーションシップ・マネジメント(CRM)、その他のシステムからのデータ

  • ソーシャル・メディア:ソーシャル・メディア・プラットフォームからのリアルタイムのインタラクション・データ

  • オープンデータ: 研究や政策立案に利用される学術機関や政府のデータセット

  • 公開データ:国勢調査や経済データなど、政府や各種組織のデータ

  • トランザクション・データ: 販売記録、請求書、支払情報

  • 調査: 顧客からのフィードバックまたは調査アンケートを通じて収集されたデータ

  • ウェブ分析:ページビューやコンバージョンなど、ウェブサイト上のインタラクションから得られるデータ

  • IoTデバイス:スマートメーターや家電など、接続されたデバイスからのリアルタイム・データ

データ収集の課題と検討事項

データを取得する組織は、取得プロセス全体を通じていくつかの点を念頭に置いておく必要があります。

  • データ・プライバシーとセキュリティー
  • データ品質
  • データの互換性
  • ビジネス・ニーズとコスト

データ・プライバシーとセキュリティー

データ・プライバシー(情報プライバシーとも呼ばれる)とは、人々が組織による個人データの収集、保存、利用方法を自らコントロールできるべきだという考え方です。データ取得の際、組織はメールアドレスや生体認証データといったユーザー情報を収集する場合があります。このデータを処理する前にユーザーの同意を得ること、悪用から保護すること、そしてユーザーが積極的に管理できるツールを提供することが極めて重要です。

多くの企業は、一般データ保護規則(GDPR)のような規制の下で、これらの取り組みに従う法的義務を負っています。しかし、正式なデータ・プライバシー法が存在しない場合でも、データ・プライバシー対策を実施することにはメリットがあります。多くの場合、ユーザーのプライバシーを保護するための実践やツールは、不正アクセス、破損、あるいは盗難からデジタル情報を保護することにも役立ちます。

データ品質

データ品質を確保することは、多様なソースからデータを取得する組織にとって最優先事項であるべきです。データ品質とは、データセットが正確性、完全性、有効性、一貫性、一意性、適時性、そして目的への関連性といった基準をどの程度満たしているかを指します。高品質なデータは、ビジネス目標に沿った正確で公正かつ効果的な意思決定を支えます。

データ品質は、日々の業務における重要性にとどまりません。高品質なトレーニング・データは、人工知能や自動化を効果的に活用するための鍵となります。しかし、よく知られたAIの格言「ごみを入れれば、ごみが出る」は広く当てはまります。どのようなユースケースであっても、質の低いデータは質の低いアウトプットにつながります。

データ互換性

組織が多様なソースからデータセットを取得する際には、それらをシステムにロードする前に互換性の問題へ対処する必要があります。データ・クレンジングの実践や標準化によって、データが一貫した形式と構造に従うようにでき、後続のパイプラインで理解や分析がしやすくなります。例えば、通りの名前には「North」や「West」といった方角が含まれることがよくありますが、標準化によって、これらの値は「N」や「W」といった形式に統一されます。

金融やヘルスケアといった厳しく規制された業界の組織は、追加のデータ標準ルールや規制に直面する可能性があります。例えば、医療保険の相互運用性と説明責任に関する法律(HIPAA)は、診断や処置の標準コード体系を定め、ヘルスケア・データに共通言語をもたらしました。

ビジネス・ニーズとコスト

データを取得する前に、組織は自らのデータニーズを明確にし、その取得コストが正当化できるかどうかを判断する必要があります。データ・クレンジングや標準化に関連するコストに加えて、企業は価格、ライセンス料(該当する場合)、および購入契約に記載された追加コストも考慮する必要があります。

効率的なデータ取得には、データを処理・管理・保存できる堅牢なデータ・インフラストラクチャーも必要です。組織は、取得したデータが適切に保存・管理・活用されるようにするために、データ・ストレージ分析、セキュリティー、ガバナンスといった分野に投資する必要があるかもしれません。

データ収集はデータ取得と同じか

しばしば同じ意味で使われますが、データ取得とデータ収集は異なる意味を持っています。

データ収集とは、さまざまなソースから生の情報を直接集めるプロセスであり、通常はデータサイエンティストやアナリストが実施します。対照的に、データ取得はデータ収集を含む、より広い概念です。しかし、データ取得には、パートナーシップ、ライセンス契約、データ購入、レガシー・データの変換といった追加的な方法によるデータの入手も含まれます。

機械学習におけるデータ収集とは

最も業績の高いCEOの72%によると、競争優位性の獲得は、最先端の生成AIを持つことにかかっています。しかし、最も高度な機械学習アルゴリズムであっても、その効果は学習に使用されるデータの質に左右されます。AIシステムが学習し、適応し、真の価値を提供するためには、高品質なデータが不可欠です。

しかし実際には、AIモデルをトレーニングするのに十分な関連データを取得することは容易ではありません。プライバシー上の懸念、高コスト、法的または規制上の制約により、ウェブ・スクレイピングやパブリック・データセットといった価値のあるデータ取得手法やソースへのアクセスが制限されることがあります。場合によっては、規制により、特定の種類のデータをAIの利用目的で収集すること自体が禁止されていることすらあります。

こうした障壁を緩和するため、多くの組織は現実のデータを模倣して人工的に生成されたデータである「合成データ」に注目しています。統計的手法や、ディープラーニングや生成AIなどの高度な人工知能技術を用いて作成される合成データは、より高度なカスタマイズ、効率的な取得、データプライバシーの向上、そして全体的により豊富なデータといったいくつかのメリットを提供します。

関連ソリューション
データ管理ソフトウェアとソリューション

データ・サイロを排除し、複雑さを軽減し、データ品質を向上させることで、卓越した顧客体験と従業員体験を実現するデータ・ストラテジーを設計します。

データ管理ソリューションの詳細はこちら
IBM watsonx.data

watsonx.dataを使用すると、オープンでハイブリッド、かつ管理されたデータ・ストアを通じて、データがどこに保存されていても、すべてのデータを使用して分析とAIを拡張できます。

watsonx.dataについてはこちら
データ分析コンサルティングサービス

IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。

分析サービスを発見する
次のステップ

データ・サイロを排除し、複雑さを軽減し、データ品質を向上させることで、卓越した顧客体験と従業員体験を実現するデータ・ストラテジーを設計します。

データ管理ソリューションの詳細はこちら watsonx.dataについてはこちら
脚注

1Big on data: Study shows why data-driven companies are more profitable than their peers」、「Harvard Business Review」誌がGoogle Cloudに対して実施した調査、2023年3月24日。

2Data Acquisition Methods」、米国地質調査所