现代商业基础工作(如数据驱动型决策、数据分析和人工智能 (AI))均取决于大量高质量数据的可用性。数据采集可检索使这些明智决策和技术成为可能的相关数据。此概念虽然看似简单,但获取数据却可能十分复杂,尤其是在大数据时代。
当今的数据集不但庞大且十分复杂。它们的大小可跨越数 TB 或 PB,并采用结构化或非结构化格式,同时存在于不同的数据源中。这些复杂性给整个采集过程中围绕数据量、治理和安全性的管理工作带来了挑战。
然而,若能有效完成数据采集流程,则可使该流程成为各种战略计划的高质量催生管道。事实上,《哈佛商业评论》的一项研究发现,成功利用大数据和 AI 的组织在运营效率、收入增长和客户体验等关键业务指标方面的表现均优于同行。1
根据美国地质调查局的数据,数据采集方法可分为四种:2
收集数据的过程涉及通过调查、访谈、传感器或物联网 (IoT) 设备等直接方式来生成原始数据。企业常使用此方法进行市场调研或运营监控。
获取数据的组织在整个采集过程中需牢记几个注意事项:
当组织从不同来源采集数据集时,它们需要在将数据加载到自身系统之前解决所有兼容性问题。数据清洗实践和标准化可确保数据遵循一致的格式和结构,从而使其更易于理解和分析。例如,街道名称通常包含方向,如“北 (North)”或“西 (West)”。标准化流程会将这些值的格式转换为“N”或“W”。
身处监管严格行业(如金融或医疗保健)中的组织可能会面临更多的数据标准规则和法规。例如,《健康保险流通和责任法案》(HIPAA) 为诊断和程序制定了标准代码集,从而为医疗保健数据创造了一种通用语言。
虽然常被互换使用,但数据采集和数据收集却有不同的含义。
数据收集是指直接从各种来源收集原始信息的流程,且通常由数据科学家和分析师执行此流程。相比之下,数据采集则是包括数据收集在内的一个更为宏观的术语。但是,它还涉及通过其他方法获取数据,如合作伙伴关系、许可协议、数据购买和旧版数据转换等。
72% 的成绩卓越的 CEO 们表示,获得竞争优势取决于拥有最先进的生成式 AI。然而,即便是最复杂的机器学习算法也受限于它们在其基础上进行训练的数据。高质量的数据对于 AI 系统学习、适应和提供真正的价值至关重要。
然而在实践中,获取足够的相关数据来训练 AI 模型却可能具有挑战性。隐私问题、高昂成本以及法律或监管限制,都会限制人们获取到宝贵的数据采集方法和数据集,如网络抓取或公共数据集。某些情况下,法规可能会完全禁止为 AI 用例收集特定类型的数据。
为缓和这些障碍,很多组织正在转而采用合成数据,即可模仿真实数据的人工生成的数据。合成数据是通过统计方法或先进的人工智能技术(如深度学习和生成式 AI)来创建的,而此类数据具有多种优势:定制程度更高、采集更高效、数据隐私度更出色以及数据总体丰度更优。
设计数据战略,消除数据孤岛、降低复杂性并提高数据质量,以获得卓越的客户和员工体验。
watsonx.data 支持您通过开放、混合和已治理数据,利用您的所有数据(无论位于何处)来扩展分析和 AI。
通过 IBM® Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。
1“重视数据:研究表明为什么数据驱动型公司比同行利润更高”,《哈佛商业评论》针对 Google Cloud 进行的研究,2023 年 3 月 24 日。
2“数据采集方法”,美国地质调查局。