发布日期:2024 年 9 月 6 日
撰稿人:Matthew Kosinski
基于规则的传统 AI 和更先进的生成式 AI 模型都可以帮助进行数据管理。
现代企业拥有大量数据,涵盖金融交易、产品库存、员工记录和客户偏好等各个方面。利用这些数据来指导决策并推动业务计划的组织可以获得优于竞争对手的显著优势。
然而,如何使这些大型数据集足够准确、可靠且易于获取以便人们在实践中使用这些数据集,则是一项挑战。
“IBM 数据差异化因素”报告称,82% 的企业会遭遇阻碍关键工作流程的数据孤岛。高达 68% 的组织数据从未得到分析,这意味着企业从未充分利用这些数据。
AI 和 ML 工具可以通过优化集成数据源、清理数据和检索数据等任务来帮助组织利用数据。因此,企业可以做出更多数据驱动型决策。
AI 数据管理还可帮助组织构建训练和部署自己的 AI 模型和机器学习算法所需的高质量数据的管道。
了解使用生成式 AI 改进数据服务的机会,以增强数据从业人员的能力。
许多类型的数据管理工具(例如数据存储解决方案、数据集成工具、主数据管理工具、治理解决方案等)现在都包含 ML 和 AI 功能。这些工具可以使用传统的 AI 算法和生成式 AI 系统。
传统的 AI 系统执行基于规则的特定任务。例如,数据库管理系统根据预定义标准自动对数据进行分类。
生成式 AI 系统(例如 Microsoft Copilot、Meta Llama 和 IBM Granite)可响应自然语言并创作原创内容。例如,集成了大型语言模型 (LLM) 的数据库管理系统可创建数据摘要并接受纯英语的查询,而不是 SQL 查询。
AI 和 ML 几乎可应用于数据管理流程的任意环节,但其中最常见的部分用例包括:
如今,组织需要处理大量数据,这些数据来自多个不同来源,具有多种格式。这些数据由不同用户处理,最终分散在公有云和私有云、本地存储系统甚至员工的个人端点上。
很难集中跟踪和管理所有这些数据,因此就产生了两个问题。
首先,如果组织不知道数据集的存在,就无法使用该数据集。
其次,这些未被发现和管理的“影子数据”会招致安全风险。根据 IBM 的《数据泄露成本报告》,三分之一的数据泄露事件涉及影子数据。这些泄露事件的平均成本为 527 万美元,比总体平均泄露成本高出了 16%。
AI 和 ML 可以自动执行数据发现的许多方面,使组织能够更好地了解和控制所有数据资产。
AI 驱动的数据发现工具可以自动扫描网络设备和数据存储存储库,近乎实时地为新数据编制索引。
自动化数据分类工具可以根据预定义规则或机器学习模型标记新数据。例如,该工具可能会将 XXX-XX-XXXX 格式的任何九位数字归类为美国社会保障号码。
LLM 和其他自然语言处理工具可以从非结构化数据源中提取结构化数据,例如,从不同格式的文本文档简历中提取应聘者的联系方式和工作经历。
糟糕的数据比没有任何数据更有可能招致问题。如果组织的数据不完整或不准确,则基于这些数据所构建的业务计划和 AI 模型也不达标。
AI 与 ML 工具可帮助识别并纠正组织数据中的错误,因而用户无需完成手动数据清理这一非常耗时的工作。此外,AI 还可比人类用户更快地完成工作并捕获更多错误。
支持 AI 的数据准备工具可执行验证检查并标记或更正错误;例如,格式设置不当和值不规则。某些人工智能驱动式数据准备工具还可将数据转换为适当的格式;例如,将非结构化会议记录转换为结构化表格。
合成数据生成器可以提供缺失值并填补数据集中的其他空白。这些生成器可以使用机器学习模型识别现有数据中的模式并生成高度准确的合成数据点。
一些主数据管理 (MDM) 工具可以使用 AI 和 ML 检测和纠正关键记录中的错误和重复项。例如,合并姓名、地址和联系方式相同的两条客户记录。
AI 驱动的数据可观察性工具可以自动生成数据沿袭记录,以便组织可以跟踪谁在使用数据以及数据随时间推移如何变化。
数据孤岛阻碍许多组织充分发挥数据的价值。AI 和 ML 可以简化数据集成工作,用统一的数据架构取代孤立的存储库。整个组织的用户可以在需要时访问所需的数据资产。
支持 AI 的数据集成工具可自动检测不同数据集之间的关系,以便企业连接或合并这些数据集。
具有 AI 功能的元数据管理工具通过根据标记和分类生成数据资产的描述,可以帮助自动创建数据目录。
具有 LLM 支持接口的数据库和数据目录可以接受和处理自然语言命令,允许用户无需编写自定义代码或 SQL Query 即可查找数据资产和产品。一些 LLM 支持界面还可以帮助用户优化查询、丰富数据集或建议相关数据点。
支持 AI 的查询引擎可使用机器学习算法并通过分析工作负载模式和优化查询执行来提高数据库性能。
可以提出优先考虑数据安全的商业案例。数据泄露成本报告显示,每次数据泄露平均会给组织带来 488 万美元的成本损失,包括业务损失、系统停机、声誉损害和应对工作。
AI 和 ML 可以帮助实施安全策略、检测漏洞并阻止未经授权的活动。
AI 驱动的数据丢失防护工具可以自动检测个人身份信息 (PII) 和其他敏感数据,应用安全控制,并标记或阻止未经授权使用这些数据。
基于异常的威胁检测工具(例如,用户和实体行为分析 (UEBA) 以及端点检测和响应 (EDR))使用 AI 与 ML 算法来监控网络活动。它们可检测到不同于常态的可疑偏差;例如,大量数据突然移动到新的位置。
LLM 可帮助组织生成和实施数据治理策略。例如,在基于角色的访问控制 (RBAC) 系统中,LLM 可帮助安全团队概述不同类型的角色及其权限。LLM 还有助于将这些角色描述转换为适用于身份和访问管理系统的规则。
支持 AI 的欺诈检测工具可以使用 AI 和 ML 分析模式并发现异常交易。
AI 可通过自动执行数据发现、清理和编目等艰巨任务,同时简化数据检索和分析,来帮助实现数据管理转型。组织可构建更高效的数据管理流程,而这些流程不易出错,且更有利于数据科学、AI 计划和数据隐私。
在 AvePoint 的 AI 和信息管理报告中,64% 的受访组织表示他们至少管理 1 PB 的数据。1 从某个角度来看,这相当于大约 9 千万亿比特信息。其中大部分都是非结构化格式,例如文本文件、图像和视频。
所有这些数据对于数据科学家来说是一种福音,但手动管理如此大量且复杂的数据不可能实现。AI 和 ML 工具可以通过自动执行发现、集成和清理等关键任务来使这些数据可用。
当数据干净且可访问时,组织可以将其用于高级数据分析项目,例如使用历史数据预测消费者未来支出趋势的预测性分析计划。
AI 技术还可让缺少数据科学背景的用户更易访问数据。具有 LLM 支持的数据库界面和自动可视化效果的用户友好型数据目录可让整个企业中的更多用户利用数据来为其决策提供指导。
IBM 商业价值研究院的调查显示,59% 的 CEO 认为,组织未来的竞争优势取决于拥有最先进的生成式 AI。要构建和部署这些 AI 模型,组织需要优质、干净的数据组成的稳定数据流。
通过简化数据管理,AI 工具可帮助组织构建训练自己的 AI 和 ML 模型所需的值得信赖的高质量数据管道。由于这些模型可以根据企业的数据进行训练,因此可以训练它们执行任务并解决特定于企业及其客户的问题。
支持 AI 的安全和治理工具有助于抵御网络攻击和数据泄露,从而避免造成高昂的代价。它们还允许企业使用他们拥有的数据,同时遵守数据隐私和 GDPR 与《支付卡行业数据安全标准》(PCI-DSS) 等保护法规。
商业价值研究院的数据显示,57% 的 CEO 表示,数据安全是采用生成式 AI 的障碍。45% 的 CEO 表示数据隐私也是一个障碍。在医疗保健和金融等监管严格的行业,这些障碍尤其具有挑战性。
支持 AI 的数据管理可通过自动应用适当的保护措施和数据使用策略来提供帮助。如此,仅有授权用户可访问这些数据,并且他们只能以符合行业法规和公司政策的方式使用这些数据。
合成数据生成器还可以通过生成准确反映总体趋势的数据集来提供帮助,同时删除可能不允许组织以某些方式使用的敏感个人数据。
1 “AI and Information Management Report 2024”,AvePoint,2024 年。(ibm.com 外部链接。)