发布日期:2023 年 12 月 12 日
贡献者:Joel Barnard
异常检测或异常值检测是指识别偏离标准或预期的观察值、事件或数据点,使其与数据集的其余部分不一致。
异常检测在统计领域历史悠久,分析师和科学家研究图表,寻找所有出现异常的元素。如今,异常检测利用人工智能 (AI) 和机器学习 (ML) 自动识别数据集正常行为中的意外变化。
异常数据可能指示底层发生的严重事件,例如基础设施故障、上游重大变化或安全威胁。异常现象还能突出架构优化或改进营销策略的机会。
异常检测在各个行业用途广泛。例如,在金融领域检测欺诈,在制造领域识别缺陷或设备故障,在网络安全领域检测异常网络活动,在医疗保健领域鉴别异常患者状况。
异常值检测可能具有挑战性,一方面异常情况通常很少见,另一方面正常行为的特征可能是复杂且动态的。从业务角度来看,发现实际异常而不是误报或数据噪音至关重要。
了解主动数据可观察性如何帮助您更早地检测数据事件并更快地加以解决。
订阅 IBM 时事通讯
数据异常在数据科学领域有重大影响,可能导致得出错误或误导性结论。例如,单个异常值可能显著扭曲数据集的平均值,从而使其无法准确地表示数据。数据异常还会影响机器学习算法的性能,因为它们会导致模型拟合噪音,而非数据中的基础模式。
识别和处理数据异常至关重要,原因如下:
提高数据质量:识别和处理数据异常能显著提高数据质量,利于准确可靠的数据分析。通过解决数据异常,分析师可以减少数据集中的噪音和错误,确保数据更能代表真正的基础模式。
增强决策:数据驱动的决策依赖于准确可靠的数据分析。通过识别和处理数据异常,分析师可以确保数据发现更值得信赖,从而作出更明智的决策、取得更好的结果。
优化的机器学习性能:数据异常会显著影响机器学习算法的性能,因为它们可能导致模型拟合噪声,而不是去拟合数据中的底层模式。通过识别和处理数据异常,分析人员可以优化机器学习模型的性能,确保模型提供准确可靠的预测。
异常检测系统可发现的数据异常有两种常见类型:无意异常和有意异常。
无意异常是指由于数据收集过程中的错误或噪声而偏离正常值的数据点。这类错误起源于数据输入期间的传感器故障或人为错误等问题,可能是系统性错误,也可能是随机错误。无意异常可能会扭曲数据集,从而难以获得准确的见解。
有意异常是因特定行为或事件而偏离常态的数据点。这些异常可能会突出独特的事件或趋势,从而为数据集提供有价值的洞察。
例如,假日季的销售额突然激增可能被视为有意异常,尽管这一激增偏离了典型的销售模式,但由现实世界的活动引发,因而可以预期。
就业务数据而言,时序数据异常主要有三种:点异常、上下文异常和集合异常。
点异常也称全局异常值,是存在于数据集其余部分之外的单个数据点。这些异常可能是有意的,无意的,或由错误、噪音或特殊事件造成的。
例如,某次银行账户提款比用户之前的任何提款金额都大得多便是点异常。
上下文异常是指在特定上下文中偏离正常值的数据点。单独审视时,此类异常不一定是异常值,但在特定上下文中审视时,就会变成异常值。
例如,考虑家庭能耗。如果中午无人在家时,能耗突然增加,这通常是上下文异常。与早晨或晚上(人们通常在家时)的能耗相比,这个数据点可能不是异常值,但在一天中的这个时间点出现,它就是异常值。
集合异常涉及一组数据实例,即使单个实例可能看起来很正常,但它们共同偏离常态。
此类异常的一个示例便是显示来自多个 IP 地址的流量同时突然激增的网络流量数据集。
运用异常检测系统检测数据异常是数据分析的关键方面,可确保结果准确可靠。构建异常检测系统可以使用多种异常检测方法:
可视化是检测数据异常的有力工具,能让数据科学家快速识别数据中潜在的异常值和模式。分析师通过绘制数据图表,可以直观地检查数据集,发现所有异常数据点或趋势。
数据科学家可以使用统计检验,通过将观察到的数据与预期的分布或模式进行比较来检测数据异常。
例如,格鲁布斯检验将每个数据点与数据的平均值和标准偏差进行比较,从而识别数据集中的异常值。类似地,柯尔莫诺夫-斯米尔诺夫检验可确定数据集是否遵循特定分布,例如正态分布。
机器学习算法通过学习数据中的基本模式并识别与该模式的偏差,从而检测数据异常。以下是一些最常见的机器学习异常检测算法:
异常检测算法可以使用各种机器学习训练技术来学习识别模式并检测异常数据。数据团队训练数据集中的标记数据量(如果有)决定了他们将采用的主要异常检测技术——无监督、监督还是半监督。
利用无监督异常检测技术,数据工程师通过向模型提供未标记的数据集来训练模型,而模型会使用这些数据集自行发现模式或异常。尽管此类技术由于其应用较广泛,相关性较强,而成为迄今为止最常用的技术,但它们需要大量的数据集和较高的计算能力。无监督机器学习最常见于依赖人工神经网络的深度学习场景中。
监督异常检测技术使用一种通过包含正常实例和异常实例的标记数据集进行训练的算法。由于标记的训练数据普遍不可用以及类的固有不均衡特性,这类异常检测技术很少使用。
半监督技术最大程度发挥了无监督异常检测和监督异常检测的长处。它会向算法提供部分标记数据,对算法进行部分训练。然后,数据工程师使用部分训练算法来自主标记更大的数据集,这称为“伪标记”。假设已证实这些数据可靠,这些新标记的数据点将与原始数据集相结合,来对算法进行微调。
正确组合监督和无监督机器学习对于机器学习自动化至关重要。理想情况下,绝大多数数据分类将采用无监督方式完成,无需人工干预。不过,数据工程师仍然应该能够为算法提供训练数据,帮助创建“正常”基线。半监督方法支持扩展异常检测,并灵活地针对特定异常制定手动规则。
异常检测模型广泛应用于银行、保险和股票交易行业,用以实时识别欺诈活动,如未经授权的交易、洗钱、信用卡欺诈、虚假纳税申报表申索和异常交易模式。
在网络安全领域,入侵检测系统 (IDS) 会利用异常检测来帮助识别网络流量中的异常或可疑活动,指示出现潜在的安全威胁或攻击,如恶意软件感染或未经授权的访问。
医疗保健行业使用异常检测鉴别不寻常患者状况或医疗数据中的异常,从而帮助检测疾病、监测患者健康状况并更有效地治疗患者。
在制造行业,异常检测算法与计算机视觉相结合,用于通过分析高分辨率摄像机镜头、传感器数据和生产指标来识别产品或包装中的缺陷。
异常检测能监视 IT 系统的性能,通过识别服务器日志中的异常模式并据此和以往经验重建故障来预测潜在的问题或故障,从而保持运营平稳。
异常检测有助于预测航空、能源和运输等行业中的设备故障或维护需求。物联网驱动的传感器用于从工业设备收集数据、识别偏差并预测未来的故障。
它用于监控能源消耗模式并识别使用过程中的异常情况,从而提高能源管理效率,及早检测出设备故障。
电商行业利用异常检测识别欺诈活动,例如虚假评论、账户接管或异常购买行为。
企业还使用异常检测模型来识别客户行为中的异常模式,协助检测欺诈、预测客户流失并改进营销策略。
IBM® Databand® 是用于数据管道和仓库的可观察性软件,该软件会自动收集元数据来构建历史基线、检测异常并分类警报,以修复数据质量问题。
IBM® DataStage® 支持 ETL 和 ELT 模式,在本地和云中提供灵活且近乎实时的数据集成。
IBM® Knowledge Catalog 是 AI 时代的智能数据目录,让您可以访问、整理、分类和共享数据、知识资产及其关系,而无论这些数据存储于何处。