¿Qué es la detección de anomalías?
Explore Databand
Dibujo mostrando fuentes de datos que conducen a la pantalla

Fecha de publicación: 12 de diciembre de 2023
Colaboradores: Joel Barnard

¿Qué es la detección de anomalías?

La detección de anomalías, o detección de valores atípicos, es la identificación de una observación, evento o punto de datos que se desvía de lo normal o esperado, haciéndolo incoherente con el resto del conjunto de datos.

La detección de anomalías tiene una larga historia en el campo de la estadística, donde analistas y científicos estudiaban gráficos en busca de cualquier elemento que pareciera anormal. En la actualidad, la detección de anomalías aprovecha la inteligencia artificial (IA) y el aprendizaje automático (ML) para identificar automáticamente cambios inesperados en el comportamiento normal de un conjunto de datos.

Los datos anómalos pueden indicar incidentes críticos tras bambalinas, como un fallo de la infraestructura, un cambio de última hora de una fuente ascendente o amenazas a la seguridad. Las anomalías también pueden destacar oportunidades para la optimización arquitectónica o mejorar las estrategias de marketing.

La detección de anomalías tiene una variedad de casos de uso en varias industrias. Por ejemplo, se utiliza en finanzas para la detección de fraudes, en la fabricación para identificar defectos o fallas de equipos, en la ciberseguridad para detectar actividad inusual en la red y en la atención médica para identificar condiciones anormales del paciente.

La detección de valores atípicos puede ser un desafío porque las anomalías suelen ser raras y las características del comportamiento normal pueden ser complejas y dinámicas. Desde una perspectiva empresarial, es esencial identificar anomalías reales en lugar de falsos positivos o ruido de datos.

Reserve una demostración de IBM Databand hoy mismo

Vea cómo la observabilidad proactiva de los datos puede ayudarle a detectar incidentes de datos con antelación y resolverlos más rápido.

Contenido relacionado

Suscríbase al boletín de IBM

¿Por qué es importante la detección de anomalías?

Las anomalías de datos pueden tener un impacto significativo en el campo de la ciencia de datos, lo que genera conclusiones incorrectas o engañosas. Por ejemplo, un solo valor atípico puede afectar significativamente la media de un conjunto de datos, lo que lo convierte en una representación imprecisa de los datos. Además, las anomalías de datos pueden afectar el rendimiento de los algoritmos de aprendizaje automático, ya que pueden hacer que el modelo se ajuste al ruido en lugar del patrón subyacente en los datos.

Identificar y manejar las anomalías de los datos es crucial por varias razones: 

Calidad de datos mejorada: identificar y manejar anomalías de datos puede mejorar significativamente la calidad de los datos, que es esencial para un análisis de datos preciso y confiable. Al abordar las anomalías de datos, los analistas pueden reducir el ruido y los errores subyacentes.

Toma de decisiones mejorada: la toma de decisiones basada en datos se basa en un análisis de datos preciso y confiable para tomar decisiones. Al identificar y manejar anomalías de datos, los analistas pueden garantizar que sus hallazgos sean más confiables, lo que lleva a decisiones mejor fundamentadas y resultados mejorados.

Rendimiento optimizado del aprendizaje automático: las anomalías de datos pueden afectar significativamente el rendimiento de los algoritmos de machine learning, ya que pueden hacer que el modelo se ajuste al ruido en lugar del patrón subyacente en los datos. Al identificar y manejar anomalías de datos precisas, los analistas pueden optimizar el rendimiento de sus modelos de máquina confiables.

Tipos de anomalías

Los tipos de anomalías de datos que un sistema de detección de anomalías puede descubrir se dividen en uno de dos tipos generales: no intencionales e intencionales.

Las anomalías involuntarias son puntos de datos que se desvían de la norma debido a errores o ruido en el proceso de recopilación de datos. Estos errores pueden ser sistemáticos o aleatorios, originados por problemas como sensores defectuosos o errores humanos durante la introducción de datos. Las anomalías involuntarias pueden alterar el conjunto de datos, lo que dificulta obtener información estratégica precisa.

Por otro lado, las anomalías intencionales son puntos de datos que se desvían de la norma debido a acciones o eventos específicos. Estas anomalías pueden proporcionar información valiosa sobre el conjunto de datos, ya que pueden resaltar ocurrencias o tendencias únicas.

Por ejemplo, un pico repentino en las ventas durante una temporada festiva podría considerarse una anomalía intencional, ya que se desvía del patrón de ventas típico, pero se espera debido a un evento real.

En términos de datos de negocio, existen tres anomalías principales de datos de series temporales: anomalías de puntos, anomalías contextuales y anomalías colectivas.

Las anomalías de puntos, también conocidas como valores atípicos globales, son puntos de datos individuales que existen lejos del resto del conjunto de datos. Pueden ser intencionales o no intencionales y pueden resultar de errores, ruido o ocurrencias únicas.

Un ejemplo de anomalía de punto es un retiro de cuenta bancaria que es significativamente mayor que cualquiera de los retiros anteriores del usuario.   

Las anomalías contextuales son puntos de datos que se desvían de la norma dentro de un contexto específico. Estas anomalías no son necesariamente valores atípicos cuando se consideran aisladas, sino anómalas cuando se ven dentro de su contexto específico.

Por ejemplo, considere el uso de energía en el hogar. Si hay un aumento repentino en el consumo de energía al mediodía, cuando normalmente no hay miembros de la familia en casa, la anomalía sería contextual. Es posible que este punto de datos no sea un valor atípico en comparación con el consumo de energía por la mañana o por la noche (cuando las personas suelen estar en casa), pero es anómalo en el contexto de la hora del día.

Las anomalías colectivas implican un conjunto de instancias de datos que juntos se desvían de la norma, aunque las instancias individuales pueden parecer normales.

Un ejemplo de este tipo de anomalía sería un conjunto de datos de tráfico de red que muestra un aumento repentino del tráfico de varias direcciones IP al mismo tiempo.

Métodos de detección de anomalías.

El uso de un sistema de detección de anomalías para detectar anomalías de datos es un aspecto crítico del análisis de datos, lo que garantiza que los hallazgos sean precisos y confiables. Se pueden utilizar varios métodos de detección de anomalías para crear un sistema de detección de anomalías:

La visualización es una herramienta poderosa para detectar anomalías de datos, ya que permite a los científicos de datos identificar rápidamente posibles valores atípicos y patrones en los datos. Al trazar los datos usando gráficos y gráficos, los analistas pueden inspeccionar visualmente el conjunto de datos para cualquier punto inusual o de tendencias.

Las pruebas estadísticas pueden ser utilizadas por científicos de datos para detectar anomalías de datos comparando los datos observados con la distribución o el patrón esperado.

Por ejemplo, la prueba Grubbs se puede utilizar para identificar valores atípicos en un conjunto de datos comparando cada punto de datos con la desviación media y estándar de los datos. Del mismo modo, la prueba de Kolmogorov-Smirnov se puede utilizar para determinar si un conjunto de datos sigue una distribución específica, como una distribución normal.

Los algoritmos de aprendizaje automático se pueden utilizar para detectar anomalías de datos aprendiendo el patrón subyacente en los datos y luego identificar cualquier desviación de ese patrón. Algunos de los algoritmos de detección de anomalías ML más comunes incluyen:

  • Árboles de decisión: un tipo de árbol de decisión, el bosque de aislamiento, es un método de aprendizaje conjunto que aísla anomalías seleccionando al azar una característica y luego seleccionando aleatoriamente un valor dividido entre los valores máximos y mínimos de la característica seleccionada.

  • Máquina vectorial de soporte de una clase (SVM): una SVM de clase es un método de algoritmo de clasificación capacitado solo en las instancias "normales", cuyo objetivo es crear un límite que abarque los datos normales. Las instancias que caen fuera de este límite se consideran anomalías.

  • k-Vecinos más cercanos (k-NN): k-NN es un algoritmo simple que clasifica un punto de datos basado en la mayoría de la clase de sus vecinos más cercanos. Las instancias que tienen significativamente menos vecinos de la misma clase pueden considerarse anomalías.

  • Naive Bayesian: estos métodos funcionan definiendo la probabilidad de que ocurra un evento en función de la presencia de factores contribuyentes y la detección de relaciones con la misma causa principal.

  • Autocodificadores: un tipo de red neural que utiliza datos con marca de tiempo para pronosticar patrones de datos e identificar anomalías que no se alinean con los datos históricos. 

  • Factor de valor atípico local (LOF): LOF es un algoritmo basado en la densidad que mide la desviación de densidad local de un punto de datos con respecto a sus vecinos. Los puntos con una densidad significativamente menor en comparación con sus vecinos se consideran valores atípicos.

  • clustering de k-means: k-means es una técnica de agrupamiento que analiza la distancia media de los puntos de datos sin etiquetar y luego ayuda a agrupar los mismos en grupos específicos. 
Técnicas de detección de anomalías

Un algoritmo de detección de anomalías puede aprender a identificar patrones y detectar datos anómalos mediante diversas técnicas de entrenamiento de aprendizaje automático. La cantidad de datos etiquetados, si los hay, en el conjunto de datos de entrenamiento de un equipo de datos determina cuál de las principales técnicas de detección de anomalías utilizarán: no supervisada, supervisada o semisupervisada.

Con técnicas de detección de anomalías no supervisadas, los ingenieros de datos entrenan un modelo proporcionándole conjuntos de datos sin etiquetar que utiliza para descubrir patrones o anomalías por sí mismo. Aunque estas técnicas son mucho más usadas debido a su aplicación más amplia y relevante, requieren conjuntos de datos masivos y potencia informática. El aprendizaje automático no supervisado se encuentra con mayor frecuencia en escenarios de aprendizaje profundo, que dependen de redes neuronales artificiales.

Las técnicas supervisadas de detección de anomalías utilizan un algoritmo que se entrena en un conjunto de datos etiquetado que incluye instancias normales y anómalas. Debido a la falta de disponibilidad general de los datos de capacitación etiquetados y a la naturaleza inherente no equilibrada de las clases, rara vez se utilizan estas técnicas de detección de anomalías. 

Las técnicas semisupervisadas maximizan los atributos positivos tanto de la detección de anomalías no supervisada como de la detección supervisada de anomalías. Al proporcionar un algoritmo con alguna parte de los datos etiquetados, se puede capacitar parcialmente. Luego, los ingenieros de datos utilizan el algoritmo parcialmente entrenado para etiquetar un conjunto de datos más grande de forma autónoma, denominado "pseudoetiquetado". Suponiendo que resulten fiables, estos puntos de datos recién etiquetados se combinan con el conjunto de datos original para ajustar el algoritmo.

Encontrar la combinación adecuada de aprendizaje automático supervisado y no supervisado es vital para la automatización del aprendizaje automático. Idealmente, la gran mayoría de las clasificaciones de datos se realizarían sin interacción humana de manera no supervisada. Dicho esto, los ingenieros de datos aún deberían poder alimentar algoritmos con datos de capacitación que ayudarán a crear líneas base habituales para el negocio. Un enfoque semisupervisado permite escalar la detección de anomalías con la flexibilidad necesaria para establecer reglas manuales relativas a anomalías específicas.

Casos de uso de detección de anomalías

Los modelos de detección de anomalías se utilizan ampliamente en las industrias de banca, seguros y comercio de acciones para identificar actividades fraudulentas en tiempo real, como transacciones no autorizadas, lavado de dinero, fraude con tarjetas de crédito, reclamos de declaraciones de impuestos falsas y patrones comerciales anormales.

En ciberseguridad, un sistema de detección de intrusos (IDS) utiliza la detección de anomalías para ayudar a identificar actividades inusuales o sospechosas en el tráfico de red, lo que indica posibles amenazas o ataques de seguridad como infecciones de malware o acceso no autorizado.

Se utiliza en el sector sanitario para identificar condiciones inusuales de los pacientes o anomalías en los datos médicos, lo que ayuda a detectar enfermedades, controlar la salud de los pacientes y tratarlos con mayor eficacia.

En la fabricación, los algoritmos de detección de anomalías, junto con la visión artificial, se emplean para identificar defectos en productos o embalajes mediante el análisis de imágenes de cámaras de alta resolución, datos de sensores y métricas de producción.

Se utiliza para supervisar el rendimiento de los sistemas informáticos y mantener el buen funcionamiento de las operaciones mediante la identificación de patrones inusuales en los registros de los servidores y la reconstrucción de fallos a partir de patrones y experiencias pasadas para predecir posibles problemas o fallos.

La detección de anomalías ayuda a predecir fallas de equipos o necesidades de mantenimiento en industrias como la aviación, la energía y el transporte. Los sensores impulsados por IoT se utilizan para recopilar datos de equipos industriales, identificar desviaciones y predecir fallos futuros.

Se utiliza para monitorear los patrones de consumo de energía e identificar anomalías en el uso, lo que puede conducir a una gestión de energía más eficiente y a la detección temprana de fallas de equipos.

En el comercio electrónico, la detección de anomalías se aplica para identificar actividades fraudulentas, como reseñas falsas, apropiaciones de cuentas o comportamientos de compra anormales.

Las empresas también utilizan modelos de detección de anomalías para identificar patrones inusuales en el comportamiento de los clientes, lo que ayuda a detectar fraudes, predecir la pérdida de clientes y mejorar las estrategias de marketing.

Productos relacionados
IBM Databand

IBM® Databand es un software de observabilidad para canalizaciones de datos y almacenes de datos, que recopila metadatos de forma automática para crear referencias históricas, detectar anomalías, y evaluar y priorizar las alertas para corregir los problemas relacionados con la calidad de los datos.

Explore Databand

IBM DataStage

Al admitir los patrones ETL y ELT, IBM® DataStage ofrece una integración de datos flexible y casi en tiempo real tanto on premises como en la nube.

Conozca DataStage

IBM Knowledge Catalog

IBM® Knowledge Catalog, un catálogo de datos inteligente en la era de la IA, le permite acceder, curar, categorizar y compartir datos, activos de conocimiento y sus relaciones, independientemente de dónde residan.

Conozca Knowledge Catalog
Recursos Uso de la detección de anomalías de Databand para cumplir los plazos de entrega de datos

En este artículo, descubra cómo la detección de anomalías de Databand ayuda a los equipos de datos a identificar los problemas de canalización de datos más rápidamente para que puedan hacer un mejor trabajo a la hora de cumplir los SLA de datos que han establecido.

Aprendizaje supervisado versus aprendizaje no supervisado

Explore los conceptos básicos de dos enfoques de ciencia de datos: supervisados y sin supervisión. Descubra qué enfoque es el adecuado para su situación.

Cómo garantizar la calidad, el valor y la confiabilidad de los datos

Garantizar datos de alta calidad es responsabilidad de los ingenieros de datos y de toda la organización. Esta publicación describe la importancia de la calidad de los datos, cómo auditar y monitorear sus datos y cómo obtener la aceptación de las partes interesadas clave.

Dé el siguiente paso

Implemente hoy mismo la observabilidad proactiva de los datos con IBM Databand para saber cuándo surge un problema de salud de los datos antes de que lo sepan sus usuarios.

Explore Databand