¿Qué es la detección de anomalías?

Mujer de negocios trabajando en una tableta PC en la oficina.

¿Qué es la detección de anomalías?

La detección de anomalías, o detección de valores atípicos, es la identificación de una observación, evento o punto de datos que se desvía de lo normal o esperado, haciéndolo incoherente con el resto del conjunto de datos.

La detección de anomalías tiene una larga historia en el campo de la estadística, donde analistas y científicos estudiaban gráficos en busca de cualquier elemento que pareciera anormal. En la actualidad, la detección de anomalías aprovecha la inteligencia artificial (IA) y el aprendizaje automático (ML) para identificar automáticamente cambios inesperados en el comportamiento normal de un conjunto de datos.

Los datos anómalos pueden indicar incidentes críticos tras bambalinas, como un fallo de la infraestructura, un cambio de última hora de una fuente ascendente o amenazas a la seguridad. Las anomalías también pueden destacar oportunidades para la optimización arquitectónica o mejorar las estrategias de marketing.

La detección de anomalías tiene una variedad de casos de uso en varias industrias. Por ejemplo, se utiliza en finanzas para la detección de fraudes, en la fabricación para identificar defectos o fallas de equipos, en la ciberseguridad para detectar actividad inusual en la red y en la atención médica para identificar condiciones anormales del paciente.

La detección de valores atípicos puede ser un desafío porque las anomalías suelen ser raras y las características del comportamiento normal pueden ser complejas y dinámicas. Desde una perspectiva empresarial, es esencial identificar anomalías reales en lugar de falsos positivos o ruido de datos.

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

¿Por qué es importante la detección de anomalías?

Las anomalías de datos pueden tener un impacto significativo en el campo de la ciencia de datos, lo que genera conclusiones incorrectas o engañosas. Por ejemplo, un solo valor atípico puede afectar significativamente la media de un conjunto de datos, lo que lo convierte en una representación imprecisa de los datos. Además, las anomalías de datos pueden afectar el rendimiento de los algoritmos de aprendizaje automático, ya que pueden hacer que el modelo se ajuste al ruido en lugar del patrón subyacente en los datos.

Identificar y manejar las anomalías de los datos es crucial por varias razones:

Calidad de datos mejorada: identificar y manejar anomalías de datos puede mejorar significativamente la calidad de los datos, que es esencial para un análisis de datos preciso y confiable. Al abordar las anomalías de datos, los analistas pueden reducir el ruido y los errores subyacentes.

Toma de decisiones mejorada: la toma de decisiones basada en datos se basa en un análisis de datos preciso y confiable para tomar decisiones. Al identificar y manejar anomalías de datos, los analistas pueden garantizar que sus hallazgos sean más confiables, lo que lleva a decisiones mejor fundamentadas y resultados mejorados.

Rendimiento optimizado del aprendizaje automático: las anomalías de datos pueden afectar significativamente el rendimiento de los algoritmos de machine learning, ya que pueden hacer que el modelo se ajuste al ruido en lugar del patrón subyacente en los datos. Al identificar y manejar anomalías de datos precisas, los analistas pueden optimizar el rendimiento de sus modelos de máquina confiables.

Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Vea todos los episodios de Mixture of Experts

Tipos de anomalías

Un sistema de detección de anomalías puede descubrir dos tipos generales de anomalías: no intencionales e intencionales.

Las anomalías involuntarias son puntos de datos que se desvían de la norma debido a errores o ruido en el proceso de recopilación de datos. Estos errores pueden ser sistemáticos o aleatorios, originados por problemas como sensores defectuosos o errores humanos durante la introducción de datos. Las anomalías involuntarias pueden alterar el conjunto de datos, lo que dificulta obtener información estratégica precisa.

Las anomalías intencionales son puntos de datos que se desvían de la norma debido a acciones o eventos específicos. Estas anomalías pueden proporcionar información valiosa sobre el conjunto de datos, ya que pueden resaltar ocurrencias o tendencias únicas. Por ejemplo, un pico repentino en las ventas durante una temporada festiva podría considerarse una anomalía intencional, ya que se desvía del patrón de ventas típico, pero se espera debido a un evento real.

Anomalías en los datos de series temporales

En términos de datos de negocio, existen tres anomalías principales de datos de series temporales: anomalías de puntos, anomalías contextuales y anomalías colectivas.

Lasanomalías puntuales, también conocidas como valores atípicos globales, son puntos de datos individuales que existen muy lejos del resto del conjunto de datos. Pueden ser intencionales o no intencionales y pueden resultar de errores, ruido o ocurrencias únicas. Un ejemplo de anomalía de punto es un retiro de cuenta bancaria que es significativamente mayor que cualquiera de los retiros anteriores del usuario.

Las anomalías contextuales son puntos de datos que se desvían de la norma dentro de un contexto específico. Estas anomalías no son necesariamente valores atípicos cuando se consideran de forma aislada, pero se vuelven anómalas cuando se analizan dentro de su contexto específico.

Por ejemplo, considere el uso de energía en el hogar. Si hay un aumento repentino en el consumo de energía al mediodía, cuando normalmente no hay miembros de la familia en casa, la anomalía sería contextual. Es posible que este punto de datos no sea un valor atípico en comparación con el consumo de energía por la mañana o por la noche (cuando las personas suelen estar en casa), pero es anómalo en el contexto de la hora del día.

Las anomalías colectivas implican un conjunto de instancias de datos que juntos se desvían de la norma, aunque las instancias individuales pueden parecer normales. Un ejemplo de este tipo de anomalía sería un conjunto de datos de tráfico de red que muestra un aumento repentino del tráfico de varias direcciones IP al mismo tiempo.

Métodos de detección de anomalías.

El uso de un sistema de detección de anomalías para detectar anomalías de datos es un aspecto crítico del análisis de datos, lo que garantiza que los hallazgos sean precisos y confiables. Se pueden utilizar varios métodos de detección de anomalías para crear un sistema de detección de anomalías:

Visualización

La visualización es una herramienta poderosa para detectar anomalías en los datos, ya que permite a los científicos de datos identificar rápidamente posibles valores atípicos y patrones en los datos. Al representar los datos mediante tablas y gráficos, los analistas pueden inspeccionar visualmente el conjunto de datos en busca de puntos o tendencias inusuales.

Pruebas estadísticas

Las pruebas estadísticas pueden ser utilizadas por científicos de datos para detectar anomalías de datos comparando los datos observados con la distribución o el patrón esperado.

Por ejemplo, la prueba Grubbs se puede utilizar para identificar valores atípicos en un conjunto de datos comparando cada punto de datos con la desviación media y estándar de los datos. Del mismo modo, la prueba de Kolmogorov-Smirnov se puede utilizar para determinar si un conjunto de datos sigue una distribución específica, como una distribución normal.

Algoritmos de machine learning

Los algoritmos de machine learning pueden utilizarse para detectar anomalías en los datos mediante el aprendizaje del patrón subyacente en los datos y la posterior identificación de cualquier desviación de dicho patrón. Algunos de los algoritmos de detección de anomalías de machine learning (ML) más comunes son:

Árboles de decisión: un tipo de árbol de decisión, el bosque de aislamiento, es un método de aprendizaje conjunto que aísla anomalías seleccionando al azar una característica y luego seleccionando aleatoriamente un valor dividido entre los valores máximos y mínimos de la característica seleccionada.
Máquina vectorial de soporte de una clase (SVM): una SVM de clase es un método de algoritmo de clasificación capacitado solo en las instancias "normales", cuyo objetivo es crear un límite que abarque los datos normales. Las instancias que caen fuera de este límite se consideran anomalías.
k-Vecinos más cercanos (k-NN): k-NN es un algoritmo simple que clasifica un punto de datos basado en la mayoría de la clase de sus vecinos más cercanos. Las instancias que tienen significativamente menos vecinos de la misma clase pueden considerarse anomalías.
Naive Bayesian: estos métodos funcionan definiendo la probabilidad de que ocurra un evento en función de la presencia de factores contribuyentes y la detección de relaciones con la misma causa principal.
Autocodificadores: un tipo de red neural que utiliza datos con marca de tiempo para pronosticar patrones de datos e identificar anomalías que no se alinean con los datos históricos.
Factor de valor atípico local (LOF): LOF es un algoritmo basado en la densidad que mide la desviación de densidad local de un punto de datos con respecto a sus vecinos. Los puntos con una densidad significativamente menor en comparación con sus vecinos se consideran valores atípicos.
clustering de k-means: k-means es una técnica de agrupamiento que analiza la distancia media de los puntos de datos sin etiquetar y luego ayuda a agrupar los mismos en grupos específicos.

Técnicas de detección de anomalías

Un algoritmo de detección de anomalías puede aprender a identificar patrones y detectar datos anómalos mediante diversas técnicas de entrenamiento de aprendizaje automático. La cantidad de datos etiquetados, si los hay, en el conjunto de datos de entrenamiento de un equipo de datos determina cuál de las principales técnicas de detección de anomalías utilizarán: no supervisada, supervisada o semisupervisada.

Detección de anomalías sin supervisión

Con técnicas de detección de anomalías no supervisadas, los ingenieros de datos entrenan un modelo proporcionándole conjuntos de datos sin etiquetar que utiliza para descubrir patrones o anomalías por sí mismo. Aunque estas técnicas son mucho más usadas debido a su aplicación más amplia y relevante, requieren conjuntos de datos masivos y potencia informática. El aprendizaje automático no supervisado se encuentra con mayor frecuencia en escenarios de aprendizaje profundo, que dependen de redes neuronales artificiales.

Detección de anomalías supervisada

Las técnicas supervisadas de detección de anomalías utilizan un algoritmo que se entrena en un conjunto de datos etiquetado que incluye instancias normales y anómalas. Debido a la falta de disponibilidad general de los datos de capacitación etiquetados y a la naturaleza inherente no equilibrada de las clases, rara vez se utilizan estas técnicas de detección de anomalías.

Detección semisupervisada de anomalías

Las técnicas semisupervisadas maximizan los atributos positivos tanto de la detección de anomalías no supervisada como de la detección de anomalías supervisada. Al proporcionar a un algoritmo una parte de los datos etiquetados, se puede entrenar parcialmente. Luego, los ingenieros de datos utilizan el algoritmo parcialmente entrenado para etiquetar un conjunto de datos más grande de forma autónoma, denominado "pseudoetiquetado". Suponiendo que resulten fiables, estos puntos de datos recién etiquetados se combinan con el conjunto de datos original para ajustar el algoritmo.

Encontrar la combinación adecuada de aprendizaje automático supervisado y no supervisado es vital para la automatización del aprendizaje automático. Idealmente, la gran mayoría de las clasificaciones de datos se realizarían sin interacción humana de manera no supervisada. Dicho esto, los ingenieros de datos aún deberían poder alimentar algoritmos con datos de capacitación que ayudarán a crear líneas base habituales para el negocio. Un enfoque semisupervisado permite escalar la detección de anomalías con la flexibilidad necesaria para establecer reglas manuales relativas a anomalías específicas.

Casos de uso de detección de anomalías

Detección de fraude

Los modelos de detección de anomalías se utilizan ampliamente en las industrias de banca, seguros y comercio de acciones para identificar actividades fraudulentas en tiempo real, como transacciones no autorizadas, lavado de dinero, fraude con tarjetas de crédito, reclamos de declaraciones de impuestos falsas y patrones comerciales anormales.

Ciberseguridad

Los sistemas de detección de intrusiones (IDS) y otras tecnologías de ciberseguridad utilizan la detección de anomalías para ayudar a identificar actividades de usuario inusuales o sospechosas o patrones de tráfico de red, lo que indica posibles amenazas o ataques de seguridad, como infecciones de malware o acceso no autorizado.

Fabricación y control de calidad

Los algoritmos de detección de anomalías suelen emplearse junto con la visión artificial para identificar defectos en productos o embalajes mediante el análisis de imágenes de alta resolución captadas por cámaras, datos de sensores y métricas de producción.

Gestión de sistemas de TI

La detección de anomalías se puede utilizar para supervisar el rendimiento de los sistemas informáticos y garantizar el buen funcionamiento de las operaciones mediante la identificación de patrones inusuales en los registros del servidor y la reconstrucción de fallos a partir de patrones y experiencias pasadas para predecir posibles problemas o fallos.

Energía, transporte e infraestructura crítica

Al identificar irregularidades en los datos de los sensores del Internet de las cosas (IoT) y los dispositivos de tecnología operativa (OT), la detección de anomalías puede ayudar a predecir fallas en el equipamiento o necesidades de mantenimiento en industrias como la aviación, la energía y el transporte. Cuando se utiliza para supervisar los patrones de consumo energético e identificar anomalías en el uso, la detección de anomalías puede conducir a una gestión más eficiente de la energía y a la detección temprana de fallos en el equipamiento.

Comercio electrónico y minorista

Las empresas también utilizan modelos de detección de anomalías para identificar patrones inusuales en el comportamiento de los clientes, lo que ayuda a detectar fraudes, predecir la pérdida de clientes y mejorar las estrategias de marketing. En el comercio electrónico, la detección de anomalías se aplica para identificar comentarios falsos, tomas de cuentas, comportamiento anormal de compra y otros indicadores de fraude o cibercrimen.

Ciencia de datos y MLOps para líderes de datos

Una fuerzas con otros líderes para impulsar los tres pilares esenciales de MLOps y la IA confiable: confianza en los datos, confianza en los modelos y confianza en los procesos.

Recursos

Amplíe sus conocimientos de aprendizaje automático (ML)

Aprenda los conceptos fundamentales y construya sus habilidades con laboratorios prácticos, cursos, proyectos guiados, ensayos y mucho más.

Desbloquee el poder de la IA generativa + ML

Aprenda a incorporar con confianza la IA generativa y el aprendizaje automático en su negocio.

Explicación del machine learning

Techsplainers de IBM desglosa los fundamentos del machine learning, desde conceptos clave hasta casos de uso del mundo real. Los episodios claros y rápidos le ayudan a aprender los fundamentos rápidamente.

Ponga la IA a trabajar: Impulso del retorno de la inversión (ROI) con IA generativa

¿Quiere rentabilizar mejor sus inversiones en IA? Descubra cómo la IA generativa escalable en áreas clave impulsa el cambio ayudando a sus mejores mentes a crear y ofrecer nuevas soluciones innovadoras.

Cómo elegir el modelo fundacional adecuado

Aprenda a seleccionar el modelo fundacional de IA más adecuado para su caso de uso.

Explorar IBM Granite

IBM Granite es nuestra familia de modelos de IA abiertos, de alto rendimiento y confiables, diseñados para empresas y optimizados para escalar sus aplicaciones de IA. Explore opciones de lenguaje, código, series de tiempo y medidas de protección.

Cómo prosperar en esta nueva era de la IA con confianza y seguridad

Indague en los 3 elementos críticos de una estrategia sólida de IA: crear una ventaja competitiva, escalar la IA en todo el negocio y avanzar en la IA confiable.

Soluciones relacionadas

IBM watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai

Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA

Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA

Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

¿Qué es la detección de anomalías?