A medida que las organizaciones recopilan conjuntos de datos más grandes con conocimientos potenciales sobre la actividad empresarial, la detección de datos anómalos, o valores atípicos en estos conjuntos de datos, es esencial para descubrir ineficiencias, eventos raros, la causa raíz de los problemas u oportunidades de mejoras operativas. Pero ¿qué es una anomalía y por qué es importante detectarla?
Los tipos de anomalías varían según la empresa y la función empresarial. La detección de anomalías consiste simplemente en definir patrones y métricas "normales" (basados en funciones y objetivos empresariales) e identificar puntos de datos que se salen del comportamiento normal de una operación. Por ejemplo, un tráfico superior a la media en un sitio web o una aplicación durante un período determinado puede indicar una amenaza a la ciberseguridad, en cuyo caso querrá un sistema que pueda activar automáticamente alertas de detección del fraude. También podría ser simplemente una señal de que una determinada iniciativa de marketing está funcionando. Las anomalías no son intrínsecamente malas, pero conocerlas y disponer de datos para contextualizarlas es esencial para comprender y proteger su empresa.
El reto para los departamentos de TI que trabajan en la ciencia de datos es dar sentido a los puntos de datos en expansión y en constante cambio. En este blog repasaremos cómo se aprovechan las técnicas de aprendizaje automático, impulsadas por la inteligencia artificial, para detectar comportamientos anómalos a través de tres métodos de detección de anomalías diferentes: detección de anomalías supervisada, detección de anomalías no supervisada y detección de anomalías semisupervisada.
Las técnicas de aprendizaje supervisado utilizan datos de entrada y salida del mundo real para detectar anomalías. Estos tipos de sistemas de detección de anomalías requieren que un analista de datos etiquete los puntos de datos como normales o anormales para utilizarlos como datos de entrenamiento. Un modelo de aprendizaje automático entrenado con datos etiquetados será capaz de detectar valores atípicos basándose en los ejemplos que se le proporcionen. Este tipo de aprendizaje automático es útil en la detección de valores atípicos conocidos, pero no es capaz de descubrir anomalías desconocidas ni de predecir problemas futuros.
Entre los algoritmos de aprendizaje automático más comunes para el aprendizaje supervisado se incluyen:
Las técnicas de aprendizaje no supervisado no requieren datos etiquetados y pueden manejar conjuntos de datos más complejos. El aprendizaje no supervisado se nutre del deep learning y de redes neuronales o autocodificadores que imitan la forma en que las neuronas biológicas se señalan entre sí. Estas potentes herramientas pueden encontrar patrones a partir de los datos de entrada y hacer suposiciones sobre qué datos se perciben como normales.
Estas técnicas pueden ayudar mucho a descubrir anomalías desconocidas y reducir el trabajo de cribar manualmente grandes conjuntos de datos. Sin embargo, los científicos de datos deben vigilar los resultados obtenidos mediante el aprendizaje no supervisado. Dado que estas técnicas hacen suposiciones sobre los datos que se introducen, es posible que etiqueten incorrectamente las anomalías.
Los algoritmos de aprendizaje automático para datos no estructurados incluyen:
K-medias: este algoritmo es una técnica de visualización de datos que procesa puntos de datos mediante una ecuación matemática con la intención de agrupar puntos de datos similares. "Media", o dato medio, se refiere a los puntos del centro del conglomerado con los que están relacionados todos los demás datos. Mediante el análisis de datos, estas agrupaciones pueden utilizarse para encontrar patrones y hacer inferencias sobre los datos que se encuentran fuera de lo normal.
Bosque de aislamiento: este tipo de algoritmo de detección de anomalías utiliza datos no supervisados. A diferencia de las técnicas supervisadas de detección de anomalías, que trabajan a partir de puntos de datos normales etiquetados, esta técnica intenta aislar las anomalías como primer paso. Al igual que un "bosque aleatorio" crea "árboles de decisión", que mapean los puntos de datos y seleccionan aleatoriamente un área para analizar. Este proceso se repite, y cada punto recibe una puntuación de anomalía entre 0 y 1, en función de su ubicación respecto a los demás puntos; los valores inferiores a 0,5 suelen considerarse normales, mientras que los que superan ese umbral tienen más probabilidades de ser anómalos. Los modelos de bosque de aislamiento pueden encontrarse en la biblioteca gratuita de aprendizaje automático para Python, scikit-learn (enlace externo a ibm.com).
Máquina de vectores de soporte de una clase (SVM): esta técnica de detección de anomalías utiliza datos de entrenamiento para establecer límites en torno a lo que se considera normal. Los puntos agrupados dentro de los límites establecidos se consideran normales y los que quedan fuera se etiquetan como anomalías.
Los métodos de detección de anomalías semisupervisados combinan los beneficios de los dos métodos anteriores. Los ingenieros pueden aplicar métodos de aprendizaje no supervisado para automatizar el aprendizaje de características y trabajar con datos no estructurados. Sin embargo, al combinarlo con supervisión humana, tienen la oportunidad de supervisar y controlar qué tipo de patrones aprende el modelo. Esto suele ayudar a que las predicciones del modelo sean más precisas.
Regresión lineal: esta herramienta de aprendizaje automático predictivo utiliza variables dependientes e independientes. La variable independiente se utiliza como base para determinar el valor de la variable dependiente mediante una serie de ecuaciones estadísticas. Estas ecuaciones utilizan datos etiquetados y no etiquetados para predecir resultados futuros cuando sólo se conoce parte de la información.
La detección de anomalías es una herramienta importante para el mantenimiento de las funciones empresariales en diversos sectores. El uso de algoritmos de aprendizaje supervisado, no supervisado y semisupervisado dependerá del tipo de datos que se recojan y del reto operativo que se quiera resolver. Algunos ejemplos de casos de uso de la detección de anomalías son:
El uso de datos etiquetados de los totales de ventas de un año anterior puede ayudar a predecir los objetivos de ventas futuros. También puede ayudar a establecer puntos de referencia para determinados empleados de ventas en función de su rendimiento anterior y de las necesidades generales de la empresa. Como se conocen todos los datos de ventas, se pueden analizar patrones para obtener conocimientos sobre productos, marketing y estacionalidad.
Mediante el uso de datos históricos, los algoritmos de aprendizaje supervisado pueden ayudar en la predicción de patrones meteorológicos. Analizar datos recientes relacionados con la presión barométrica, la temperatura y la velocidad del viento permite a los meteorólogos crear previsiones más precisas que tengan en cuenta las condiciones cambiantes.
Estos tipos de sistemas se presentan en forma de software o hardware, que monitorizan el tráfico de la red en busca de indicios de violaciones de la seguridad o actividades maliciosas. Los algoritmos de aprendizaje automático pueden entrenarse para detectar posibles ataques a una red en tiempo real, protegiendo la información de los usuarios y las funciones del sistema.
Estos algoritmos pueden crear una visualización del rendimiento normal basada en datos de series temporales, que analizan puntos de datos a intervalos establecidos durante un tiempo prolongado. Los picos de tráfico en la red o los patrones inesperados pueden señalarse y examinarse como posibles violaciones de seguridad.
Asegurarse de que la maquinaria funciona correctamente es crucial para fabricar productos, optimizar la garantía de calidad y mantener las cadenas de suministro. Los algoritmos de aprendizaje no supervisado pueden utilizarse para el mantenimiento predictivo tomando datos no etiquetados de sensores conectados a los equipos y haciendo predicciones sobre posibles fallos o averías. Esto permite a las empresas realizar reparaciones antes de que se produzca una avería crítica, lo que reduce el tiempo de inactividad de las máquinas.
Mediante algoritmos de aprendizaje automático, los profesionales médicos pueden etiquetar imágenes que contienen enfermedades o trastornos conocidos. Sin embargo, como las imágenes varían de una persona a otra, es imposible etiquetar todas las posibles causas de preocupación. Una vez entrenados, estos algoritmos pueden procesar la información del paciente, hacer inferencias en imágenes sin etiquetar y señalar posibles motivos de preocupación.
Los algoritmos predictivos pueden utilizar el aprendizaje semisupervisado, que requiere datos etiquetados y no etiquetados para detectar el fraude. Dado que la actividad de la tarjeta de crédito de un usuario está etiquetada, puede utilizarse para detectar patrones de gasto inusuales.
Sin embargo, las soluciones de detección del fraude no se basan únicamente en las transacciones previamente etiquetadas como fraude; también pueden hacer suposiciones basadas en el comportamiento del usuario, incluida la ubicación actual, el dispositivo de inicio de sesión y otros factores que requieren datos no etiquetados.
La detección de anomalías se basa en soluciones y herramientas que ofrecen una mayor observabilidad de los datos de rendimiento. Estas herramientas permiten identificar rápidamente las anomalías, ayudando a prevenir y remediar los problemas. IBM Instana Observability aprovecha la inteligencia artificial y el aprendizaje automático para ofrecer a todos los miembros del equipo una imagen detallada y contextualizada de los datos de rendimiento, lo que ayuda a predecir con precisión y solucionar proactivamente los errores.
IBM watsonx.ai ofrece una potente herramienta de IA generativa que puede analizar grandes conjuntos de datos para extraer conocimientos significativos. Mediante un análisis rápido y exhaustivo, IBM watsonx.ai puede identificar patrones y tendencias que pueden utilizarse para detectar anomalías actuales y realizar predicciones sobre valores atípicos futuros. Watsonx.ai puede utilizarse en diversos sectores para una gran variedad de necesidades empresariales.
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com, openliberty.io