La detección de anomalías simplemente significa definir patrones y métricas "normales", basados en funciones y objetivos comerciales, e identificar puntos de datos que quedan fuera del comportamiento normal de una operación. Por ejemplo, un tráfico superior al promedio en un sitio web o aplicación durante un periodo determinado puede indicar una amenaza de ciberseguridad , en cuyo caso le gustaría un sistema que pueda activar automáticamente alertas de detección de fraude. También podría ser solo una señal de que una iniciativa de marketing en individuo está funcionando. Las anomalías no son inherentemente malas, pero estar al tanto de ellas, y tener datos para ponerlas en contexto, es integral para comprender y proteger su negocio.
A medida que las organizaciones recopilan conjuntos de datos más grandes con información potencial sobre la actividad del negocio, la detección de datos anómalos o valores atípicos en estos conjuntos de datos es esencial para descubrir ineficiencias, eventos raros, la causa raíz de los problemas u oportunidades de mejoras operacionales.
El desafío para los departamentos de TI que trabajan en ciencia de datos es dar sentido a la expansión y el cambio constante de los puntos de datos. En este blog, repasaremos cómo se aprovechan las técnicas de machine learning, impulsadas por la inteligencia artificial, para detectar comportamientos anómalos a través de tres métodos diferentes de detección de anomalías: detección de anomalías monitorear, detección de anomalías no monitorear y detección de anomalías semisupervisada.
Las técnicas de aprendizaje monitorear emplean datos de entrada y salida del mundo real para detectar anomalías. Estos tipos de sistemas de detección de anomalías requieren que un analista de datos etiquete los puntos de datos como normales o anormales para emplearlos como datos de entrenamiento. Un modelo de machine learning capacitado con datos etiquetados será capaz de detectar valores atípicos basar en los ejemplos que se le proporcionen. Este tipo de machine learning es útil en la detección de valores atípicos conocidos, pero no es capaz de descubrir anomalías desconocidas ni de predecir problemas futuros.
Los algoritmos comunes de machine learning para el aprendizaje monitorear incluyen:
este algoritmo es un clasificador basado en la densidad o una herramienta de modelado de regresión que se emplea para la detección de anomalías. El modelado de Regression es una herramienta estadística que se emplea para encontrar la relación entre los datos etiquetados y los datos variables. Funciona a través del supuesto de que se encontrarán puntos de datos similares cerca uno del otro. Si un punto de datos aparece más alejado de una sección densa de puntos, se considera una anomalía.
el factor de valor atípico local es similar a KNN en que es un algoritmo basado en la densidad. La principal diferencia es que mientras KNN hace suposiciones basadas en puntos de datos que están más próximos entre sí, LOF utiliza los puntos que están más alejados para sacar sus conclusiones.
Las técnicas de aprendizaje no monitorear no requieren datos etiquetados y pueden manejar conjuntos de datos más complejos. El aprendizaje no monitorear está impulsado por el aprendizaje profundo y neural networks o codificadores automáticos que imitan la forma en que las neuronas biológicas se señalan entre sí. Estas poderosas herramientas pueden encontrar patrones a partir de los datos de entrada y hacer suposiciones sobre qué datos se perciben como normales.
Estas técnicas pueden ser de gran ayuda para descubrir anomalías desconocidas y reducir el trabajo de tamizar manualmente grandes conjuntos de datos. Sin embargo, los científicos de datos deben monitorear los resultados recopilados a través del aprendizaje no monitorear. Debido a que estas técnicas hacen suposiciones sobre los datos que se ingresan, es posible que etiqueten incorrectamente las anomalías.
Los algoritmos de machine learning para datos no estructurados incluyen:
Este algoritmo es una técnica de visualización de datos que procesa puntos de datos a través de una ecuación matemática con la intención de agrupar puntos de datos similares. “Medios”, o datos promedio, se refiere a los puntos en el centro del cluster con los que están relacionados todos los demás datos. A través del análisis de datos, estos clústeres se pueden utilizar para encontrar patrones y hacer inferencias sobre datos que se encuentran fuera de lo común.
Este tipo de algoritmo de detección de anomalías emplea datos no monitorear. A diferencia de las técnicas monitorear de detección de anomalías, que funcionan a partir de puntos de datos normales etiquetados, esta técnica intenta aislar las anomalías como primer paso. Similar a un "bosque aleatorio ", crea "decision trees", que mapean los puntos de datos y seleccionan aleatoriamente un área para analizar. Este proceso se repite y cada punto recibe un puntaje de anomalía entre 0 y 1, en función de su ubicación con respecto a los otros puntos; los valores por debajo de 0.5 generalmente se consideran normales, mientras que los valores que superan ese umbral tienen más probabilidades de ser anómalos. Los modelos de bosque de aislamiento se pueden encontrar en la biblioteca gratis de machine learning para Python, scikit-learn.
Esta técnica de detección de anomalías emplea datos de entrenamiento para establecer límites en torno a lo que se considera normal. Los puntos agrupados dentro de los límites establecido se consideran normales y los que están fuera se etiquetan como anomalías.
Los métodos de detección de anomalías semisupervisados combinan los beneficios de los dos métodos anteriores. Los ingenieros pueden aplicar métodos de aprendizaje no monitorear para automatizar el aprendizaje de características y trabajar con datos no estructurados. Sin embargo, al combinarlo con la supervisión humana, tienen la oportunidad de monitorear y controlar qué tipo de patrones aprende el modelo. Esto suele ayudar a que las predicciones del modelo sean más precisas.
Regresión: esta herramienta predictiva de machine learning emplea variables dependientes e independientes. La variable independiente se emplea como base para determinar el valor de la variable dependiente a través de un serial de ecuaciones estadísticas. Estas ecuaciones emplean datos etiquetados y no etiquetados para predecir resultados futuros cuando solo se conoce parte de la información.
La detección de anomalías es una herramienta importante para mantener las funciones del negocio en diversas industrias. El uso de algoritmos de aprendizaje supervisado, no supervisado y semi-supervisado dependerá del tipo de datos que se recopilen y del desafío operativo que se resuelva. Algunos ejemplos de casos de uso de detección de anomalías son:
El uso de datos etiquetados de los totales de ventas de un año anterior puede ayudar a predecir los objetivos de ventas futuros. También puede ayudar a establecer puntos de referencia para empleados de ventas específicos en función de su rendimiento anterior y las necesidades generales de la compañía. Debido a que se conocen todos los datos de ventas, se pueden analizar los patrones para obtener información sobre productos, marketing y estacionalidad.
Mediante el uso de datos históricos, los algoritmos de aprendizaje monitorear pueden ayudar en la predicción de patrones meteorológicos. El análisis de datos recientes relacionados con la presión barométrica, la temperatura y la velocidad del viento permite a los meteorólogos crear pronósticos más precisos que tienen en cuenta las condiciones cambiantes.
Este tipo de sistemas vienen en forma de software o hardware, que monitorean el tráfico de la red en busca de señales de violaciones de seguridad o actividad maliciosa. Los algoritmos de machine learning pueden ser entrenados para detectar posibles ataques en una red en tiempo real, protegiendo la información del usuario y las funciones del sistema.
Estos algoritmos pueden crear una visualización del rendimiento normal basada en datos de seriales temporales, que analiza puntos de datos a intervalos establecido durante un periodo de tiempo prolongado. Los picos en el tráfico de red o los patrones inesperados se pueden marcar y examinar como posibles violaciones de seguridad.
Cerciorar de que la maquinaria funcione correctamente es crucial para fabricar productos, optimizar el control de calidad y mantener las cadenas de suministro. Los algoritmos de aprendizaje no monitorear se pueden emplear para el mantenimiento predictivo tomando datos no etiquetados de sensores conectados a equipos y haciendo predicciones sobre posibles fallas o mal funcionamiento. Esto permite a las compañías realizar reparaciones antes de que ocurra una avería crítica, lo que reduce el tiempo de inactividad de la máquina.
Mediante algoritmos de machine learning, los profesionales médicos pueden etiquetar imágenes que contienen enfermedades o trastornos conocidos. Sin embargo, debido a que las imágenes variarán de persona a persona, es imposible etiquetar todas las posibles causas de preocupación. Una vez capacitados, estos algoritmos pueden procesar la información del paciente y hacer inferencias en imágenes sin etiquetar y señalar posibles motivos de preocupación.
Los algoritmos predictivos pueden emplear el aprendizaje semisupervisado que requiere datos etiquetados y no etiquetados para detectar el fraude. Debido a que la actividad de la tarjeta de crédito de un usuario está etiquetada, se puede usar para detectar patrones de gasto inusuales.
Sin embargo, las soluciones de detección de fraude no se basan únicamente en transacciones previamente etiquetadas como fraude; también pueden hacer suposiciones basadas en el comportamiento del usuario, incluida la ubicación actual, el dispositivo de inicio de sesión y otros factores que requieren datos no etiquetados.
La detección de anomalías está impulsada por soluciones y herramientas que brindan una mayor observabilidad de los datos de rendimiento. Estas herramientas permiten identificar rápidamente anomalías, ayudando a prevenir y solucionar problemas. IBM® Instana Observability aprovecha la inteligencia artificial y machine learning para brindar a todos los miembros del equipo una imagen detallada y contextualizada de los datos de performance, lo que ayuda a predecir con precisión y solucionar errores de manera proactiva.
IBM watsonx.ai ofrece una poderosa herramienta de IA generativa que puede analizar grandes conjuntos de datos para extraer insights significativos. A través de un análisis rápido e integral, IBM watson.ai puede identificar patrones y tendencias que se pueden utilizar para detectar anomalías actuales y hacer predicciones sobre valores atípicos futuros. Watson.ai se puede emplear en todas las industrias para una variedad de necesidades comerciales.
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com, openliberty.io