La deriva del modelo se refiere a la degradación del rendimiento del modelo de machine learning debido a cambios en los datos o en las relaciones entre las variables de entrada y salida. La deriva del modelo, también conocida como deterioro del modelo, puede afectar negativamente el rendimiento del modelo, lo que resulta en toma de decisiones incorrectas y malas predicciones.
Para detectar y mitigar la deriva, las organizaciones pueden monitorear y administrar el rendimiento en su plataforma de datos e inteligencia artificial (IA). Si no se monitorea adecuadamente a lo largo del tiempo, incluso el modelo de IA mejor entrenado e imparcial puede “desviarse” de sus parámetros originales y producir resultados no deseados cuando se despliega. La detección de derivas es un componente fundamental de una gobernanza sólida de la IA.
Los modelos construidos con datos históricos pueden estancarse rápidamente. A menudo, siempre llegan nuevos datos (nuevas variaciones, nuevos patrones, nuevas tendencias) que los antiguos datos históricos no pueden captar. Si el entrenamiento de un modelo de IA no se alinea con los datos entrantes, no puede interpretarlos con precisión ni utilizarlos para hacer predicciones precisas de forma confiable.
Si no se detecta y mitiga rápidamente la deriva, puede empeorar, aumentando así el daño a las operaciones. La detección de deriva permite a las organizaciones recibir continuamente resultados precisos de sus modelos.
El mundo cambia constantemente, por lo que, con datos que cambian constantemente, los modelos utilizados para darle sentido al mundo deben revisarse y actualizarse constantemente. A continuación, se presentan tres tipos de desviación del modelo que deben abordar, cada uno con una causa diferente.
La deriva conceptual se produce cuando hay una divergencia entre las variables de entrada y la variable objetivo, momento en el que el algoritmo empieza a dar respuestas incorrectas porque las definiciones ya no son válidas. El cambio en las variables independientes puede tener efecto en varios periodos, que son:
La deriva conceptual se repite y retrocede periódicamente, como en el caso de la estacionalidad del comportamiento de compra en respuesta a los cambios climáticos. En climas invernales, las ventas de palas y sopladores de nieve suelen aumentar a finales de otoño y principios de invierno. Es necesario ajustar geográficamente las previsiones de nieve.
Un acontecimiento inesperado puede generar nuevos patrones de compra. Un ejemplo sería la publicidad repentina en torno a ChatGPT que crea una mayor demanda de productos de hardware y software de IA, y un impulso al valor de las acciones de las empresas relacionadas con la IA. Un modelo de pronóstico entrenado antes de que se publicaran esas noticias quizás no predijera los resultados posteriores.
Otro ejemplo es la llegada de la pandemia de Covid-19, que también provocó un cambio repentino en el comportamiento: las ventas de juegos y equipos de ejercicio aumentaron considerablemente, mientras que los restaurantes y hoteles vieron muchos menos visitantes.
Cierta deriva ocurre gradualmente o a un ritmo esperado. Por ejemplo, los spammers y los hackers emplearon diversas herramientas y trucos a lo largo de los años. A medida que el software de protección y los filtros antispam mejoraron, los actores maliciosos avanzaron en consecuencia. Cualquier IA diseñada para proteger las interacciones digitales debe seguir el ritmo; un modelo estático pronto será inservible.
La deriva de datos, también conocida como desplazamiento de covariables, se produce cuando la distribución de datos subyacente de los datos de entrada cambió. En el comercio minorista, las ventas de un producto podrían verse afectadas por la introducción de otro producto nuevo o el retiro de un producto de la competencia. O si un sitio web es adoptado primero por los jóvenes, pero luego gana la aceptación de las personas mayores, es posible que el modelo original basado en los patrones de uso de los usuarios más jóvenes no funcione tan bien con la base de usuarios mayores.
Un cambio de datos ascendente se produce cuando hay un cambio en el pipeline de datos. Por ejemplo, los datos ascendentes pueden cambiar a una moneda diferente, como USD frente a euros, o mediciones en millas en lugar de kilómetros o temperaturas en Fahrenheit en lugar de Celsius. Tal cambio descartaría un modelo que no se creó para dar cuenta del cambio en la forma en que se etiquetaron los datos.
Las empresas y los científicos de datos pueden usar varios métodos de detección de deriva de datos para mantenerse al tanto de la deriva del modelo de machine learning y corregir el curso antes de que sus modelos se vuelvan obsoletos.
Muchos de los más populares son los métodos basados en la distribución del tiempo que miden las posibles desviaciones entre dos distribuciones de probabilidad. Si los resultados son notablemente divergentes, es probable que las propiedades estadísticas de los datos de entrada hayan cambiado, lo que ha provocado una deriva de datos.
La detección de deriva de datos es un aspecto central de la observabilidad de los datos, que es la práctica de monitorear continuamente la calidad y confiabilidad de los datos que fluyen a través de una organización. El lenguaje de programación Python es especialmente popular en la ciencia de datos para su uso en la creación de detectores de deriva de código abierto.
La prueba de Kolmogorov-Smirnov (K-S) mide si dos conjuntos de datos se originan de la misma distribución. En el campo de la ciencia de datos, la prueba K-S no es paramétrica, lo que significa que no requiere que la distribución cumpla con ningún supuesto o criterio preestablecido.
Los científicos de datos usan la prueba de Kolmogorov-Smirnov por dos razones principales:
Para determinar si una muestra de datos proviene de una población determinada.
Para comparar dos muestras de datos y ver si proceden de la misma población.
Si los resultados de la prueba K-S muestran que dos conjuntos de datos parecen provenir de diferentes poblaciones, es probable que se haya producido una desviación de datos, lo que convierte a la prueba K-S en un detector de deriva confiable.
La distancia de Wasserstein, llamada así en honor al matemático Leonid Vaserstein, usa una metáfora simple como visualización de la gravedad de la desviación de los datos. Se imagina dos pequeños montones de tierra, con la deriva de datos como la cantidad de trabajo necesario para crear una pila a partir de tierra extraída de la otra. Por esta razón, la distancia de Wasserstein también se conoce en informática y ciencia de datos como distancia del movimiento de tierras (EMD).
Como método de detección de deriva, la distancia de Wasserstein compara los datos de entrenamiento con los nuevos datos de entrada que se introducen en un modelo de machine learning. Destaca en la identificación de relaciones complejas entre características y puede navegar por los valores atípicos para obtener resultados coherentes.
El índice de estabilidad poblacional (PSI) compara la distribución de una característica categórica en dos conjuntos de datos para determinar el grado en que la distribución cambió con el tiempo.
Una mayor divergencia en la distribución, representada por un valor PSI más alto, indica la presencia de deriva del modelo. Un PSI puede evaluar tanto características independientes como dependientes; aquellos que cambian en función de otras variables.
Si la distribución de una o más características categóricas devuelve un PSI alto, es probable que el modelo de máquina necesite una recalibración o incluso una reconstrucción.
Las empresas pueden gestionar mejor la detección y corrección de la deriva de datos siguiendo estas mejores prácticas:
La precisión de un modelo de IA puede degradarse en cuestión de días después de su implementación, ya que los datos de producción se desvían de los datos de entrenamiento del modelo. Esto puede conducir a predicciones incorrectas y a una exposición significativa al riesgo.
Para protegerse contra la deriva y el sesgo del modelo, las organizaciones deben usar un detector de deriva de IA y herramientas de monitoreo que detecten automáticamente cuando la precisión de un modelo disminuye (o se desvía) por debajo de un umbral preestablecido.
Este programa para detectar la deriva del modelo también debe rastrear cuáles transacciones causaron la deriva, lo que permite volver a etiquetarlas y utilizarlas para volver a entrenar el modelo, restaurando así su poder predictivo durante el tiempo de ejecución.
La detección estadística de desviaciones emplea métricas estadísticas para comparar y analizar muestras de datos. Esto suele ser más fácil de aplicar porque la mayoría de las métricas ya se usan en la empresa. La detección de desviaciones basada en modelos mide la similitud entre un punto o grupos de puntos frente a la línea de base de referencia.
Las organizaciones deben probar sus modelos de IA, especialmente los modelos de IA generativa, periódicamente a lo largo de su ciclo de vida. Lo ideal es que estas pruebas incluyan:
Según un estudio de Forrester Total Economic Impact, “Al crear, ejecutar y gestionar modelos en un entorno unificado de datos e IA, [las organizaciones] pueden garantizar que los modelos de IA sigan siendo justos, explicables y conformes en cualquier lugar. Este enfoque de IA de extremo a extremo también permite a una organización detectar y ayudar a corregir la deriva y el sesgo del modelo, y gestionar el riesgo del modelo cuando un modelo de IA está en producción”.
Una mejor práctica es gestionar todos los modelos desde un panel central. Un enfoque integrado puede ayudar a una organización a realizar un seguimiento continuo de las métricas y alertar a los equipos sobre las variaciones en la precisión y la coherencia de los datos durante el desarrollo, la validación y el despliegue. Una visión centralizada y holística puede ayudar a las organizaciones a eliminar los silos y proporcionar más transparencia en todo el linaje de datos.
Detecte los escenarios y la magnitud de la deriva mediante un modelo de IA que compara los datos de producción y de entrenamiento y las predicciones del modelo en tiempo real. Así, la deriva puede ser encontrada rápidamente y el reciclaje puede comenzar de inmediato. Esta detección es iterativa, igual que las operaciones de machine learning (MLOps) son iterativas.
El análisis basado en el tiempo ayuda a ver cómo evolucionó la deriva y cuándo se produjo. Por ejemplo, si las comprobaciones se realizan semanalmente, eso mostrará cómo evolucionó la deriva cada día.
El análisis de las líneas de tiempo también puede ser útil para determinar si la deriva fue gradual o repentina. El enfoque explicable de IA aplica esta transparencia al uso de IA y ayuda a las organizaciones a monitorear cómo y por qué sus modelos entregaron los resultados que lograron.
Utilice un nuevo conjunto de datos de entrenamiento que tenga muestras más recientes y relevantes agregadas. El objetivo es poner en marcha rápida y correctamente sus modelos de lenguaje grandes (LLM). Si volver a entrenar el modelo no resuelve el problema, es posible que se necesite un nuevo modelo. Las técnicas de operaciones de modelos de lenguaje grandes (LLMOps) pueden ayudar a las organizaciones a monitorear y volver a entrenar sus LLM.
En lugar de entrenar un modelo con datos por lotes, las organizaciones pueden practicar el "aprendizaje en línea" al actualizar sus modelos de machine learning (ML) utilizando los datos más recientes del mundo real tan pronto como estén disponibles.
Puede parecer que un modelo se desvía porque los datos utilizados para entrenarlo son diferentes de los datos de producción reales que se utilizarán. En un caso de uso médico, si se utilizan escáneres de alta resolución en el entrenamiento, pero sobre el terreno solo se dispone de escáneres de baja resolución, los resultados son incorrectos.
Encuestamos a 2000 organizaciones sobre sus iniciativas de IA para descubrir qué funciona, qué no y cómo pueden avanzar.
IBM Granite es nuestra familia de modelos de IA abiertos, de alto rendimiento y confiables, diseñados para empresas y optimizados para escalar sus aplicaciones de IA. Explore opciones de lenguaje, código, series de tiempo y medidas de protección.
Acceda a nuestro catálogo completo de más de 100 cursos en línea al adquirir hoy mismo una suscripción individual o multiusuario, que le permitirá ampliar sus conocimientos en una amplia gama de nuestros productos a un precio reducido.
Dirigida por los principales líderes de opinión de IBM, el plan de estudios está diseñado para ayudar a los líderes empresariales a obtener los conocimientos necesarios para priorizar las inversiones en IA que pueden impulsar el crecimiento.
¿Quiere rentabilizar mejor sus inversiones en IA? Descubra cómo la IA generativa escalable en áreas clave impulsa el cambio ayudando a sus mejores mentes a crear y ofrecer nuevas soluciones innovadoras.
Aprenda a incorporar con confianza la IA generativa y el aprendizaje automático en su negocio.
Indague en los 3 elementos críticos de una estrategia sólida de IA: crear una ventaja competitiva, escalar la IA en todo el negocio y avanzar en la IA confiable.