¿Qué es la desviación del modelo?

16 de julio de 2024

Autores

Ivan Belcic

Staff writer

Cole Stryker

Editorial Lead, AI Models

¿Qué es la desviación del modelo?

La deriva del modelo se refiere a la degradación del rendimiento del modelo de machine learning debido a cambios en los datos o en las relaciones entre las variables de entrada y salida. La deriva del modelo, también conocida como deterioro del modelo, puede afectar negativamente el rendimiento del modelo, lo que resulta en toma de decisiones incorrectas y malas predicciones.

Para detectar y mitigar la deriva, las organizaciones pueden monitorear y administrar el rendimiento en su plataforma de datos e inteligencia artificial (IA). Si no se monitorea adecuadamente a lo largo del tiempo, incluso el modelo de IA mejor entrenado e imparcial puede “desviarse” de sus parámetros originales y producir resultados no deseados cuando se despliega. La detección de derivas es un componente fundamental de una gobernanza sólida de la IA.

Los modelos construidos con datos históricos pueden estancarse rápidamente. A menudo, siempre llegan nuevos datos (nuevas variaciones, nuevos patrones, nuevas tendencias) que los antiguos datos históricos no pueden captar. Si el entrenamiento de un modelo de IA no se alinea con los datos entrantes, no puede interpretarlos con precisión ni utilizarlos para hacer predicciones precisas de forma confiable.

Si no se detecta y mitiga rápidamente la deriva, puede empeorar, aumentando así el daño a las operaciones. La detección de deriva permite a las organizaciones recibir continuamente resultados precisos de sus modelos.

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA 


Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think. 

Causas de la deriva del modelo

El mundo cambia constantemente, por lo que, con datos que cambian constantemente, los modelos utilizados para darle sentido al mundo deben revisarse y actualizarse constantemente. A continuación, se presentan tres tipos de desviación del modelo que deben abordar, cada uno con una causa diferente.

1. Deriva conceptual

La deriva conceptual se produce cuando hay una divergencia entre las variables de entrada y la variable objetivo, momento en el que el algoritmo empieza a dar respuestas incorrectas porque las definiciones ya no son válidas. El cambio en las variables independientes puede tener efecto en varios periodos, que son:

Estacional

La deriva conceptual se repite y retrocede periódicamente, como en el caso de la estacionalidad del comportamiento de compra en respuesta a los cambios climáticos. En climas invernales, las ventas de palas y sopladores de nieve suelen aumentar a finales de otoño y principios de invierno. Es necesario ajustar geográficamente las previsiones de nieve.

Repentino

Un acontecimiento inesperado puede generar nuevos patrones de compra. Un ejemplo sería la publicidad repentina en torno a ChatGPT que crea una mayor demanda de productos de hardware y software de IA, y un impulso al valor de las acciones de las empresas relacionadas con la IA. Un modelo de pronóstico entrenado antes de que se publicaran esas noticias quizás no predijera los resultados posteriores.

Otro ejemplo es la llegada de la pandemia de Covid-19, que también provocó un cambio repentino en el comportamiento: las ventas de juegos y equipos de ejercicio aumentaron considerablemente, mientras que los restaurantes y hoteles vieron muchos menos visitantes.

Gradual

Cierta deriva ocurre gradualmente o a un ritmo esperado. Por ejemplo, los spammers y los hackers emplearon diversas herramientas y trucos a lo largo de los años. A medida que el software de protección y los filtros antispam mejoraron, los actores maliciosos avanzaron en consecuencia. Cualquier IA diseñada para proteger las interacciones digitales debe seguir el ritmo; un modelo estático pronto será inservible.

2. Deriva de datos

La deriva de datos, también conocida como desplazamiento de covariables, se produce cuando la distribución de datos subyacente de los datos de entrada cambió. En el comercio minorista, las ventas de un producto podrían verse afectadas por la introducción de otro producto nuevo o el retiro de un producto de la competencia. O si un sitio web es adoptado primero por los jóvenes, pero luego gana la aceptación de las personas mayores, es posible que el modelo original basado en los patrones de uso de los usuarios más jóvenes no funcione tan bien con la base de usuarios mayores.

3. Cambio de datos ascendentes

Un cambio de datos ascendente se produce cuando hay un cambio en el pipeline de datos. Por ejemplo, los datos ascendentes pueden cambiar a una moneda diferente, como USD frente a euros, o mediciones en millas en lugar de kilómetros o temperaturas en Fahrenheit en lugar de Celsius. Tal cambio descartaría un modelo que no se creó para dar cuenta del cambio en la forma en que se etiquetaron los datos.

Mixture of Experts | Podcast

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

¿Cómo se puede detectar la deriva?

Las empresas y los científicos de datos pueden usar varios métodos de detección de deriva de datos para mantenerse al tanto de la deriva del modelo de machine learning y corregir el curso antes de que sus modelos se vuelvan obsoletos.

Muchos de los más populares son los métodos basados en la distribución del tiempo que miden las posibles desviaciones entre dos distribuciones de probabilidad. Si los resultados son notablemente divergentes, es probable que las propiedades estadísticas de los datos de entrada hayan cambiado, lo que ha provocado una deriva de datos.

La detección de deriva de datos es un aspecto central de la observabilidad de los datos, que es la práctica de monitorear continuamente la calidad y confiabilidad de los datos que fluyen a través de una organización. El lenguaje de programación Python es especialmente popular en la ciencia de datos para su uso en la creación de detectores de deriva de código abierto.

Prueba de Kolmogorov-Smirnov (K-S)

La prueba de Kolmogorov-Smirnov (K-S) mide si dos conjuntos de datos se originan de la misma distribución. En el campo de la ciencia de datos, la prueba K-S no es paramétrica, lo que significa que no requiere que la distribución cumpla con ningún supuesto o criterio preestablecido.

Los científicos de datos usan la prueba de Kolmogorov-Smirnov por dos razones principales:

  • Para determinar si una muestra de datos proviene de una población determinada.

  • Para comparar dos muestras de datos y ver si proceden de la misma población.

Si los resultados de la prueba K-S muestran que dos conjuntos de datos parecen provenir de diferentes poblaciones, es probable que se haya producido una desviación de datos, lo que convierte a la prueba K-S en un detector de deriva confiable.

Distancia de Wasserstein

La distancia de Wasserstein, llamada así en honor al matemático Leonid Vaserstein, usa una metáfora simple como visualización de la gravedad de la desviación de los datos. Se imagina dos pequeños montones de tierra, con la deriva de datos como la cantidad de trabajo necesario para crear una pila a partir de tierra extraída de la otra. Por esta razón, la distancia de Wasserstein también se conoce en informática y ciencia de datos como distancia del movimiento de tierras (EMD).

Como método de detección de deriva, la distancia de Wasserstein compara los datos de entrenamiento con los nuevos datos de entrada que se introducen en un modelo de machine learning. Destaca en la identificación de relaciones complejas entre características y puede navegar por los valores atípicos para obtener resultados coherentes.

Índice de estabilidad poblacional

El índice de estabilidad poblacional (PSI) compara la distribución de una característica categórica en dos conjuntos de datos para determinar el grado en que la distribución cambió con el tiempo.

Una mayor divergencia en la distribución, representada por un valor PSI más alto, indica la presencia de deriva del modelo. Un PSI puede evaluar tanto características independientes como dependientes; aquellos que cambian en función de otras variables.

Si la distribución de una o más características categóricas devuelve un PSI alto, es probable que el modelo de máquina necesite una recalibración o incluso una reconstrucción.

Mejores prácticas para evitar la desviación del modelo

Las empresas pueden gestionar mejor la detección y corrección de la deriva de datos siguiendo estas mejores prácticas:

Automatice la detección de desviaciones

La precisión de un modelo de IA puede degradarse en cuestión de días después de su implementación, ya que los datos de producción se desvían de los datos de entrenamiento del modelo. Esto puede conducir a predicciones incorrectas y a una exposición significativa al riesgo.

Para protegerse contra la deriva y el sesgo del modelo, las organizaciones deben usar un detector de deriva de IA y herramientas de monitoreo que detecten automáticamente cuando la precisión de un modelo disminuye (o se desvía) por debajo de un umbral preestablecido.

Este programa para detectar la deriva del modelo también debe rastrear cuáles transacciones causaron la deriva, lo que permite volver a etiquetarlas y utilizarlas para volver a entrenar el modelo, restaurando así su poder predictivo durante el tiempo de ejecución.

La detección estadística de desviaciones emplea métricas estadísticas para comparar y analizar muestras de datos. Esto suele ser más fácil de aplicar porque la mayoría de las métricas ya se usan en la empresa. La detección de desviaciones basada en modelos mide la similitud entre un punto o grupos de puntos frente a la línea de base de referencia.

Automatice las pruebas de modelos

Las organizaciones deben probar sus modelos de IA, especialmente los modelos de IA generativa, periódicamente a lo largo de su ciclo de vida. Lo ideal es que estas pruebas incluyan:

  1. Validación de modelos en preproducción con pruebas para detectar sesgos y deriva, y posterior generación de informes de pruebas.
  2. Transferencia de las configuraciones exitosas de prueba previas al despliegue para un modelo a la versión desplegada del modelo y pruebas automatizadas continuas.
  3. Sincronizar la información de modelos, datos y resultados de pruebas con sistemas de registro.
  4. Automatización que puede proporcionar notificaciones coherentes y confiables y proporcionar más tiempo para que los equipos se centren en el desarrollo de modelos en lugar de en la supervisión de modelos.

    Gestione en un entorno unificado

    Según un estudio de Forrester Total Economic Impact, “Al crear, ejecutar y gestionar modelos en un entorno unificado de datos e IA, [las organizaciones] pueden garantizar que los modelos de IA sigan siendo justos, explicables y conformes en cualquier lugar. Este enfoque de IA de extremo a extremo también permite a una organización detectar y ayudar a corregir la deriva y el sesgo del modelo, y gestionar el riesgo del modelo cuando un modelo de IA está en producción”.

    Una mejor práctica es gestionar todos los modelos desde un panel central. Un enfoque integrado puede ayudar a una organización a realizar un seguimiento continuo de las métricas y alertar a los equipos sobre las variaciones en la precisión y la coherencia de los datos durante el desarrollo, la validación y el despliegue. Una visión centralizada y holística puede ayudar a las organizaciones a eliminar los silos y proporcionar más transparencia en todo el linaje de datos.

    Realice un monitoreo continuo de la deriva

    Detecte los escenarios y la magnitud de la deriva mediante un modelo de IA que compara los datos de producción y de entrenamiento y las predicciones del modelo en tiempo real. Así, la deriva puede ser encontrada rápidamente y el reciclaje puede comenzar de inmediato. Esta detección es iterativa, igual que las operaciones de machine learning (MLOps) son iterativas.

    Analice la causa principal

    El análisis basado en el tiempo ayuda a ver cómo evolucionó la deriva y cuándo se produjo. Por ejemplo, si las comprobaciones se realizan semanalmente, eso mostrará cómo evolucionó la deriva cada día.

    El análisis de las líneas de tiempo también puede ser útil para determinar si la deriva fue gradual o repentina. El enfoque explicable de IA aplica esta transparencia al uso de IA y ayuda a las organizaciones a monitorear cómo y por qué sus modelos entregaron los resultados que lograron.

    Reentrenar modelos

    Utilice un nuevo conjunto de datos de entrenamiento que tenga muestras más recientes y relevantes agregadas. El objetivo es poner en marcha rápida y correctamente sus modelos de lenguaje grandes (LLM). Si volver a entrenar el modelo no resuelve el problema, es posible que se necesite un nuevo modelo. Las técnicas de operaciones de modelos de lenguaje grandes (LLMOps) pueden ayudar a las organizaciones a monitorear y volver a entrenar sus LLM.

    Actualización de modelos de ML en tiempo real

    En lugar de entrenar un modelo con datos por lotes, las organizaciones pueden practicar el "aprendizaje en línea" al actualizar sus modelos de machine learning (ML) utilizando los datos más recientes del mundo real tan pronto como estén disponibles.

    Verificar los datos de entrada

    Puede parecer que un modelo se desvía porque los datos utilizados para entrenarlo son diferentes de los datos de producción reales que se utilizarán. En un caso de uso médico, si se utilizan escáneres de alta resolución en el entrenamiento, pero sobre el terreno solo se dispone de escáneres de baja resolución, los resultados son incorrectos.

    Soluciones relacionadas
    IBM watsonx.ai

    Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

    Descubra watsonx.ai
    Soluciones de inteligencia artificial

    Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

    Explore las soluciones de IA
    Consultoría y servicios de IA

    Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

    Conozca los servicios de IA
    Dé el siguiente paso

    Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

    Explore watsonx.ai Reserve una demostración en vivo