¿Qué es la desviación del modelo?

16 de julio de 2024

Autores

Ivan Belcic

Staff writer

Cole Stryker

Editorial Lead, AI Models

¿Qué es la desviación del modelo?

La deriva del modelo se refiere a la degradación del rendimiento del modelo de machine learning debido a los cambios en los datos o en las relaciones entre las variables de entrada y salida. La deriva del modelo (también conocida como deterioro) puede afectar negativamente al rendimiento, dando lugar a una toma de decisiones errónea y a predicciones incorrectas.

Para detectar y mitigar la deriva, las organizaciones pueden monitorizar y gestionar el rendimiento en su plataforma de datos e inteligencia artificial (IA). Si no se monitoriza adecuadamente a lo largo del tiempo, incluso el modelo de IA mejor entrenado e imparcial puede desviarse de sus parámetros originales y producir resultados no deseados cuando se implementa. La detección es un componente fundamental de un gobierno de la IA sólido.

Los modelos creados con datos históricos pueden estancarse con rapidez. A menudo, siempre llegan nuevos puntos de datos (nuevas variaciones, nuevos patrones, nuevas tendencias) que los viejos datos históricos no pueden capturar. Si el entrenamiento de un modelo de IA no se ajusta a los datos entrantes, no podrá interpretarlos con precisión ni utilizarlos para realizar predicciones fiables.

Si la deriva no se detecta y mitiga rápidamente, puede ir a más, aumentando el perjuicio a las operaciones. La detección de la deriva permite a las organizaciones recibir continuamente resultados precisos de sus modelos.

Diseño 3D de bolas rodando por un circuito

Las últimas noticias + conocimientos de IA 


Descubra ideas y noticias de expertos sobre IA, nube y mucho más en el boletín semanal Think. 

Causas de la deriva de modelos

El mundo cambia constantemente, por lo que, al cambiar constantemente los datos, los modelos utilizados para dar sentido al mundo deben revisarse y actualizarse constantemente. Aquí hay 3 tipos de deriva de modelo que deben abordarse, cada uno con una causa diferente.

1. Deriva conceptual

La deriva conceptual se produce cuando hay una divergencia entre las variables de entrada y la variable objetivo, momento en el que el algoritmo comienza a proporcionar respuestas incorrectas porque las definiciones ya no son válidas. El cambio en las variables independientes puede tener efecto en varios periodos que son:

Estacional

La deriva conceptual se repite y retrocede con regularidad, como ocurre con la estacionalidad del comportamiento de compra en respuesta a los cambios climáticos. En climas invernales, las ventas de palas y quitanieves suelen aumentar a finales de otoño y principios de invierno. Es necesario ajustar geográficamente las previsiones de nieve.

Repentino

Un acontecimiento inesperado puede impulsar nuevas pautas de compra. Un ejemplo sería la repentina publicidad en torno a ChatGPT, que ha generado un aumento de la demanda de productos de hardware y software de IA, y un impulso del valor de las acciones de las empresas relacionadas con la IA. Un modelo de previsión entrenado antes de que se publicaran esas noticias no podría predecir los resultados posteriores.

Otro ejemplo es la llegada de la pandemia de Covid-19, que también creó un cambio repentino de comportamiento: las ventas de juegos y aparatos de ejercicio se dispararon, mientras que los restaurantes y hoteles recibieron muchos menos visitantes.

Gradual

Algunas derivas se producen gradualmente, o a un ritmo esperado. Por ejemplo, los spammers y los hackers han utilizado varios trucos y herramientas a lo largo de los años. A medida que el software de protección y los filtros de spam han ido mejorando, los malos actores han avanzado en consecuencia. Cualquier IA diseñada para proteger a las interacciones digitales necesita seguir el ritmo; un modelo estático pronto será inútil.

2. Deriva de datos

La deriva de datos (también conocida como cambio de covariable) se produce cuando cambia la distribución subyacente de los datos de entrada. En el comercio minorista, las ventas de un producto pueden verse afectadas por la introducción de otro nuevo o la retirada de un producto competidor. O si un sitio web es adoptado primero por los jóvenes, pero luego gana aceptación entre los mayores, el modelo original basado en los patrones de uso de los usuarios más jóvenes podría no funcionar tan bien con la base de usuarios de más edad.

3. Cambio de datos upstream

Un cambio de datos upstream ocurre cuando hay un cambio en la cadena de datos. Por ejemplo, los datos upstream podrían cambiarse a una moneda diferente, como dólares en lugar de euros, o las mediciones en millas en lugar de kilómetros, o las temperaturas en Fahrenheit en lugar de Celsius. Un cambio de este tipo desbarataría un modelo que no se hubiera creado para tener en cuenta el cambio en la forma de etiquetar los datos.

Mixture of Experts | Pódcast

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

¿Cómo se puede detectar la deriva?

Las empresas y los científicos de datos pueden utilizar varios métodos de detección de derivas de datos para mantenerse al tanto de la deriva del modelo de machine learning y corregir el rumbo antes de que sus modelos queden obsoletos.

Muchos de los métodos más populares son métodos basados en la distribución temporal que miden posibles desviaciones entre dos distribuciones de probabilidad. Si los resultados son notablemente divergentes, es probable que las propiedades estadísticas de los datos de entrada hayan cambiado, lo que ha provocado una deriva de los datos.

La detección de la deriva de los datos es un aspecto central de la observabilidad de los datos, que es la práctica de monitorizar continuamente la calidad y la fiabilidad de los datos que fluyen a través de una organización. El lenguaje de codificación Python es especialmente popular en la ciencia de datos por su uso en la creación de detectores de deriva de código abierto.

Prueba de Kolmogórov-Smirnov (K-S)

La prueba de Kolmogórov-Smirnov (K-S) mide si dos conjuntos de datos se originan a partir de la misma distribución. En el campo de la ciencia de datos, la prueba K-S es no paramétrica, lo que significa que no requiere que la distribución cumpla con ningún supuesto o criterio preestablecido.

Los científicos de datos utilizan la prueba de Kolmogórov-Smirnov por dos razones principales:

  • Para determinar si una muestra de datos proviene de una determinada población.

  • Para comparar dos muestras de datos y ver si proceden de la misma población.

Si los resultados de la prueba K-S muestran que dos conjuntos de datos parecen proceder de poblaciones diferentes, es probable que se haya producido una deriva de los datos, lo que convierte a la prueba K-S en un detector de deriva fiable.

Distancia de Wasserstein

La distancia de Wasserstein, llamada así en honor al matemático Leonid Vaserstein, utiliza una metáfora simple como visualización de la gravedad de la deriva de los datos. Imagina dos pequeños montones de tierra, con la deriva de datos como la cantidad de trabajo necesaria para crear un montón a partir de la tierra tomada del otro. Por esta razón, la distancia de Wasserstein también se conoce en informática y ciencia de datos como la distancia del transportador de tierra (EMD).

Como método de detección, la distancia de Wasserstein compara los datos de entrenamiento con los nuevos datos de entrada que se introducen en un modelo de machine learning. Destaca en la identificación de relaciones complejas entre características y puede navegar por los valores atípicos para obtener resultados coherentes.

Índice de estabilidad de la población

El índice de estabilidad de la población (PSI) compara la distribución de una característica categórica en dos conjuntos de datos para determinar el grado en que la distribución ha cambiado a lo largo del tiempo.

Una mayor divergencia en la distribución, representada por un valor PSI más alto, indica la presencia de una deriva del modelo. El PSI puede evaluar características independientes y dependientes; los que cambian en función de otras variables.

Si la distribución de una o más características categóricas arroja un PSI alto, es probable que el modelo de la máquina necesite volver a calibrarse o incluso reconstruirse.

Buenas prácticas para evitar la desviación del modelo

Las empresas pueden gestionar mejor la detección y la corrección de las derivas de datos siguiendo estas buenas prácticas:

Detección automática de desviaciones

La precisión de un modelo de IA puede degradarse a los pocos días de su implementación porque los datos de producción divergen de los datos de entrenamiento del modelo. Esto puede dar lugar a predicciones incorrectas y a una importante exposición al riesgo.

Para protegerse contra la deriva y el sesgo del modelo, las organizaciones deben utilizar un detector de deriva de IA y herramientas de monitorización que detecten automáticamente cuando la precisión de un modelo disminuye (o se desvía) por debajo de un umbral preestablecido.

Este programa de detección de la desviación del modelo también debería rastrear qué transacciones causaron la desviación, lo que permitiría volver a etiquetarlas y utilizarlas para volver a entrenar el modelo, restaurando su poder predictivo durante el tiempo de ejecución.

La detección de desviaciones estadísticas utiliza métricas para comparar y analizar muestras de datos. Esto suele ser más fácil de aplicar porque la mayoría de las métricas ya se utilizan en la empresa. La detección de deriva basada en modelos mide la similitud entre un punto o grupos de puntos con respecto a la línea base de referencia.

Automatización de las pruebas de modelos

Las organizaciones deben probar sus modelos de IA, especialmente los modelos de IA generativa, periódicamente a lo largo de su ciclo de vida. Lo ideal es que estas pruebas incluyan:

  1. Validación de modelos en preproducción con pruebas para detectar sesgos y derivas, y posterior generación de informes de pruebas.
  2. Transferencia de las configuraciones de prueba previas a la implementación de un modelo a la versión implementada del modelo y continuación de las pruebas automatizadas.
  3. Sincronización de la información sobre modelos, datos y resultados de pruebas con los sistemas de registro.
  4. Automatización que puede proporcionar notificaciones coherentes y fiables y dar más tiempo a los equipos para centrarse en el desarrollo de modelos en lugar de en su monitorización.

    Gestione en un entorno unificado

    Según un estudio Total Economic Impact de Forrester: "Al crear, ejecutar y gestionar modelos en un entorno unificado de datos e IA, [las organizaciones] pueden garantizar que los modelos de IA sigan siendo justos, explicables y conformes en cualquier lugar". Este enfoque integral de la IA también capacita de forma única a una organización para detectar y ayudar a corregir la desviación y el sesgo del modelo, y gestionar el riesgo del modelo cuando un modelo de IA está en producción".

    Una buena práctica consiste en gestionar todos los modelos desde un panel de control central. Un enfoque integrado puede ayudar a una organización a realizar un seguimiento continuo de las métricas y alertar a los equipos de los desvíos en la precisión y la coherencia de los datos a través del desarrollo, la validación y la implementación. Una visión centralizada y holística puede ayudar a las organizaciones a acabar con los silos y ofrecer más transparencia en todo el linaje de datos.

    Realice una monitorización continua de la deriva

    Detecte los escenarios y la magnitud de la deriva mediante un modelo de IA que compara los datos de producción y de formación y las predicciones del modelo en tiempo real. De este modo, la desviación puede detectarse rápidamente y el reciclaje puede iniciarse de inmediato. Esta detección es iterativa, al igual que lo son las operaciones de machine learning (MLOps).

    Analice la causa raíz

    El análisis basado en el tiempo ayuda a ver cómo evolucionó la deriva y cuándo se produjo. Por ejemplo, si se realizan comprobaciones semanales, se verá cómo ha evolucionado la deriva cada día.

    Analizar las líneas temporales también puede ser útil para determinar si la deriva fue gradual o repentina. El enfoque de la IA explicable aplica esta transparencia al uso de la IA y ayuda a las organizaciones a controlar cómo y por qué sus modelos dieron los resultados que dieron.

    Reajuste los modelos

    Utilice un nuevo conjunto de datos de entrenamiento al que se hayan añadido muestras más recientes y relevantes. El objetivo es que sus modelos de lenguaje de gran tamaño (LLM) vuelvan a la producción de forma rápida y correcta. Si el reentrenamiento del modelo no resuelve el problema, puede ser necesario un nuevo modelo.Las técnicas de operaciones de modelos de lenguaje de gran tamaño (LLMOps) pueden ayudar a las organizaciones a monitorizar y volver a entrenar a sus LLM.

    Actualización de modelos de ML en tiempo real

    En lugar de entrenar un modelo con datos por lotes, las organizaciones pueden practicar el “aprendizaje en línea” actualizando sus modelos de machine learning (ML) con los datos más recientes del mundo real en cuanto estén disponibles.

    Verifique los datos de entrada

    Puede parecer que un modelo se desvía porque los datos utilizados para entrenarlo son muy diferentes de los datos de producción reales que se utilizarán. En un caso de uso médico, si se utilizan escáneres de alta resolución en la formación, pero sobre el terreno solo se dispone de escáneres de baja resolución, los resultados son incorrectos.

    Soluciones relacionadas
    IBM watsonx.ai

    Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

    Descubra watsonx.ai
    Soluciones de inteligencia artificial

    Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.

    Explore las soluciones de IA
    Consultoría y servicios de IA

    Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

    Explore los servicios de IA
    Dé el siguiente paso

    Obtenga acceso único a capacidades que abarcan el ciclo de vida de desarrollo de la IA. Produzca potentes soluciones de IA con interfaces intuitivas, flujos de trabajo y acceso a API y SDK estándar del sector.

    Explore watsonx.ai Solicite una demostración en directo