Los grandes modelos de lenguaje pueden dominar los titulares, pero una clase diferente de IA podría cambiar la forma en que las compañías predicen el futuro. Los modelos de series temporales compactos y eficientes están transformando el pronosticar en todas las industrias.
TinyTimeMixer (TTM) de IBM ejemplifica esta tendencia. Con menos de un millón de parámetros, TTM ofrece predicciones sólidas sin las demandas computacionales de sus contrapartes más grandes.
"El pronosticar puede ser una herramienta poderosa cuando se aplica correctamente", explica Joshua Noble, estratega técnico de IBM. “La capacidad de predecir la demanda, los ingresos, los costos, la falla de los dispositivos o los cambios del mercado son activos poderosos para un negocio de cualquier tamaño”.
La industria de la IA ha visto recientemente un aumento del interés en modelos de lenguaje más pequeños y eficientes. Estos modelos compactos tienen como objetivo ofrecer rendimiento comparable al de sus homólogos más grandes, al tiempo que requieren menos potencia de cálculo y memoria. Por ejemplo, Mistral IA ganó atención con su modelo Mixtral 8x7B, que emplea una combinación de expertos para lograr un alto rendimiento con un recuento de parámetros relativamente pequeño.
Esta tendencia hacia la “IA ligera” refleja un enfoque creciente en el despliegue práctico y la accesibilidad, lo que podría democratizar la tecnología de IA para una gama más amplia de aplicaciones y dispositivos.
TTM cambia el machine learning tradicional autoatención—donde cada elemento en una secuencia pesa su relación con todos los demás—por una atención cerrada, un mecanismo que controla selectivamente bloques de perceptrones simples para vincular variables de series de tiempo. Este enfoque optimizado agudiza el enfoque y reduce drásticamente los costos computacionales en el entrenamiento y el ajuste, lo que da como resultado un modelo ágil y eficiente que sobresale en las tareas de series temporales.
El conjunto de datos de Calidad del Aire de Beijing es un caso de prueba real mostrando la capacidad de TTM para pronosticar los niveles de contaminación del aire de PM2.5 empleando datos históricos y variables meteorológicas. Esta aplicación demuestra el potencial del modelo en el monitoreo ambiental y la planificación urbana.
Si bien los modelos de series temporales son prometedores, persisten los desafíos. Noble advierte: “Pronosticar, como la mayoría de la IA, depende de buenos datos y patrones predecibles. Hay algunos fenómenos que simplemente no son muy predecibles, y ningún modelo podrá solucionarlos”.
El refinamiento aborda las limitaciones del modelo a través de un proceso optimizado: preparar datos, cargar el modelo, evaluar, ajustar y reevaluar. Su impacto es claro: para los pronósticos de calidad del aire de Beijing, el ajuste fino redujo la pérdida de evaluación de 0.426 a 0.253, mejorando significativamente la precisión de la predicción. Este ejemplo del mundo real demuestra el poder del ajuste para mejorar el rendimiento del modelo para tareas específicas.
El proceso de ajuste implica dividir el conjunto de datos, cargar el modelo previamente entrenado, establecer el rendimiento de referencia, ajustar los datos de entrenamiento con detención anticipada y la evaluación final. Este enfoque mejora la capacidad del modelo para capturar patrones de datos complejos, haciendo predicciones más precisas.
El pipeline de forecasting de TTM maneja datos de series temporales complejas, incorporando tanto variables objetivo como factores externos. Volviendo al ejemplo de forecasting de PM2.5, este enfoque permite a TTM capturar relaciones complejas entre varios elementos que afectan la calidad del aire. Al considerar múltiples variables simultáneamente, el modelo proporciona predicciones más precisas y matizadas, teniendo en cuenta la compleja interacción de factores que influyen en la calidad del aire a lo largo del tiempo.
La plataforma IBM watsonx lleva estas capacidades a una audiencia más amplia. La plataforma permite a los usuarios entrenar, validar, ajustar y desplegar modelos de manera eficiente, democratizando el forecasting impulsado por IA para empresas de todos los tamaños.
A medida que los modelos de series temporales como TTM evolucionan, su impacto en el pronosticar crece. Estos modelos ofrecen herramientas poderosas para sortear la incertidumbre, desde la optimización de la cadena de suministro hasta la predicción de tendencias del mercado.
Noble resume el potencial de estos modelos: "Los modelos fundacionales entrenados con datos de series temporales pueden ayudar a reducir la barrera de entrada para este tipo de pronósticos porque ya tienen muchos de los datos de entrenamiento incorporados".