Los modelos de lenguaje de gran tamaño pueden dominar los titulares, pero una clase diferente de IA podría cambiar la forma en que las empresas predicen el futuro. Los modelos de series temporales compactos y eficientes están transformando la previsión en los sectores.
TinyTimeMixer (TTM) de IBM ejemplifica esta tendencia. Con menos de un millón de parámetros, TTM ofrece predicciones robustas sin las demandas computacionales de sus homólogos más grandes.
“La previsión puede ser una herramienta poderosa cuando se aplica correctamente”, explica Joshua Noble, estratega técnico de IBM. “La capacidad de predecir la demanda, los ingresos, los costes, los fallos de los dispositivos o los cambios del mercado son activos potentes para una empresa de cualquier tamaño”.
El sector de la IA ha visto recientemente un aumento del interés en modelos de lenguaje más pequeños y eficientes. Estos modelos compactos tienen como objetivo ofrecer un rendimiento comparable al de sus homólogos más grandes, a la vez que requieren menos potencia de cálculo y memoria. Por ejemplo, Mistral AI ganó atención con su modelo Mixtral 8x7B, que utiliza una mezcla de expertos para lograr un alto rendimiento con un recuento de parámetros relativamente pequeño.
Esta tendencia hacia la “IA ligera” refleja un enfoque cada vez mayor en la implementación práctica y la accesibilidad, lo que podría democratizar la tecnología de IA para una gama más amplia de aplicaciones y dispositivos.
TTM cambia la autoatención el machine learning tradicional, donde cada elemento en una secuencia sopesa su relación con todos los demás, por la atención controlada, un mecanismo que controla selectivamente los bloques de perceptrones simples para vincular las variables de las series temporales. Este enfoque optimizado agudiza el enfoque y reduce drásticamente los costes computacionales en el entrenamiento y el ajuste fino, lo que da como resultado un modelo ágil y eficiente que sobresale en las tareas de series temporales.
El conjunto de datos de calidad del aire de Beijing es un caso de prueba del mundo real que muestra la capacidad de TTM para realizar previsiones los niveles de contaminación del aire PM2.5 utilizando datos históricos y variables meteorológicas. Esta aplicación demuestra el potencial del modelo en la monitorización ambiental y la planificación urbana.
Aunque los modelos de series temporales son prometedores, persisten los retos. Noble advierte: “La previsión, como la mayoría de la IA, depende de buenos datos y patrones predecibles. Hay algunos fenómenos que simplemente no son muy predecibles, y ningún modelo podrá solucionarlo”.
El ajuste fino aborda las limitaciones del modelo mediante un proceso simplificado: preparar datos, cargar el modelo, evaluar, afinar y reevaluar. Su impacto es claro: para las previsiones de calidad del aire de Pekín, el ajuste fino redujo la pérdida de evaluación de 0,426 a 0,253, lo que mejoró significativamente la precisión de la predicción. Este ejemplo del mundo real demuestra el poder del ajuste fino para mejorar el rendimiento del modelo para tareas específicas.
El proceso de ajuste fino implica dividir el conjunto de datos, cargar el modelo preentrenado, establecer el rendimiento de referencia, afinar los datos de entrenamiento con detención temprana y la evaluación final. Este enfoque mejora la capacidad del modelo para captar patrones de datos complejos, haciendo predicciones más precisas.
La cadena de previsión de TTM gestiona datos complejos de series temporales, incorporando tanto variables objetivo como factores externos. Volviendo al ejemplo de previsión de PM2.5, este enfoque permite a TTM capturar las complejas relaciones entre varios elementos que afectan a la calidad del aire. Al considerar múltiples variables simultáneamente, el modelo proporciona predicciones más precisas y matizadas, teniendo en cuenta la compleja interacción de los factores que influyen en la calidad del aire a lo largo del tiempo.
La plataforma IBM® watsonx acerca estas capacidades a un público más amplio. La plataforma permite a los usuarios entrenar, validar, ajustar e implementar modelos de forma eficiente, democratizando la previsión impulsada por IA para empresas de todos los tamaños.
A medida que modelos de series temporales como TTM evolucionan, su impacto en la previsión empresarial crece. Estos modelos ofrecen potentes herramientas para navegar por la incertidumbre, desde la optimización de la cadena de suministro hasta la predicción de las tendencias del mercado.
Noble resume el potencial de estos modelos: “Los modelos fundacionales entrenados con datos de series temporales pueden ayudar a reducir la barrera de entrada para este tipo de previsión porque ya tienen incorporados gran parte de los datos de entrenamiento”.