Les grands modèles de langage font la une des journaux, mais une autre catégorie d’IA pourrait changer la façon dont les entreprises prédisent l’avenir. Des modèles de séries temporelles compacts et efficaces transforment la prévision dans tous les secteurs.
Le TinyTimeMixer (TTM) d’IBM illustre parfaitement cette tendance. Avec moins d’un million de paramètres, le TTM fournit des prévisions fiables sans les exigences informatiques de ses homologues plus volumineux.
« Les prévisions peuvent être un outil puissant lorsqu’elles sont utilisées correctement, explique Joshua Noble, stratège technique chez IBM. La capacité à prévoir la demande, les revenus, les coûts, les pannes d’appareils ou les changements du marché est un atout précieux pour toute entreprise, quelle que soit sa taille. »
Le secteur de l’IA a récemment connu un regain d’intérêt pour les modèles de langage plus petits et plus efficaces. Ces modèles compacts visent à offrir des performances comparables à celles de leurs homologues plus volumineux, tout en nécessitant moins de puissance de calcul et de mémoire. Ainsi, Mistral AI a attiré l’attention avec son modèle Mixtral 8x7B, qui utilise une approche Mixture of Experts pour atteindre des performances élevées avec un nombre de paramètres relativement faible.
Cette tendance vers l’« IA allégée » reflète un intérêt croissant pour le déploiement pratique et l’accessibilité, ce qui pourrait démocratiser la technologie de l’IA pour un plus large éventail d’applications et d’appareils.
TTM remplace l’auto-attention traditionnelle du machine learning, où chaque élément d’une séquence pondère sa relation avec tous les autres, par une attention verrouillée, un mécanisme qui contrôle sélectivement des blocs perceptron simples pour relier des variables de séries temporelles. Cette approche rationalisée permet de mieux cibler les objectifs et de réduire les coûts de calcul pour la formation et l’ajustement, ce qui permet d’obtenir un modèle allégé et efficace qui excelle dans les tâches liées aux séries chronologiques.
Le jeu de données sur la qualité de l’air à Pékin est un cas test réel qui démontre la capacité de TTM à prévoir les niveaux de pollution atmosphérique par les PM2,5 à l’aide de données historiques et de variables météorologiques. Cette application démontre le potentiel du modèle dans le domaine de la surveillance environnementale et de l’urbanisme.
Si les modèles de séries temporelles sont prometteurs, des défis subsistent. M. Noble met en garde : « Comme la plupart des IA, les prévisions dépendent de données fiables et de schémas prévisibles. Certains phénomènes sont tout simplement imprévisibles, et aucun modèle ne pourra contourner cela. »
Le réglage fin permet de pallier les limites du modèle grâce à un processus rationalisé : préparation des données, chargement du modèle, évaluation, réglage fin et réévaluation. Son impact est clair : le réglage fin a permis de réduire la perte d’évaluation de 0,426 à 0,253, améliorant ainsi considérablement la précision des prévisions de la qualité de l’air à Pékin. Cet exemple concret démontre le potentiel du réglage fin pour améliorer les performances des modèles pour des tâches spécifiques.
Le processus de réglage fin consiste à diviser le jeu de données, à charger le modèle pré-entraîné, à établir les performances de référence, à affiner les données d’entraînement avec un arrêt anticipé et à procéder à une évaluation finale. Cette approche améliore la capacité du modèle à saisir des schémas de données complexes, ce qui permet d’obtenir des prévisions plus précises.
Le pipeline de prévision de TTM traite des données chronologiques complexes, en intégrant à la fois des variables cibles et des facteurs externes. Pour revenir à l’exemple des prévisions PM2,5, cette approche permet à TTM de saisir les relations complexes entre les différents éléments qui influent sur la qualité de l’air. En prenant en compte plusieurs variables simultanément, le modèle fournit des prévisions plus précises et nuancées, tenant compte de l’interaction complexe des facteurs qui affectent la qualité de l’air au fil du temps.
La plateforme IBM watsonx met ces capacités à la disposition d’un public plus large. Elle permet aux utilisateurs d’entraîner, de valider, de régler et déployer des modèles de manière efficace, démocratisant ainsi les prévisions pilotées par l’IA pour les entreprises de toutes tailles.
À mesure que les modèles de séries temporelles tels que TTM évoluent, leur impact sur le forecasting commercial s’accroît. Ces modèles offrent des outils puissants pour faire face à l’incertitude, de l’optimisation de la chaîne d’approvisionnement à la prévision des tendances du marché.
Noble résume le potentiel de ces modèles : « Les modèles de fondation basés sur des données de séries chronologiques peuvent aider à réduire les obstacles à l’entrée pour ce type de forecasting, car la plupart des données d’entraînement y sont déjà intégrées. »