Un magasin de fonctionnalités est un système de données qui gère, stocke et fournit des fonctionnalités pour les modèles d'apprentissage automatique (ML). Il constitue un référentiel centralisé pour les données relatives aux caractéristiques, garantissant que les valeurs des caractéristiques sont définies et utilisées de manière cohérente dans les environnements de formation et de production des modèles.
En apprentissage automatique, une caractéristique est une variable ou un attribut extrait des données brutes et utilisé comme entrée pour les modèles afin de générer des prédictions . Elle représente des aspects mesurables du comportement, du contexte ou de l'état des données, tels que la fréquence d'achat ou la localisation géographique.
Par exemple, dans la détection des fraudes, les modèles s’appuient sur des signaux sélectionnés plutôt que sur des données brutes. Les caractéristiques peuvent inclure le nombre de transactions au cours de la semaine écoulée ou le lieu des achats récents, des représentations conçues pour capturer des schémas pouvant indiquer un comportement frauduleux.
Les fonctionnalités — souvent appelées fonctionnalités ML — sont générées à partir de multiples sources de données et organisées en ensembles de données qui supportent à la fois la science des données et les flux de travail d’apprentissage automatique. Ces fonctionnalités sont ensuite utilisées pour entraîner des modèles, évaluer des métriques et déployer des modèles dans les systèmes de production.
Les modèles de machine learning fonctionnent sur des représentations numériques des données. Chaque point de données est exprimé sous la forme d'un ensemble de valeurs de fonctionnalité, souvent sous forme vectorielle, où chaque dimension correspond à un attribut spécifique. Si certains types de données structurées sont intrinsèquement numériques, comme les informations comptables, d’autres — comme le texte, les images ou l’audio — sont non structurés et doivent être transformés en forme numérique structurée avant de pouvoir être utilisés par un modèle.
L’ingénierie des caractéristiques est l’un des moyens de transformer les données non structurées : les données brutes sont converties en entrées structurées et lisibles par machine à l’aide de techniques telles que l’agrégation, le filtrage et l’encodage. L’ingénierie des caractéristiques comprend également l’extraction de caractéristiques (où des algorithmes dérivent des représentations significatives à partir des données brutes) et la sélection de caractéristiques (qui identifie les variables les plus pertinentes).
Puisque les flux de travail d’apprentissage automatique couvrent l’entraînement et l’inférence de modèles, les fonctionnalités sont calculées à partir de données historiques et de nouvelles données en production. Le maintien de l'alignement nécessite une coordination entre les pipelines de données, les pipelines de fonctionnalités et les systèmes d'ingénierie des données, un défi que les boutiques de fonctionnalités sont conçues pour relever.
En pratique, les magasins de fonctionnalités prennent en charge chaque étape du cycle de vie du machine learning :
Restez au fait des tendances les plus étonnantes du secteur dans le domaine de l’IA, de l’automatisation, des données et bien d’autres avec la newsletter Think. Consultez la Déclaration de confidentialité d’IBM.
Le performance des modèles de machine learning — qui sous-tendent de nombreux systèmes d’intelligence artificielle (IA) actuels — dépend directement de la qualité de leurs variables d’entrée. Ce qui entre détermine ce qui sort.
Les valeurs des fonctionnalités dictent la manière dont les modèles interprètent les modèles des données d'entraînement et les appliquent aux nouvelles données. Cette coordination améliore la performance des modèles en réalisant deux choses : la gestion des données de fonctionnalité à l’échelle et la cohérence de l'apprentissage et de l'inférence.
À mesure que les systèmes de machine learning évoluent, la gestion des données de caractéristiques devient de plus en plus complexe. Les fonctionnalités sont générées et diffusées à travers de multiples flux de travail, souvent par des équipes d'ingénierie des données et de ML travaillant dans des environnements distribués.
Sans système centralisé, des fonctionnalités sont redondantes et des définitions de fonctionnalités incohérentes apparaissent. Les équipes peuvent calculer la même caractéristique en utilisant une logique légèrement différente, ce qui entraîne des incohérences dans les ensembles de données et les pipelines. Ces incohérences rendent plus difficile la réutilisation des fonctionnalités et introduisent un risque dans le développement du modèle.
Lors de l'apprentissage du modèle, les fonctionnalités sont calculées à partir des données historiques et organisées en jeux de données d'apprentissage. Une fois déployées, ces mêmes définitions de caractéristiques doivent être appliquées à de nouvelles données et recalculées pour inférence, souvent en temps réel ou quasi-temps réel.
Même de petites différences dans la façon dont les fonctionnalités sont calculées peuvent introduire des incohérences entre les entrées d'entraînement et de production, souvent appelées « biais d'entraînement », pouvant ainsi entraîner une dégradation des performances du modèle.
Les magasins de fonctionnalités résolvent ces défis en centralisant les définitions de fonctionnalités et en standardisant les transformations de fonctionnalités. Les fonctionnalités sont définies une seule fois, stockées dans un système partagé et accessibles via une interface de programmation d’applications (API) ou une interface de kit de développement logiciel (SDK). Cette coordination, souvent gérée par un registre des fonctionnalités, permet aux équipes de réutiliser les fonctionnalités dans plusieurs pipelines, modèles et cas d'utilisation.
L’architecture du magasin de fonctionnalités relie les données entre les différentes étapes clés du machine learning, notamment :
Les données sont collectées à partir de multiples sources et traitées via des pipelines d'ingestion . Ces pipelines appliquent des transformations de données et de fonctionnalités pour convertir les données brutes en valeurs de fonctionnalités.
Le calcul des caractéristiques peut se faire de différentes manières : traitement par lots de données précédemment collectées ; des pipelines de streaming pour les mises à jour en temps réel ; et le calcul de caractéristiques à la demande au moment de l’inférence. Ces transformations sont souvent mises en œuvre à l'aide de Python, d'un langage de requête structuré (SQL) ou d'autres systèmes dans le cadre de flux de travail automatisés.
Les magasins de fonctionnalités utilisent un modèle de stockage double, composé d’un magasin hors ligne et d’un magasin en ligne. Le magasin hors ligne, ou magasin de fonctionnalités hors ligne, conserve les données historiques des fonctionnalités et prend en charge l’entraînement des modèles en donnant accès aux données d’entraînement et aux jeux de données d’entraînement. En général, il est construit sur des entrepôts de données ou des lacs de données.
La boutique en ligne, ou magasin de fonctionnalités en ligne, conserve les valeurs actuelles des fonctionnalités et permet une recherche à faible latence lors de l’inférence du modèle. Cette séparation entre les boutiques hors ligne et en ligne permet à la fois la scalabilité et la performance à travers différentes charges de travail.
La mise à disposition de fonctionnalités est le processus qui consiste à fournir des valeurs de fonctionnalités aux modèles de machine learning. Une couche d'API ou de SDK permet aux applications de récupérer des fonctionnalités d'un environnement à l'autre, en veillant à ce que les définitions des fonctionnalités restent alignées. Elle permet également de minimiser l'asymétrie de la formation et de s'assurer que les modèles reçoivent des valeurs de fonctionnalités actualisées lorsqu'ils font des prédictions.
Un registre des fonctionnalités fait office de système d'enregistrement centralisé pour les définitions des fonctionnalités. Il stocke des métadonnées, des informations sur le lignage et les versions, ce qui permet de savoir comment les caractéristiques sont construites et où elles sont utilisées. Cette traçabilité permet de découvrir plus facilement les fonctionnalités réutilisables, de renforcer la gouvernance et le contrôle d'accès, et de suivre les dépendances au sein des flux de travail.
Les magasins de fonctionnalités Orchestrate les pipelines et les workflows tout au long du cycle de vie des fonctionnalités. Les tâches courantes incluent l’automatisation du calcul des fonctionnalités, la gestion des opérations de remblai pour les données historiques des fonctionnalités, le recalcul des fonctionnalités lorsque les définitions changent et l’identification des fonctionnalités dupliquées ou obsolètes. L'orchestration garantit donc que les pipelines de fonctionnalités restent fiables et évolutifs sur l'ensemble de la plateforme de données.
Bien que les implémentations varient, la plupart des magasins de fonctionnalités offrent un ensemble cohérent de capacités qui s'étendent au-delà de leur architecture de base, permettant des workflows d'apprentissage automatique évolutifs et fiables.
Garantit un calcul de caractéristiques cohérent dans les workflows afin que la même logique soit appliquée lors de l’entraînement et de l’inférence.
Activez à la fois l'analyse historique et l'accès aux valeurs des fonctionnalités à faible latence, en prenant en charge les environnements de traitement par lots et de streaming.
Permet une récupération rapide et fiable des valeurs de caractéristiques pour les prédictions des modèles dans des cas d’utilisation en temps réel et à haut débit.
Centralise les définitions de fonctionnalité pour améliorer la découvrabilité, la gestion des versions et la gouvernance entre les équipes et les workflows.
Automatise les workflows et la gestion du cycle de vie dans les pipelines de fonctionnalité afin de maintenir la fiabilité et l'évolutivité.
Applique les politiques de gouvernance et les autorisations afin de protéger les données relatives aux fonctionnalités et de réduire le risque de fuite de données.
Ensemble, ces capacités définissent la manière dont les données de caractéristiques sont gérées dans les workflows de machine learning. Ils reflètent également la manière dont les feature stores s'intègrent dans une architecture de données plus large.
Les systèmes de données traditionnels (tels que les entrepôts de données et autres magasins de données) sont conçus pour traiter et transférer des données au sein d’une entreprise. Cependant, ces données ne sont pas intrinsèquement prêtes pour le machine learning.
Les magasins de fonctionnalités s’appuient sur cette base en organisant les données des fonctionnalités en entrées réutilisables pour les modèles d’apprentissage automatique, standardisant la manière dont les fonctionnalités sont définies, calculées et utilisées lors des phases de développement et de production.
Les magasins de fonctionnalités offrent un ensemble d’avantages pratiques qui améliorent le développement et la maintenance des systèmes de machine learning.
Les magasins de fonctionnalités permettent également un service de fonctionnalités à haut débit grâce à des couches de stockage optimisées et des systèmes clé-valeur comme Redis , qui sont couramment déployés en tant que services gérés en mémoire dans les plateformes de données modernes . Cette approche permet de garantir que les modèles récupèrent efficacement les valeurs des fonctionnalités à jour.
Le choix d’un magasin de caractéristiques dépend de l’architecture de données, de l’infrastructure et du niveau de maturité en matière de magasin de l’entreprise. Les considérations typiques incluent :
Les magasins de fonctionnalités doivent s'aligner sur les pipelines de données existants, les entrepôts de données, les lacs de données et les systèmes de plates-formes de données plus vastes. Néanmoins, intégrer des pipelines de fonctionnalités dans des workflows établis nécessite souvent refactoriser des transformations de données et de coordonner entre les équipes.
Par conséquent, les entreprises commencent généralement par évaluer comment un magasin de fonctionnalités s’intègre avec des outils existants tels que Snowflake, Databricks et des services AWS comme SageMaker magasin de fonctionnalités. Souvent, les magasins de fonctionnalités sont intégrés dans le cadre de systèmes MLOps plus larges qui relient l’ingénierie des données et le déploiement des modèles.1
Les implémentations de gestionnaires de fonctionnalités varient considérablement, les organisations cherchant constamment à équilibrer performance, évolutivité et complexité opérationnelle. Les frameworks open source tels que Feast permettent aux entreprises de créer et de gérer leurs propres pipelines et infrastructures de fonctionnalités, tandis que des plateformes comme Tecton offrent des solutions entièrement gérées et prêtes pour la production.
Néanmoins, certaines organisations, choisissent de construire leurs propres plateformes d’apprentissage automatique de bout en bout, comme Michelangelo d’Uber, qui incluent des fonctionnalités de feature store dans le cadre d’un système plus large. En fin de compte, la décision de créer ou d'adopter un magasin de fonctionnalités dépend de l'expertise interne et des exigences d'évolutivité à long terme.
Les exigences architecturales jouent un rôle central. Certains cas d'utilisation nécessitent la diffusion de fonctionnalités en temps réel ou à faible latence, tandis que d'autres dépendent du traitement par lots ou du calcul des fonctionnalités à la demande. Les exigences en matière de haut débit imposent également des contraintes importantes à l'infrastructure à mesure que les volumes de données augmentent.
La prise en charge à la fois du traitement historique des données et de l’inférence en temps réel devient complexe lorsqu’il s’agit de maintenir la cohérence entre les valeurs de caractéristiques hors ligne et en ligne. Les recherches soulignent que la conception des magasins de fonctionnalités est souvent guidée par ces exigences de charge de travail, mettant en évidence des problèmes tels que la latence, l'évolutivité et l'exactitude à un instant donné. 3
La gouvernance est tout autant cruciale. Les magasins de fonctionnalités fonctionnent sur des données de fonctionnalités partagées, de sorte que les organisations ont besoin d’une visibilité claire sur la façon dont les fonctionnalités sont définies, testées et utilisées.
Les données relatives aux fonctionnalités étant partagées entre les équipes, les entreprises doivent mettre en place des contrôles afin d'éviter les fuites de données et de s'assurer que les fonctionnalités sont calculées de manière cohérente. Les cadres de gouvernance formels peuvent favoriser la cohérence, la traçabilité et la conformité de tous les pipelines de fonctionnalités 4, contribuant ainsi à maintenir la confiance dans les systèmes d'apprentissage automatique.
Créez et gérez des pipelines intelligents de diffusion de données en continu via une interface graphique intuitive, facilitant ainsi une intégration fluide des données dans les environnements hybrides et multicloud.
watsonx.data vous permet d’adapter le dimensionnement des analyses et de l’IA à toutes vos données, où qu’elles se trouvent, grâce à un entrepôt de données ouvert, hybride et gouverné.
Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.
1 An Analysis of MLOps Architectures: A Systematic Mapping Study, arXiv, 28 juin 2024.
2 Évolution des architectures de stockage de fonctionnalités dans les plateformes ML modernes, International Journal of Information Technology and Management Information Systems (IJITMIS), mars-avril 2025.
3 Approches conceptuelles pour organiser les magasins de fonctionnalités dans les systèmes ML à forte charge, Journal international de l'ordinateur (IJC), 2 février 2026.
4 A Formal Model for Feature Store Architecture and Governance, International Journal of Computational and Experimental Science and Engineering, décembre 2025.