Qu’est-ce qu’un magasin de caractéristiques ?

Magasin de fonctionnalités, défini

Un magasin de fonctionnalités est un système de données qui gère, stocke et fournit des fonctionnalités pour les modèles d'apprentissage automatique (ML). Il constitue un référentiel centralisé pour les données relatives aux caractéristiques, garantissant que les valeurs des caractéristiques sont définies et utilisées de manière cohérente dans les environnements de formation et de production des modèles.

En apprentissage automatique, une caractéristique est une variable ou un attribut extrait des données brutes et utilisé comme entrée pour les modèles afin de générer des prédictions . Elle représente des aspects mesurables du comportement, du contexte ou de l'état des données, tels que la fréquence d'achat ou la localisation géographique.

Par exemple, dans la détection des fraudes, les modèles s’appuient sur des signaux sélectionnés plutôt que sur des données brutes. Les caractéristiques peuvent inclure le nombre de transactions au cours de la semaine écoulée ou le lieu des achats récents, des représentations conçues pour capturer des schémas pouvant indiquer un comportement frauduleux.

Les fonctionnalités — souvent appelées fonctionnalités ML — sont générées à partir de multiples sources de données et organisées en ensembles de données qui supportent à la fois la science des données et les flux de travail d’apprentissage automatique. Ces fonctionnalités sont ensuite utilisées pour entraîner des modèles, évaluer des métriques et déployer des modèles dans les systèmes de production.

Quel est le but des magasins de fonctionnalités en ML ?

Les modèles de machine learning fonctionnent sur des représentations numériques des données. Chaque point de données est exprimé sous la forme d'un ensemble de valeurs de fonctionnalité, souvent sous forme vectorielle, où chaque dimension correspond à un attribut spécifique. Si certains types de données structurées sont intrinsèquement numériques, comme les informations comptables, d’autres — comme le texte, les images ou l’audio — sont non structurés et doivent être transformés en forme numérique structurée avant de pouvoir être utilisés par un modèle.

L’ingénierie des caractéristiques est l’un des moyens de transformer les données non structurées : les données brutes sont converties en entrées structurées et lisibles par machine à l’aide de techniques telles que l’agrégation, le filtrage et l’encodage. L’ingénierie des caractéristiques comprend également l’extraction de caractéristiques (où des algorithmes dérivent des représentations significatives à partir des données brutes) et la sélection de caractéristiques (qui identifie les variables les plus pertinentes).

Puisque les flux de travail d’apprentissage automatique couvrent l’entraînement et l’inférence de modèles, les fonctionnalités sont calculées à partir de données historiques et de nouvelles données en production. Le maintien de l'alignement nécessite une coordination entre les pipelines de données, les pipelines de fonctionnalités et les systèmes d'ingénierie des données, un défi que les boutiques de fonctionnalités sont conçues pour relever.

En pratique, les magasins de fonctionnalités prennent en charge chaque étape du cycle de vie du machine learning :

  • Ingénierie et développement de fonctionnalités : Fournissez un environnement structuré pour définir de nouvelles fonctionnalités, permettant aux équipes de partager des fonctionnalités, de les réutiliser et d'éviter les implémentations en double.
  • Entraînement des modèles : Fournissez des données historiques de fonctionnalité et des données d'entraînement, en veillant à ce que les modèles soient entraînés sur des jeux de données fiables.
  • Inférence et service : Fournissez des valeurs de caractéristiques en temps réel grâce à des systèmes de stockage de caractéristiques en ligne, ce qui permet des prédictions à faible latence.
  • Suivi et itération : Suivez les métriques, détectez les asymétries (ou la distribution inégale des données) et contrôlez la qualité des fonctionnalités dans les flux de travail.

Pourquoi les magasins de fonctionnalités sont importants

Le performance des modèles de machine learning — qui sous-tendent de nombreux systèmes d’intelligence artificielle (IA) actuels — dépend directement de la qualité de leurs variables d’entrée. Ce qui entre détermine ce qui sort.

Les valeurs des fonctionnalités dictent la manière dont les modèles interprètent les modèles des données d'entraînement et les appliquent aux nouvelles données. Cette coordination améliore la performance des modèles en réalisant deux choses : la gestion des données de fonctionnalité à l’échelle et la cohérence de l'apprentissage et de l'inférence.

Gestion de données de fonctionnalité à l’échelle

À mesure que les systèmes de machine learning évoluent, la gestion des données de caractéristiques devient de plus en plus complexe. Les fonctionnalités sont générées et diffusées à travers de multiples flux de travail, souvent par des équipes d'ingénierie des données et de ML travaillant dans des environnements distribués.

Sans système centralisé, des fonctionnalités sont redondantes et des définitions de fonctionnalités incohérentes apparaissent. Les équipes peuvent calculer la même caractéristique en utilisant une logique légèrement différente, ce qui entraîne des incohérences dans les ensembles de données et les pipelines. Ces incohérences rendent plus difficile la réutilisation des fonctionnalités et introduisent un risque dans le développement du modèle.

Garantir la cohérence entre la formation et l'inférence

Lors de l'apprentissage du modèle, les fonctionnalités sont calculées à partir des données historiques et organisées en jeux de données d'apprentissage. Une fois déployées, ces mêmes définitions de caractéristiques doivent être appliquées à de nouvelles données et recalculées pour inférence, souvent en temps réel ou quasi-temps réel.

Même de petites différences dans la façon dont les fonctionnalités sont calculées peuvent introduire des incohérences entre les entrées d'entraînement et de production, souvent appelées « biais d'entraînement », pouvant ainsi entraîner une dégradation des performances du modèle.

Les magasins de fonctionnalités résolvent ces défis en centralisant les définitions de fonctionnalités et en standardisant les transformations de fonctionnalités. Les fonctionnalités sont définies une seule fois, stockées dans un système partagé et accessibles via une interface de programmation d’applications (API) ou une interface de kit de développement logiciel (SDK). Cette coordination, souvent gérée par un registre des fonctionnalités, permet aux équipes de réutiliser les fonctionnalités dans plusieurs pipelines, modèles et cas d'utilisation.

Comment fonctionnent les magasins de fonctionnalités

L’architecture du magasin de fonctionnalités relie les données entre les différentes étapes clés du machine learning, notamment :

  • Ingestion et transformation
  • Couches de stockage
  • Service de fonctionnalités
  • Registre des fonctionnalités et métadonnées
  • Orchestration et gestion du cycle de vie

Ingestion et transformation

Les données sont collectées à partir de multiples sources et traitées via des pipelines d'ingestion . Ces pipelines appliquent des transformations de données et de fonctionnalités pour convertir les données brutes en valeurs de fonctionnalités.

Le calcul des caractéristiques peut se faire de différentes manières : traitement par lots de données précédemment collectées ; des pipelines de streaming pour les mises à jour en temps réel ; et le calcul de caractéristiques à la demande au moment de l’inférence. Ces transformations sont souvent mises en œuvre à l'aide de Python, d'un langage de requête structuré (SQL) ou d'autres systèmes dans le cadre de flux de travail automatisés.

Couches de stockage

Les magasins de fonctionnalités utilisent un modèle de stockage double, composé d’un magasin hors ligne et d’un magasin en ligne. Le magasin hors ligne, ou magasin de fonctionnalités hors ligne, conserve les données historiques des fonctionnalités et prend en charge l’entraînement des modèles en donnant accès aux données d’entraînement et aux jeux de données d’entraînement. En général, il est construit sur des entrepôts de données ou des lacs de données.

La boutique en ligne, ou magasin de fonctionnalités en ligne, conserve les valeurs actuelles des fonctionnalités et permet une recherche à faible latence lors de l’inférence du modèle. Cette séparation entre les boutiques hors ligne et en ligne permet à la fois la scalabilité et la performance à travers différentes charges de travail.

Service de fonctionnalités

La mise à disposition de fonctionnalités est le processus qui consiste à fournir des valeurs de fonctionnalités aux modèles de machine learning. Une couche d'API ou de SDK permet aux applications de récupérer des fonctionnalités d'un environnement à l'autre, en veillant à ce que les définitions des fonctionnalités restent alignées. Elle permet également de minimiser l'asymétrie de la formation et de s'assurer que les modèles reçoivent des valeurs de fonctionnalités actualisées lorsqu'ils font des prédictions.

Registre des fonctionnalités et métadonnées

Un registre des fonctionnalités fait office de système d'enregistrement centralisé pour les définitions des fonctionnalités. Il stocke des métadonnées, des informations sur le lignage et les versions, ce qui permet de savoir comment les caractéristiques sont construites et où elles sont utilisées. Cette traçabilité permet de découvrir plus facilement les fonctionnalités réutilisables, de renforcer la gouvernance et le contrôle d'accès, et de suivre les dépendances au sein des flux de travail.

Orchestration et gestion du cycle de vie

Les magasins de fonctionnalités Orchestrate les pipelines et les workflows tout au long du cycle de vie des fonctionnalités. Les tâches courantes incluent l’automatisation du calcul des fonctionnalités, la gestion des opérations de remblai pour les données historiques des fonctionnalités, le recalcul des fonctionnalités lorsque les définitions changent et l’identification des fonctionnalités dupliquées ou obsolètes. L'orchestration garantit donc que les pipelines de fonctionnalités restent fiables et évolutifs sur l'ensemble de la plateforme de données.

AI Academy

La gestion des données est-elle le secret de l’IA générative ?

Découvrez pourquoi des données de haute qualité sont essentielles pour une utilisation réussie de l’IA générative.

Capacités de base d'un magasin de fonctionnalités

Bien que les implémentations varient, la plupart des magasins de fonctionnalités offrent un ensemble cohérent de capacités qui s'étendent au-delà de leur architecture de base, permettant des workflows d'apprentissage automatique évolutifs et fiables.

Transformation des caractéristiques

Garantit un calcul de caractéristiques cohérent dans les workflows afin que la même logique soit appliquée lors de l’entraînement et de l’inférence.

Boutique hors ligne et boutique en ligne

Activez à la fois l'analyse historique et l'accès aux valeurs des fonctionnalités à faible latence, en prenant en charge les environnements de traitement par lots et de streaming.

Service de fonctionnalités

Permet une récupération rapide et fiable des valeurs de caractéristiques pour les prédictions des modèles dans des cas d’utilisation en temps réel et à haut débit.

Registre des fonctionnalités

Centralise les définitions de fonctionnalité pour améliorer la découvrabilité, la gestion des versions et la gouvernance entre les équipes et les workflows.

Orchestration

Automatise les workflows et la gestion du cycle de vie dans les pipelines de fonctionnalité afin de maintenir la fiabilité et l'évolutivité.

Contrôle d'accès et sécurité

Applique les politiques de gouvernance et les autorisations afin de protéger les données relatives aux fonctionnalités et de réduire le risque de fuite de données

Ensemble, ces capacités définissent la manière dont les données de caractéristiques sont gérées dans les workflows de machine learning. Ils reflètent également la manière dont les feature stores s'intègrent dans une architecture de données plus large.

Les systèmes de données traditionnels (tels que les entrepôts de données et autres magasins de données) sont conçus pour traiter et transférer des données au sein d’une entreprise. Cependant, ces données ne sont pas intrinsèquement prêtes pour le machine learning.

Les magasins de fonctionnalités s’appuient sur cette base en organisant les données des fonctionnalités en entrées réutilisables pour les modèles d’apprentissage automatique, standardisant la manière dont les fonctionnalités sont définies, calculées et utilisées lors des phases de développement et de production.

Avantages des magasins de fonctionnalités

Les magasins de fonctionnalités offrent un ensemble d’avantages pratiques qui améliorent le développement et la maintenance des systèmes de machine learning.

  • Amélioration de l’efficacité du développement des modèles : les définitions de caractéristiques réutilisables réduisent la nécessité de recréer des caractéristiques pour chaque nouveau projet, ce qui permet aux équipes de se consacrer à la conception des modèles plutôt qu’à la préparation des données.
  • Cohérence entre les modèles d’apprentissage automatique : Les pipelines de fonctionnalités standardisés garantissent que les fonctionnalités sont calculées de la même manière lors de l’entraînement et de l’inférence, réduisant ainsi le risque de désaccord de service entraînement.
  • Collaboration renforcée entre les équipes : Les données de fonctionnalités centralisées permettent aux data scientists, aux équipes d'ingénierie des données et aux équipes ML de partager des fonctionnalités et de travailler à partir d'un système d'enregistrement commun (SOR).
  • Gouvernance et traçabilité : Les magasins de fonctionnalités introduisent un SOR structuré pour les définitions de fonctionnalités, ce qui facilite la compréhension de la manière dont les fonctionnalités sont définies et utilisées dans les différents modèles tout en appliquant des normes cohérentes.
  • Prise en charge de l'apprentissage automatique en temps réel : les magasins de fonctionnalités permettent un accès à faible latence aux valeurs des fonctionnalités via des systèmes de magasins de fonctionnalités en ligne, prenant en charge des cas d'utilisation tels que l'hyper-personnalisation et les moteurs de recommandation .
  • Flux de travail évolutifs et reproductibles : Les pipelines de fonctionnalités automatisés et l'orchestration soutiennent les opérations d'apprentissage automatique (MLOps). Cela permet aux entreprises de faire évoluer les systèmes de machine learning entre les équipes et les cas d’utilisation.

Les magasins de fonctionnalités permettent également un service de fonctionnalités à haut débit grâce à des couches de stockage optimisées et des systèmes clé-valeur comme Redis , qui sont couramment déployés en tant que services gérés en mémoire dans les plateformes de données modernes . Cette approche permet de garantir que les modèles récupèrent efficacement les valeurs des fonctionnalités à jour.

Choisir un magasin de fonctionnalités

Le choix d’un magasin de caractéristiques dépend de l’architecture de données, de l’infrastructure et du niveau de maturité en matière de magasin de l’entreprise. Les considérations typiques incluent :

  • Intégration avec les plateformes de données existantes
  • Options open source et managées
  • Exigences architecturales et workloads
  • Gouvernance et confiance

Intégration aux plateformes de données existantes

Les magasins de fonctionnalités doivent s'aligner sur les pipelines de données existants, les entrepôts de données, les lacs de données et les systèmes de plates-formes de données plus vastes. Néanmoins, intégrer des pipelines de fonctionnalités dans des workflows établis nécessite souvent refactoriser des transformations de données et de coordonner entre les équipes.

Par conséquent, les entreprises commencent généralement par évaluer comment un magasin de fonctionnalités s’intègre avec des outils existants tels que Snowflake, Databricks et des services AWS comme SageMaker magasin de fonctionnalités. Souvent, les magasins de fonctionnalités sont intégrés dans le cadre de systèmes MLOps plus larges qui relient l’ingénierie des données et le déploiement des modèles.1

Options open source et managées

Les implémentations de gestionnaires de fonctionnalités varient considérablement, les organisations cherchant constamment à équilibrer performance, évolutivité et complexité opérationnelle. Les frameworks open source tels que Feast permettent aux entreprises de créer et de gérer leurs propres pipelines et infrastructures de fonctionnalités, tandis que des plateformes comme Tecton offrent des solutions entièrement gérées et prêtes pour la production.

Néanmoins, certaines organisations, choisissent de construire leurs propres plateformes d’apprentissage automatique de bout en bout, comme Michelangelo d’Uber, qui incluent des fonctionnalités de feature store dans le cadre d’un système plus large. En fin de compte, la décision de créer ou d'adopter un magasin de fonctionnalités dépend de l'expertise interne et des exigences d'évolutivité à long terme.

Exigences architecturales et workloads

Les exigences architecturales jouent un rôle central. Certains cas d'utilisation nécessitent la diffusion de fonctionnalités en temps réel ou à faible latence, tandis que d'autres dépendent du traitement par lots ou du calcul des fonctionnalités à la demande. Les exigences en matière de haut débit imposent également des contraintes importantes à l'infrastructure à mesure que les volumes de données augmentent.

La prise en charge à la fois du traitement historique des données et de l’inférence en temps réel devient complexe lorsqu’il s’agit de maintenir la cohérence entre les valeurs de caractéristiques hors ligne et en ligne. Les recherches soulignent que la conception des magasins de fonctionnalités est souvent guidée par ces exigences de charge de travail, mettant en évidence des problèmes tels que la latence, l'évolutivité et l'exactitude à un instant donné. 3

Gouvernance et confiance

La gouvernance est tout autant cruciale. Les magasins de fonctionnalités fonctionnent sur des données de fonctionnalités partagées, de sorte que les organisations ont besoin d’une visibilité claire sur la façon dont les fonctionnalités sont définies, testées et utilisées.

Les données relatives aux fonctionnalités étant partagées entre les équipes, les entreprises doivent mettre en place des contrôles afin d'éviter les fuites de données et de s'assurer que les fonctionnalités sont calculées de manière cohérente. Les cadres de gouvernance formels peuvent favoriser la cohérence, la traçabilité et la conformité de tous les pipelines de fonctionnalités 4, contribuant ainsi à maintenir la confiance dans les systèmes d'apprentissage automatique.

Auteurs

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Solutions connexes
IBM StreamSets

Créez et gérez des pipelines intelligents de diffusion de données en continu via une interface graphique intuitive, facilitant ainsi une intégration fluide des données dans les environnements hybrides et multicloud.

Découvrir StreamSets
IBM watsonx.data

watsonx.data vous permet d’adapter le dimensionnement des analyses et de l’IA à toutes vos données, où qu’elles se trouvent, grâce à un entrepôt de données ouvert, hybride et gouverné.

Découvrir watsonx.data
Services de conseil pour les données et les analyses

Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

Découvrir les services d’analytique
Passez à l’étape suivante

Élaborez une stratégie de gestion des données qui élimine les silos, réduit la complexité et améliore la qualité des données pour offrir une expérience client et collaborateur exceptionnelle.

  1. Découvrir les solutions de gestion des données
  2. Découvrir watsonx.data
Notes de bas de page

An Analysis of MLOps Architectures: A Systematic Mapping Study, arXiv, 28 juin 2024.

2 Évolution des architectures de stockage de fonctionnalités dans les plateformes ML modernes, International Journal of Information Technology and Management Information Systems (IJITMIS), mars-avril 2025.

3 Approches conceptuelles pour organiser les magasins de fonctionnalités dans les systèmes ML à forte charge, Journal international de l'ordinateur (IJC), 2 février 2026.

4 A Formal Model for Feature Store Architecture and Governance, International Journal of Computational and Experimental Science and Engineering, décembre 2025.