Cos'è un feature store?

Definizione di feature store

Un feature store è un sistema di dati che gestisce, memorizza e fornisce funzioni per i modelli di machine learning (ML). Fornisce un repository centralizzato per i dati delle funzioni, garantendo che i loro valori siano definiti e utilizzati in modo coerente tra gli ambienti di addestramento e produzione dei modelli.

Nel machine learning, una funzione è una variabile o un attributo derivato da dati non elaborati che viene utilizzato come input per i modelli per generare previsioni. Rappresentano aspetti misurabili del comportamento, del contesto o dello stato all'interno dei dati, come la frequenza degli acquisti o la posizione geografica.

Ad esempio, nel rilevamento delle frodi, i modelli si basano su segnali curati piuttosto che su dati non elaborati. Le funzioni potrebbero includere il numero di transazioni nell'ultima settimana o la localizzazione degli acquisti recenti, rappresentazioni pensate per catturare schemi che potrebbero indicare comportamenti fraudolenti.

Le funzioni, spesso chiamate funzioni di ML, vengono generate da più fonti di dati e organizzate in set di dati che supportano sia i workflow di data science che di machine learning. Queste funzioni vengono quindi utilizzate per addestrare i modelli, valutare le metriche e distribuire i modelli nei sistemi di produzione.

Qual è lo scopo dei feature store nel ML?

I modelli di machine learning lavorano su rappresentazioni numeriche dei dati. Ogni punto dati è espresso come un insieme di valori di funzione, spesso in forma vettoriale, dove ogni dimensione corrisponde a un attributo specifico. Mentre alcuni tipi di dati strutturati sono intrinsecamente numerici, come le informazioni contabili, altri, come testo, immagini o audio, non sono strutturati e devono essere trasformati in forma numerica strutturata prima di poter essere utilizzati da un modello.

Un modo per trasformare i dati non strutturati è attraverso il feature engineering, dove i dati non strutturati vengono convertiti in input strutturati e leggibili da macchina utilizzando tecniche come aggregazioni, filtraggio e codifica. Il feature engineering include anche l'estrazione delle funzioni (dove gli algoritmi derivano rappresentazioni significative dai dati non elaborati) e la selezione delle funzioni (che identifica le variabili più rilevanti).

Poiché i workflow di machine learning comprendono l'addestramento dei modelli e l'inferenza, le funzioni vengono calcolate sia dai dati storici che dai nuovi dati in produzione. Mantenere l'allineamento richiede coordinamento tra pipeline dati, pipeline di funzioni e sistemi di ingegneria dei dati, una sfida che i feature store sono progettati per affrontare.

In pratica, le funzioni memorizzano ogni fase del ciclo di vita del machine learning:

  • Ingegneria e sviluppo delle funzioni: fornisce un ambiente strutturato per la definizione di nuove funzioni, consentendo ai team di condividere le funzioni, riutilizzarle ed evitare implementazioni duplicate.
  • Formazione dei modelli: fornisce i dati storici delle funzioni e i dati di addestramento, assicurando che i modelli siano addestrati su set di dati affidabili.
  • Inferenza e servizio: fornire valori di funzioni in tempo reale tramite sistemi di feature store online, abilitando previsioni a bassa latenza.
  • Monitoraggio e iterazione: monitorare le metriche, rilevare lo sbilanciamento (o distribuzione diseguale dei dati) e monitorare la qualità delle funzioni all'interno dei workflow.

Perché i feature store sono importanti

Le prestazioni dei modelli di machine learning, che sono alla base di molti dei sistemi di intelligenza artificiale (AI) odierni, dipendono direttamente dalla qualità delle loro variabili di input. Ciò che entra determina ciò che esce.

I valori delle funzioni determinano il modo in cui i modelli interpretano i pattern nei dati di addestramento e applicano tali pattern ai nuovi dati. Questo coordinamento migliora le prestazioni dei modelli facendo due cose: gestendo i dati delle funzioni su larga scala e fornendo al contempo coerenza tra addestramento e inferenza.

Gestione dei dati delle funzioni su larga scala

Con la scalabilità dei sistemi di apprendimento automatico, la gestione dei dati sulle funzioni diventa sempre più complessa. Le funzioni vengono generate e distribuite in più workflow, spesso da team di data engineering e ML che lavorano in ambienti distribuiti.

Senza un sistema centralizzato, emergono funzioni duplicate e definizioni di funzioni incoerenti. I team possono calcolare le stesse funzioni usando una logica leggermente diversa, portando a incoerenze all'interno dei set di dati e delle pipeline. Queste incongruenze rendono più difficile il riutilizzo delle funzioni e introducono rischi nello sviluppo del modello.

Garantire la coerenza tra formazione e inferenza

Durante l'addestramento del modello, le funzioni vengono calcolate da dati storici e organizzate in set di dati di addestramento. Una volta implementate, queste stesse definizioni di funzioni devono essere applicate a nuovi dati e ricalcolate per inferenza, spesso in ambienti in tempo reale o quasi in tempo reale.

Anche piccole differenze nel modo in cui vengono calcolate le funzioni possono introdurre incongruenze tra gli input di training e quelli di produzione, spesso definite "skew training-serving", che possono portare a un degrado delle prestazioni del modello.

I feature store affrontano queste sfide centralizzando le definizioni delle funzioni e standardizzando le trasformazioni delle funzioni. Le funzioni sono definite una sola volta, memorizzate in un sistema condiviso e accessibili tramite un'application programming interface (API) o un'interfaccia software development kit (SDK). Questo coordinamento, spesso gestito tramite un registro, consente ai team di riutilizzare le funzioni attraverso più pipeline, modelli e casi d'uso.

Come funzionano i feature store

L'architettura del feature store collega i dati tra diverse fasi chiave del machine learning, tra cui:

  • Ingestione e trasformazione
  • Livelli di archiviazione
  • Feature serving
  • Feature registry e metadati
  • Orchestrazione e gestione del ciclo di vita

Ingestione e trasformazione

I dati vengono raccolti da molteplici fonti e processati tramite pipeline di acquisizione. Queste pipeline applicano trasformazioni di dati e funzioni per convertire i dati non elaborati in valori di funzioni.

Il calcolo delle funzioni può avvenire in diversi modi: elaborazione batch dei dati precedentemente raccolti; pipeline di streaming per aggiornamenti in tempo reale; e calcolo delle funzioni on-demand in tempo di inferenza. Queste trasformazioni sono spesso implementate utilizzando Python, linguaggio di query strutturato (SQL) o altri sistemi all'interno di workflow automatizzati .

Livelli di storage

I feature store utilizzano un modello di archiviazione duale, costituito da un negozio fisico e un negozio online. Lo store offline, o feature store, mantiene i dati storici delle funzioni e supporta l'addestramento dei modelli fornendo accesso ai dati di addestramento e ai dataset di addestramento. In genere, viene costruito su data warehouse o data lake .

L'online store, o feature store online, mantiene i valori attuali delle funzioni e supporta la ricerca a bassa latenza durante l'inferenza del modello. Questa separazione tra negozi offline e online consente sia scalabilità che prestazioni su diversi workload.

Feature serving

Il feature serving è il processo di consegna dei valori delle funzioni ai modelli di machine learning. Un livello API o SDK consente alle applicazioni di recuperare le funzioni tra gli ambienti, garantendo che le definizioni delle funzioni rimangano allineate. Aiuta inoltre a minimizzare la distorsione tra l'addestramento e il servizio e garantisce che i modelli ricevano valori di funzioni aggiornati quando effettuano previsioni.

Feature registry e metadati

Un feature registry funge da sistema centralizzato di registrazione per le definizioni delle funzioni. Memorizza i metadati, il lignaggio e le informazioni di versioning, fornendo visibilità su come vengono costruite le funzioni e dove vengono utilizzate. Questa tracciabilità rende più facile scoprire funzioni riutilizzabili, far rispettare la governance e il controllo degli accessi, e monitorare le dipendenze all'interno dei workflow.

Orchestrazione e gestione del ciclo di vita

I feature store orchestrano pipeline e workflow lungo tutto il ciclo di vita delle funzioni. I compiti comuni includono l'automatizzazione del calcolo delle funzioni, la gestione delle operazioni di riempimento per dati storici delle funzioni, il ricalcolo quando le definizioni cambiano e l'identificazione di funzioni duplicate o obsolete. L'orchestrazione, quindi, garantisce che le pipeline delle funzioni rimangano affidabili e scalabili su tutta la piattaforma dati.

AI Academy

È la gestione dei dati il segreto dell’AI generativa?

Scopri perché i dati di alta qualità sono fondamentali per un uso efficace dell'AI generativa.

Funzionalità principali di un feature store

Sebbene le implementazioni varino, la maggior parte dei feature store offre un insieme coerente di funzionalità che vanno oltre la loro architettura di base, abilitando workflow di machine learning scalabili e affidabili.

Trasformazione delle funzioni

Assicura un calcolo coerente delle funzioni all'interno dei workflow, in modo da applicare la stessa logica sia durante la formazione che l'inferenza.

Offline store e online store

Consente sia l'analisi storica che l'accesso a bassa latenza ai valori delle funzioni, supportando l'elaborazione batch e gli ambienti di streaming.

Feature serving

Offre un recupero rapido e affidabile dei valori delle funzioni per le previsioni dei modelli, sia in tempo reale che nei casi d'uso ad alto rendimento.

Feature registry

Centralizza le definizioni delle funzioni per migliorare la reperibilità, il versioning e la governance tra team e workflow.

Orchestrazione

Automatizza i workflow e la gestione del ciclo di vita tra le pipeline di funzioni per mantenere affidabilità e scalabilità.

Controllo degli accessi e sicurezza

Applica le politiche e le autorizzazioni di governance per proteggere i dati delle funzioni e ridurre il rischio di fuga di dati

Insieme, queste funzionalità definiscono come i dati delle funzioni vengono gestiti nei workflow di machine learning. Riflettono anche come le caratteristiche si inseriscono all'interno di un'architettura datipiù ampia.

I sistemi di dati tradizionali, come i magazzini e altri archivi di dati, sono progettati per elaborare e spostare i dati in tutta l'organizzazione. Tuttavia, questi dati non sono intrinsecamente pronti per il machine learning.

I feature store si basano su questa base organizzando i dati delle funzioni in input riutilizzabili per i modelli di machine learning, standardizzando come le funzioni vengono definite, calcolate e servite nelle fasi di sviluppo e produzione.

Vantaggi dei feature store

I feature store offrono una serie di vantaggi pratici che migliorano lo sviluppo e la manutenzione dei sistemi di machine learning.

  • Migliore efficienza nello sviluppo dei modelli: le definizioni di funzioni riutilizzabili riducono la necessità di ricostruire le funzioni per ogni nuovo progetto, permettendo ai team di concentrarsi sulla progettazione del modello piuttosto che sulla preparazione dei dati.
  • Coerenza tra i modelli di machine learning: le pipeline di funzioni standardizzate assicurano che le funzioni siano calcolate nello stesso modo durante l'addestramento e l'inferenza, riducendo il rischio di distorsioni dovute all'addestramento.
  • Collaborazione più forte tra i team: i dati centralizzati sulle funzioni permettono a data scientist, team di data engineering e ML di condividere funzioni e lavorare da un sistema comune di registrazione (SOR).
  • Governance e tracciabilità: i feature store introducono un SOR strutturato per le definizioni di funzioni, rendendo più facile comprendere come le funzioni vengono definite e utilizzate tra i modelli e al contempo applicando standard coerenti.
  • Supporto per il machine learning in tempo reale: i feature store consentono un accesso a bassa latenza ai valori delle feature tramite sistemi di feature store online, supportando casi d'uso come iperpersonalizzazione e motori di raccomandazione.
  • Workflow scalabile e ripetibile: pipeline di funzioni automatizzate e orchestrazione supportano Operazioni di machine learning (MLOps). Questo consente alle organizzazioni di scalare i sistemi di machine learning tra team e casi d'uso.

I feature store consentono inoltre un servizio di funzioni ad alto throughput utilizzando strati di archiviazione ottimizzati e sistemi key-value come Redis, comunemente distribuiti come servizi gestiti in-memory nelle piattaforme dati moderne. Questo approccio aiuta a garantire che i modelli recuperino in modo efficiente i valori delle funzioni aggiornati.

Scegliere un feature store

La scelta di un feature store dipende dall'architettura dei dati, dall'infrastruttura e dalla maturità del machine learning di un'organizzazione. Le considerazioni tipiche includono:

  • Integrazione con le piattaforme di dati esistenti
  • Opzioni open source e gestite
  • Requisiti architettonici e workload
  • Governance e fiducia

Integrazione con le piattaforme di dati esistenti

I feature store devono allinearsi con pipeline di dati esistenti, data warehouse, data lake e sistemi di piattaforme dati più ampi. Tuttavia, integrare pipeline di funzioni in workflow consolidati spesso richiede rifattorizzare le trasformazioni dei dati e coordinare tra i team.

Di conseguenza, le organizzazioni tipicamente iniziano valutando come un feature store si integra con strumenti esistenti come Snowflake, Databricks e servizi AWS come SageMaker Feature Store. Spesso, i feature store sono integrati come parte di sistemi MLOps più ampi che collegano data engineering e implementazione dei modelli. 1

Opzioni open source e gestite

Le implementazioni dei feature store variano ampiamente, con le organizzazioni che bilanciano continuamente prestazioni, scalabilità e complessità operativa. 2 I framework open source per feature store come Feast permettono alle aziende di costruire e gestire le proprie pipeline e infrastrutture di funzioni, mentre piattaforme come Tecton offrono soluzioni completamente gestite e pronte per la produzione.

Alcune organizzazioni, tuttavia, scelgono di costruire proprie piattaforme di machine learning end-to-end, come Michelangelo di Uber, che includono funzionalità di feature store come parte di un sistema più ampio. In definitiva, la decisione di costruire o adottare un feature store dipende dalle competenze interne e dai requisiti di scalabilità a lungo termine.

Requisiti e workload di architettura

I requisiti architettonici giocano un ruolo centrale. Alcuni casi d'uso richiedono la funzione in tempo reale o a bassa latenza, mentre altri dipendono dall'elaborazione batch o dal calcolo delle funzioni on-demand. I requisiti ad alto throughput impongono anche richieste significative all'infrastruttura man mano che i volumi dati aumentano.

Supportare sia il trattamento dei dati storici che l'inferenza in tempo reale diventa complesso quando si deve mantenere la coerenza tra i valori delle funzioni offline e online. Le ricerche evidenziano come la progettazione dei store di funzioni sia spesso guidata da questi requisiti di workload, con problemi come la latenza, la scalabilità e la correttezza point-in-time3

Governance e fiducia

La governance è altrettanto importante. I feature store operano su dati condivisi, quindi le organizzazioni necessitano di una chiara visibilità su come le funzioni vengono definite, testate e utilizzate.

Poiché i dati delle funzioni vengono condivisi tra i team, le organizzazioni devono applicare controlli per prevenire la fuga di dati e garantire che le funzioni vengano calcolate in modo coerente. I framework di governance formali possono supportare coerenza, lineage e conformità attraverso pipeline di funzioni,4 aiutando a mantenere la fiducia nei sistemi di machine learning.

Autori

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Soluzioni correlate
IBM StreamSets

Crea e gestisci pipeline di dati intelligenti in streaming attraverso un'interfaccia grafica intuitiva, che facilita la perfetta integrazione dei dati in ambienti ibridi e multicloud.

Esplora StreamSets
IBM watsonx.data™

Watsonx.data ti consente di scalare analytics e AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.

Scopri watsonx.data
Servizi di consulenza per dati e analytics

Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics
Fai il passo successivo

Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.

  1. Esplora le soluzioni di gestione dei dati
  2. Scopri watsonx.data
Note a piè di pagina

1 An Analysis of MLOps Architectures: A Systematic Mapping Study, arXiv, 28 giugno 2024.

2 Evolution of Feature Store Architectures in Modern ML Platforms, International Journal of Information Technology and Management Information Systems (IJITMIS), marzo-aprile 2025.

3 Conceptual Approaches to Organizing Feature Stores in High-Load ML Systems, International Journal of Computer (IJC), 2 febbraio 2026.

4 A Formal Model for Feature Store Architecture and Governance, International Journal of Computational and Experimental Science and Engineering, dicembre 2025.