Le funzioni o le variabili dei dati sono gli attributi di un set di dati che i modelli di machine learning utilizzano per prendere decisioni e fare previsioni. Ad esempio, per un modello di computer vision creato per identificare le specie vegetali, le funzioni dei dati potrebbero includere la forma e il colore delle foglie.
L'ingegneria delle funzioni è il processo trasformativo mediante il quale un data scientist estrae nuove informazioni dai dati di input e le prepara per il machine learning. Una buona ingegneria e selezione delle funzioni può determinare la differenza tra prestazioni del modello accettabili e di alta qualità.
L'ingegneria automatizzata delle funzioni automatizza il processo di esplorazione dello spazio delle funzioni, compilazione dei valori mancanti e selezione delle funzioni da utilizzare. Costruire manualmente una singola funzione può richiedere ore, e il numero di funzioni necessarie per un punteggio minimo di precisione (per non parlare di una linea di base di precisione a livello di produzione) può arrivare a centinaia. La progettazione automatizzata delle funzioni riduce questa fase da giorni a minuti.
Oltre ai vantaggi in termini di efficienza, l'efficienza della funzione automatizzata aumenta anche la spiegabilità dell'AI—importante per settori altamente regolamentati come l'assistenza sanitaria o la finanza. Una maggiore chiarezza delle funzioni rende i modelli più convincenti e attuabili scoprendo nuovi KPI.