Datenmerkmale oder Variablen sind die Attribute eines Datensatzes, die Modelle für maschinelles Lernen für die Entscheidungsfindung und Vorhersagen verwenden. Bei einem Computer-Vision-Modell, das zur Identifizierung von Pflanzenarten entwickelt wurde, könnten zu den Datenmerkmalen beispielsweise die Blattform und -farbe gehören.
Feature Engineering ist der transformative Prozess, bei dem ein Data Scientist neue Informationen aus Input zieht und sie für maschinelles Lernen aufbereitet. Eine gute Technik und Funktionsauswahl können den Unterschied zwischen einer akzeptablen und einer hochwertigen Modellleistung ausmachen.
Automatisiertes Funktions-Engineering automatisiert den Prozess der Erkundung des Funktionsraums, des Ausfüllens fehlender Werte und der Auswahl von Funktionen, die verwendet werden sollen. Die manuelle Erstellung eines einzigen Merkmals kann Stunden dauern, und die Anzahl der Merkmale, die für ein Minimum an Genauigkeit erforderlich sind – ganz zu schweigen von einer Basisgenauigkeit auf Produktionsniveau – kann in die Hunderte gehen. Automatisiertes Funktions-Engineering verkürzt diese Phase von Tagen auf Minuten.
Zusätzlich zu den Vorteilen erhöht die Effizienz automatisierter Funktionen auch die KI-Erklärbarkeit – wichtig für streng regulierte Branchen wie das Gesundheitswesen oder das Finanzwesen. Eine größere Klarheit der Merkmale macht die Modelle überzeugender und besser umsetzbar, indem neue organisatorische KPIs ermittelt werden.