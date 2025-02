Bei der Funktionstransformation handelt es sich um den Prozess der Umwandlung eines Funktionstyps in eine andere, besser lesbare Form für ein bestimmtes Modell. Dabei werden kontinuierliche in kategorische Daten umgewandelt oder umgekehrt.

Binning. Diese Technik wandelt im Wesentlichen fortlaufende, numerische Werte in kategorische Funktionen um. Insbesondere wird beim Binning jeder Wert mit der Nachbarschaft der ihn umgebenden Werte verglichen und dann die Datenpunkte in eine Reihe von Klassen sortiert. Ein einfaches Beispiel für Einteilung ist die Altersdemografie, bei der fortlaufende Altersgruppen in Altersgruppen unterteilt werden, zum Beispiel 18-25, 25-30 usw. Sobald Werte in Klassen eingeteilt wurden, können Sie die Klassen mit Mitteln, Medianen oder Grenzen weiter ausgleich. Durch das Ausgleichen werden die in einer Bin enthaltenen Werte durch von der Bin abgeleitete Werte ersetzt. Wenn wir beispielsweise eine Klasse mit Alterswerten zwischen 18 und 25 durch den Mittelwert ausgleichen, ersetzen wir jeden Wert in dieser Klasse durch den Mittelwert der Werte dieser Klasse. Binning erstellt kategoriale Werte aus kontinuierlichen Werten. Mit dem Ausgleichen wird lokal das Datenrauschen bei der Eingabe reduziert.7

One-Hot-Codierung. Dies ist das Gegenteil von Binning; es erstellt numerische Funktionen aus kategorialen Variablen. Bei der One-Hot-Codierung werden kategoriale Merkmale binären Darstellungen zugeordnet, die zur Abbildung des Merkmals in einer Matrix oder einem Vektorraum verwendet werden. In der Literatur wird diese binäre Darstellung oft als Dummy-Variable bezeichnet. Da bei der One-Hot-Codierung die Reihenfolge ignoriert wird, eignet sie sich am besten für nominale Kategorien. Bag-of-Words-Modelle sind ein Beispiel für One-Hot-Codierung, die häufig bei Aufgaben zur Verarbeitung natürlicher Sprache verwendet wird. Ein weiteres Beispiel für One-Hot-Encoding ist die Klassifizierung von Spamfilter, bei der die Kategorien Spam und Kein Spam in 1 bzw. 0 umgewandelt werden.8