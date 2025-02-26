Bei der Arbeit mit scikit-learn muss sichergestellt sein, dass die Trainingsdaten ordnungsgemäß vorbereitet und formatiert sind, bevor sie in das maschinelle Lernmodell eingegeben werden. Dieser Prozess wird als Vorverarbeitung bezeichnet und scikit-learn bietet eine Reihe von Tools, die bei der Organisation des Datensatzes helfen. Eine häufige Aufgabe in dieser Phase der scikit-learn-Vorverarbeitung ist die Normalisierung, bei der numerische Funktionen mithilfe von Techniken wie MinMax Scaler oder Standard Scaler so skaliert werden, dass sie ähnliche Größenordnungen haben. Wenn der Datensatz von kategorialen Variablen in numerische Repräsentationen kodiert werden muss, können One-Hot Encoding (OHE) oder LabelEncoder (LE) sie mit dem Workflow kompatibel machen. OHE wandelt kategoriale Datenwerte in binäre Vektoren um, sodass für jede Kategorie eine neue Spalte mit einer 1 oder 0 entsteht, die das Vorhandensein oder Nichtvorhandensein der Kategorie angibt. LE wird beim maschinellen Lernen verwendet, wo Kategorien oder Klassen numerische Beschriftungen zugewiesen werden. Im Gegensatz zu One-Hot Encoder werden keine neuen Spalten erstellt, sondern kategoriale Werte durch ganzzahlige Werte ersetzt. Es kann zu Problemen wie der Ordinalitätsannahme führen und wird aufgrund seiner Einschränkungen im modernen maschinellen Lernen seltener als OHE eingesetzt.