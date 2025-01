Bei der Merkmalsextraktion wird Rohtext in numerische Darstellungen umgewandelt, die von Maschinen analysiert und interpretiert werden können. Dabei wird Text mithilfe von NLP-Techniken wie Bag of Words und TF-IDF, die die Präsenz und Bedeutung von Wörtern in einem Dokument quantifizieren, in strukturierte Daten umgewandelt. Zu den fortschrittlicheren Methoden gehören Wort-Einbettungen wie Word2Vec oder GloVe, die Wörter als dichte Vektoren in einem kontinuierlichen Raum darstellen und semantische Beziehungen zwischen Wörtern einfangen. Kontextuelle Einbettungen verbessern dies noch weiter, indem sie den Kontext berücksichtigen, in dem Wörter erscheinen, und so reichhaltigere, nuanciertere Darstellungen ermöglichen.