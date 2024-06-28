Hier sind einige der beliebtesten Arten von Data Mining:

Zuordnungsregeln: Eine Zuordnungsregel ist eine regelbasierte Wenn-Dann-Methode, um Beziehungen zwischen Variablen in einem Datensatz zu finden. Die Stärke von Beziehungen wird anhand von Unterstützung und Konfidenz gemessen. Das Konfidenzniveau basiert darauf, wie oft die „Wenn“- oder „Dann“-Aussagen wahr sind. Das Unterstützungsmaß gibt an, wie oft die zugehörigen Elemente in den Daten angezeigt werden.

Diese Methoden werden häufig für die Warenkorbanalyse verwendet, um Unternehmen ein besseres Verständnis der Beziehungen zwischen verschiedenen Produkten zu ermöglichen, z. B. welche Produkte häufig zusammen gekauft werden. Das Verständnis der Kundengewohnheiten ermöglicht es Unternehmen, bessere Cross-Selling-Strategien und Empfehlungsmaschinen zu entwickeln.



Klassifizierung: Objektklassen werden je nach Bedarf des Unternehmens vordefiniert, mit Definitionen der Merkmale, die die Objekte gemeinsam haben. Dadurch können die zugrundeliegenden Daten zur einfacheren Analyse gruppiert werden.

Ein Konsumgüterunternehmen könnte beispielsweise seine Couponing-Strategie überprüfen, indem es frühere Coupon-Einlösungen zusammen mit Verkaufsdaten, Bestandsstatistiken und allen verfügbaren Verbraucherdaten analysiert, um die beste zukünftige Kampagnenstrategie zu finden.



Clustering: Eng verwandt mit der Klassifizierung, stellt das Clustering Ähnlichkeiten fest, bietet aber auch weitere Gruppierungen auf der Grundlage von Unterschieden. Voreingestellte Klassifizierungen für einen Seifenhersteller können Waschmittel, Bleichmittel, Weichspüler, Bodenreiniger und Bohnerwachs umfassen; während durch Clustering möglicherweise Gruppen erstellt werden, die Wäscheprodukte und Bodenpflege umfassen.



Decision Tree: Diese Data-Mining-Technik verwendet Klassifizierungs- oder Regressionsanalysen, um potenzielle Ergebnisse auf der Grundlage einer Reihe von Entscheidungen zu klassifizieren oder vorherzusagen. Wie der Name des Decision Trees angibt, verwendet er eine baumähnliche Visualisierung, um die potenziellen Ergebnisse dieser Entscheidungen darzustellen.

K-Nearest Neighbor (KNN): Auch als KNN-Algorithmus bekannt, handelt es sich bei K-Nearest Neighbor um einen nichtparametrischen Algorithmus, der Datenpunkte auf der Grundlage ihrer Nähe und Zuordnung zu anderen verfügbaren Daten klassifiziert. Dieser Algorithmus geht davon aus, dass ähnliche Datenpunkte nahe beieinander gefunden werden. Daher versucht er, die Entfernung zwischen Datenpunkten zu berechnen, in der Regel durch den euklidischen Abstand, und weist dann eine Kategorie auf der Grundlage der häufigsten Kategorie oder des Durchschnitts zu.



Neural Networks: Neural Networks werden hauptsächlich für Deep-Learning-Algorithmen verwendet und verarbeiten Trainingsdaten, indem sie die Vernetzung des menschlichen Gehirns durch Ebenen von Knoten nachahmen. Jeder Knoten besteht aus Eingaben, Gewichtungen, einem Bias (Schwellenwert) und einer Ausgabe.

Wenn dieser Ausgangswert den festgelegten Schwellenwert überschreitet, „feuert“ er oder aktiviert den Knoten und leitet Daten an die nächste Ebene im Netzwerk weiter. Neuronale Netze erlernen diese Zuordnungsfunktion durch überwachtes Lernen und nehmen Anpassungen auf der Grundlage der Verlustfunktion durch den Prozess des Gradientenabfalls vor. Wenn die Kostenfunktion bei oder nahe Null liegt, kann ein Unternehmen darauf vertrauen, dass das Modell die richtige Antwort liefert.

Vorhersageanalysen: Durch die die Kombination von Data Mining mit statistischen Modellierungstechniken und maschinellem Lernen können historische Daten mithilfe von Vorhersageanalysen analysiert werden, um grafische oder mathematische Modelle zu erstellen, mit denen Muster identifiziert, zukünftige Ereignisse und Ergebnisse prognostiziert und Risiken und Chancen ermittelt werden können.



Regressionsanalysen: Diese Technik ermittelt Beziehungen in Daten durch die Vorhersage von Ergebnissen auf der Grundlage vorgegebener Variablen. Dies kann Decision Trees sowie multivariate und lineare Regression umfassen. Die Ergebnisse können nach der Nähe der Beziehung priorisiert werden, um zu bestimmen, welche Daten am wichtigsten oder am wenigsten aussagekräftig sind. Ein Beispiel wäre, dass ein Hersteller von Erfrischungsgetränken den Bedarf an Getränken vor der Ankunft des vorhergesagten heißen Sommerwetters abschätzen muss.