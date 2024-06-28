Voici quelques techniques populaires de data mining :

Règles d'association : les règles d’association sont des méthodes de type « si/alors » qui permettent de trouver des relations entre des variables dans un ensemble de données. La force des relations est mesurée par le soutien et la confiance. Le niveau de confiance indique la fréquence à laquelle les affirmations « si » ou « alors » sont vraies, tandis que la mesure de soutien représente la fréquence d'apparition des éléments associés dans les données.

Ces méthodes sont souvent utilisées dans l’analyse des paniers d’achat, permettant aux entreprises de mieux comprendre quelles sont les associations de produits souvent achetés ensemble. La compréhension des habitudes des clients permet aux entreprises de développer de meilleures stratégies de vente croisée et d'optimiser leurs moteurs de recommandation..



Classification : les classes d'objets sont prédéfinies selon les besoins de l'organisation, avec des définitions des caractéristiques communes entre ces objets. Cela permet de regrouper les données sous-jacentes afin de faciliter leur analyse.

Par exemple, une entreprise de produits de consommation peut analyser sa stratégie de coupons en examinant les échanges de coupons passés, les données de vente, les statistiques d'inventaire et les données consommateurs disponibles pour affiner ses futures campagnes.



Regroupement : étroitement lié à la classification, le regroupement identifie des similitudes tout en proposant des groupements supplémentaires basés sur les différences. Par exemple, un fabricant de produits ménagers pourrait avoir des classifications prédéfinies telles que détergent, eau de Javel, adoucissant, nettoyant pour sol et cire pour sol. Le regroupement, en revanche, pourrait créer des groupes plus larges, tels que produits de lessive et entretien des sols..



Arbre de décision : cette technique de data mining utilise des analyses de classification ou de régression pour classer ou prédire les résultats potentiels en fonction d'un ensemble de décisions. Comme son nom l'indique, l’arbre de décision utilise une visualisation en forme d’arbre pour représenter les résultats potentiels de ces décisions.

K-plus proches voisins (KNN) : également connu sous le nom d'algorithme KNN, le K-plus proches voisins est un algorithme non paramétrique qui classe les points de données en fonction de leur proximité et de leur association à d'autres données disponibles. Cet algorithme suppose que des points de données similaires sont situés à proximité les uns des autres. Il calcule donc la distance entre les points, généralement via la distance euclidienne, puis assigne une catégorie en fonction de la catégorie la plus fréquente ou de la moyenne.



Réseaux neuronaux : principalement utilisés pour les algorithmes d'apprentissage profond, les réseaux neuronaux traitent les données en imitant l'interconnectivité du cerveau humain par des couches de nœuds. Chaque nœud est composé d’entrées, de poids, d’un biais (ou seuil) et d’une sortie.

Si cette valeur de sortie dépasse un seuil donné, elle « déclenche » ou active le nœud, transmettant les données à la couche suivante du réseau. Les réseaux neuronaux apprennent cette fonction de mappage au moyen de l’apprentissage supervisé, apportant des ajustements basés sur la fonction de perte grâce au processus de descente de gradient. Lorsque la fonction de coût est proche de zéro, le modèle est considéré comme précis.

Analyse prédictive : en combinant data mining, techniques de modélisation statistique et machine learning, les données historiques peuvent être analysées via l'analyse prédictive pour créer des modèles graphiques ou mathématiques. Ces modèles permettent d'identifier des schémas, de prévoir des événements futurs, et d'identifier des risques ou des opportunités.



Analyse de régression: cette technique découvre des relations dans les données en prédisant des résultats à partir de variables prédéfinies. Cela peut inclure des arbres de décision, des régressions multivariées et des régressions linéaires. Les résultats sont souvent classés par ordre d'importance en fonction de la force de la relation, ce qui aide à identifier les données les plus significatives. Par exemple, un fabricant de boissons peut utiliser cette technique pour prévoir les stocks nécessaires avant une période de forte chaleur.