My IBM

Accedi

Che cos'è l'algoritmo Apriori?

9 giugno 2024

Autori

Joshua Noble

Data Scientist

L'algoritmo Apriori è un algoritmo di machine learning non supervisionato utilizzato per l'apprendimento delle regole di associazione. L'apprendimento delle regole di associazione è una tecnica di data mining che identifica modelli, connessioni e dipendenze frequenti tra diversi gruppi di elementi chiamati itemset nei dati. Alcuni casi d'uso comuni sono i sistemi di previsione e raccomandazione delle malattie, come la market basket analysis per le piattaforme di e-commerce.

Introdotto nel 1994 da Rakesh Agrawal e Ramakrishnan Srikant (link esterno a ibm.com), il nome "Apriori" riconosce la conoscenza precedente di itemset frequenti utilizzati dall'algoritmo nel calcolo. L'algoritmo esegue iterazioni sui dati per identificare i k-itemset, ovvero k elementi che si verificano frequentemente insieme. Utilizza quindi i k-itemset per identificare i k+1 itemset. L'algoritmo Apriori si basa sull'insight che l'aggiunta di elementi a un gruppo acquistato di frequente può solo renderlo meno frequente, non di più. Il processo si basa sulla proprietà Apriori che indica che, se un itemset viene visualizzato frequentemente in un set di dati, anche tutti i relativi sottoinsiemi devono essere frequenti. Al contrario, se un itemset viene identificato come poco frequente, tutti i relativi superset vengono considerati non frequenti.

L'algoritmo Apriori è applicabile a tutti i tipi di set di dati, in particolare quelli generati da database transazionali ed è spesso utilizzato per la market basket analysis a supporto dei sistemi di raccomandazione. Ad esempio, quando si utilizza una piattaforma di e-commerce che vende vestiti e scarpe, un acquirente cerca scarpe e decide di aggiungere un paio di scarpe nere formali al carrello. L'acquirente nota quindi che l'interfaccia consiglia altri articoli da acquistare, come i calzini. Uno dei modi in cui funziona questo sistema di raccomandazione è apprendere i modelli di acquisto dei clienti e associare articoli che solitamente vengono acquistati insieme.

Uno dei maggiori vantaggi dell'utilizzo dell'algoritmo Apriori è la sua semplicità e adattabilità. Tuttavia, gli algoritmi Apriori non sono altrettanto efficienti quando si gestiscono set di dati di grandi dimensioni. Il processo multi-iterazione di generazione di itemset candidati può diventare computazionalmente costoso e richiede molta memoria. Apriori è spesso combinato con altre tecniche per mitigare questi problemi.

La funzione Apriori è integrata in molti linguaggi di programmazione popolari, tra cui Python, Java e R, rendendo la generazione di regole di associazione di qualità insieme a frequenti itemset semplice da integrare in applicazioni o sistemi esistenti.

Come funziona l'algoritmo Apriori

Ognuno dei passaggi chiave dell'algoritmo Apriori cerca di identificare gli itemset e tutti i loro possibili superset cercando i più frequenti per creare le regole di associazione.

Passaggio 1: generazione di itemset frequenti

L'algoritmo identifica prima di tutto gli elementi unici, a volte chiamati 1-itemset, nel set di dati, insieme alle loro frequenze. Poi, combina gli elementi che appaiono insieme con una probabilità superiore a una soglia specificata in itemset candidati e filtra gli itemset poco frequenti per ridurre il costo di calcolo in fasi successive. Questo processo, noto come mining di itemset frequenti, cerca solo gli itemset con frequenze significative.

Passaggio 2: espansione e pruning degli itemset

Utilizzando la proprietà Apriori, l'algoritmo combina ulteriormente gli itemset frequenti per formare itemset più grandi. Vengono eliminate le combinazioni di itemset più grandi e con una probabilità inferiore. Ciò riduce ulteriormente lo spazio di ricerca e rende il calcolo più efficiente.

Passaggio 3: ripetizione dei passaggi 1 e 2

L'algoritmo ripete i passaggi 1 e 2 fino a quando tutti gli itemset frequenti che soddisfano la probabilità di soglia definita vengono generati in modo esaustivo. Ogni iterazione genera associazioni più complesse e complete negli itemset.

Una volta che Apriori ha creato gli itemset, è possibile studiare la forza delle associazioni e delle relazioni generate.

Le ultime notizie e insight sull'AI  

Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think.

Iscriviti oggi

Misurazione degli itemset

L'algoritmo Apriori utilizza le metriche di supporto, confidenza e lift per definire i criteri operativi e migliorare l'efficienza delle prestazioni.

Supporto

Il supporto è definito come il rapporto tra il numero di volte in cui un elemento si presenta nelle transazioni e il numero totale di transazioni. Questa metrica definisce quindi la probabilità che si verifichi ogni singolo elemento nelle transazioni. La stessa logica può essere estesa agli itemset.

$S (I_{A}) = \frac{O C C (I_{A})}{T o T a l T r a n s a C T i o n s}$

dove I_Aè l'elemento A, Occ (I_A) è il numero di occorrenze dell'elemento A e S (I_A) equivale al supporto dell'articolo A

Ad esempio, in un negozio retail, 250 transazioni su 2000 nell'arco di un giorno potrebbero includere l'acquisto di mele. Utilizzando la formula:

$S (I_{A p p l e s}) = \frac{250}{2000} = 0,125$

Questo risultato implica che c'è una probabilità del 12,5% che le mele siano state acquistate quel giorno.

È possibile indicare una soglia minima di supporto richiesta quando si applica l'algoritmo Apriori. Ciò significa che qualsiasi elemento o itemset con supporto inferiore al supporto minimo specificato sarà considerato poco frequente.

Affidabilità

La metrica di confidenza identifica la probabilità che elementi o itemset si trovino insieme negli itemset. Ad esempio, se in una transazione sono presenti due elementi, si presuppone che l'esistenza di un elemento porti all'altro. Il primo elemento o itemset è l'antecedente e il secondo è il conseguente. La confidenza è quindi definita come il rapporto tra il numero di transazioni aventi sia l'antecedente che il conseguente e il numero di transazioni che hanno solo l'antecedente. Questo scenario è rappresentato come:

$C (A, B) = \frac{O C C (A \cap B)}{O C C (A)}$

dove A è l'antecedente, B è il conseguente e C (A, B) è la confidenza secondo cui A porta a B.

Estendendo l'esempio precedente, supponiamo che ci siano 150 transazioni in cui mele e banane sono state acquistate insieme. La confidenza è calcolata come:

$C (A p p l e s, B a n a n a s) = \frac{150}{250} = 0,6$

Questo risultato indica una probabilità del 60% che un acquisto di mele porti poi a un acquisto di banane. Allo stesso modo, supponendo un totale di 500 transazioni di banane, la confidenza che un acquisto di banane porti a un acquisto di mele viene calcolata come:

$C (B a n a n a s, A p p l e s) = \frac{150}{500} = 0,3$

Qui c'è solo il 30% di possibilità che l'acquisto di una banana porti all'acquisto di una mela.

Sebbene la confidenza sia una buona misura della probabilità, non è una garanzia di una chiara associazione tra gli elementi. Il valore della confidenza potrebbe essere alto per altri motivi. Per questo motivo, viene applicata una soglia di confidenza minima per filtrare le associazioni debolmente probabili durante il mining con le regole di associazione.

Lift

Il lift è il fattore in base al quale la probabilità che l'elemento A porti all'elemento B è superiore alla probabilità dell'elemento A. Questa metrica quantifica la forza dell'associazione tra A e B. Può aiutare a indicare se esiste una relazione reale tra gli elementi dell'itemset o se vengono raggruppati per coincidenza.

$L (A, B) = \frac{C (A, B)}{S (A)}$  

Dove L_A,B è il lift per l'elemento A che porta all'elemento B, C_A,B è la confidenza secondo cui l'elemento A porta all'elemento B, S_A è il supporto per l'elemento A.

Per l'esempio precedente, possiamo vedere che:

$L (A p p l e s, B a n a n a s) = \frac{0,6}{0,125} = 4,8$

L'elevato valore nominale indica che la probabilità che mele e banane vengano acquistate insieme è 4,8 volte superiore a quella delle mele acquistate da sole. Inoltre, si può osservare che:

$L (B a n a n a s, A p p l e s) = \frac{0,3}{0,25} = 1,2$

Il basso valore di lift indica che l'acquisto di una banana che porta all'acquisto di una mela potrebbe essere solo una coincidenza.

Mixture of Experts | Podcast

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Guarda gli episodi

Combinare Apriori con altre tecniche

In molti casi applicare un approccio brute force (link esterno a ibm.com) per calcolare le soglie di supporto e confidenza per ogni regola e poi eliminare le regole che non soddisfano una soglia può essere proibitivo dal punto di vista computazionale. Per rendere più efficiente l'applicazione dell'algoritmo Apriori, viene spesso combinato con altre tecniche di mining di regole di associazione. Due dei più comuni sono l'algoritmo FP-Growth (link esterno a ibm.com) e la sua variante FP-Max per ridurre i vincoli di memoria e calcolo. L'algoritmo Apriori può anche essere combinato con alberi decisionali, in cui l'algoritmo Apriori identifica l'itemset frequente e la tecnica degli alberi decisionali aiuta a identificare le regole di associazione.

Un'altra variante popolare dell'algoritmo Apriori è il Dynamic Itemset Counting (DIC) (link esterno a ibm.com) che inizia a contare i potenziali itemset in anticipo, senza attendere la registrazione di tutte le transazioni. Il DIC divide il set di dati in segmenti più piccoli ed elabora ogni segmento separatamente. Questa segmentazione consente l'arresto anticipato quando l'algoritmo non è in grado di identificare itemset frequenti, ma il partizionamento dei dati consente anche di ridurre significativamente il costo di calcolo.

Gli algoritmi Apriori possono essere utili anche in applicazioni di intelligenza artificiale basate sull'apprendimento non supervisionato come gli algoritmi di clustering quando i dati lo supportano. Aiuta a identificare relazioni e associazioni tra entità apparentemente indipendenti, raggruppandole in possibili cluster.

Casi d'uso dell'algoritmo Apriori

La scoperta e il raggruppamento degli itemset ha diverse applicazioni e l'algoritmo Apriori viene talvolta definito come la prima cosa che i data miner provano a causa della sua versatilità. Esamineremo alcuni dei casi d'uso comuni in diversi settori.

Market basket analysis

Una delle applicazioni più comuni dell'algoritmo Apriori è la market basket analysis. I rivenditori analizzano la cronologia degli acquisti dei clienti e ottimizzano la disposizione nei negozi posizionando gli articoli acquistati di frequente uno vicino all'altro o sullo stesso scaffale. Le piattaforme di e-commerce utilizzano gli algoritmi di Apriori per studiare le relazioni basate sui prodotti in base alle preferenze degli utenti e l'analisi dei modelli di acquisto per creare sistemi efficienti di raccomandazione dei clienti. Lo stesso tipo di analisi può essere utilizzato per ottimizzare l'acquisto di servizi, ad esempio scegliendo corsi di formazione da un catalogo, o consigliando altri tipi di copertura nella scelta dell'assicurazione.

Assistenza sanitaria

L'algoritmo Apriori può essere utilizzato per trovare forti regole di associazione tra sintomi e malattie per migliorare l'efficienza della diagnosi e ideare piani di trattamento mirati. Ad esempio, quali pazienti hanno maggiori probabilità di sviluppare il diabete (link esterno a ibm.com) o il ruolo che la dieta o lo stile di vita svolgono nella malattia (link esterno a ibm.com). Può anche aiutare a identificare i fattori associati alle reazioni avverse ai farmaci.

Web analytics

Gli algoritmi Apriori sono applicabili anche nei database non transazionali. Gli analisti di dati utilizzano spesso Apriori per il web usage mining, per analizzare i dati clickstream e per interpretare il comportamento degli utenti.

Trasformazione finanziaria

Un'altra applicazione comune dell'algoritmo Apriori è quella di identificare modelli fraudolenti nelle transazioni finanziarie. L'identificazione di specifici modelli di acquisto come possibilmente fraudolenti consente a un istituto finanziario di agire rapidamente per sospendere le transazioni o contattare il titolare di un conto.

Come scegliere il giusto foundation model

Impara a scegliere l’approccio giusto nella preparazione dei set di dati e nell’impiego dei foundation model.

Risorse

AI in Action 2024

Abbiamo intervistato 2.000 organizzazioni in merito alle loro iniziative di AI per scoprire cosa funziona, cosa non funziona e come giocare d’anticipo.

Esplora IBM Granite

IBM Granite è la nostra famiglia di modelli AI aperti, efficienti e affidabili, su misura per le aziende e ottimizzati per scalare le applicazioni di AI. Esplora le opzioni di linguaggio, codice, serie temporali e guardrail.

Migliora le tue competenza nell'AI

Accedi al nostro catalogo completo di oltre 100 corsi online acquistando oggi stesso un abbonamento individuale o multiutente che ti consentirà di ampliare le tue competenze su una gamma di prodotti a un prezzo contenuto.

AI Academy IBM

Condotto dai migliori leader di pensiero di IBM, il programma di studi è stato progettato per aiutare i dirigenti aziendali ad acquisire le conoscenze necessarie per dare priorità agli investimenti in AI che possono favorire la crescita.

Sfruttare al meglio l'AI: aumentare il ROI con la gen AI

Vuoi ottenere un ritorno migliore sui tuoi investimenti nell’AI? Scopri come lo scaling della GenAI in settori chiave può favorire il cambiamento, aiutando le tue menti migliori a creare e fornire nuove soluzioni innovative.

Sblocca la potenza dell'AI generativa + ML

Scopri come incorporare in tutta sicurezza l’AI generativa e il machine learning nella tua azienda.

Come prosperare in questa nuova era dell'AI in tutta fiducia e sicurezza

Approfondisci i 3 elementi critici di una solida strategia AI: creare un vantaggio competitivo, scalare l’AI attraverso l’azienda e promuovere un’AI affidabile.

Soluzioni correlate

IBM watsonx.ai

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e una minima quantità di dati.

Scopri watsonx.ai

Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda con l'esperienza leader di settore e il portfolio di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI

Consulenza e servizi sull'AI

Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI

Fai il passo successivo

Ottieni l'accesso completo a funzionalità che coprono l'intero ciclo di vita dello sviluppo dell'AI. Crea soluzioni AI all'avanguardia con interfacce intuitive, workflow e accesso alle API e agli SDK standard di settore.

Esplora watsonx.ai

Prenota una demo live