Sebbene la data science e il machine learning siano correlati, sono campi molto diversi. In poche parole, la data science dà struttura ai big data mentre il machine learning si concentra sull'apprendimento dai dati stessi. Questo post approfondirà le sfumature di ogni campo.
Newsletter di settore
Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e oltre con la newsletter Think. Leggi l' Informativa sulla privacy IBM.
L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.
La data science è un campo ampio e multidisciplinare che estrae valore dagli enormi set di dati odierni. Utilizza strumenti avanzati per esaminare i dati non elaborati, raccogliere un set di dati, elaborarlo e sviluppare insight per creare significato. Le aree che compongono il campo della data science includono il mining, le statistiche, gli analytics dei dati, il data modeling e la modellazione e la programmazione di machine learning.
In definitiva, la data science viene utilizzata per definire nuovi problemi aziendali che le tecniche di machine learning e l'analisi statistica possono poi aiutare a risolvere. La data science risolve un problema aziendale comprendendo il problema, conoscendo i dati necessari e analizzando i dati per contribuire a risolvere il problema del mondo reale.
Il machine learning (ML) è un sottoinsieme dell'intelligenza artificiale (AI) che si concentra sull'apprendimento da ciò che viene fuori dalla data science. Richiede strumenti di data science per pulire, preparare e analizzare innanzitutto i big data non strutturati. Il machine learning può quindi "imparare" dai dati per creare insight che migliorano le prestazioni o informano le previsioni.
Proprio come gli umani possono imparare attraverso l'esperienza piuttosto che limitarsi a seguire le istruzioni, le macchine possono imparare applicando strumenti all'analisi dei dati. Il machine learning funziona su un problema noto con strumenti e tecniche, creando algoritmi che consentono a una macchina di apprendere dai dati attraverso l'esperienza e con un intervento umano minimo. Elabora enormi quantità di dati che un essere umano non sarebbe in grado di elaborare in una vita intera e si evolve man mano che vengono elaborati altri dati.
Nella maggior parte delle aziende, trovare, pulire e preparare i dati adeguati per l'analisi può richiedere fino all'80% della giornata di un data scientist. Anche se può essere noioso, è critico farlo bene.
I dati provenienti da varie fonti, raccolti in forme diverse, richiedono l'inserimento e la compilazione dei dati. Ciò può essere semplificato oggi con data warehouse virtuali dotati di una piattaforma centralizzata in cui è possibile memorizzare dati provenienti da diverse fonti.
Una sfida nell'applicazione della data science è identificare i problemi aziendali pertinenti. Ad esempio, il problema è legato al calo delle entrate o alle strozzature della produzione? Stai cercando uno schema che sospetti esista ma che è difficile da rilevare? Altre sfide includono la comunicazione dei risultati agli stakeholder non tecnici, la garanzia della sicurezza dei dati, l'abilitazione di una collaborazione efficiente tra data scientist e data engineer, e la determinazione di metriche appropriate degli indicatori chiave di prestazione (KPI).
Con l'aumento dei dati provenienti dai social media, dai siti di e-commerce, dalle ricerche su Internet, dai sondaggi sui clienti e altrove, è emerso un nuovo campo di studio basato sui big data. Questi vasti set di dati, che continuano ad aumentare, consentono alle organizzazioni di monitorare modelli e comportamenti di acquisto e di fare previsioni.
Poiché i set di dati non sono strutturati, però, può essere complicato e richiedere molto tempo interpretare i dati per il processo decisionale. È qui che entra in gioco la data science.
Il termine data science è stato usato per la prima volta negli anni '60 quando era intercambiabile con l'espressione "scienza dei computer". Il termine "data science" è stato utilizzato per la prima volta come disciplina indipendente nel 2001. Sia la data science che il machine learning sono utilizzati dai data engineer e in quasi tutti i settori.
I campi si sono evoluti in modo tale che per lavorare come analista di dati che visualizza, gestisce e accede ai dati, è necessario conoscere il linguaggio SQL (Structured Query Language) oltre a matematica, statistica, visualizzazione dei dati (per presentare i risultati agli stakeholder) e data mining. È inoltre necessario comprendere le tecniche di pulizia ed elaborazione dei dati. Poiché gli analisti di dati spesso creano modelli di machine learning, anche la programmazione e la conoscenza dell'AI sono preziose, così come matematica, statistica, visualizzazione dei dati (per presentare i risultati agli stakeholder) e data mining. È inoltre necessario comprendere le tecniche di pulizia ed elaborazione dei dati. Poiché gli analisti di dati spesso creano modelli di machine learning, anche la programmazione e la conoscenza dell'AI sono preziose.
La data science è ampiamente utilizzata nei settori e nel governo, dove aiuta a generare profitti, innovare prodotti e servizi, migliorare le infrastrutture e i sistemi pubblici e altro ancora.
Alcuni esempi di casi d'uso della data science includono:
L'inizio del machine learning, e il nome stesso, risale agli anni '50. Nel 1950, il data scientist Alan Turing propose quello che oggi chiamiamo test di Turing, che poneva la domanda: "Le macchine possono pensare?" Il test consiste nel verificare se una macchina può avviare una conversazione senza che un essere umano si accorga che si tratta di una macchina. A un livello più ampio, chiede se le macchine sono in grado di dimostrare l'intelligenza umana. Ciò ha portato alla teoria e allo sviluppo dell'AI.
L'informatico di IBM Arthur Samuel ha coniato l'espressione "machine learning" nel 1952. Nello stesso anno scrisse un programma per giocare a dama. Nel 1962, un maestro di dama giocò contro il programma di machine learning su un computer IBM 7094 e il computer vinse.
Oggi, il machine learning si è evoluto al punto che gli ingegneri devono conoscere la matematica applicata, la programmazione informatica, i metodi statistici, i concetti di probabilità, la struttura dei dati e altri fondamenti dell'informatica e gli strumenti di big data come Hadoop e Hive. Non è necessario conoscere SQL, poiché i programmi sono scritti in R, Java, SAS e altri linguaggi di programmazione. Python è il linguaggio di programmazione più comune utilizzato nel machine learning.
Il machine learning e il deep learning sono entrambi sottoinsiemi dell'AI. Il deep learning insegna ai computer a elaborare i dati nello stesso modo in cui lo fa il cervello umano. È in grado di riconoscere schemi complessi in testo, immagini, suoni e altri dati e creare insight e previsioni accurati. Gli algoritmi di deep learning sono reti neurali modellate sul cervello umano.
Alcuni degli algoritmi di machine learning più comunemente utilizzati includono la regressione lineare, la regressione logistica, l'albero decisionale, l'algoritmo SVM (Support Vector Machine), l'algoritmo Naive Bayes e l'algoritmo KNN. Questi possono essere l'apprendimento supervisionato, l'apprendimento non supervisionato o l'apprendimento rinforzato/per rinforzo.
Gli ingegneri del machine learning possono specializzarsi nell'elaborazione del linguaggio naturale e nella computer vision, diventare ingegneri del software focalizzati sul machine learning e altro ancora.
Ci sono alcune preoccupazioni etiche riguardanti il machine learning, come la privacy e il modo in cui vengono utilizzati i dati. I dati non strutturati sono stati raccolti dai siti di social media all'insaputa o senza il consenso degli utenti. Sebbene gli accordi di licenza possano specificare come questi dati possano essere utilizzati, molti utenti dei social media non leggono le condizioni nascoste.
Un altro problema è che non sempre sappiamo come funzionano gli algoritmi di machine learning e come "prendono decisioni". Una soluzione potrebbe essere quella di rilasciare programmi di machine learning come open source, in modo che tutti possano verificarne il codice sorgente.
Alcuni modelli di machine learning hanno utilizzato set di dati con dati distorti, che passano ai risultati del machine learning. La responsabilità nel machine learning si riferisce a quanto una persona può vedere e correggere l'algoritmo e chi è responsabile in caso di problemi con il risultato.
Alcune persone temono che l'AI e il machine learning eliminino posti di lavoro. Sebbene possa modificare i tipi di lavoro disponibili, il machine learning dovrebbe creare posizioni nuove e diverse. In molti casi, gestisce il lavoro di routine e ripetitivo, liberando gli esseri umani per passare a lavori che richiedono più creatività e hanno un impatto maggiore.
Le aziende note che utilizzano il machine learning includono piattaforme di social media, che raccolgono grandi quantità di dati e quindi utilizzano il comportamento precedente di una persona per prevedere i suoi interessi e desideri. Le piattaforme utilizzano quindi tali informazioni e la modellazione predittiva per consigliare prodotti, servizi o articoli pertinenti.
Le società di abbonamenti video su richiesta e i loro motori di raccomandazione sono un altro esempio di utilizzo del machine learning, così come il rapido sviluppo delle auto a guida autonoma. Altre società che utilizzano il machine learning sono aziende tecnologiche, piattaforme di cloud computing, aziende di abbigliamento e attrezzature atletiche, produttori di veicoli elettrici, società di aviazione spaziale e molte altre.
Praticare data science comporta delle sfide. Possono esserci dati frammentati, una carenza di competenze in data science e strumenti, pratiche e framework tra cui scegliere che hanno standard IT rigidi per la formazione e la distribuzione. Può anche essere difficile rendere operativi modelli di ML la cui accuratezza non è chiara e le cui previsioni sono difficili da verificare.
Il portfolio di prodotti IBM per la data science e il ciclo di vita dell'AI si basa sul nostro impegno di lunga data per le tecnologie open source. Include una serie di funzionalità che consentono alle aziende di sbloccare il valore dei propri dati in modi nuovi.
Watsonx è un portfolio di prodotti AI che accelera l'impatto dell'AI generativa nei workflow per aumentare la produttività. Il portfolio è composto da tre potenti componenti: lo studio watsonx.ai per nuovi foundation model, AI generativa e machine learning; lo store watsonx.data adatto allo scopo, per la flessibilità di un data lake e le prestazioni di un data warehouse; infine il toolkit watsonx.governance per consentire workflow di AI realizzati con responsabilità, trasparenza e spiegabilità.
Insieme, watsonx offre alle organizzazioni la possibilità di:
Usa strumenti e soluzioni di data science per scoprire modelli e creare previsioni utilizzando dati, algoritmi, tecniche di machine learning e AI.
Introduzione a Cognos Analytics 12.0, insight basati sull'AI per prendere decisioni migliori.
Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.