Home
topics
Data science
La data science combina matematica e statistica, programmazione specializzata, analytics avanzati, intelligenza artificiale (AI) e machine learning con competenze specifiche in materia per scoprire insight fruibili nascosti nei dati di un'organizzazione. Questi insight possono essere utilizzati per guidare il processo decisionale e la pianificazione strategica.
L'accelerazione del volume delle fonti di dati, e quindi dei dati, ha reso la data science uno dei campi in più rapida crescita in ogni settore. Di conseguenza, non sorprende che il ruolo del data scientist sia stato definito il "lavoro più sexy del 21° secolo" da Harvard Business Review (link esterno a ibm.com). Le organizzazioni si affidano sempre più a loro per interpretare i dati e fornire raccomandazioni attuabili per migliorare i risultati aziendali.
Il ciclo di vita della data science coinvolge vari ruoli, strumenti e processi, che consentono agli analisti di raccogliere insight utili. Tipicamente, un progetto di data science attraversa le seguenti fasi:
Usa questo ebook per allinearti con altri leader sui 3 obiettivi chiave di MLOps e dell'AI affidabile: fiducia nei dati, fiducia nei modelli e fiducia nei processi.
La data science è considerata una disciplina, mentre i data scientist sono i professionisti in quel campo. I data scientist non sono necessariamente responsabili di tutti i processi coinvolti nel ciclo di vita della data science. Ad esempio, le pipeline di dati sono in genere gestite da ingegneri dei dati, ma il data scientist può fornire consigli sul tipo di dati utili o necessari. Sebbene i data scientist possano creare modelli di machine learning, scalare questi sforzi a un livello più ampio richiede maggiori skill di ingegneria del software per ottimizzare un programma affinché venga eseguito più rapidamente. Di conseguenza, è comune che un data scientist collabori con ingegneri di machine learning per scalare i modelli di machine learning.
Le responsabilità dei data scientist possono comunemente sovrapporsi a quelle degli analisti di dati, in particolare per quanto riguarda l'analisi esplorativa e la visualizzazione dei dati. Tuttavia, le competenze di un data scientist sono generalmente più ampie rispetto all'analista medio dei dati. In termini comparativi, i data scientist utilizzano linguaggi di programmazione comuni, come R e Python, per condurre più inferenza statistica e visualizzazione dei dati.
Per svolgere queste attività, i data scientist richiedono skill informatiche e di scienza pura superiori a quelle di un tipico analista aziendale o di dati. Il data scientist deve anche comprendere le specificità dell'azienda, come la produzione di automobili, l'e-commerce o la sanità.
In breve, un data scientist deve essere in grado di:
Queste skill sono molto richieste e, di conseguenza, molte persone che stanno intraprendendo una carriera nella data science esplorano una varietà di programmi di scienza dei dati, come programmi di certificazione, corsi di data science e corsi di laurea offerti da istituti di istruzione.
Il nuovissimo studio aziendale che riunisce il machine learning tradizionale e le nuove funzionalità di AI generativa basate su foundation model.
Può essere facile confondere i termini "data science" e "business intelligence" (BI) perché entrambi si riferiscono ai dati di un'organizzazione e all'analisi di tali dati, ma differiscono nell'obiettivo.
Business intelligence (BI) è in genere un termine generico per la tecnologia che consente la preparazione, il data mining, la gestione e la visualizzazione dei dati. Gli strumenti e i processi di business intelligence consentono agli utenti finali di identificare le informazioni utilizzabili dai dati non elaborati, facilitando il processo decisionale basato sui dati all'interno delle organizzazioni di vari settori. Sebbene gli strumenti di data science si sovrappongano in gran parte a questo aspetto, la business intelligence si concentra maggiormente sui dati del passato e gli insight degli strumenti di BI sono di natura più descrittiva. Utilizza i dati per capire cosa è successo prima per informare una linea di condotta. La BI è orientata verso dati statici (immutabili) che solitamente sono strutturati. Sebbene la data science utilizzi dati descrittivi, in genere li utilizza per determinare variabili predittive, che vengono quindi utilizzate per classificare i dati o per fare previsioni.
La data science e la BI non si escludono a vicenda: le organizzazioni digitalmente avanzate le utilizzano entrambe per comprendere appieno ed estrarre valore dai propri dati.
I data scientist si affidano ai linguaggi di programmazione più diffusi per condurre analisi esplorative dei dati e regressione statistica. Questi strumenti open source supportano funzionalità precostituite di modellazione statistica, machine learning e grafica. Questi linguaggi includono quanto segue (approfondimenti in "Python vs. R: qual è la differenza?"):
Per facilitare la condivisione di codice e altre informazioni, i data scientist possono utilizzare i notebook GitHub e Jupyter.
Alcuni data scientist potrebbero preferire un'interfaccia utente, e due strumenti aziendali comuni per l'analisi statistica includono:
I data scientist acquisiscono inoltre competenze nell'utilizzo di piattaforme di trattamento dei big data, come Apache Spark, il framework open source Apache Hadoop e i database NoSQL. Sono anche esperti di un'ampia gamma di strumenti di visualizzazione dei dati, tra cui i semplici strumenti grafici inclusi nelle applicazioni di presentazione aziendale e nei fogli di calcolo (come Microsoft Excel), gli strumenti di visualizzazione commerciali costruiti ad hoc come Tableau e IBM Cognos e gli strumenti open source come D3.js (una libreria JavaScript per la creazione di visualizzazioni interattive dei dati) e RAW Graphs. Per la creazione di modelli di machine learning, i data scientist si rivolgono spesso a diversi framework come PyTorch, TensorFlow, MXNet e Spark MLib.
Data la ripida curva di apprendimento nella data science, molte aziende stanno cercando di accelerare il ritorno sull'investimento per i progetti di AI; spesso hanno difficoltà ad assumere i talenti necessari per realizzare il pieno potenziale del progetto di data science. Per colmare questa lacuna, si rivolgono a piattaforme di data science e machine learning (DSML) multipersona, dando vita al ruolo di "citizen data scientist".
Le piattaforme DSML multipersona utilizzano automazione, portali self-service e interfacce utente a uso limitato di codice o nullo in modo che le persone con poca o nessuna esperienza nella tecnologia digitale o nella data science esperta possano creare valore aziendale utilizzando la data science e il machine learning. Queste piattaforme supportano anche i data scientist esperti offrendo anche un'interfaccia più tecnica. L'utilizzo di una piattaforma DSML multipersona incoraggia la collaborazione in tutta l'azienda.
Il cloud computing scala la data science fornendo l'accesso a ulteriore potenza di elaborazione, storage e altri strumenti necessari per i progetti di data science.
Poiché la data science utilizza spesso set di dati di grandi dimensioni, gli strumenti in grado di adattarsi alle dimensioni dei dati sono incredibilmente importanti, in particolare per i progetti sensibili al fattore tempo. Le soluzioni di storage su cloud, come i data lake, forniscono l'accesso all'infrastruttura di storage, e sono in grado di inserire ed elaborare grandi volumi di dati con facilità. Questi sistemi di storage offrono flessibilità agli utenti finali, consentendo loro di creare cluster di grandi dimensioni secondo necessità. Possono anche aggiungere nodi di calcolo incrementali per accelerare i processi di trattamento dei dati, consentendo all'azienda di fare compromessi a breve termine per un risultato più ampio a lungo termine. Le piattaforme cloud in genere hanno diversi modelli di prezzo, ad esempio per uso o abbonamenti, per soddisfare le esigenze dell'utente finale, sia che si tratti di una grande azienda o di una piccola startup.
Le tecnologie open source sono ampiamente utilizzate nei set di strumenti di data science. Quando sono ospitati nel cloud, i team non devono installarli, configurarli, conservarli o aggiornarli localmente. Diversi provider di cloud, tra cui IBM Cloud, offrono anche kit di strumenti preconfigurati che consentono ai data scientist di costruire modelli senza codifica, democratizzando ulteriormente l'accesso alle innovazioni tecnologiche e agli insight sui dati.
Le aziende possono sbloccare numerosi benefici offerti dalla data science. I casi d'uso più comuni includono l'ottimizzazione dei processi attraverso l'automazione intelligente e il miglioramento del targeting e della personalizzazione per migliorare l'esperienza del cliente (CX). Tuttavia, esempi più specifici includono:
Ecco alcuni casi d'uso rappresentativi per la data science e l'intelligenza artificiale:
Sperimenta con i foundation model e crea automaticamente modelli di machine learning nel nostro studio di prossima generazione per builder AI.
Sincronizza DevOps e ModelOps. Crea e scala modelli di AI con le tue app cloud-native su quasi tutti i cloud.
Aumenta l'interpretabilità dell'AI. Valuta e mitiga i rischi dell'AI. Implementa l'AI con fiducia e sicurezza.
Crea e addestra velocemente modelli predittivi di alta qualità. Semplifica la gestione del ciclo di vita dell'AI.
Autostrade per l'Italia ha implementato diverse soluzioni IBM per una trasformazione digitale completa al fine di migliorare il modo in cui monitora e mantiene la sua vasta gamma di asset infrastrutturali.
MANA Community ha collaborato con IBM Garage per creare una piattaforma AI in grado di estrarre enormi volumi di dati ambientali da più canali digitali e migliaia di fonti.
Avere una completa libertà nella scelta dei linguaggi di programmazione, degli strumenti e dei framework migliora il pensiero creativo e l'evoluzione.