Presto è diventato uno strumento popolare per i data scientist e gli ingegneri che hanno a che fare con più linguaggi di query, database in silo e diversi tipi di storage. Le sue funzionalità ad alte prestazioni consentono agli utenti di interrogare grandi volumi di dati in tempo reale, indipendentemente dalla posizione dei dati, utilizzando una semplice interfaccia ANSI SQL. La velocità e le prestazioni di Presto nell'esecuzione di query su grandi volumi di dati lo hanno reso uno strumento indispensabile per alcune delle aziende più grandi del mondo, tra cui Facebook, Airbnb, Netflix, Microsoft, Apple (iOS) e AWS (Athena e Amazon s3).
L'architettura Presto è unica in quanto è progettata per interrogare i dati indipendentemente dalla posizione di storage, rendendoli più scalabili ed efficienti rispetto ad altre soluzioni simili. Le query di Presto consentono agli ingegneri di utilizzare i dati senza doverli spostare fisicamente da posizione alla posizione. Si tratta di una capacità importante per le organizzazioni che hanno a che fare con una quantità sempre maggiore di dati da memorizzare e analizzare.
Presto è stato creato per consentire a data scientist e ingegneri di interrogare in modo interattivo grandi quantità di dati, indipendentemente dall'origine o dal tipo di storage. Poiché Presto non memorizza dati, ma comunica piuttosto con un database separato per le sue query, è più flessibile rispetto ai concorrenti e può aumentare o ridurre rapidamente le query in base alle mutevoli esigenze dell'organizzazione. Secondo un white paper di IBM, Presto, ottimizzato per i workload di business intelligence (BI), può aiutare le aziende a ottimizzare i prezzi dei loro data warehouse e ridurre i costi fino al 50%.
Ecco alcuni dei principali vantaggi offerti dall'utilizzo di un workflow Presto:
Costi inferiori: man mano che crescono le dimensioni dei data warehouse e il numero di utenti che eseguono query, non è raro che le aziende vedano i costi aumentare rapidamente. Presto, tuttavia, è ottimizzato per grandi quantità di piccole query, semplificando l'interrogazione di qualsiasi quantità di dati mantenendo al contempo bassi i costi. Inoltre, poiché Presto è open source, non vi sono costi connessi alla sua implementazione e questo può comportare risparmi significativi per le aziende che desiderano elaborare grandi volumi di dati.
Maggiore scalabilità: è normale che gli ingegneri configurino più motori e linguaggi su un unico sistema di storage data lake e questo può rendere necessario il replatforming in futuro e limitare la scalabilità della soluzione. Con Presto, tutte le query vengono condotte utilizzando il linguaggio e l'interfaccia universali ANSI SQL, rendendo ridondante il replatforming. Inoltre, Presto può essere utilizzato sia per piccole che per grandi quantità di dati e può essere facilmente ampliato da uno o due utenti a migliaia. Presto implementa più motori di calcolo con dialetti e API SQL unici e questo lo rende uno strumento ideale per scalare workload che potrebbero essere troppo complessi e dispendiosi in termini di tempo per essere gestiti da team di ingegneri e data scientist.
Prestazioni migliori: mentre molti motori di query che eseguono SQL su Hadoop sono limitati nelle prestazioni di calcolo perché sono progettati per scrivere i risultati su disco, il modello distribuito in memoria di Presto consente di eseguire grandi quantità di query interattive contemporaneamente su set di dati di grandi dimensioni.Seguendo un classico design di MPP (massively parallel processing ), Presto pianifica quante più query possibili su un singolo nodo di lavoro e utilizza lo streaming shuffle in memoria per aumentare ulteriormente la velocità di elaborazione.L'esecuzione delle attività in memoria rende ridondanti la scrittura e la lettura dal disco tra le fasi e riduce il tempo di ciascuna esecuzione delle query, facendo di Presto un'opzione di latenza inferiore rispetto alla concorrenza.
Flessibilità migliorata: Presto utilizza un modello plug-and-play per tutte le sue origini dati, tra cui Cassandra, Kafka, MySQL, Hadoop, file system distribuito (HDFS), PostgreSQL e altri, rendendo le query su di essi più veloci e più agevoli rispetto ad altri strumenti paragonabili che mancano questa funzionalità. Inoltre, l'architettura flessibile di Presto significa che non è limitata a un singolo fornitore, ma funziona sulla maggior parte delle distribuzioni Hadoop, diventando uno degli strumenti più portatili disponibili.
Sebbene Presto non sia l'unica opzione SQL-on-Hadoop disponibile per sviluppatori e ingegneri dei dati, la sua architettura unica che mantiene le funzionalità di query separate dal data storage la rende una delle più flessibili. A differenza di altri strumenti, Presto separa il motore di query dal data storage e utilizza connettori per comunicare tra di loro. Questa funzionalità aggiuntiva offre agli ingegneri maggiore flessibilità rispetto ad altri strumenti nel modo in cui costruiscono soluzioni utilizzando Presto.