O Presto se tornou uma ferramenta popular para cientistas e engenheiros de dados que lidam com várias linguagens de consulta, bancos de dados isolados e diferentes tipos de armazenamento. Seus recursos de alto desempenho permitem que os usuários consultem grandes volumes de dados em tempo real, independentemente de onde os dados estejam localizados, usando uma interface ANSI SQL simples. A velocidade e o desempenho do Presto na realização de consultas em grandes volumes de dados tornaram-no uma ferramenta indispensável para algumas das maiores empresas do mundo, como Facebook, Airbnb, Netflix, Microsoft, Apple (iOS) e AWS (Athena e Amazon s3).
A arquitetura Presto é única, pois foi criada para consultar dados, não importa onde eles estejam sendo armazenados, tornando-a mais escalável e eficiente do que outras soluções semelhantes. As consultas Presto permitem que os engenheiros usem dados sem precisar migrá-los fisicamente de um local para outro. Este é um recurso importante, à medida que as organizações lidam com uma quantidade cada vez maior de dados que elas precisam armazenar e analisar.
O Presto foi criado para permitir que cientistas de dados e engenheiros consultem grandes volumes de dados de forma interativa, independentemente da origem ou do tipo de armazenamento. Como o Presto não armazena dados, mas se comunica com um banco de dados separado para executar suas consultas, ele oferece mais flexibilidade que os concorrentes e consegue aumentar ou reduzir a escala das consultas rapidamente conforme as necessidades variáveis da organização. Segundo um whitepaper da IBM, o Presto, otimizado para cargas de trabalho de business intelligence (BI), pode ajudar empresas a otimizar os custos dos seus data warehouses e a reduzir despesas em até 50%.
Estes são alguns dos principais benefícios de usar um fluxo de trabalho Presto:
Custos mais baixos: à medida que o tamanho dos data warehouses e o número de usuários que realizam consultas aumentam, não é incomum que as empresas vejam seus custos aumentarem rapidamente. O Presto, no entanto, é otimizado para grandes quantidades de pequenas consultas, o que facilita a consulta de qualquer quantidade de dados e, ao mesmo tempo, mantém os custos baixos. Além disso, como o Presto é de código aberto, não há taxas associadas à sua implementação, o que pode resultar em uma economia significativa para as empresas que desejam processar grandes volumes de dados.
Escalabilidade aumentada: É comum que engenheiros configurem múltiplos mecanismos e linguagens sobre um único sistema de armazenamento de data lake, o que pode exigir reconfigurações futuras e limitar a escalabilidade da solução. Com o Presto, todas as consultas são feitas com a linguagem e interface SQL ANSI universal, tornando redundante novas plataformas. Além disso, o Presto pode ser usado tanto com pequenos quanto com grandes volumes de dados, sendo facilmente escalável de um ou dois usuários para milhares. O Presto implementa diversos mecanismos de processamento com dialetos SQL exclusivos e APIs, tornando-se uma ferramenta ideal para escalar cargas de trabalho que poderiam ser complexas e demoradas demais para equipes de engenheiros e cientistas de dados.
Melhor desempenho: embora muitos mecanismos de consulta que executam SQL no Hadoop tenham desempenho computacional restrito porque foram criados para gravar seus resultados em disco, o modelo distribuído em memória do Presto permite que ele realize grandes quantidades de consultas interativas de uma só vez em grandes conjuntos de dados. Seguindo um modelo clássico de processamento paralelo massivo (MPP), o Presto agenda o máximo de consultas possível em um único nó de trabalho e usa o streaming aleatório na memória para aumentar ainda mais suas velocidades de processamento. A execução de tarefas na memória torna redundantes a gravação e a leitura do disco entre os estágios e reduz o tempo de execução de cada consulta, tornando o Presto uma opção de menor latência do que seus concorrentes.
Maior flexibilidade: o Presto usa um modelo plug-and-play para todas as suas fontes de dados, incluindo Cassandra, Kafka, MySQL, sistema de arquivos distribuído do Hadoop (HDFS), PostgreSQL e outras, tornando as consultas entre elas mais rápidas e mais simples do que com outras ferramentas semelhantes que não oferecem essa funcionalidade. Além disso, a arquitetura flexível do Presto não se restringe a um único fornecedor e roda na maioria das distribuições Hadoop, o que o torna uma das ferramentas mais portáteis disponíveis.
Embora o Presto não seja a única opção de SQL-on-Hadoop disponível para desenvolvedores e engenheiros de dados, sua arquitetura exclusiva que mantém a funcionalidade de consulta separada do armazenamento de dados o torna um dos mais flexíveis. Ao contrário de outras ferramentas, o Presto separa o mecanismo de consulta do armazenamento de dados e usa conectores para a comunicação entre eles. Essa funcionalidade adicional oferece aos engenheiros mais flexibilidade do que outras ferramentas na forma como eles constroem soluções usando o Presto.