O Presto se tornou uma ferramenta popular para cientistas e engenheiros de dados que lidam com várias linguagens de consulta, bancos de dados isolados e diferentes tipos de armazenamento. Seus recursos de alto desempenho permitem que os usuários consultem grandes volumes de dados em tempo real, independentemente de onde os dados estejam localizados, usando uma interface ANSI SQL simples. A velocidade e o desempenho do Presto na realização de consultas em grandes volumes de dados tornaram-no uma ferramenta indispensável para algumas das maiores empresas do mundo, como Facebook, Airbnb, Netflix, Microsoft, Apple (iOS) e AWS (Athena e Amazon s3).
A arquitetura Presto é única, pois foi criada para consultar dados, não importa onde eles estejam sendo armazenados, tornando-a mais escalável e eficiente do que outras soluções semelhantes. As consultas Presto permitem que os engenheiros usem dados sem precisar migrá-los fisicamente de um local para outro. Este é um recurso importante, à medida que as organizações lidam com uma quantidade cada vez maior de dados que elas precisam armazenar e analisar.
O Presto foi criado para possibilitar aos cientistas e engenheiros de dados consultar interativamente grandes quantidades de dados, independentemente da fonte ou tipo de armazenamento. Como o Presto não armazena dados, mas se comunica com um banco de dados separado para suas consultas, ele é mais flexível do que seus concorrentes e pode aumentar ou diminuir as consultas rapidamente com base nas necessidades da organização. De acordo com um white paper da IBM, o Presto, otimizado para cargas de trabalho de Business Intelligence (BI), pode ajudar as empresas a otimizar os preços dos seus data warehouses e reduzir os custos em até 50%.
Estes são alguns dos principais benefícios de usar um fluxo de trabalho Presto:
Custos mais baixos: à medida que o tamanho dos data warehouses e o número de usuários que realizam consultas aumentam, não é incomum que as empresas vejam seus custos aumentarem rapidamente. O Presto, no entanto, é otimizado para grandes quantidades de pequenas consultas, o que facilita a consulta de qualquer quantidade de dados e, ao mesmo tempo, mantém os custos baixos. Além disso, como o Presto é de código aberto, não há taxas associadas à sua implementação, o que pode resultar em uma economia significativa para as empresas que desejam processar grandes volumes de dados.
Maior escalabilidade: é comum que engenheiros configurem vários mecanismos e idiomas em um único sistema de armazenamento de data lake, o que pode tornar necessário a reformulação da plataforma no futuro e limitar a escalabilidade da solução. Com o Presto, todas as consultas são realizadas usando a interface e a linguagem universal ANSI SQL, tornando a reformulação da plataforma redundante. Além disso, o Presto pode ser usado para pequenas e grandes quantidades de dados e escalou facilmente de um ou dois usuários para milhares. O Presto implementa vários mecanismos de computação com dialetos e APIs SQL exclusivos, tornando-o uma ferramenta ideal para escalar cargas de trabalho que podem ser muito complexas e demoradas para as equipes de engenheiros e cientistas de dados lidarem.
Melhor desempenho: embora muitos mecanismos de consulta que executam SQL no Hadoop tenham desempenho computacional restrito porque foram criados para gravar seus resultados em disco, o modelo distribuído em memória do Presto permite que ele realize grandes quantidades de consultas interativas de uma só vez em grandes conjuntos de dados. Seguindo um modelo clássico de processamento paralelo massivo (MPP), o Presto agenda o máximo de consultas possível em um único nó de trabalho e usa o streaming aleatório na memória para aumentar ainda mais suas velocidades de processamento. A execução de tarefas na memória torna redundantes a gravação e a leitura do disco entre os estágios e reduz o tempo de execução de cada consulta, tornando o Presto uma opção de menor latência do que seus concorrentes.
Maior flexibilidade: O Presto usa um modelo plug-and-play para todas as suas fontes de dados, incluindo Cassandra, Kafka, MySQL, Hadoop distributed file system (HDFS), PostgreSQL, entre outros, tornando a consulta entre eles mais rápida e fácil do que com outras ferramentas comparáveis que não possuem essa funcionalidade. Além disso, a arquitetura flexível do Presto significa que ele não está restrito a um único fornecedor, mas pode ser executado na maioria das distribuições de Hadoop, tornando-o uma das ferramentas mais portáteis disponíveis.
Embora o Presto não seja a única opção de SQL-on-Hadoop disponível para desenvolvedores e engenheiros de dados, sua arquitetura exclusiva que mantém a funcionalidade de consulta separada do armazenamento de dados o torna um dos mais flexíveis. Ao contrário de outras ferramentas, o Presto separa o mecanismo de consulta do armazenamento de dados e usa conectores para a comunicação entre eles. Essa funcionalidade adicional oferece aos engenheiros mais flexibilidade do que outras ferramentas na forma como eles constroem soluções usando o Presto.