O que é o Presto?
Explore o IBM® watsonx.data
uma mão migrando dados entre diferentes locais para simbolizar a migração dos dados entre servidores, como acontece quando você está usando o Presto.

Presto, ou banco de dados Presto (PrestoDB), é um mecanismo de SQL Query distribuído de código aberto que pode consultar grandes conjuntos de dados de diferentes fontes de dados, permitindo que as empresas resolvam problemas de dados em escala. Ele oferece às organizações de todos os portes uma maneira rápida e eficiente de analisar big data de várias fontes, incluindo sistemas no local e na nuvem. O Presto também ajuda as empresas a consultarem petabytes de dados usando seus recursos atuais de SQL, sem precisar aprender uma nova linguagem.

Atualmente, o Presto é mais comumente usado para realizar consultas no Hadoop e em outros provedores comuns de armazenamento de dados, permitindo que os usuários gerenciem várias linguagens de consulta e interfaces para bancos de dados e armazenamento. 

Na era digital, a análise de big data está rapidamente se tornando uma competência essencial para as empresas, independentemente do tamanho ou do setor. A capacidade de reunir, armazenar e analisar grandes quantidades de dados relacionados aos processos de negócios, preferências do cliente e tendências de mercado é extremamente valiosa. A principal importância da Presto para a análise de dados é sua capacidade de analisar dados, independentemente de onde os dados estão sendo armazenados e sem ter que primeiramente migrá-los para um sistema mais estruturado, como um data warehouse ou data lake.

Explore como funciona o watsonx.data

Veja como você pode começar a usar o watsonx.data nesta demonstração interativa; conecte-se às suas fontes externas, consulte dados de várias fontes e muito mais.

Conteúdo relacionado

Assine a newsletter da IBM

Os benefícios do Presto

O Presto se tornou uma ferramenta popular para cientistas e engenheiros de dados que lidam com várias linguagens de consulta, bancos de dados isolados e diferentes tipos de armazenamento. Seus recursos de alto desempenho permitem que os usuários consultem grandes volumes de dados em tempo real, independentemente de onde os dados estejam localizados, usando uma interface ANSI SQL simples. A velocidade e o desempenho do Presto na realização de consultas em grandes volumes de dados tornaram-no uma ferramenta indispensável para algumas das maiores empresas do mundo, como Facebook, Airbnb, Netflix, Microsoft, Apple (iOS) e AWS (Athena e Amazon s3).

A arquitetura Presto é única, pois foi criada para consultar dados, não importa onde eles estejam sendo armazenados, tornando-a mais escalável e eficiente do que outras soluções semelhantes. As consultas Presto permitem que os engenheiros usem dados sem precisar migrá-los fisicamente de um local para outro. Este é um recurso importante, à medida que as organizações lidam com uma quantidade cada vez maior de dados que elas precisam armazenar e analisar.

O Presto foi criado para possibilitar aos cientistas e engenheiros de dados consultar interativamente grandes quantidades de dados, independentemente da fonte ou tipo de armazenamento. Como o Presto não armazena dados, mas se comunica com um banco de dados separado para suas consultas, ele é mais flexível do que seus concorrentes e pode aumentar ou diminuir as consultas rapidamente com base nas necessidades da organização. De acordo com um white paper da IBM, o Presto, otimizado para cargas de trabalho de Business Intelligence (BI), pode ajudar as empresas a otimizar os preços dos seus data warehouses e reduzir os custos em até 50%. 

Estes são alguns dos principais benefícios de usar um fluxo de trabalho Presto:

Custos mais baixos: à medida que o tamanho dos data warehouses e o número de usuários que realizam consultas aumentam, não é incomum que as empresas vejam seus custos aumentarem rapidamente. O Presto, no entanto, é otimizado para grandes quantidades de pequenas consultas, o que facilita a consulta de qualquer quantidade de dados e, ao mesmo tempo, mantém os custos baixos. Além disso, como o Presto é de código aberto, não há taxas associadas à sua implementação, o que pode resultar em uma economia significativa para as empresas que desejam processar grandes volumes de dados.

Maior escalabilidade: é comum que engenheiros configurem vários mecanismos e idiomas em um único sistema de armazenamento de data lake, o que pode tornar necessário a reformulação da plataforma no futuro e limitar a escalabilidade da solução. Com o Presto, todas as consultas são realizadas usando a interface e a linguagem universal ANSI SQL, tornando a reformulação da plataforma redundante. Além disso, o Presto pode ser usado para pequenas e grandes quantidades de dados e escalou facilmente de um ou dois usuários para milhares. O Presto implementa vários mecanismos de computação com dialetos e APIs SQL exclusivos, tornando-o uma ferramenta ideal para escalar cargas de trabalho que podem ser muito complexas e demoradas para as equipes de engenheiros e cientistas de dados lidarem.

Melhor desempenho: embora muitos mecanismos de consulta que executam SQL no Hadoop tenham desempenho computacional restrito porque foram criados para gravar seus resultados em disco, o modelo distribuído em memória do Presto permite que ele realize grandes quantidades de consultas interativas de uma só vez em grandes conjuntos de dados. Seguindo um modelo clássico de processamento paralelo massivo (MPP), o Presto agenda o máximo de consultas possível em um único nó de trabalho e usa o streaming aleatório na memória para aumentar ainda mais suas velocidades de processamento. A execução de tarefas na memória torna redundantes a gravação e a leitura do disco entre os estágios e reduz o tempo de execução de cada consulta, tornando o Presto uma opção de menor latência do que seus concorrentes.

Maior flexibilidade: O Presto usa um modelo plug-and-play para todas as suas fontes de dados, incluindo Cassandra, Kafka, MySQL, Hadoop distributed file system (HDFS), PostgreSQL, entre outros, tornando a consulta entre eles mais rápida e fácil do que com outras ferramentas comparáveis que não possuem essa funcionalidade. Além disso, a arquitetura flexível do Presto significa que ele não está restrito a um único fornecedor, mas pode ser executado na maioria das distribuições de Hadoop, tornando-o uma das ferramentas mais portáteis disponíveis.

Embora o Presto não seja a única opção de SQL-on-Hadoop disponível para desenvolvedores e engenheiros de dados, sua arquitetura exclusiva que mantém a funcionalidade de consulta separada do armazenamento de dados o torna um dos mais flexíveis. Ao contrário de outras ferramentas, o Presto separa o mecanismo de consulta do armazenamento de dados e usa conectores para a comunicação entre eles. Essa funcionalidade adicional oferece aos engenheiros mais flexibilidade do que outras ferramentas na forma como eles constroem soluções usando o Presto.

Como o Presto funciona?

O Presto usa um sistema de gerenciamento de banco de dados MPP com um nó coordenador que funciona em conjunto com outros nós. Um ecossistema Presto é composto por três tipos de servidor, um servidor coordenador, um servidor de trabalho e um servidor de resource manager.

Coordenador: o servidor coordenador é considerado o "cérebro" da instalação do Presto. Ele é responsável por algumas das tarefas mais críticas, incluindo a análise de declarações, o planejamento de consultas e gerenciamento dos nós de trabalho do Presto. Por fim, ele é responsável por recuperar os dados dos nós de trabalho e entregar os resultados ao cliente.

De trabalho: o servidor de trabalho é responsável por coletar os dados dos nós de trabalho e garantir a troca tranquila de dados entre ele e os conectores.

Resource manager: o resource manager reúne os dados de todos os nós do servidor coordenador e do de trabalho e cria uma visualização global, ou um "cluster Presto". 

Quando o servidor SQL do servidor coordenador Presto recebe uma consulta SQL de um usuário, a primeira coisa que ele faz é usar uma consulta personalizada para analisar, planejar e agendar um plano distribuído nos outros nós. A API do Presto Rest é usada para enviar declarações de consulta para execução em um servidor e recuperar os resultados para o cliente. O Presto é compatível com o padrão ANSI SQL, incluindo junções, consultas, subconsultas e agregações. Assim que a consulta é compilada, o Presto analisa o pedido em diferentes estágios entre os nós de trabalho.

Como o Presto foi criado com base no conceito de abstração de dados, ele é extensível a qualquer fonte de dados e pode facilmente consultar fontes de dados, como data lakes, data warehouses e bancos de dados relacionais. A abstração de dados é um processo de programação que permite que os dados sejam armazenados e manipulados de maneira mais eficiente, separando sua representação do seu armazenamento físico. Essa abstração permite que o mecanismo de consulta se concentre exclusivamente nos aspectos dos dados relevantes para sua consulta. Por meio do processo de abstração de dados, os dados são consultados onde quer que estejam sendo armazenados, e não depois de terem sido migrados para outro sistema de análise de dados.

Uma breve história do Presto

Inicialmente desenvolvido no Facebook para realizar consultas interativas em um enorme data warehouse Apache Hadoop, os desenvolvedores do Presto sempre o imaginaram como um software de código aberto e procuraram torná-lo gratuito para uso comercial para que qualquer pessoa pudesse usá-lo para análise e gerenciamento de dados. Em 2013, ele foi disponibilizado de código aberto no GitHub para que qualquer pessoa pudesse baixar sob a licença do Apache Software. Em 2019, três dos membros originais da equipe de desenvolvimento do Presto abandonaram o projeto e fundaram uma versão alternativa do Presto conhecida como Presto Software Foundation, ou mais comumente prestosql.

A fundação Linux e outras comunidades de código aberto oferecem webinars e treinamento sobre o Presto em inglês e outros idiomas para engenheiros e desenvolvedores que desejam obter a certificação. Esses fóruns também são um bom lugar para visitar e descobrir as novidades do Presto.

Casos de uso do Presto 

O Presto permite que as organizações consultem repositórios de dados de grande escala e bancos de dados NoSQL de forma rápida e eficiente para uma variedade de fins comerciais. Estes são alguns dos casos de uso mais comuns:

Consultas ad-hoc

O Presto permite a exploração rápida de dados e relatórios diretos para uma variedade de fins comerciais. Por meio de conectores Presto populares, como Hive, MongoDB ou Cassandra, os usuários podem consultar dados de interesse e obter resultados em segundos. Com sua velocidade e flexibilidade, o Presto possibilita os usuários a iterar e explorar ainda mais os conjuntos de dados, independentemente de onde estejam.

Estes são alguns dos repositórios de dados mais usados aos quais o Presto pode se conectar:

  • BigQuery
  • HDFS
  • Armazenamento em nuvem
  • Cloud SQL para MySQL
  • Apache Cassandra ou Kafka
Implementações em nuvem e em nuvem híbrida

De acordo com uma avaliação de desempenho de 2021 da RedHat, o uso crescente de ambientes de nuvem híbrida pelas empresas está colocando cada vez mais pressão sobre o armazenamento nativo da nuvem, para o qual o Presto, “o mecanismo de consulta distribuído mais rápido atualmente disponível”, é ideal. 1 Migrar cargas de trabalho de um ambiente local para uma nuvem ou infraestrutura de nuvem híbrida traz muitos benefícios, inclusive maior desempenho e escalabilidade. A arquitetura do Presto o torna uma excelente escolha para essas implementações, pois ele pode ser iniciado em poucos minutos sem provisionamento, configuração ou ajuste adicionais. 

Aprendizado de máquina (ML)

O Presto ajuda os engenheiros a preparar dados e executar a engenharia e extração de recursos de uma maneira altamente eficiente que garante que eles estejam prontos para o aprendizado de máquina (ML). Seu número de conectores, mecanismo SQL e recursos de consulta o tornam ideal para engenheiros que buscam acesso rápido e fácil a grandes volumes de dados. Além disso, o Presto possui ferramentas projetadas especificamente para funções de ML, como agregação, que permitem que cientistas de dados treinem classificadores e regressores de máquina de vetor de suporte (SVM) para resolver problemas de aprendizado supervisionado.

Relatórios

O Presto permite que os dados sejam consultados a partir de várias fontes e gera um único relatório ou dashboard facilmente acessível para fins de BI. O Presto é tão simples e fácil de usar que os analistas podem realizar consultas e criar relatórios sem a ajuda de engenheiros.

Análise de dados

O Presto permite que os analistas realizem consultas em dados estruturados e não estruturados diretamente em um data lake, sem passar por um processo de transformação de dados.

Preparação de dados

O processo de coleta e preparação de dados pode ser caro e ineficiente. Os cientistas de dados podem passar horas por dia coletando e preparando os dados, antes mesmo que eles possam ser analisados. O Presto automatiza esse processo com velocidade e precisão, para que os cientistas e engenheiros de dados possam concentrar mais do seu tempo em tarefas de maior valor.  

Soluções NVMe
Dados e IA IBM® watsonx.data

O Presto é de código aberto e pode ser instalado manualmente. Você também pode usar o Presto com uma solução de data lakehouse, como o IBM® watsonx.data, para uma escalada mais rápida das suas cargas de trabalho de IA. O IBM® watsonx.data é um armazenamento de dados que se adequa à finalidade, criado na arquitetura open lakehouse e compatível com os formatos de consulta, governança e dados abertos para ajudar a acessar e compartilhar os dados.

Saiba mais sobre o IBM® watsonx.data

Recursos relacionados Presto: entenda todos os seus dados, de qualquer tamanho, em qualquer lugar

Veja como o Presto, um mecanismo de consulta SQL de código aberto rápido e flexível, pode ajudar a fornecer os insights que as empresas precisam.

A IBM vai ajudar as empresas a dimensionar as cargas de trabalho de IA

Saiba mais sobre o IBM® watsonx.data, um armazenamento de dados que ajuda as empresas a unificar e governar facilmente seus dados estruturados e não estruturados.

O potencial disruptivo das arquiteturas de open data lakehouse e o IBM® watsonx.data

Explore a arquitetura open data lakehouse e descubra como ela combina a flexibilidade e as vantagens de custo dos data lakes com o desempenho dos data warehouses.

IBM® watsonx.data: um armazenamento aberto e híbrido de dados governados

Descubra como o IBM® watsonx.data ajuda as empresas a lidar com os desafios do complexo cenário de dados atual e a dimensionar a IA para atender às suas necessidades.

Dê o próximo passo

Obtenha os insights necessários com o Presto, um mecanismo de consulta SQL de código aberto rápido e flexível, e com o IBM® watsonx.data, um armazenamento aberto e híbrido de dados governados para dimensionar as cargas de trabalho de IA, para todos os seus dados, de qualquer lugar.

Descubra o IBM® watsonx.data
Notas de rodapé

1 Caracterização de desempenho de modo externo para bancos de dados e análise de dados(link externo a ibm.com) Red Hat, 18 de janeiro de 2021