Uma plataforma de dados é uma solução de tecnologia que possibilita a coleta, armazenamento, limpeza, transformação, análise e governança de dados. As plataformas de dados podem incluir componentes de hardware e software. Elas facilitam para as organizações o uso de seus dados para melhorar a tomada de decisões e as operações.
Atualmente, muitas organizações dependem de pipelines de dados complexos para dar suporte à análise de dados, ciência de dados e decisões baseadas em dados. Uma plataforma de dados moderna fornece as ferramentas de que as organizações precisam para proteger a qualidade de dados e liberar o valor de seus dados.
Especificamente, as plataformas de dados podem ajudar a obter insights praticáveis, reduzir silos de dados, habilitar a análise de dados de autoatendimento, simplificar a automação e potencializar aplicações de inteligência artificial (IA) .
Uma plataforma de dados, também chamada de “stack de dados”, é composta por cinco camadas fundamentais: armazenamento e processamento de dados, ingestão de dados, transformação de dados, business intelligence (BI) e análise de dados e observabilidade de dados.
As plataformas de dados podem ser criadas e configuradas para atender a funções de negócios específicas. Alguns dos tipos mais comuns de plataformas de dados incluem:
As plataformas de dados empresariais foram originalmente desenvolvidas para servir como repositórios centrais para tornar os dados mais acessíveis em toda a organização. Essas plataformas normalmente armazenavam dados no local, em bancos de dados operacionais ou data warehouses. Elas frequentemente lidavam com dados estruturados de clientes, financeiros e de cadeia de suprimentos.
As plataformas de dados modernas atuais expandem os recursos das plataformas de dados empresariais tradicionais para garantir que os dados sejam precisos e oportunos, reduzir os silos de dados e permitir o autoatendimento. As plataformas de dados modernas geralmente são construídas em um pacote de software nativo da nuvem, que oferece maior flexibilidade e economia.
Os dois princípios fundamentais que regem as plataformas de dados empresariais são:
Uma plataforma de big data é projetada para reunir, processar e armazenar grandes volumes de dados, frequentemente em tempo real. Considerando os grandes volumes de dados que manipulam, as plataformas de big data geralmente usam computação distribuída, com os dados espalhados por muitos servidores.
Outros tipos de plataformas de dados também podem gerenciar grandes volumes de dados, mas uma plataforma de big data é projetada especialmente para processar esses dados em altas velocidades. Uma BDP de nível empresarial é capaz de executar consultas complexas em conjuntos de dados maciços, sejam estruturados, semiestruturados ou não estruturados. Os usos típicos do BDP incluem análise de big data, detecção de fraude, análise preditiva de dados e sistemas de recomendação.
As plataformas de big data frequentemente estão disponíveis como produtos de software como serviço (SaaS) , como parte de uma oferta de dados como serviço (DaaS) ou em um pacote de computação em nuvem.
Como o nome indica, a funcionalidade definidora de uma plataforma de dados em nuvem é que ela é baseada em nuvem, o que pode fornecer vários benefícios:
Uma plataforma de dados de clientes coleta e unifica dados de clientes de várias fontes para construir uma visão única, coerente e completa de todos os clientes.
As informações para o CDP podem ser recebidas do sistema de gerenciamento de relacionamento com o cliente (CRM) de uma organização, da atividade nas redes sociais, dos pontos de contato com a organização, dos sistemas transacionais ou da análise de dados do site.
Uma visão unificada de 360 graus dos clientes pode dar à organização um insight mais abrangente de seu comportamento e preferências, possibilitando um marketing mais direcionado, melhores experiências do usuário e novas oportunidades de receita.
As plataformas de dados podem ser de todas as formas e tamanhos, dependendo das necessidades da organização. Uma plataforma típica inclui pelo menos estas cinco camadas:
A primeira camada em muitas plataformas de dados é a camada de armazenamento de dados. O tipo de armazenamento de dados usado depende das necessidades da organização e pode incluir armazenamento no local e na nuvem. Os armazenamentos de dados comuns incluem:
Data warehouses
Um data warehouse—ou data warehouse corporativo (EDW)—agrega dados de diferentes fontes em um armazenamento de dados único, central e consistente para dar suporte à análise de dados, mineração de dados, IA e aprendizado de máquina. Os data warehouses são usados com mais frequência para gerenciar dados estruturados com casos de uso de análise de dados claramente definidos.
Data lakes
Um data lake é um ambiente de armazenamento de menor custo, que normalmente hospeda petabytes de dados brutos. Um data lake pode armazenar dados estruturados e não estruturados em vários formatos, permitindo que os pesquisadores trabalhem mais facilmente com uma ampla variedade de dados.
Os data lakes foram construídos originalmente no ecossistema Hadoop , um projeto de código aberto baseado no NoSQL. Por volta de 2015, muitos data lakes começaram a migrar para nuvem. Uma arquitetura típica de data lake agora pode armazenar dados em uma plataforma de object storage , como o Amazon S3 da Amazon Web Services (AWS), e usar uma ferramenta como o Spark para processar os dados.
Data lakehouses
Um data lakehouse combina os recursos de data warehouses e data lakes em uma única solução de gerenciamento de dados.
Embora os data warehouses ofereçam melhor desempenho do que os data lakes, frequentemente eles são mais caros e limitados em sua capacidade de escalar. Os data lakes otimizam os custos de armazenamento, mas não têm estrutura para análise de dados útil.
O data lakehouse é projetado para lidar com esses desafios ao utilizar o cloud object storage para armazenar uma gama mais ampla de tipos de dados (ou seja, dados estruturados, dados não estruturados e dados semiestruturados). Uma arquitetura de data lakehouse combina esse armazenamento com ferramentas para permitir esforços de análise de dados avançada, como business intelligence e aprendizado de máquina.
O processo de coletar dados de várias fontes e mover os dados para um sistema de armazenamento é chamado de ingestão de dados. Quando ingeridos, os dados podem ser usados para fins de manutenção de registros ou para processamento e análise adicionais.
A eficácia da infraestrutura de dados de uma organização depende muito da qualidade da ingestão e integração dos dados. Se houver problemas durante a ingestão, como conjuntos de dados ausentes ou desatualizados, cada etapa dos fluxos de trabalho analíticos posteriores poderá ser prejudicada.
A ingestão pode usar diferentes modelos de processamento de dados, dependendo das necessidades de uma organização e de sua arquitetura de dados abrangente.
A terceira camada, a transformação de dados, lida com a alteração da estrutura e do formato dos dados para torná-los utilizáveis para a análise de dados e outros projetos. Por exemplo, dados não estruturados podem ser convertidos em um formato SQL para facilitar a pesquisa. Os dados podem ser transformados antes ou depois de chegarem ao destino do armazenamento.
Até recentemente, a maioria dos modelos de ingestão de dados usava um procedimento de extrair, transformar, carregar (ETL) para obter dados de sua origem, reformatá-los e transportá-los até seu destino. Isso faz sentido quando as empresas usam sistemas de análise de dados internos. Fazer o trabalho de preparação antes de entregar os dados ao seu destino pode ajudar a reduzir os custos. As organizações que ainda usam data warehouses no local normalmente utilizam um processo de ETL.
No entanto, atualmente muitas organizações preferem data warehouses baseados em nuvem, como o IBM Db2 Warehouse, Microsoft Azure, Snowflake ou BigQuery do Google Cloud. A escalabilidade da nuvem permite que as organizações usem um modelo de extrair, carregar, transformar (ELT) , que ignora transformações de pré-carregamento para enviar dados brutos diretamente para o data warehouse mais rapidamente. Então, os dados são transformados conforme a necessidade após a chegada, normalmente ao executar uma consulta.
A quarta camada da plataforma de dados inclui ferramentas de business intelligence (BI) e análise de dados, que permitem aos usuários aproveitar dados para esforços de análise de dados de negócios e análise de dados de big data . Por exemplo, ferramentas de BI e análise de dados podem permitir que os usuários consultem dados, os transformem em visualizações ou os manipulem.
Para muitos departamentos de uma organização, essa camada é o rosto da plataforma de dados, onde os usuários interagem diretamente com os dados.
Pesquisadores e cientistas de dados podem trabalhar com dados para obter inteligência praticável e insights. Os departamentos de marketing podem usar ferramentas de BI e análise de dados para saber mais sobre seus clientes e encontrar iniciativas valiosas. As equipes da cadeia de suprimentos podem usar insights de análise de dados para otimizar processos ou encontrar fornecedores superiores.
O uso dessa camada é a principal razão pela qual as organizações coletam dados em primeiro lugar.
Observabilidade de dados é a prática de monitorar, gerenciar e manter dados para promover a qualidade, disponibilidade e confiabilidade de dados. A observabilidade de dados abrange várias atividades e tecnologias, incluindo rastreamento, registro, alertas e detecção de anomalias.
Essas atividades, quando combinadas e visualizadas em um dashboard, permitem aos usuários identificar e resolver dificuldades com os dados quase em tempo real. Por exemplo, a camada de observabilidade ajuda as equipes de engenharia de dados a responder a perguntas específicas sobre o que está acontecendo nos bastidores de sistemas distribuídos. Ela pode mostrar como os dados fluem através do sistema, onde os dados estão se movendo lentamente e o que não está funcionando.
As ferramentas de observabilidade também podem alertar gerentes, equipes de dados e outros stakeholders sobre possíveis problemas, para que possam lidar com eles de forma proativa.
Além dessas cinco camadas fundamentais, outras camadas que são comuns em uma moderna stack de dados incluem:
Dados inacessíveis são dados inúteis. A descoberta de dados ajuda a garantir que os dados não fiquem fora de vista. Especificamente, a descoberta de dados consiste em coletar, avaliar e explorar dados de fontes díspares, com o objetivo de reunir dados de fontes isoladas ou até então desconhecidas para análise.
As plataformas de dados modernas frequentemente destacam a governança de dados e a segurança de dados para proteger informações confidenciais, gerar conformidade regulatória, facilitar o acesso e gerenciar a qualidade de dados. As ferramentas compatíveis com essa camada incluem controles de acesso, criptografia, auditoria e rastreamento de linhagem de dados.
Os catálogos de dados usam metadados(dados que descrevem ou resumem dados) para criar um inventário informativo e pesquisável de todos os ativos de dados em uma organização. Por exemplo, um catálogo de dados pode ajudar as pessoas a localizar dados não estruturados com mais rapidez, incluindo documentos, imagens, áudio, vídeo e visualizações de dados.
Algumas plataformas de dados de nível empresarial incorporam recursos de aprendizado de máquina e IA para ajudar os usuários a extrair insights valiosos dos dados. Por exemplo, as plataformas podem apresentar algoritmos de análise preditiva de dados, modelos de aprendizado de máquina para detecção de anomalias e insights automatizados baseados em ferramentas de IA generativa.
Uma plataforma de dados robusta pode ajudar uma organização a obter mais valor de seus dados, ao permitir maior controle sobre os dados pela equipe técnica e um autoatendimento mais rápido para os usuários cotidianos.
As plataformas de dados podem ajudar a eliminar os silos de dados, uma das maiores barreiras à usabilidade dos dados. Departamentos distintos (como RH, produção e cadeia de suprimentos) podem manter armazenamentos de dados separados em ambientes separados, criando inconsistências e sobreposições. Quando os dados são unificados em uma plataforma de dados, cria-se uma fonte única da verdade (SSoT) em toda a organização.
A análise de dados e as decisões de negócios podem ser aprimoradas com a remoção de silos e uma melhor integração de dados. Dessa forma, as plataformas de dados são os principais componentes de uma malha de dados robusta, que ajuda os tomadores de decisões a obter uma visão mais coesiva dos dados organizacionais. Essa visão coesiva pode ajudar as organizações a estabelecer novas conexões entre dados e aproveitar o big data para mineração de dados e análise preditiva de dados.
Uma plataforma de dados também pode permitir que uma organização estude processos de dados de ponta a ponta e encontre novas eficiências. Uma plataforma de dados de nível empresarial também pode acelerar o acesso a informações, o que pode aumentar a eficiência tanto da tomada de decisões internas quanto dos esforços voltados para o cliente.
Por fim, uma plataforma de dados bem gerenciada pode oferecer armazenamento de dados diversificado e redundante, melhorando a resiliência organizacional diante de ataques cibernéticos ou desastres naturais.
Saiba como uma abordagem de data lakehouse aberta pode oferecer dados confiáveis e execução mais rápida para as análises de dados e projetos de IA.
IBM reconhecida como líder pelo 19.º ano consecutivo no Gartner Magic Quadrant™ 2024 para Ferramentas de Integração de Dados.
Explore o guia do líder de dados para criar uma organização baseada em dados e gerar vantagem comercial.
Descubra por que a inteligência e a integração de dados impulsionadas por IA são críticas para estimular a preparação de dados estruturados e não estruturados e acelerar os resultados da IA.
Crie uma estratégia de dados que elimine silos de dados, reduza a complexidade e melhore a qualidade de dados para proporcionar experiências excepcionais para clientes e funcionários.
O watsonx.data permite escalar a análise de dados e a IA com todos os seus dados, onde quer que estejam, por meio de um armazenamento de dados aberto, híbrido e governado.
Libere o valor dos dados empresariais com a IBM Consulting, construindo uma organização baseada em insights que ofereça vantagens para os negócios.
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com