O que é o stack de dados moderno?

24 de fevereiro de 2025

Autores

Alexandra Jonker

Editorial Content Lead

O que é o stack de dados moderno?

Stack de dados moderno (MDS) refere-se a ferramentas e tecnologias integradas baseadas na nuvem que permitem a coleta, ingestão, armazenamento , limpeza, transformação, análise e governança de dados. Como o nome sugere, um stack de dados—ou "plataforma de dados"—disponibiliza as ferramentas necessárias para as organizações manterem a qualidade de dados e liberar o valor de suas informações.

Os Legacy Data Stacks (LDS) dependem de uma infraestrutura rígida e local capaz de enfrentar dificuldades com escalabilidade, flexibilidade e processamento em tempo real. Por outro lado, o MDS oferece uma solução modular nativa da nuvem projetada para simplificar a automação , otimizar custos e acelerar os insights. Talvez de forma mais notável, o MDS capacita aplicações de análise de dados de autoatendimento e inteligência artificial (IA) de que muitas empresas dependem hoje.

As plataformas de dados servem como a espinha dorsal do  desenvolvimento de software moderno, oferecendo uma rede de ferramentas e frameworks para criar e gerenciar aplicações de maneira eficiente. Pense no MDS como a linha de montagem de operações digitais. Cada componente desempenha um papel na movimentação de dados sem dificuldades da coleta para a análise. Automatizando e dimensionando fluxos de trabalho, o MDS garante que as organizações possam processar, armazenar e usar dados com precisão, impulsionando melhores tomadas de decisão e inovação.

As principais funções do MDS são:

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA 


Descubra insights selecionados por especialistas e notícias sobre IA, nuvem e outros assuntos no boletim informativo semanal Think. 

Por que o modern data stack é importante?

Entre 2012 e 2016, uma grande mudança nos fluxos de trabalho de dados remodelou a forma como as organizações armazenam e processam dados. Plataformas baseadas na nuvem, como Snowflake, Google BigQuery e Amazon Redshift, popularizaram os data warehouses na nuvem, oferecendo escalabilidade, poder e eficiência computacional sem precedentes.

Ao mesmo tempo, as organizações mudaram de fluxos de trabalho tradicionais de extração, transformação, carregamento (ETL), onde os dados eram transformados antes do armazenamento, para extração, carregamento, transformação (ELT), em que os dados são armazenados primeiro e processados depois. Essa abordagem aumentou a flexibilidade e tornou os insights em tempo real mais acessíveis utilizando conectores, ou extensões para agilizar a migração de dados.

Durante esse período, ferramentas como Fivetran e Airflow automatizaram a ingestão de dados, enquanto plataformas como Tableau, Power BI e Looker revolucionaram o BI. O ETL reverso aprimorou o fluxo de dados, transferindo insights de warehouses para sistemas operacionais, como sistemas de gerenciamento de relacionamento com o cliente (CRMs), permitindo melhor automação, tomada de decisões e personalização. Essas inovações lançaram a base para o MDS, permitindo fluxos de trabalho de dados mais escaláveis, automatizados e flexíveis. Aperfeiçoando a migração e a integração de dados, as organizações alcançaram maior agilidade operacional.

Stack de dados herdado vs. stack de dados moderno

Para entender o significado do MDS, ajuda compará-lo com o LDS:

Resumo das principais diferenças

  • Infraestrutura: o LDS depende de servidores físicos; o MDS é nativo da nuvem.
  • Escalabilidade: o LDS requer ajuste de escala manual; o MDS escala dinamicamente de acordo com a demanda.
  • Integração: o LDS depende de fluxos de trabalho personalizados; o MDS automatiza a ingestão de dados.
  • Flexibilidade: o LDS é monolítico; o MDS é modular, permitindo a integração perfeita de ferramentas.
  • Análise: o LDS oferece suporte a relatórios em lote; o MDS oferece insights em tempo real e painéis interativos.
  • Custo: o LDS envolve um investimento inicial considerável; o MDS usa modelos de pagamento baseados na utilização.

Os LDS tradicionais são desenvolvidos na infraestrutura local, exigindo investimentos consideráveis em hardware, manutenção e dimensionamento manual. Elas dependem de fluxos de trabalho ETL, o que significa que os dados devem ser limpos e estruturados antes do armazenamento. Embora eficaz para relatórios estáticos, o LDS enfrenta dificuldades com processamento em tempo real, escalabilidade e manipulação de dados não estruturados, como registros de sensores, imagens ou áudio.

O MDS soluciona esses desafios com uma abordagem nativa da nuvem, modular, permitindo que as Organizações armazenem, processem e analisem grandes quantidades de dados estruturados e não estruturados com mais eficiência. Os fluxos de trabalho de ELT proporcionam maior flexibilidade, muitas vezes utilizando scripts baseados em Python para automação e processamento de dados.

Ao contrário do LDS, que exige expansões dispendiosas de infraestrutura, o MDS oferece escalabilidade sob demanda e sua natureza modular significa que as empresas podem integrar ferramentas de stack de dados sem lock-in com fornecedor. Finalmente, o MDS possibilita insights em tempo real e análises de dados e automação baseados em IA, tornando os dados mais acessíveis e praticáveis em toda a organização.

Mixture of Experts | 25 de abril, episódio 52

Decodificando a IA: resumo semanal das notícias

Junte-se ao nosso painel de engenheiros, pesquisadores, líderes de produto e outros especialistas de classe mundial enquanto eles cortam o ruído da IA para trazer a você as últimas notícias e insights sobre IA.

Componentes fundamentais do stack de dados moderno

O MDS consiste em vários componentes principais, incluindo:

  • Armazenamento de dados
  • Ingestão de dados
  • Transformação de dados
  • BI e análise de dados
  • Observabilidade de dados

Armazenamento de dados

A camada de armazenamento de dados serve como a base do MDS, proporcionando um ambiente centralizado para gerenciar dados estruturados e dados não estruturados. As organizações podem escolher soluções de armazenamento de provedores como IBM, AWS ou Microsoft com base em fatores como necessidades de custo, desempenho e escalabilidade.

Tipos de armazenamento de dados:

  • Data warehouses: dados estruturados de múltiplas fontes são agregados em um único armazenamento de dados central otimizado para análise de dados, IA e ML. Os provedores são Snowflake, GoogleBigQuery e Amazon Redshift.
  • Data lakes: os data lakes armazenam dados brutos, estruturados e não estruturados em diversos formatos. Possibilitam que as organizações armazenem grandes quantidades de dados, muitas vezes atingindo a escala de petabyte ou mais para aplicações de IA, ML e pesquisa. Muitos data lakes foram desenvolvidos inicialmente no Hadoop, mas a maioria das arquiteturas modernas agora utiliza soluções de armazenamento de objetos na nuvem, como AWS S3 e IBM Cloud Object Storage (COS).
  • Data lakehouses: uma abordagem híbrida que combina a escalabilidade de data lake com os recursos de consulta estruturada dos data warehouses. Em outras palavras, um arquivo aparentemente ilimitado com um índice incrivelmente preciso. Os Lakehouses armazenam dados estruturados, semiestruturados e não estruturados suportando cargas de trabalho de BI, análise e ML.

Ingestão de dados

Ingestão de dados é o processo de coletar e mover dados de várias fontes para um sistema de armazenamento centralizado para processamento e análise. A eficácia de um pipeline de dados depende do quão bem o big data é ingerido e integrado. Os engenheiros de dados desempenham um papel crucial, pois erros nessa fase podem causar problemas mais adiante nos modelos de análise de dados e modelos de IA.

Tipos de ingestão de dados:

  • Processamento em lote: o método de ingestão mais comum, o processamento em lote coleta dados em grupos (ou lotes) e os envia para armazenamento em intervalos programados. Essa abordagem tem custo reduzido e é ideal quando não são necessárias atualizações em tempo real.
  • Processamento em tempo real: também conhecido como “processamento de fluxo”, esse método ingere e processa dados continuamente à medida que são gerados. É fundamental em aplicações de IA, detecção de fraude e análise em tempo real. Entretanto, exige maiores recursos computacionais.

Ferramentas automáticas de ingestão, como Apache Airflow, Stitch e Fivetran, ajudam as Organizações a migrar dados sem dificuldades entre sistemas, reduzindo o esforço manual e melhorando a eficiência da  integração de dados .

Transformação de dados

Os dados brutos geralmente são incoerentes ou não estruturados quando ingeridos, dificultando a análise no formato nativo. A camada de transformação de dados garante que os dados sejam limpos, estruturados e otimizados para tarefas como análises, relatórios e ML.

Tarefas comuns de transformação de dados:

  • Limpeza de dados: remover erros, valores nulos e duplicidades.
  • Normalização: padronização de formatos de dados para dar uniformidade.
  • Agregação: resumo de grandes conjuntos de dados para relatórios.
  • Mesclagem: combinar dados de múltiplas fontes em um conjunto de dados unificado.

Historicamente, a transformação de dados seguia o fluxo de trabalho ETL. No entanto, com o aumento das soluções de armazenamento baseadas na nuvem, a maioria das organizações agora utiliza processos ELT. Ferramentas de transformação de dados, como dbt e Dataform, automatizam fluxos de trabalho e ajudam a garantir que os dados sejam precisos, consistentes e prontos para análise.

BI e análise de dados

A camada de BI e análise converte dados brutos em insights praticáveis por meio de análise de dados, visualização, análise de tendências, linguagem de consulta estruturada (SQL) consultas e automação orientada por IA. Ferramentas como Tableau, Power BI e Looker oferecem dashboards interativos e análise de dados em tempo real, ajudando as organizações a acompanhar o desempenho e refinar as estratégias.

Além da visualização de dados, a análise de dados impulsionada por IA e a ciência de dados aprimoram a tomada de decisões ao detectar anomalias, prever tendências e automatizar fluxos de trabalho. Tudo isso depende de práticas sólidas de gerenciamento de dados. Sejam usadas para análise de comportamento do cliente,forecasting ou otimização da cadeia de suprimentos, as ferramentas de BI garantem que as empresas possam usar dados para ambientes estratégicos e operacionais.

Observabilidade de dados 

A observabilidade de dados garante a qualidade de dados, sua disponibilidade e confiabilidade por meio do monitoramento contínuo da integridade das informações. Essa camada ajuda as equipes de dados a detectar pipelines quebrados, registros ausentes ou processamento lento antes que afetem a análise.

Ferramentas de observabilidade como Monte Carlo e Datadog apresentam insights sobre os fluxos de dados, permitindo que os engenheiros diagnostiquem e aprimorem os fluxos de trabalho em tempo real. Solucionando problemas de forma proativa, as organizações podem manter a integridade dos dados e melhorar a tomada de decisões baseada em dados. Práticas sólidas de observabilidade apoiam um modelo de dados bem estruturado e garantem que os stakeholders possam confiar nos insights durante todo o ciclo de vida dos dados.

Camadas adicionais de Modern Data Stack

Além das cinco camadas fundamentais, os MDS geralmente contêm outros componentes para aprimorar a acessibilidade e a funcionalidade. Esses componentes podem ser: 

  • Descoberta de dados: a descoberta de dados ajuda as organizações a identificar e avaliar fontes de dados ocultas ou isoladas, garantindo que as equipes de dados possam extrair informações valiosas e colocá-las para trabalhar de forma eficaz.
  • Governança de dados: estabelecer políticas e proteções pode ajudar a garantir a segurança, a conformidade regulatória e a consistência dos dados. Gerenciando os fluxos de dados e aplicando um modelo de dados estruturado, a governança viabiliza fluxos de trabalho eficientes e ajuda a garantir o monitoramento da conformidade.
  • Catalogação de dados: as equipes podem usar metadados para criar um inventário estruturado de ativos de dados em data warehouses, data lakes e outros ambientes de armazenamento. Um catálogo bem mantido oferece suporte a todo o ciclo de vida dos dados e possibilita que os stakeholders acessem e usem com rapidez informações essenciais.
  • ML e IA: algumas plataformas de dados integram ML e IA para refinar o processamento de dados, melhorar a modelagem preditiva, automatizar insights e aprimorar a detecção de anomalias. Os modelos de ML também otimizam fluxos de trabalho, identificando ineficiências e sugerindo melhorias em tempo real para as equipes de dados.

Casos de uso do Modern Data Stack

As empresas podem implementar seu próprio MDS para melhorar a personalização impulsionada por IA, insights, logística e detecção de fraudes.

Personalização potencializada por IA

O MDS possibilita que as empresas ofereçam personalização de IA baseada em dados . Essa personalização pode ajudar a otimizar as experiências do usuário em áreas como comércio eletrônico, plataformas de streaming e aplicações de software como serviço (SaaS). Usando o Apache Spark para processamento em tempo real e o Databricks para análise escalável, os cientistas de dados podem analisar as preferências e o engajamento do cliente para melhorar os mecanismos de recomendação e as redes de entrega de conteúdo.

Insights de clientes e otimização de vendas

As empresas utilizam ferramentas de análise de MDS e SaaS para rastrear o comportamento do cliente e refinar as estratégias de marketing. Plataformas de nuvem como Snowflake e Looker geram painéis em tempo real para categories como padrões de compra e otimização de preços, tudo que possa ajudar as empresas a aumentar as taxas de conversão e a retenção.

Otimização da logística e da cadeia de suprimentos

Integrando o Fivetran para ingestão de dados e o dbt para transformação, as empresas podem monitorar o inventário em tempo real e prever interrupções. Essa integração pode levar a um atendimento mais rápido, reduzir custos e melhorar o planejamento de demanda em setores como varejo, manufatura e transporte.

Detecção de fraudes e gerenciamento de riscos

Instituições financeiras e plataformas de comércio eletrônico utilizam o MDS para detectar fraudes e prevenir violações de dados. Com o uso de modelos de ML, interfaces de programação de aplicativos (APIs) e serviços como o Amazon Redshift, as organizações podem identificar transações suspeitas e automatizar a detecção de fraude.

Quais empresas precisam de um Modern Data Stack?

As empresas que dependem da tomada de decisões em tempo real, da automação e de insights orientados por IA utilizam o MDS para melhorar a acessibilidade dos dados e simplificar as operações. Setores como tecnologia, finanças, saúde, comércio eletrônico e logística frequentemente utilizam MDS para integrar fontes de dados em grande escala, melhorar os recursos de análise e apoiar a tomada de decisões e orquestração mais eficientes.

No entanto, em um mundo em que os dados informam quase todos os aspectos das operações, a verdadeira questão não é quais setores se beneficiam do MDS, mas como pode ajudar as organizações a aumentar a eficiência e a adaptabilidade. Enquanto a adoção de IA, ferramentas de código aberto e processamento de dados em tempo real continuam evoluindo, o MDS está se tornando uma abordagem mais comum para as organizações modernizarem a arquitetura de dados.

Soluções relacionadas
IBM StreamSets

Crie e gerencie pipelines de dados de streaming inteligentes por meio de uma interface gráfica intuitiva, facilitando a integração sem dificuldades dos dados em ambientes híbridos e de multinuvem.

Explore o StreamSets
Soluções de malha de dados

Crie uma arquitetura de dados que acelere a prontidão dos dados para a IA generativa e libere uma produtividade incomparável para as equipes de dados.

Explore as soluções de malha de dados
Serviços de consultoria de dados e análise de dados

Libere o valor dos dados empresariais com a IBM® Consulting, construindo uma organização orientada por insights, que proporciona vantagem comercial.

Conheça os serviços de análise de dados
Dê o próximo passo

Conheça o IBM® DataStage, uma ferramenta de ETL (extração, transformação e carregamento) que oferece uma interface visual para projetar, desenvolver e implementar pipelines de dados. Está disponível como SaaS gerenciado na IBM® Cloud, para auto-hospedagem, e como complemento ao IBM® Cloud Pak for Data.

Conheça o DataStage Explore os serviços de análise de dados