Um conjunto de dados é uma coleção de dados, normalmente organizado em tabelas, matrizes ou formatos específicos (como CSV ou JSON), para facilitar a recuperação e a análise. Os conjuntos de dados são essenciais para análise de dados, aprendizado de máquina (ML), inteligência artificial (IA) e outras aplicações que exigem dados confiáveis e acessíveis.
Atualmente, as organizações coletam grandes quantidades de dados de várias fontes, incluindo interações com clientes, transações financeiras, dispositivos de IoT e plataformas de redes sociais.
Para liberar o valor de negócios de todos esses dados, eles devem ser organizados em conjuntos de dados: coleções organizadas que tornam as informações acessíveis para análise e aplicação.
Diferentes tipos de conjuntos de dados armazenam dados de várias formas. Por exemplo, os conjuntos de dados estruturados frequentemente organizam os pontos de dados em tabelas, com linhas e colunas definidas. Os conjuntos de dados não estruturados podem conter vários formatos, como arquivos de texto, imagens e áudio.
Embora nem todos os conjuntos de dados envolvam dados estruturados, eles sempre têm alguma estrutura geral, sejam esquemas definidos ou sintaxe mal organizada em formatos de dados semiestruturados, como JSON ou XML.
Exemplos de conjuntos de dados incluem:
As organizações frequentemente usam e mantêm vários conjuntos de dados para apoiar várias iniciativas de negócios, incluindo análise de dados e business intelligence (BI).
Big data, em particular, depende de conjuntos de dados complexos e maciços para proporcionar valor. Quando devidamente coletados, gerenciados e analisados usando análise de dados de big data, esses conjuntos de dados podem ajudar a descobrir novos insights e permitir a tomada de decisões baseada em dados.
Nos últimos anos, o surgimento da inteligência artificial (IA) e do aprendizado de máquina aumentou ainda mais o foco nos conjuntos de dados. As organizações precisam de dados de treinamento abrangentes e bem organizados para desenvolver modelos precisos de aprendizado de máquina e refinar algoritmos preditivos.
De acordo com a Gartner, 61% das organizações relatam ter que evoluir ou repensar seu modelo operacional de dados e análise de dados devido ao impacto das tecnologias de IA.1
Embora o termo "conjunto de dados" seja frequentemente usado de forma ampla, certas qualidades determinam se uma coleção de dados constitui um conjunto de dados. Geralmente, os conjuntos de dados têm três características fundamentais: variáveis, esquemas e metadados.
Nem todas as coleções de dados se qualificam como conjuntos de dados. Acúmulos aleatórios de pontos de dados não relacionados normalmente não constituem um conjunto de dados sem alguma organização e estrutura adequadas para permitir análises significativas.
Da mesma forma, embora interfaces de programação de aplicativos (APIs), bancos de dados e planilhas possam interagir com conjuntos de dados ou contê-los, não são necessariamente conjuntos de dados em si.
As APIs permitem que as aplicações se comuniquem entre si, o que às vezes envolve acessar e trocar conjuntos de dados. Bancos de dados e planilhas são contêineres de informações, que podem incluir conjuntos de dados.
As organizações geralmente trabalham com três tipos principais de conjuntos de dados, normalmente classificados com base no tipo de dados que manipulam:
As organizações frequentemente usam vários tipos de conjuntos de dados em combinação para compatibilidade com estratégias abrangentes de análise de dados. Por exemplo, uma empresa de varejo pode analisar dados de vendas estruturados juntamente com avaliações de clientes não estruturadas e análises da web semiestruturadas para obter melhores insights sobre o comportamento e as preferências dos clientes.
Os conjuntos de dados estruturados organizam as informações em formatos predefinidos, normalmente tabelas com linhas e colunas claramente definidas. Esses conjuntos de dados são fundamentais para muitos processos de negócios críticos, como gerenciamento de relacionamento com o cliente (CRM) e gerenciamento de inventário.
Como os conjuntos de dados estruturados seguem esquemas consistentes, eles permitem consultas rápidas e análises confiáveis. Isso os torna ideais para ferramentas de business intelligence e sistemas de geração de relatórios, que exigem dados precisos e quantificáveis.
Exemplos comuns de conjuntos de dados estruturados incluem:
Os conjuntos de dados não estruturados contêm informações que não estão em conformidade com os modelos de dados tradicionais ou esquemas rígidos. Embora esses conjuntos de dados exijam ferramentas de processamento mais sofisticadas, eles geralmente contêm insights abundantes que os formatos de dados estruturados não conseguem capturar.
As organizações dependem de conjuntos de dados não estruturados para alimentar modelos de inteligência artificial e aprendizado de máquina. Esses conjuntos de dados fornecem os diversos dados do mundo real necessários para treinar modelos de IA e desenvolver recursos de análise de dados mais avançados.
Exemplos comuns de conjuntos de dados não estruturados incluem:
Os conjuntos de dados semiestruturados preenchem a lacuna entre dados estruturados e dados não estruturados. Embora não sigam esquemas rígidos, eles incorporam sintaxe ou marcadores definidos para ajudar a organizar as informações em formatos flexíveis, porém analisáveis.
Essa abordagem híbrida torna os conjuntos de dados semiestruturados valiosos para projetos e aplicações modernos de integração de dados que precisam lidar com diversos tipos de dados, e ao mesmo tempo, manter alguma estrutura organizacional.
Exemplos comuns de conjuntos de dados semiestruturados incluem:
As organizações coletam dados de diversas fontes para criar conjuntos de dados compatíveis com várias iniciativas de negócios. As fontes de dados podem determinar diretamente a qualidade e a utilidade dos conjuntos de dados.
Algumas fontes de dados comuns incluem:
Repositórios de dados são armazenamentos de dados centralizados. Repositórios de dados proprietários frequentemente armazenam dados confidenciais ou críticos para os negócios, como registros de clientes, transações financeiras ou métricas operacionais que proporcionam vantagens competitivas.
Outros repositórios de dados estão disponíveis publicamente. Por exemplo, uma plataforma como o GitHub hospeda conjuntos de dados de código aberto juntamente com o código. Pesquisadores e organizações podem usar esses conjuntos de dados públicos para colaborar abertamente em modelos de aprendizado de máquina e projetos de ciência de dados .
Bancos de dados são repositórios de dados digitais otimizados para armazenar de forma segura e recuperar dados com facilidade, conforme a necessidade.
Um banco de dados pode conter um único conjunto de dados ou vários conjuntos de dados. Os usuários podem extrair rapidamente pontos de dados relevantes executando consultas de banco de dados que usam linguagens especializadas, como a linguagem de consulta estruturada (SQL).
As APIs conectam aplicações de software para que possam se comunicar. Os consumidores de dados podem usar APIs para capturar dados em tempo real de fontes conectadas, como serviços da web e plataformas digitais, e direcioná-los para outros aplicativos e repositórios para uso.
Os cientistas de dados frequentemente criam pipelines automatizados de coleta de dados usando linguagens como Python, que oferece bibliotecas robustas para integração com API e processamento de dados. Por exemplo, um sistema de análise de dados de varejo pode usar esses pipelines automatizados para coletar continuamente dados de compra de clientes e níveis de inventário de lojas de comércio eletrônico e sistemas de gerenciamento de inventário.
Sites como Data.gov e iniciativas de dados abertos em nível de cidade, como o New York City Open Data, fornecem acesso gratuito a conjuntos de dados que incluem métricas de saúde, transporte e ambientais. Os pesquisadores podem usar esses conjuntos de dados para estudar tudo, desde padrões de transporte até tendências de saúde pública.
Desde a inteligência artificial até a habilitação de insights baseados em dados, os conjuntos de dados são fundamentais para várias iniciativas tecnológicas e de negócios importantes.
Algumas das aplicações mais comuns de conjuntos de dados incluem:
A inteligência artificial (IA) tem o potencial de ser um diferencial crítico para muitas organizações.
De acordo com o IBM Institute for Business Value, 72% dos CEOs de alto desempenho acreditam que sua vantagem competitiva depende de ter a IA generativa (IA gen) mais avançada. Esses sistemas de IA de ponta dependem de vastos conjuntos de dados, tanto rotulados quanto não rotulados, para treinar modelos de forma eficaz.
Com dados de treinamento abrangentes, as organizações podem desenvolver sistemas de IA que realizam tarefas complexas, como:
Cientistas e analistas de dados usam conjuntos de dados para extrair insights valiosos e fazer descobertas em todas as disciplinas. Como as organizações coletam mais dados do que nunca, a análise de dados se tornou crucial para testar hipóteses, identificar tendências e descobrir relações que informam decisões estratégicas.
Algumas maneiras comuns pelas quais os conjuntos de dados auxiliam na análise de dados incluem:
As organizações usam business intelligence (BI) para descobrir insights em conjuntos de dados e impulsionar a tomada de decisões em tempo real.
As ferramentas de BI podem ajudar a analisar vários tipos de dados para identificar tendências, monitorar o desempenho e descobrir novas oportunidades. Algumas aplicações incluem:
O manuseio de conjuntos de dados grandes e complexos para qualquer iniciativa pode apresentar vários desafios e considerações. Alguns dos mais importantes incluem:
Todos os links são externos a ibm.com.
1 Organizations are evolving their D&A operating model because of AI technologies, Gartner, 29 de abril de 2024.
Tenha acesso a insights exclusivos sobre o cenário em evolução das soluções avançadas de BI, destacando as principais descobertas, suposições e recomendações para líderes de dados e de análises.
Simplifique o acesso aos dados e automatize a governança dos dados. Conheça o poder da integração de uma estratégia de data lakehouse à sua arquitetura de dados, incluindo a otimização dos custos das suas cargas de trabalho e a escala de IA, com todos os seus dados, em qualquer lugar.
Explore o guia do líder de dados para criar uma organização baseada em dados e gerar vantagem comercial.
Saiba como uma abordagem de data lakehouse aberta pode oferecer dados confiáveis e execução mais rápida para as análises de dados e projetos de IA.
Conecte sua estratégia e análises de dados aos objetivos de negócios com essas quatro etapas principais.
Analise com mais detalhes por que os desafios de business intelligence podem persistir e o que isso significa para os usuários da organização.
Para prosperar, as empresas devem utilizar os dados para conquistar a fidelidade do cliente, automatizar processos de negócios e inovar com soluções orientadas por IA.
Libere o valor dos dados empresariais com a IBM® Consulting, construindo uma organização orientada por insights, que proporciona vantagem comercial.
Apresentamos o Cognos Analytics 12.0, insights impulsionados por IA para maior eficiácia na tomada de decisão.