O que é redução de dados?
Explore nossa plataforma de IA Inscreva-se para receber atualizações de IA
Homem na sala do servidor

Publicado em: 18 de janeiro de 2024
Colaboradores: Phill Powell, Ian Smalley

O que é redução de dados?

A redução de dados é o processo no qual uma organização se propõe a limitar a quantidade de dados que está armazenando.

As técnicas de redução de dados buscam diminuir a redundância encontrada no conjunto de dados original, de modo que grandes quantidades de dados originalmente obtidos possam ser armazenadas de forma mais eficiente como dados reduzidos.

De início, é importante ressaltar que o termo "redução de dados" não equivale automaticamente a uma perda de informações. Em muitos casos, a redução de dados significa apenas que os dados agora estão sendo armazenados de forma mais inteligente, talvez depois de passarem pelo processo de otimização e, em seguida, serem reagrupados com dados relacionados em uma configuração mais prática.

A redução de dados também não é a mesma coisa que a deduplicação de dados, na qual cópias extras dos mesmos dados são eliminadas para fins de simplificação. Mais precisamente, a redução de dados combina vários aspectos de diferentes atividades, como a deduplicação e a consolidação de dados, para atingir seus objetivos.

Por que a governança da IA é um imperativo empresarial para dimensionar a IA empresarial

Saiba mais sobre as barreiras à adoção de IA, especialmente a falta de soluções de governança de IA e gerenciamento de riscos.

Conteúdo relacionado

Cadastre-se para receber o guia sobre modelos de base

Uma visão mais abrangente dos dados

Quando os dados estão sendo discutidos no contexto da redução de dados, geralmente estamos falando de dados em sua forma singular, em vez da forma pluralizada normalmente usada. Um aspecto da redução de dados, por exemplo, trata da definição das dimensões físicas reais de pontos de dados individuais.

Há uma quantidade considerável de ciência de dados envolvida nas atividades de redução de dados. O material pode ser bastante complexo e difícil de resumir de forma concisa, e esse dilema gerou seu próprio termo, interpretabilidade, ou a capacidade de um ser humano de inteligência mediana entender um determinado modelo de aprendizado de máquina.

Compreender o significado de alguns desses termos pode ser um desafio, pois esses dados são vistos de uma perspectiva quase microscópica. Normalmente, discutimos os dados em sua forma macro, mas, na redução de dados, muitas vezes falamos dos dados em seu sentido mais micro. Mais precisamente, a maioria das discussões sobre esse tópico exigirá discussões no nível macro e outras no nível micro da escala.

Benefícios da redução de dados

Quando uma organização reduz o volume de dados que está armazenando, ela normalmente obtém economias financeiras substanciais na forma de redução dos custos de armazenamento associados ao consumo de menos espaço de armazenamento.

Os métodos de redução de dados também oferecem outras vantagens, como o aumento da eficiência dos dados. Quando a redução de dados é alcançada, os dados resultantes são mais fáceis de serem usados pelos métodos de inteligência artificial (IA) de várias maneiras, incluindo a aplicação de análise de dados sofisticada que pode agilizar bastante as tarefas de tomada de decisão.

Por exemplo, quando a virtualização de armazenamento é usada com sucesso, ela auxilia a coordenação entre os ambientes de servidor e desktop, aumentando sua eficiência geral e tornando-os mais confiáveis.

Os esforços de redução de dados desempenham um papel fundamental nas atividades de mineração de dados. Os dados devem estar o mais limpos e preparados possível antes de serem minerados e usados para a análise de dados.

Tipos de redução de dados

A seguir estão alguns dos métodos que as organizações podem usar para alcançar a redução de dados.

Redução da dimensionalidade

A noção de dimensionalidade dos dados é a base de todo esse conceito. A dimensionalidade refere-se ao número de atributos (ou recursos) atribuídos a um único conjunto de dados. No entanto, há uma questão aqui: quanto maior a dimensionalidade, maior o armazenamento de dados exigido por esse conjunto de dados. Além disso, quanto maior a dimensionalidade, mais frequentemente os dados tendem a ser esparsos, complicando a análise de valor discrepante necessária.

A redução da dimensionalidade combate isso limitando o ruído e permitindo uma melhor visualização dos dados. Um ótimo exemplo de redução de dimensionalidade é o método de transformação wavelet, que auxilia na compactação de imagens ao manter a distância relativa existente entre os objetos em vários níveis de resolução.

A extração de recursos é outra possibilidade de transformação de dados, que transforma os dados originais em recursos numéricos e funciona em conjunto com o aprendizado de máquina. Ela é diferente da análise de componentes principais (PCA), outro meio de reduzir a dimensionalidade de grandes conjuntos de dados, em que um conjunto considerável de variáveis é transformado em um conjunto menor, mantendo a maior parte dos dados do conjunto grande.

Redução de numerosidade

O outro método envolve a seleção de um formato menor e menos intensivo de computação de dados para representar os dados. Há dois tipos de redução de numerosidade: a que se baseia em métodos paramétricos e a que se baseia em métodos não paramétricos. Os métodos paramétricos, como a regressão, concentram-se nos parâmetros do modelo, excluindo os próprios dados. Da mesma forma, pode ser empregado um modelo linear de registro que se concentre em subespaços dentro dos dados. Enquanto isso, os métodos não paramétricos (como os histogramas, que mostram a maneira como os dados numéricos são distribuídos) não dependem de modelos.

Agregação de cubos de dados

Os cubos de dados são uma forma visual de armazenar dados. O termo "cubo de dados" é, na verdade, quase enganoso em sua singularidade implícita, visto que na verdade está descrevendo um cubo grande e multidimensional que é composto de cuboides menores e organizados. Cada um dos cuboides representa algum aspecto dos dados totais dentro desse cubo de dados, especificamente partes de dados referentes a medidas e dimensões. A agregação de cubo de dados, portanto, é a consolidação de dados no formato visual de cubo multidimensional, que reduz o tamanho dos dados ao dar a eles um contêiner exclusivo criado especificamente para essa finalidade.

Discretização de dados

Outro método utilizado para a redução de dados é a discretização de dados, na qual um conjunto linear de valores de dados é criado com base em um conjunto definido de intervalos, cada um correspondendo a um determinado valor de dados.

Compressão de dados

A fim de limitar o tamanho do arquivo e obter uma compactação de dados bem-sucedida, vários tipos de codificação podem ser usados. Em geral, considera-se que as técnicas de compactação de dados usam compactação sem perdas ou com perdas, e são agrupadas de acordo com esses dois tipos. Na compactação sem perdas, o tamanho dos dados é reduzido por meio de algoritmos e técnicas de codificação, e os dados originais completos podem ser restaurados, se necessário. A compactação com perdas, por outro lado, usa outros métodos para realizar a compactação e, embora os dados processados possam ser mantidos, eles não serão uma cópia exata, como seria o caso da compactação sem perdas.

Pré-processamento de dados

Alguns dados precisam ser limpos, tratados e processados antes de serem submetidos aos processos de análise e redução de dados. Parte dessa transformação pode envolver a alteração dos dados de natureza analógica para digital. O binning é outro exemplo de pré-processamento de dados, no qual os valores medianos são utilizados para normalizar vários tipos de dados e garantir a integridade total dos dados.

Soluções relacionadas
Sustentabilidade do armazenamento com o IBM FlashSystem

Aproveite uma situação em que tanto sua organização quanto o meio ambiente saem ganhando usando o armazenamento IBM FlashSystem. Consuma menos energia e obtenha economia de custos, além de reduzir a pegada de carbono de sua empresa.

Explore a sustentabilidade do armazenamento com o IBM FlashSystem

IBM Spectrum Virtualize for Public Cloud

Imagine uma solução que ofereça suporte ao espelhamento entre data centers locais e data centers na nuvem ou entre data centers na nuvem. O IBM Spectrum Virtualize for Public Cloud também ajuda a implementar estratégias de recuperação de desastres.

Explore o IBM Spectrum Virtualize for Public Cloud

IBM Storage como serviço

Obtenha o melhor dos dois mundos com o IBM Storage como serviço. Comece com o hardware local fornecido e gerenciado pela IBM. Junte isso a um modelo de preços baseado em consumo, semelhante a uma nuvem, para obter uma combinação flexível.

Explore o IBM Storage como serviço
Recursos Tour do produto IBM FlashSystem

Explore o FlashSystems com tecnologia IBM Spectrum Virtualize Software, que utiliza virtualização simétrica.

Assista ao webinar sobre armazenamento sustentável

Os custos com energia e dados parecem estar crescendo a taxas exponenciais. À medida que as empresas enfrentam essa realidade dispendiosa, elas precisam de um armazenamento com eficiência energética no qual possam confiar.

IBM Data Reduction Estimator Tool

A Data Reduction Estimator Tool (DRET) é uma ferramenta baseada em hospedagem de linha de comando para estimar a economia da redução de dados em dispositivos de bloco.

O que é consolidação de dados?

Descubra por que muitas organizações estão confiando em ferramentas de consolidação de dados para lidar com seus data warehouses.

O que é armazenamento de dados?

Aprenda sobre os conceitos básicos de armazenamento de dados, incluindo tipos de dispositivos de armazenamento e diferentes formatos de armazenamento de dados.

O que é armazenamento flash?

As soluções de armazenamento flash podem variar de unidades USB a matrizes de nível empresarial. Saiba o que as motiva.

Dê o próximo passo

Treine, valide, ajuste e implemente IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de próxima geração para construtores de IA. Crie aplicações de IA em menos tempo com menos dados.

Explore o watsonx.ai Agende uma demonstração em tempo real