O que é downsampling?

Autores

Jacob Murel Ph.D.

Senior Technical Content Creator

O que é downsampling?

A redução da amostragem diminui o número de amostras de dados em um conjunto de dados. Fazendo isso, ele visa corrigir dados desequilibrados e assim melhorar o desempenho do modelo.

A subamostragem é uma técnica comum de processamento de dados que lida com desequilíbrios em um conjunto de dados removendo dados da classe majoritária até que corresponda ao tamanho da classe minoritária. Essa abordagem se opõe ao superamostragem, que consiste em reamostrar os pontos da classe majoritária. Tanto o scikit-learn do Python quanto o Matlab possuem funções embutidas para implementar técnicas de subamostragem.

A subamostragem na ciência de dados é frequentemente confundido com a subamostragem no processamento digital de sinais (DSP). Os dois são semelhantes em essência. A subamostragem no processamento digital de sinais (também conhecido como dizimação) é o processo de diminuir a largura de banda e a taxa de amostragem, removendo assim parte dos dados do sinal original. O processo de diminuir a frequência de amostragem é frequentemente realizado reduzindo a taxa de amostragem por um fator inteiro, mantendo apenas uma a cada nth amostras. Para isso, utiliza-se um filtro passa-baixa, também chamado de filtro anti-aliasing, para reduzir as componentes de alta frequência/ruído de um sinal em tempo discreto pelo fator inteiro mencionado anteriormente.

A subamostragem para balanceamento de dados pode ser confundida com a usada no processamento de imagens. Quando os dados apresentam muitas características, como em imagens de ressonância magnética de alta resolução, os cálculos podem ficar caros. Portanto, no processamento de imagens, a subamostragem reduz a dimensionalidade de cada ponto de dados por meio de convolução. Isso não equivale a balancear o conjunto de dados: é uma técnica de otimização que depois exigirá interpolação para recuperar os dados originais.

Boletim informativo do setor

As mais recentes tendências em IA, trazidas a você por especialistas

Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.

Por que usar a subamostragem?

O downsampling é uma forma eficaz de lidar com os desequilíbrios em um conjunto de dados. Um conjunto de dados desequilibrado é definido como um conjunto no qual uma classe está fortemente sub-representada em relação à população real, criando um viés não intencional. Por exemplo, imagine um modelo treinado para classificar imagens de gatos ou cães. O conjunto de dados utilizado é composto por 90% de gatos e 10% de cães. Nesse cenário, os gatos estão super-representados, e se tivermos um classificador que prevê gatos o tempo todo, ele terá 90% de precisão para classificar gatos, mas 0% para classificar cães. O conjunto de dados desequilibrado, nesse caso, fará com que os classificadores favoreçam a precisão para a classe majoritária em detrimento da classe minoritária. O mesmo problema pode ocorrer com conjuntos de dados multiclasses.¹

O processo de subamostragem neutraliza o problema do conjunto de dados desequilibrado. Ele identifica pontos da classe majoritária para remover com base em critérios específicos. Esses critérios podem mudar com a técnica de subamostragem escolhida. Isso equilibra o conjunto de dados ao reduzir efetivamente o número de amostras da classe majoritária super-representada até que o conjunto de dados contenha uma proporção igual de pontos entre todas as classes.

Embora seja possível observar desequilíbrios ao representar graficamente a contagem de pontos em cada classe, isso não indica se afetará muito o modelo. Felizmente, podemos utilizar métricas de desempenho para avaliar quão bem uma técnica de downsampling corrige o desequilíbrio de classes. A maioria dessas métricas é aplicada em classificações binárias, com apenas duas classes: positiva e negativa. Normalmente, a classe positiva é a minoritária, e a negativa, majoritária. Duas métricas populares são as curvas ROC (Receiver Operating Characteristic) e as curvas de precisão-recall.¹

Mixture of Experts | 12 de dezembro, episódio 85

Decodificando a IA: resumo semanal das notícias

Participe do nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Veja todos os episódios de Mixture of Experts

Vantagens e desvantagens da subamostragem

Vantagens

Menos requisitos de armazenamento: quando o armazenamento custa dinheiro, digamos, para o armazenamento em nuvem, o downsampling seria preferido em vez do upsampling para evitar aumentar os custos.²
Treinamento mais rápido: a redução da resolução reduz os conjuntos de dados e torna o treinamento menos intensivo na CPU ou na GPU, o que é mais econômico e ecológico.
Menor tendência de overfitting: o upsampling gera novos dados a partir dos dados antigos, o que pode levar ao overfitting dos dados. O downsampling, sendo o oposto (exclui dados), não sofre desse problema.²

Desvantagens

Perda de informações: excluir pontos da classe majoritária pode causar perda de informações importantes. Isso pode ser problemático se for necessária precisão na classificação da classe majoritária. Além disso, o conjunto de dados pode ficar pequeno demais para o modelo treinar.²
Viés introduzido: os pontos de amostra restantes da classe majoritária podem formar um conjunto enviesado em relação aos dados originais, impactando negativamente o desempenho do classificador.

Técnicas de subamostragem

Subamostragem aleatória

O downsampling aleatório é uma técnica de exclusão em que pontos aleatórios da classe majoritária são escolhidos sem reposição e excluídos do conjunto de dados até que o tamanho da classe majoritária seja igual ao da classe minoritária. Essa é uma forma simples de excluir aleatoriamente um subconjunto de dados para fins de balanceamento. No entanto, essa técnica pode eliminar padrões ou distribuições importantes da classe majoritária, prejudicando o desempenho do classificador.²

Subamostragem Near Miss

A subamostragem Near Miss é uma técnica que busca equilibrar a distribuição de classes eliminando aleatoriamente certos exemplos da classe majoritária.

Conceitualmente, o near miss funciona mantendo dados em áreas onde as classes majoritária e minoritária estão muito próximas, pois esses pontos fornecem informações-chave para diferenciá-las.³ Esses pontos são geralmente conhecidos como pontos de dados "difíceis" de aprender. O downsampling near miss geralmente opera em duas etapas:

Etapa 1: calcule a distância entre pares de todas as instâncias da classe majoritária e minoritária.
Etapa 2: com base nas distâncias calculadas, remova as instâncias da classe majoritária que estão mais distantes dos pontos marginalizados.

Existem três variações do algoritmo Near Miss que oferecem uma maneira mais precisa de selecionar as instâncias da classe majoritária para remover.

Versão 1: essa versão mantém as instâncias da classe majoritária com a menor distância média em relação às suas N instâncias mais próximas da mesma classe majoritária. Os dados resultantes podem acabar distribuídos de maneira desigual, com alguns pontos da classe majoritária próximos de muitos pontos da classe minoritária, e outros próximos de poucos, resultando em baixa precisão e baixo recall.⁴

Um diagrama de redução da amostragem - Near Miss 1

Versão 2: essa versão do downsampling near miss mantém as instâncias da classe majoritária com a menor distância média em relação às N instâncias da classe minoritária mais distantes. Ao contrário da primeira versão, esta versão cria uma distribuição mais uniforme da classe majoritária, resultando em melhores desempenhos do classificador.⁴

Um diagrama de downsampling - Near Miss 2

Versão 3: essa versão mantém as amostras da classe majoritária mais próximas das instâncias da classe minoritária que estão mais próximas da classe majoritária. Opera em duas etapas. Primeiro, são mantidos os M vizinhos mais próximos da classe majoritária para cada instância da classe minoritária. Em seguida, entre as instâncias restantes da classe majoritária, aquelas com a maior distância média são identificadas e mantidas. Como essa versão mantém as instâncias da classe majoritária que estão próximas de muitas outras instâncias da mesma classe, ela pode oferecer alta precisão, mas baixo recall.⁴

Um diagrama de downsampling - Close Miss 3

Subamostragem utilizando a regra dos vizinhos mais próximos condensada

O Condensed Nearest Neighbors (CNN, não confundir com Convolutional Neural Networks) busca encontrar um subconjunto de um conjunto de dados que possa ser usado para treinamento sem perda de desempenho do modelo. Isso é alcançado ao identificar um subconjunto que permita treinar um modelo que preveja corretamente todo o conjunto de dados.

O downsampling da CNN pode ser dividido nas seguintes etapas:⁵

Crie um novo conjunto de dados, S, que contém todas as instâncias da classe minoritária e uma única instância da majoritária selecionada aleatoriamente.
Treine um classificador 1-NN no novo conjunto de dados S.
Para todos os pontos de dados da classe majoritária não incluídos em S, use o classificador 1-NN para prever o seu rótulo. Se o classificador 1-NN prever corretamente o rótulo, descarte o ponto. Caso contrário, adicione-o a S.

Assim como o Near Miss, esse processo basicamente remove todas as instâncias da classe majoritária que estão longe da fronteira de decisão, que, mais uma vez, são pontos fáceis de classificar. Isso garante que todos os dados do conjunto de dados original possam ser previstos corretamente usando apenas os dados em S. Assim, o conjunto pode ser reduzido significativamente, mantendo bem a fronteira de decisão.

Diagrama com três gráficos de amostra de classe majoritária, amostra de classe minoritária e amostra de classe majoritária com vizinhos de classe minoritária.

Esta imagem mostra um exemplo de aplicação dos vizinhos mais próximos condensados, utilizando um vizinho mais próximo e 21 vizinhos mais próximos em dois conjuntos de dados. As duas imagens na parte superior são antes da aplicação dos vizinhos mais próximos condensados, enquanto as duas na parte inferior são depois. Nota-se que a fronteira decisória é mantida de forma satisfatória.

Tomek link

A premissa de downsampling de Tomek Link é reduzir o ruído nos dados ao remover pontos próximos à fronteira de decisão, aumentando a separação entre classes. Ele funciona identificando "links de Tomek", que são pares de pontos de classes diferentes sem um terceiro ponto mais próximo de nenhum deles.²

Para cada link de Tomek, o ponto pertencente à classe majoritária é removido. Ao remover um ponto da classe majoritária que está próximo de um ponto da classe minoritária, a separação entre as classes aumenta. Uma desvantagem desse método é a complexidade computacional ao calcular todas as distâncias entre pares de pontos das classes majoritária e minoritária.² O downsampling de Tomek Link é mais eficaz quando combinado com outras técnicas.

Edited Nearest Neighbors

O downsampling de vizinhos mais próximos editados (ENN) é semelhante ao downsampling de Tomek Link, onde o objetivo é remover os exemplos próximos ao boundary de decisão para melhorar a separação das classes. Em geral, esse método remove os pontos de dados cuja classe difere da maioria de seus vizinhos.² Isso significa que o processo elimina pontos da classe majoritária cujo maioria dos vizinhos mais próximos pertence à classe minoritária, e vice-versa. A maioria, nesse contexto, pode ser definida livremente: pode significar que pelo menos um vizinho pertence a uma classe diferente ou que a proporção de vizinhos de uma classe distinta excede um determinado limite.

A subamostragem de ENN geralmente é feita com 3 vizinhos mais próximos, conforme ilustrado abaixo.

Um diagrama de downsampling - Preservação de Limites

Esta é uma estratégia mais ampla, pois analisa a vizinhança geral dos pontos em vez de um único vizinho, sendo uma forma eficiente de remover ruídos nos dados. A subamostragem ENN é mais eficaz quando combinada com outras técnicas.

Pesquisa recente

Os desenvolvimentos atuais no downsampling giram em torno de integrações de deep learning. Isso tem sido aplicado em áreas como processamento de imagens e dados médicos, envolvendo o uso de redes neurais para downsampling.⁶ Um exemplo disso é o SOM-US, que utiliza uma rede neural de duas camadas.⁷ Nos últimos anos, o aprendizado ativo também foi aplicado ao downsampling para tentar mitigar os efeitos de dados desequilibrados.⁸ Experimentos demonstraram que esses modelos têm desempenho significativamente superior às técnicas tradicionais.

As pesquisas atuais sobre downsampling também buscam combiná-lo com outras técnicas para criar métodos híbridos. Uma das combinações envolve o downsampling e upsampling dos dados para aproveitar os benefícios de ambos os sistemas: SMOTE+Tomek Link, Agglomerative Hierarchical Clustering (AHC) e SPIDER são alguns exemplos.⁹ As técnicas em nível de algoritmo também podem incorporar ideias das técnicas tradicionais de downsampling, como o Hard Example Mining, onde o treinamento se concentra apenas nos pontos de dados "mais difíceis".² Todas essas abordagens mostram melhor desempenho do que usar cada técnica isoladamente.

Tenha acesso ao poder da IA generativa + ML

Saiba como incorporar com confiança a IA generativa e o aprendizado de máquina em sua empresa.

Recursos

Aumente seu conhecimento especializado em ML

Aprenda conceitos fundamentais e desenvolva suas habilidades com laboratórios práticos, cursos, projetos guiados, avaliações e muito mais.

Tenha acesso ao poder da IA generativa + ML

Saiba como incorporar com confiança a IA generativa e o aprendizado de máquina em sua empresa.

Coloque a IA para trabalhar: como gerar ROI com a IA generativa

Quer ter mais retorno sobre seus investimentos em IA? Saiba como o dimensionamento da IA generativa em áreas importantes promove mudanças, ajudando suas melhores mentes a criar e oferecer soluções novas e inovadoras.

Como escolher o modelo de base certo

Saiba como selecionar o modelo de base de IA mais adequado para seu caso de uso.

Explore o IBM Granite

O IBM Granite é nossa família de modelos de IA abertos, de alto desempenho e confiáveis, personalizados para a empresa e otimizados para escalar suas aplicações de IA. Explore as opções de linguagens, código, séries temporais e proteções.

Como prosperar nesta nova era da IA com confiança e convicção

Aprofunde-se nos três elementos críticos de uma estratégia de IA forte: gerar vantagem competitiva, escalar a IA em toda a empresa e avançar na IA confiável.

Relatório “IA em ação”

Entrevistamos duas mil organizações a respeito de suas iniciativas de IA para descobrir o que está funcionando, o que não está e como se preparar.

Soluções relacionadas

IBM watsonx.ai

Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.

Conheça o watsonx.ai

Soluções de inteligência artificial

Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA

Consultoria e serviços em IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA

Dê o próximo passo

Obtenha acesso completo aos recursos que abrangem o ciclo de vida do desenvolvimento da IA. Produza soluções poderosas de IA com interfaces fáceis de usar, fluxos de trabalhos e acesso a APIs e SDKs padrão do setor.

Explore o watsonx.ai

Agende uma demonstração em tempo real

Notas de rodapé

¹ Haobo He e Edwardo Garcia, Learning from Imbalanced Data, IEEE, September 2009, https://ieeexplore.ieee.org/document/5128907 (link externo a ibm.com).

² Kumar Abhishek and Mounir Abdelaziz, Machine Learning for Imbalanced Data, Packt, November 2023

³ Ajinkya More, Survey of resampling techniques for improving classification performance in unbalanced datasets, 22 de agosto de 2016, https://arxiv.org/pdf/1608.06048 (link externo a ibm.com).

⁴ Jianping Zhang and Inderjeet Mani, kNN Approach to Unbalanced Data Distributions: A Case Study involving Information Extraction, 2003, https://www.site.uottawa.ca/~nat/Workshop2003/jzhang.pdf (link externo a ibm.com).

⁵ More, Survey of resampling techniques for improving calssification performance in unbalanced datasets, 22 de agosto de 2016, https://arxiv.org/pdf/1608.06048 (link externo a ibm.com). Alberto Fernandez, et al., Learning from Imbalanced Data Sets, Springer, 2018.

⁶ Md Adnan Arefeen, Sumaiya Tabassum Nimi e M. Sohel Rahman, Neural Network-Based Undersampling Techniques, IEEE, 02 de setembro de 2020, https://ieeexplore.ieee.org/abstract/document/9184909?casa_token=RnLRvnqyiF8AAAAA:iyxPWT06HX6a9g8X1nhShrllo_ht9ZM1cqHMWjET5wOopeR5dqizBF29cSSmFMRPo9V1D7XBIwg (link externo a ibm.com).

⁷ Ajay Kumar, SOM-US: A Novel Under-Sampling Technique for Handling Class Imbalance Problem, hrcak, 30 de janeiro de 2024, https://hrcak.srce.hr/clanak/454006 (link externo a ibm.com).

⁸ Wonjae Lee and Kangwon Seo, Downsampling for Binary Classification with a Highly Imbalanced Dataset Using Active Learning, Science Direct, 26 de abril de 2022, https://www.sciencedirect.com/science/article/pii/S2214579622000089 (link externo a ibm.com).

⁹ Alberto Fernandez, et al., Learning from Imbalanced Data Sets, Springer, 2018.

O que é downsampling?

Autores

O que é downsampling?

As mais recentes tendências em IA, trazidas a você por especialistas

Agradecemos a você! Você se inscreveu.

Por que usar a subamostragem?

Decodificando a IA: resumo semanal das notícias

Vantagens e desvantagens da subamostragem

Vantagens

Desvantagens

Técnicas de subamostragem

Subamostragem aleatória

Subamostragem Near Miss

Subamostragem utilizando a regra dos vizinhos mais próximos condensada

Tomek link

Edited Nearest Neighbors

Pesquisa recente

Recursos

Notas de rodapé