Técnicas de redução de dimensionalidade, como PCA, LDA e t-SNE, aprimoram modelos de aprendizado de máquina. Elas preservam funcionalidades essenciais de conjuntos de dados complexos ao reduzir o número de variáveis preditoras, aumentando a capacidade de generalização.
A redução de dimensionalidade é um método para representar um conjunto de dados usando um número menor de funcionalidades (ou seja, dimensões) enquanto ainda captura as propriedades essenciais dos dados originais.1 Isso equivale à remoção de funcionalidades irrelevantes, redundantes ou simplesmente ruidosas, criando um modelo com menos variáveis. A redução de dimensionalidade engloba uma variedade de métodos de seleção de características e compressão de dados usados no pré-processamento. Embora os métodos de redução de dimensionalidade operem de formas distintas, todos transformam espaços de alta dimensionalidade em espaços de baixa dimensionalidade por meio da extração ou combinação de variáveis.
No aprendizado de máquina, dimensões (ou funcionalidades) são as variáveis preditoras que determinam a saída de um modelo. Elas também podem ser chamadas de variáveis de input. Dados de alta dimensionalidade referem-se a conjuntos de dados com um grande número de variáveis preditoras. Esses conjuntos de dados aparecem frequentemente em bioestatística, bem como em estudos observacionais nas ciências sociais, onde o número de pontos de dados (isto é, observações) supera o número de variáveis preditoras.
Conjuntos de dados de alta dimensionalidade apresentam várias preocupações práticas para algoritmos de aprendizado de máquina, como aumento do tempo de computação e do espaço de armazenamento para big data. No entanto, o maior problema é, possivelmente, a redução da precisão dos modelos preditivos. Modelos estatísticos e de aprendizado de máquina treinados em conjuntos de dados de alta dimensionalidade muitas vezes apresentam baixa capacidade de generalização.
A maldição da dimensionalidade refere-se à relação inversa entre o aumento das dimensões de um modelo e a redução da capacidade de generalização. À medida que o número de variáveis de input do modelo aumenta, o espaço do modelo também aumenta. Se o número de pontos de dados permanecer o mesmo, entretanto, os dados tornam-se esparsos. Isso significa que a maior parte do espaço do modelo fica vazia, ou seja, sem pontos de dados observáveis. À medida que a esparsidade dos dados aumenta, os pontos tornam-se tão diferentes entre si que os modelos preditivos perdem eficácia na identificação de padrões explicativos.2
Para explicar adequadamente padrões em dados esparsos, os modelos podem superajustar os dados de treinamento. Assim, o aumento da dimensionalidade pode levar a uma baixa capacidade de generalização. A alta dimensionalidade também pode dificultar a interpretabilidade do modelo ao induzir multicolinearidade. À medida que o número de variáveis do modelo aumenta, cresce também a possibilidade de algumas variáveis serem redundantes ou correlacionadas.
Coletar mais dados pode reduzir a esparsidade e, assim, atenuar a maldição da dimensionalidade. No entanto, à medida que o número de dimensões do modelo aumenta, a quantidade de dados necessária para mitigar a maldição da dimensionalidade cresce exponencialmente.3 Como a coleta de dados suficientes nem sempre é viável, a redução de dimensionalidade torna-se essencial para melhorar a análise de dados.
As técnicas de redução de dimensionalidade geralmente reduzem modelos para um espaço de menor dimensão por meio da extração ou combinação de funcionalidades do modelo. Apesar dessa semelhança fundamental, os algoritmos de redução de dimensionalidade variam.
A análise de componentes principais (PCA) é, possivelmente, o método de redução de dimensionalidade mais comum. Trata-se de uma forma de extração de funcionalidades, o que significa que combina e transforma as funcionalidades originais do conjunto de dados para produzir novas características, chamadas componentes principais. Essencialmente, o PCA seleciona um subconjunto de variáveis de um modelo que, juntas, capturam a maior parte ou toda a variância presente no conjunto original de variáveis. O PCA então projeta os dados em um novo espaço definido por esse subconjunto de variáveis.4
Por exemplo, imagine um conjunto de dados sobre cobras com cinco variáveis: comprimento do corpo (X1), diâmetro do corpo no ponto mais largo (X2), comprimento das presas (X3), peso (X4) e idade (X5). Algumas dessas características podem ser correlacionadas, como comprimento do corpo, diâmetro e peso. Essa redundância pode levar à esparsidade dos dados e ao superajuste, reduzindo a variância (ou a capacidade de generalização) do modelo. O PCA calcula uma nova variável (PC1) que combina duas ou mais variáveis e maximiza a variância dos dados. Ao combinar variáveis potencialmente redundantes, o PCA também cria um modelo com menos variáveis do que o modelo inicial. Assim, se nosso conjunto de dados começou com cinco variáveis (isto é, cinco dimensões), o modelo reduzido pode ter de uma a quatro variáveis (ou seja, de uma a quatro dimensões). Os dados são então mapeados nesse novo modelo.5
Essa nova variável não é nenhuma das cinco originais, mas sim uma característica combinada obtida por meio de uma transformação linear da matriz de covariância dos dados originais. Especificamente, nosso componente principal combinado é o autovetor correspondente ao maior autovalor da matriz de covariância. Também podemos criar componentes principais adicionais combinando outras variáveis. O segundo componente principal é o autovetor do segundo maior autovalor, e assim por diante.6
A análise discriminante linear (LDA) é semelhante ao PCA no sentido de que projeta os dados em um novo espaço de menor dimensão, cujas dimensões são derivadas do modelo inicial. No entanto, a LDA difere do PCA ao priorizar a retenção de rótulos de classificação no conjunto de dados. Enquanto o PCA gera novas variáveis componentes para maximizar a variância dos dados, a LDA gera variáveis componentes que também maximizam a diferença entre classes.7
As etapas para a implementação da LDA são semelhantes às da PCA. A principal exceção é que a primeira usa a matriz de dispersão, enquanto a segunda usa a matriz de covariância. Por outro lado, assim como na PCA, a LDA computa combinações lineares das funcionalidades originais dos dados que correspondem aos maiores autovalores da matriz de dispersão. Um dos objetivos da LDA é maximizar a diferença interclasses e, ao mesmo tempo, minimizar a diferença intraclasse.8
A LDA e o PCA são tipos de algoritmos lineares de redução de dimensionalidade. O t-SNE (t-distributed stochastic neighbor embedding), por outro lado, é uma forma de redução de dimensionalidade não linear (ou aprendizado de variedade). Enquanto LDA e PCA focam principalmente na retenção da distância entre pontos de dados dissimilares em suas representações de menor dimensão, o t-SNE busca preservar a estrutura local dos dados ao reduzir a dimensionalidade do modelo. Outra diferença entre o t-SNE e o LDA/PCA é que estes podem gerar modelos com mais de três dimensões, desde que o número de dimensões seja menor do que o conjunto de dados original. O t-SNE, no entanto, visualiza todos os conjuntos de dados em três ou duas dimensões.
Como método de transformação não linear, o t-SNE não utiliza matrizes de dados. Em vez disso, o t-SNE emprega um kernel Gaussiano para calcular a similaridade entre pares de pontos de dados. Pontos próximos entre si no conjunto de dados original têm uma probabilidade maior de permanecer próximos uns dos outros do que pontos mais distantes. O t-SNE então mapeia todos os pontos de dados em um espaço tridimensional ou bidimensional, tentando preservar os pares de dados.9
Existem vários outros métodos de redução de dimensionalidade, como PCA com kernel, análise fatorial, random forests e decomposição em valores singulares (SVD). O PCA, a LDA e o t-SNE estão entre os mais amplamente utilizados e discutidos. Vale destacar que diversos pacotes e bibliotecas, como o scikit-learn, já incluem funções pré-configuradas para a implementação dessas técnicas.
A redução de dimensionalidade tem sido amplamente empregada para visualização de dados.
A redução da dimensionalidade geralmente surge na pesquisa biológica, onde a quantidade de variáveis genéticas supera o número de observações. Dessa forma, alguns estudos comparam diferentes técnicas de redução de dimensionalidade, identificando o t-SNE e o PCA do kernel entre os mais eficazes para diferentes conjuntos de dados genômicos.10 Outros estudos propõem um critério mais específico para selecionar métodos de redução de dimensionalidade em pesquisas biológicas computacionais.11 Um estudo recente propõe uma versão modificada do PCA para análises genéticas relacionadas à ancestralidade com recomendações para obter projeções sem viés.12
A análise semântica latente (LSA) é uma forma de SVD aplicada a documentos de texto no processamento de linguagem natural. A LSA opera essencialmente sob o princípio de que a similaridade entre palavras se manifesta no grau em que elas coocorrem em subconjuntos ou pequenas amostras da linguagem.13 A LSA é utilizada para comparar a linguagem do suporte emocional fornecido por profissionais da saúde e argumentar em favor de práticas retóricas ideais para o fim da vida.14 Outras pesquisas usam a LSA como métrica de avaliação para confirmar os insights e a eficácia de outras técnicas de aprendizado de máquina.15
O IBM® Granite é nossa família de modelos de IA abertos, de alto desempenho e confiáveis, personalizados para a empresa e otimizados para escalar suas aplicações de IA. Explore as opções de linguagem, código, séries temporais e proteções.
Entrevistamos duas mil organizações a respeito de suas iniciativas de IA para descobrir o que está funcionando, o que não está e como se preparar.
Explore abordagens de aprendizado supervisionado, como máquinas de vetores de suporte e classificadores probabilísticos.
Aprenda conceitos fundamentais e desenvolva suas habilidades com laboratórios práticos, cursos, projetos guiados, avaliações e muito mais.
Saiba como selecionar o modelo de base de IA mais adequado para seu caso de uso.
Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.
Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.
Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.
1 Lih-Yuan Deng, Max Garzon e Nirman Kumar, Dimensionality Reduction in Data Science, Springer, 2022.
2 Ian Goodfellow Yoshua Bengio e Aaron Courville, Deep Learning, MIT Press, 2016.
3 Richard Bellman, Adaptive Control Processes: A Guided Tour, Princeton University Press, 1961.
4 I.T. Jollife, Principal Component Analysis, Springer, 2002.
5 Chris Albon, Machine Learning with Python Cookbook, O’Reilly, 2018. Nikhil Buduma, Fundamentals of Deep Learning, O’Reilley, 2017.
6 I.T. Joliffe, Principal Component Analysis, Springer, 2002. Heng Tao Shen, “Principal Component Analysis,” Encyclopedia of Database Systems, Springer, 2018.
7 Chris Albon, Machine Learning with Python Cookbook, O’Reilly, 2018.
8 Chris Ding, “Dimension Reduction Techniques for Clustering,” Encyclopedia of Database Systems, Springer, 2018.
9 Laurens van der Maaten e Geoffrey Hinton, “Visualizing Data Using t-SNE,” Journal of Machine Learning Research, vol. 9, no. 86, 2008, págs. 2579−2605, https://www.jmlr.org/papers/v9/vandermaaten08a.html .
10 Shunbao Li, Po Yang e Vitaveska Lanfranchi, "Examing and Evaluating Dimension Reduction Algorithms for Classifying Alzheimer’s Diseases using Gene Expression Data," 17th International Conference on Mobility, Sensing and Networking (MSN), 2021, págs. 687-693, https://ieeexplore.ieee.org/abstract/document/9751471. Ruizhi Xiang, Wencan Wang, Lei Yang, Shiyuan Wang, Chaohan Xu, and Xiaowen Chen, "A Comparison for Dimensionality Reduction Methods of Single-Cell RNA-seq Data," Frontiers in Genetics, vol. 12, 2021, https://www.frontiersin.org/journals/genetics/articles/10.3389/fgene.2021.646936/full.
11 Shiquan Sun, Jiaqiang Zhu, Ying Ma e Xiang Zhou, “Accuracy, robustness and scalability of dimensionality reduction methods for single-cell RNA-seq analysis,” Genome Biology, vol. 20, 2019, https://genomebiology.biomedcentral.com/articles/10.1186/s13059-019-1898-6. Lan Huong Nguyen and Susan Holmes, “Ten quick tips for effective dimensionality reduction,” PLoS Computational Biology, vol. 15, no. 6, 2019, https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1006907.
12 Daiwei Zhang, Rounak Dey e Seunggeun Lee, "Fast and robust ancestry prediction using principal component analysis," Bioinformatics, vol. 36, no. 11, 2020, págs. 3439–3446, https://academic.oup.com/bioinformatics/article/36/11/3439/5810493.
13 Nitin Indurkhya e Fred Damerau, Handbook of Natural Language Processing, 2ª edição, CRC Press, 2010.
14 Lauren Kane, Margaret Clayton, Brian Baucom, Lee Ellington e Maija Reblin, "Measuring Communication Similarity Between Hospice Nurses and Cancer Caregivers Using Latent Semantic Analysis," Cancer Nursing, vol. 43, no. 6, 2020, págs. 506-513, https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6982541/.
15 Daniel Onah, Elaine Pang e Mahmoud El-Haj, "Data-driven Latent Semantic Analysis for Automatic Text Summarization using LDA Topic Modelling," 2022 IEEE International Conference on Big Data, 2022, págs. 2771-2780, https://ieeexplore.ieee.org/abstract/document/10020259.