¿Qué es la reducción de la dimensionalidad?

5 de enero de 2024

Autores

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Program Manager

¿Qué es la reducción de la dimensionalidad?

Las técnicas de reducción de la dimensionalidad como PCA, LDA y t-SNE mejoran los modelos de machine learning. Conservan características esenciales de conjuntos de datos complejos al reducir el número de variables de previsión para una mayor generalización.

La reducción de la dimensionalidad es un método para representar un conjunto de datos utilizando un menor número de características (es decir, dimensiones) sin perder las propiedades significativas de los datos originales.1 Esto equivale a eliminar características irrelevantes o redundantes, o simplemente datos ruidosos, para crear un modelo con un menor número de variables. La reducción de la dimensionalidad abarca una serie de métodos de selección de características y compresión de datos utilizados durante el preprocesamiento. Aunque los métodos de reducción de la dimensionalidad difieren en su funcionamiento, todos transforman espacios de alta dimensión en espacios de baja dimensión mediante la extracción o la combinación de variables.

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA 


Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think. 

¿Por qué utilizar la reducción de la dimensionalidad?

En machine learning, las dimensiones (o características) son las variables de previsión que determinan el resultado de un modelo. También pueden llamarse variables de entrada. Los datos de alta dimensión denotan cualquier conjunto de datos con una gran cantidad de variables de previsión. Dichos conjuntos de datos pueden aparecer con frecuencia en bioestadística, así como en estudios observacionales de ciencias sociales, donde el número de puntos de datos (es decir, observaciones) supera el número de variables de previsión.

Los conjuntos de datos de alta dimensión plantean una serie de preocupaciones prácticas para los algoritmos de machine learning, como un mayor tiempo de cálculo, espacio de almacenamiento para big data, entre otros. Pero la mayor preocupación tal vez sea la disminución de la precisión en los modelos de previsión. Los modelos estadísticos y de machine learning entrenados con conjuntos de datos de alta dimensión con frecuencia generalizan mal.

La maldición de la dimensionalidad

La maldición de la dimensionalidad se refiere a la relación inversa entre el aumento de las dimensiones del modelo y la disminución de las posibilidades para hacer generalizaciones. A medida que aumenta el número de variables de entrada del modelo, aumenta el espacio del modelo. Sin embargo, si el número de puntos de datos sigue siendo el mismo, los datos se vuelven dispersos. Esto significa que la mayor parte del espacio de características del modelo está vacío, es decir, sin puntos de datos observables. A medida que aumenta la dispersión de los datos, los puntos de datos se vuelven tan diferentes que los modelos predictivos se vuelven menos eficaces para identificar patrones explicativos.2

Para explicar adecuadamente patrones en datos dispersos, los modelos pueden sobreajustarse a los datos de entrenamiento. De este modo, el aumento de la dimensionalidad puede conducir a una escasa generalizabilidad. El alta dimensionalidad puede inhibir aún más la interpretabilidad del modelo al inducir la multicolinealidad. A medida que aumenta la cantidad de variables del modelo, también lo hace la posibilidad de que algunas variables sean redundantes o estén correlacionadas.

Recopilar más datos puede reducir la dispersión de los datos y, por lo tanto, compensar la maldición de la dimensionalidad. Sin embargo, a medida que aumenta el número de dimensiones en un modelo, el número de puntos de datos necesarios para impedir la maldición de la dimensionalidad aumenta de manera exponencial.3 Por supuesto, no siempre es viable recopilar suficientes datos. Por lo tanto, es necesario reducir la dimensionalidad para mejorar el análisis de datos.

Métodos de reducción de la dimensionalidad

Las técnicas de reducción de la dimensionalidad generalmente reducen los modelos a un espacio de menor dimensión extrayendo o combinando características del modelo. Sin embargo, más allá de esta similitud básica, los algoritmos de reducción de la dimensionalidad varían.

Análisis de componentes principales

El análisis de componentes principales (PCA) es quizás el método de reducción de la dimensionalidad más común. Es una forma de extracción de características, lo que significa que combina y transforma las características originales del conjunto de datos para producir nuevas características, llamadas componentes principales. En esencia, PCA selecciona un subconjunto de variables de un modelo que en conjunto comprenden la mayoría o la totalidad de la varianza presente en el conjunto original de variables. A continuación, PCA proyecta los datos en un nuevo espacio definido por este subconjunto de variables.4

Por ejemplo, imaginemos que tenemos un conjunto de datos sobre serpientes con cinco variables: longitud del cuerpo(X1), diámetro del cuerpo en el punto más ancho(X2) longitud de los colmillos(X3), peso(X4) y edad(X5). Por supuesto, algunas de estas cinco características pueden estar correlacionadas, como la longitud corporal, el diámetro y el peso. Esta redundancia de características puede dar lugar a datos dispersos y a un ajuste excesivo, lo que disminuye la varianza (o generalizabilidad) de un modelo generado a partir de esos datos. PCA calcula una nueva variable(PC1) a partir de estos datos que combina dos o más variables y maximiza la varianza de los datos. Al combinar variables potencialmente redundantes, PCA también crea un modelo con menos variables que el modelo inicial. Así, dado que nuestro conjunto de datos comenzó con cinco variables (es decir, cinco dimensiones), el modelo reducido puede tener entre una y cuatro variables (es decir, de una a cuatro dimensiones). A continuación, los datos se asignan a este nuevo modelo.5

Esta nueva variable no es ninguna de las cinco variables originales, sino una característica combinada calculada a través de una transformación lineal de la matriz de covarianza de los datos originales. Específicamente, nuestro componente principal combinado es el vector propio correspondiente al valor propio más grande en la matriz de covarianza. También podemos crear componentes principales adicionales combinando otras variables. El segundo componente principal es el vector propio del segundo valor propio más grande, y así sucesivamente.6

Análisis discriminante lineal

El análisis discriminatorio lineal (LDA) se asemeja al PCA en que proyecta datos en un nuevo espacio de menor dimensión, cuyas dimensiones se derivan del modelo inicial. LDA se diferencia de PCA en su preocupación por conservar las etiquetas de clasificación en el conjunto de datos. Mientras que PCA produce nuevas variables componentes destinadas a maximizar la varianza de los datos, LDA produce variables componentes que también maximizan la diferencia de clase en los datos.7

Los pasos para implementar LDA son similares a los de PCA. La principal excepción es que el primero utiliza la matriz de dispersión, mientras que el segundo utiliza la matriz de covarianza. Por lo demás, al igual que en el PCA, el LDA calcula combinaciones lineales de las características originales de los datos que corresponden a los mayores valores propios de la matriz de dispersión. Uno de los objetivos del LDA es maximizar las diferencias entre clases y minimizar las diferencias dentro de las clases.8

Incrustación estocástica de vecinos distribuida en T

LDA y PCA son tipos de algoritmos de reducción de la dimensionalidad lineal. Sin embargo, la incrustación de vecinos estocásticos distribuidos en T (t-SNE) es una forma de reducción de la dimensionalidad no lineal (o aprendizaje múltiple). Con el objetivo principal de preservar la varianza del modelo, LDA y PCA se centran en mantener la distancia entre puntos de datos diferentes en sus representaciones dimensionales más bajas. Por el contrario, t-SNE tiene como objetivo preservar la estructura de datos local reduciendo las dimensiones del modelo. t-SNE se diferencia además de LDA y PCA en que estos dos últimos pueden producir modelos con más de tres dimensiones, siempre que su modelo generado tenga menos dimensiones que los datos originales. Sin embargo, t-SNE visualiza todos los conjuntos de datos en tres o dos dimensiones.

Como método de transformación no lineal, t-SNE precede a las matrices de datos. En cambio, t-SNE utiliza un kernel gaussiano para calcular la similitud por pares de puntos de datos. Los puntos cercanos entre sí en el conjunto de datos original tienen una mayor probabilidad de estar cerca entre sí que los más alejados. Luego, t-SNE asigna todos los puntos de datos a un espacio tridimensional o bidimensional mientras intenta preservar los pares de datos.9

Existen otros métodos de reducción de la dimensionalidad, como el kernel PCA, el análisis factorial, los bosques aleatorios y la descomposición de valores singulares (SVD). PCA, LDA y t-SNE se encuentran entre los más utilizados y discutidos. Tenga en cuenta que varios paquetes y bibliotecas, como scikit-learn, vienen precargados con funciones para implementar estas técnicas.

Ejemplos de casos de uso

La reducción de la dimensionalidad se ha utilizado a menudo para la visualización de datos.

Bioestadística

La reducción de la dimensionalidad a menudo surge en la investigación biológica donde la cantidad de variables genéticas supera el número de observaciones. Como tal, un puñado de estudios comparan diferentes técnicas de reducción de la dimensionalidad, identificando t-SNE y PCA kernel entre las más eficaces para diferentes conjuntos de datos genómicos.10 Otros estudios proponen criterios más específicos para seleccionar métodos de reducción de la dimensionalidad en la investigación biológica computacional.11 Un estudio reciente propone una versión modificada de PCA para análisis genéticos relacionados con la ascendencia con recomendaciones para obtener proyecciones sin sesgo.12

Procesamiento del lenguaje natural

El análisis semántico latente (LSA) es una forma de SVD aplicada al procesamiento de lenguaje natural de documentos de texto. El LSA opera esencialmente sobre el principio de que la similitud entre palabras se manifiesta en el grado en que coexisten en subespacios o pequeñas muestras del lenguaje.13 El LSA se utiliza para comparar el lenguaje de apoyo emocional que brindan los trabajadores médicos para argumentar a favor de prácticas retóricas óptimas al fin de la vida útil. 14 Otras investigaciones utilizan LSA como métrica de evaluación para confirmar los insights y la eficacia que proporcionan otras técnicas de machinelearning. 15

Mixture of Experts | Podcast

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

Explore watsonx.ai Reserve una demostración en vivo
Notas de pie de página

1 Lih-Yuan Deng, Max Garzon, and Nirman Kumar, Dimensionality Reduction in Data Science, Springer, 2022.

2 Ian Goodfellow Yoshua Bengio, and Aaron Courville, Deep Learning, MIT Press, 2016.

3 Richard Bellman, Adaptive Control Processes: A Guided Tour, Princeton University Press, 1961.

4 I.T. Jollife, Principal Component Analysis, Springer, 2002.

5 Chris Albon, Machine Learning with Python Cookbook, O’Reilly, 2018. Nikhil Buduma, Fundamentals of Deep Learning, O’Reilley, 2017.

6 I.T. Joliffe, Principal Component Analysis, Springer, 2002. Heng Tao Shen, “Principal Component Analysis,” Encyclopedia of Database Systems, Springer, 2018.

7 Chris Albon, Machine Learning with Python Cookbook, O’Reilly, 2018.

8 Chris Ding, “Dimension Reduction Techniques for Clustering,” Encyclopedia of Database Systems, Springer, 2018.

9 Laurens van der Maaten and Geoffrey Hinton, “Visualizing Data Using t-SNE,” Journal of Machine Learning Research, vol. 9, no. 86, 2008, pp. 2579−2605, https://www.jmlr.org/papers/v9/vandermaaten08a.html .

10 Shunbao Li, Po Yang, and Vitaveska Lanfranchi, "Examing and Evaluating Dimension Reduction Algorithms for Classifying Alzheimer’s Diseases using Gene Expression Data," 17th International Conference on Mobility, Sensing and Networking (MSN), 2021, pp. 687-693, https://ieeexplore.ieee.org/abstract/document/9751471. Ruizhi Xiang, Wencan Wang, Lei Yang, Shiyuan Wang, Chaohan Xu, and Xiaowen Chen, "A Comparison for Dimensionality Reduction Methods of Single-Cell RNA-seq Data," Frontiers in Genetics, vol. 12, 2021, https://www.frontiersin.org/journals/genetics/articles/10.3389/fgene.2021.646936/full.

11 Shiquan Sun, Jiaqiang Zhu, Ying Ma, and Xiang Zhou, “Accuracy, robustness and scalability of dimensionality reduction methods for single-cell RNA-seq analysis,” Genome Biology, vol. 20, 2019, https://genomebiology.biomedcentral.com/articles/10.1186/s13059-019-1898-6. Lan Huong Nguyen and Susan Holmes, “Ten quick tips for effective dimensionality reduction,” PLoS Computational Biology, vol. 15, no. 6, 2019, https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1006907.

12 Daiwei Zhang, Rounak Dey, and Seunggeun Lee, "Fast and robust ancestry prediction using principal component analysis," Bioinformatics, vol. 36, no. 11, 2020, pp. 3439–3446, https://academic.oup.com/bioinformatics/article/36/11/3439/5810493.

13 Nitin Indurkhya and Fred Damerau, Handbook of Natural Language Processing, 2nd edition, CRC Press, 2010.

14 Lauren Kane, Margaret Clayton, Brian Baucom, Lee Ellington, and Maija Reblin, "Measuring Communication Similarity Between Hospice Nurses and Cancer Caregivers Using Latent Semantic Analysis," Cancer Nursing, vol. 43, no. 6, 2020, pp. 506-513, https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6982541/.

15 Daniel Onah, Elaine Pang, and Mahmoud El-Haj, "Data-driven Latent Semantic Analysis for Automatic Text Summarization using LDA Topic Modelling," 2022 IEEE International Conference on Big Data, 2022, pp. 2771-2780, https://ieeexplore.ieee.org/abstract/document/10020259.