El análisis de componentes principales, o PCA, reduce el número de dimensiones en grandes conjuntos de datos a componentes principales que conservan la mayor parte de la información original. Para ello, transforma las variables potencialmente correlacionadas en un conjunto más pequeño de variables, denominadas componentes principales.
Se atribuye a Karl Pearson el desarrollo del ACP en 1901, pero su popularidad aumentó con la mayor disponibilidad de ordenadores, que permitían realizar cálculos estadísticos multivariantes1 a escala. El PCA es muy eficaz para visualizar y explorar conjuntos de datos de alta dimensión, o datos con muchas características, ya que puede identificar fácilmente tendencias, patrones o valores atípicos.
El PCA se utiliza comúnmente para el preprocesamiento de datos para su uso con algoritmos de machine learning. Puede extraer las características más informativas de grandes conjuntos de datos al tiempo que conserva la información más relevante del conjunto de datos inicial. Esto reduce la complejidad del modelo, ya que la adición de cada nueva característica repercute negativamente en el rendimiento del modelo, lo que también se conoce comúnmente como la "maldición de la dimensionalidad".
Al proyectar un conjunto de datos de alta dimensión en un espacio de características más pequeño, el PCA también minimiza, o elimina por completo, problemas comunes como la multicolinealidad y el sobreajuste. La multicolinealidad ocurre cuando dos o más variables independientes están altamente correlacionadas entre sí, lo que puede ser problemático para el modelado causal. Los modelos sobreajustados se generalizan mal a los nuevos datos, lo que disminuye su valor. El PCA es un enfoque de uso común dentro del análisis de regression, pero también se aprovecha para una variedad de casos de uso, como el reconocimiento de patrones, el procesamiento de señales, el procesamiento de imágenes y más.
Aunque hay otras variaciones del PCA, como la regresión de componentes principales y el PCA del núcleo, el alcance de este artículo se centrará en el método principal de la literatura actual.
El PCA es una técnica de reducción de dimensiones como el análisis discriminante lineal (LDA). A diferencia del LDA, el PCA no se limita a tareas de aprendizaje supervisado. Para las tareas de aprendizaje no supervisado, esto significa que el PCA puede reducir las dimensiones sin tener que considerar etiquetas de clase o categories. El PCA también está estrechamente relacionado con el análisis factorial. Ambos reducen el número de dimensiones o variables de un conjunto de datos y, al mismo tiempo, minimizan la pérdida de información. El PCA divide las variables en un subconjunto de componentes principales linealmente independientes. Sin embargo, el análisis factorial se utiliza generalmente para entender las estructuras de datos subyacentes y se centra en las variables latentes o en los factores no medidos que capturan el diferencial de una variable.
El PCA y la agrupación de medias K son técnicas de machine learning no supervisadas que se utilizan para el análisis de datos, pero tienen objetivos y métodos diferentes. El PCA se utiliza para reducir la dimensionalidad de los datos, mientras que la agrupación de medias K agrupa los puntos de datos en función de la similitud. La técnica que seleccione depende del conjunto de datos específico y de los objetivos de su análisis.
El PCA crea nuevas variables, como componentes principales, que son combinaciones lineales de las variables originales. El PCA toma un conjunto de datos con múltiples variables como entrada y produce un conjunto de datos en un subespacio inferior, es decir, un conjunto de datos reducido con menos variables. A menudo se utiliza en el análisis exploratorio de datos para crear modelos predictivos, pero también se utiliza en el preprocesamiento de datos para reducir la dimensionalidad.
Las medias K son un algoritmo de agrupación que asigna puntos de datos a conglomerados en función de su distancia a los centros de los conglomerados. Toma un conjunto de datos con una o más variables como entrada y produce un conjunto de clústeres con puntos de datos similares. Se utiliza a menudo para agrupar datos para diversos casos de uso, como la segmentación de imágenes, la segmentación de clientes y la detección de anomalías.
El PCA resume el contenido informativo de grandes conjuntos de datos en un conjunto más pequeño de variables no correlacionadas conocidas como componentes principales. Estos componentes principales son combinaciones lineales de las variables originales que tienen la máxima varianza en comparación con otras combinaciones lineales. Estos componentes capturan la mayor cantidad de información posible del conjunto de datos original.
Esta técnica estadística implica tanto álgebra lineal como operaciones matriciales, y transforma el conjunto de datos original en un nuevo sistema de coordenadas estructurado por los componentes principales. Los vectores propios y los valores propios de la matriz de covarianza que sustentan los componentes principales permiten analizar estas transformaciones lineales.
Imagine que ha trazado un conjunto de datos con varias características, lo que da como resultado un diagrama de dispersión multidimensional. Los vectores propios proporcionan la dirección de la varianza en el diagrama de dispersión. Los valores propios son los coeficientes de los vectores propios; denotan la importancia de estos datos direccionales. Por lo tanto, un valor propio alto significa que el vector propio correspondiente es más crucial. Dado que los componentes principales representan las direcciones de máxima varianza de los datos, también son los vectores propios de la matriz de covarianza.
En el PCA se calculan dos componentes principales: el primer componente principal (PC1) y el segundo componente principal (PC2).
El primer componente principal (PC1) es la dirección en el espacio a lo largo de la cual los puntos de datos tienen la mayor o mayor varianza. Es la línea que mejor representa la forma de los puntos proyectados. Cuanto mayor sea la variabilidad captada en el primer componente, mayor será la información retenida del conjunto de datos original. Ningún otro componente principal puede tener una variabilidad mayor.
Calculamos el segundo componente principal (PC2) de la misma manera que el PC1. El PC2 representa la siguiente varianza más alta en el conjunto de datos y no debe estar correlacionada con el PC1. Es decir, el PC2 debe ser ortogonal, es decir, perpendicular, al PC1. Esta relación también se puede expresar como la correlación entre el PC1 y el PC2 igual a cero.
Normalmente se utiliza un diagrama de dispersión para mostrar la relación entre el PC1 y el PC2 cuando se aplica el PCA a un conjunto de datos. Los ejes PC1 y PC2 serán perpendiculares entre sí.
Si hubiera componentes posteriores, también conservarían las mismas propiedades, ya que no estarían correlacionados con otros componentes y explicarían cualquier variación restante.
El proceso de cálculo del PCA se resume en los pasos siguientes, que muestran cómo se calculan los componentes principales y cómo se relacionan con los datos originales.
Dado que el PCA puede sesgar hacia características específicas, es importante evaluar si es necesaria la normalización de los datos. Los datos deben reflejar una distribución normal con una media de cero y una desviación estándar de uno.
En este paso, los valores medios de las variables se calculan y restan del conjunto de datos original para que cada variable contribuya por igual al análisis. A continuación, este valor se divide por la desviación típica de cada variable para que todas utilicen la misma escala.
La covarianza (cov) mide la fuerza de correlación de dos o más variables. La matriz de covarianzas resume las covarianzas asociadas a todas las combinaciones de pares de las variables iniciales del conjunto de datos. Calcular la matriz de covarianza ayuda a identificar las relaciones entre las variables, es decir, cómo las variables varían de la media entre sí. Esta matriz de datos es una matriz simétrica, lo que significa que las combinaciones de variables pueden representarse como d × d, siendo d el número de dimensiones. Por ejemplo, para un conjunto de datos tridimensional, habría 3 × 3 o 9 combinaciones de variables en la matriz de covarianza.
El signo de las variables de la matriz nos dice si las combinaciones están correlacionadas:
Aquí calculamos los vectores propios (componentes principales) y los valores propios de la matriz de covarianza. Como vectores propios, los componentes principales representan las direcciones de máxima varianza en los datos. Los valores propios representan la cantidad de varianza de cada componente. La clasificación de los vectores propios por valor propio identifica el orden de los componentes principales.
Aquí, decidimos qué componentes conservar y cuáles descartar. Los componentes con valores propios bajos normalmente no serán tan significativos. Los diagramas de Scree suelen representar la proporción de la varianza total explicada y la proporción acumulativa de la varianza. Estas métricas ayudan a determinar el número óptimo de componentes que se deben retener. El punto en el que el eje Y de valores propios o varianza total explicada crea un "codo" indicará generalmente cuántos componentes PCA queremos incluir.
Por último, los datos se transforman en el nuevo sistema de coordenadas definido por los componentes principales. Es decir, el vector de características creado a partir de los vectores propios de la matriz de covarianza proyecta los datos sobre los nuevos ejes definidos por los componentes principales. Esto crea nuevos datos, que capturan la mayor parte de la información pero con menos dimensiones que el conjunto de datos original.
Un gráfico de PCA es un diagrama de dispersión que se crea utilizando los dos primeros componentes principales como ejes. El primer componente principal (PC1) es el eje x y el segundo componente principal (PC2) es el eje y. El diagrama de dispersión muestra las relaciones entre las observaciones (puntos de datos) y las nuevas variables (los componentes principales). La posición de cada punto muestra los valores de PC1 y PC2 para esa observación.
La dirección y la longitud de las flechas del gráfico indican las cargas de las variables, es decir, cómo cada variable contribuye a los componentes principales. Si una variable tiene una carga elevada para un componente concreto, está estrechamente correlacionada con ese componente. Esto puede resaltar qué variables tienen un impacto significativo en las variaciones de datos.
El número de componentes principales que quedan después de aplicar PCA puede ayudarle a interpretar la salida de datos. El primer componente principal explica la mayor varianza de datos y cada componente posterior representa menos varianza. Por lo tanto, el número de componentes puede indicar la cantidad de información retenida del conjunto de datos original. Un menor número de componentes tras aplicar el ACP podría significar que no ha capturado mucha variación de datos. Un mayor número de componentes indica una mayor variación de los datos, pero los resultados pueden ser más difíciles de interpretar. Puede decidir el número óptimo de componentes que se deben conservar utilizando un gráfico de sedimentación o la varianza explicada acumulada.
Aplicar el PCA puede ayudar a preprocesar o extraer las funciones más informativas de los conjuntos de datos con muchas variables. El preprocesamiento reduce la complejidad al tiempo que preserva la información relevante. Entre los escenarios habituales en los que se utiliza el PCA se incluyen:
El PCA reduce la dimensionalidad de la imagen al tiempo que conserva la información esencial. Ayuda a crear representaciones compactas de imágenes, lo que facilita su almacenamiento y transmisión.
El PCA ayuda a visualizar datos de alta dimensión proyectándolos en un espacio de menor dimensión, como un gráfico 2D o 3D. Esto simplifica la interpretación y exploración de datos.
El PCA puede eliminar el ruido o la información redundante de los datos centrándose en los componentes principales que captan los patrones subyacentes.
El PCA también ha tenido aplicaciones en el ámbito sanitario. Por ejemplo, ha ayudado a diagnosticar enfermedades antes y con mayor precisión. El artículo "Breast Cancer Prediction using Principal Component Analysis with Logistic Regression" analiza un conocido conjunto de datos sobre el cáncer de mama2 recopilado de pacientes de los hospitales de la Universidad de Wisconsin en Madison. El autor del estudio, Akbar, utiliza el PCA para reducir las dimensiones de los seis atributos de datos diferentes:
A continuación, se aplicó un algoritmo de clasificación de aprendizaje supervisado, la regresión logística, para predecir la presencia de cáncer de mama.
Hay muchas otras técnicas de reducción de dimensionalidad disponibles, como el análisis discriminante lineal, el bosque aleatorio, la aproximación y proyección de variedades uniformes (UMAP) y el vecino estocástico distribuido en t (t-SNE). Considere los siguientes factores para decidir si el PCA es el enfoque adecuado para su análisis:
Con el fin de prosperar, las empresas deben utilizar los datos para fidelizar a sus clientes, automatizar los procesos empresariales e innovar con soluciones impulsadas por IA.
Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por conocimientos que ofrezca ventajas empresariales.
Presentamos Cognos Analytics 12.0: conocimientos potenciados por IA para una mejor toma de decisiones.
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com, openliberty.io