La reducción de la dimensionalidad es una técnica de ciencia de datos utilizada en el paso de preprocesamiento en el machine learning.6 Durante este proceso, los datos irrelevantes y redundantes se eliminan al tiempo que se conserva la información relevante del conjunto de datos original.
Las características se pueden considerar como los atributos de un objeto de datos. Por ejemplo, en un conjunto de datos de animales, se esperarían algunas características numéricas (edad, altura, peso) y características categóricas (color, especie, raza). La extracción de características forma parte de la arquitectura de redes neuronales del modelo, como una red neuronal convolucional (CNN).
En primer lugar, el modelo toma los datos de entrada y, a continuación, el extractor de características transforma los datos en una representación numérica que se puede utilizar para calcular los métodos de reducción de dimensionalidad para la extracción de características. Estas representaciones se almacenan en vectores de características para que el modelo realice algoritmos para la reducción de datos.
Después de la extracción, a veces es necesario estandarizar los datos mediante la normalización de característica, especialmente cuando se utilizan ciertos algoritmos que son sensibles a la magnitud y la escala de las variables (algoritmos de descenso basados en gradientes, clúster k-means).
Se pueden seguir diferentes métodos para lograr ciertos resultados dependiendo de las tareas. Todos los métodos buscan simplificar los datos preservando la información más valiosa.
La mayoría de los modelos modernos de IA realizan la extracción automática de características, pero sigue siendo útil comprender las diversas formas de manejarlas. Estos son algunos métodos comunes de extracción de características utilizados para la dimensión:
Análisis de componentes principales (PCA): esta técnica reduce el número de características de grandes conjuntos de datos a componentes principales o nuevas características que el clasificador del modelo utilizará para sus tareas específicas.
PCA es popular debido a su capacidad para crear datos originales que no están correlacionados, lo que significa que las nuevas dimensiones que crea PCA son independientes entre sí.7 Esto convierte a PCA en una solución eficaz para el sobreajuste debido a la falta de redundancia de datos, ya que cada característica es única.
Análisis discriminante lineal (LDA): esta técnica se utiliza comúnmente en el machine learning supervisado para separar múltiples clases y características para resolver problemas de clasificación.
Esta técnica se utiliza comúnmente para optimizar los modelos de machine learning. Los nuevos puntos de datos se clasifican utilizando estadísticas bayesianas para modelar la distribución de datos para cada clase.
Embedding de vecinos estocásticos distribuidos en T (t-SNE): esta técnica de machine learning se aplica comúnmente a tareas como la visualización de características en deep learning.8 Esto es especialmente útil cuando la tarea es renderizar visualizaciones de datos de alta dimensión en 2D o 3D.
Esto se utiliza comúnmente para analizar patrones y relaciones en la ciencia de datos. Debido a su naturaleza no lineal, t-SNE es costoso desde el punto de vista computacional y normalmente solo se utiliza para tareas de visualización.
Frecuencia de términos-Frecuencia inversa del documento (TF-IDF): este método estadístico evalúa la importancia de las palabras en función de la frecuencia con la que aparecen. El término frecuencia en un documento específico se pondera en función de la frecuencia con la que aparece en todos los documentos de una colección o corpus.9
Esta técnica se utiliza habitualmente en el PLN para la clasificación, clustering y la recuperación de información. Bag of words (BoW) es una técnica similar, pero en lugar de considerar la relevancia del término, trata efectivamente todas las palabras por igual.