La selección de características es el proceso de seleccionar las características más relevantes de un conjunto de datos para usarlas al crear y entrenar un modelo de machine learning (ML). Al reducir el espacio de características a un subconjunto seleccionado, la selección de características mejora el rendimiento del modelo de IA al tiempo que reduce sus exigencias computacionales.
Una "característica" se refiere a una propiedad o característica individual medible de un punto de datos: un atributo específico de los datos que ayuda a describir el fenómeno observado. Un conjunto de datos sobre viviendas puede tener rasgos como "número de dormitorios" y "año de construcción".
La selección de características forma parte del proceso de ingeniería de características, en el que los científicos de datos preparan los datos y curan un conjunto de características para los algoritmos de machine learning. La selección de características es la parte de la ingeniería de características que se ocupa de elegir las características que se utilizarán para el modelo.
El proceso de selección de características optimiza un modelo al identificar las características más importantes, impactantes y no redundantes en el conjunto de datos. Reducir el número de características mejora la eficiencia del modelo y aumenta el rendimiento.
Los beneficios de la selección de características incluyen:
Mejor rendimiento del modelo: las características irrelevantes debilitan el rendimiento del modelo. Por el contrario, elegir el conjunto adecuado de características para un modelo lo hace más preciso, más preciso y le da una mejor recordación. Las características de los datos afectan la forma en que los modelos configuran sus pesos durante el entrenamiento, lo que a su vez impulsa el rendimiento. Esto difiere del ajuste de hiperparámetros, que ocurre antes del entrenamiento.
Reducción del sobreajuste: el sobreajuste ocurre cuando un modelo no puede generalizar más allá de sus datos de entrenamiento. La eliminación de características redundantes disminuye el sobreajuste y hace que un modelo sea más capaz de generalizar a nuevos datos.
Tiempos de entrenamiento más cortos: al centrarse en un subconjunto más pequeño de características, los algoritmos tardan menos en entrenarse. Los creadores de modelos pueden probar, validar y desplegar sus modelos más rápido con un conjunto más pequeño de características seleccionadas.
Menores costos de cómputo: un conjunto de datos más pequeño hecho con las mejores características hace que los modelos predictivos sean más simples y ocupen menos espacio de almacenamiento. Sus requisitos computacionales son menores que los de modelos más complejos.
Mayor interpretabilidad: la IA explicable se centra en crear modelos que los humanos puedan entender. A medida que los modelos se vuelven más complejos, se vuelve cada vez más difícil interpretar sus resultados. Los modelos más simples son más fáciles de monitorear y explicar.
Implementación más fluida: los desarrolladores pueden trabajar más fácilmente con modelos más simples y pequeños al crear aplicaciones de IA, como las que se utilizan en la visualización de datos.
Reducción de la dimensionalidad: con más variables de entrada en juego, los puntos de datos se distancian más dentro del espacio del modelo. Los datos de alta dimensión tienen más espacio vacío, lo que hace más difícil para el algoritmo de machine learning identificar patrones y hacer buenas predicciones.
Recopilar más datos puede mitigar la maldición de la dimensionalidad, pero seleccionar las características más importantes es más factible y rentable.
Una característica es una cualidad definible de los elementos de un conjunto de datos. Las características también se conocen como variables porque sus valores pueden cambiar de un punto de datos a otro, y atributos porque caracterizan los puntos de datos en el conjunto de datos. Las diferentes características caracterizan los puntos de datos de varias maneras.
Las características pueden ser variables independientes, variables dependientes que derivan su valor de variables independientes o atributos combinados que se compilan a partir de otras características.
El objetivo de la selección de características es identificar las variables de entrada más importantes que el modelo puede emplear para predecir las variables dependientes. La variable objetivo es la variable dependiente que el modelo debe predecir.
Por ejemplo, en una base de datos de empleados, las características de entrada pueden incluir edad, ubicación, salario, cargo, métricas de rendimiento y duración del empleo. Un empresario puede emplear estas variables para generar un atributo combinado objetivo que represente la probabilidad de que un empleado se marche por una oferta mejor. A continuación, el empresario puede determinar cómo animar a esos empleados a quedar.
Las características se pueden clasificar en términos generales en variables numéricas o categóricas.
Las variables numéricas son cuantificables, como la longitud, el tamaño, la edad y la duración.
Las variables categóricas son cualquier cosa que no sea numérica, como el nombre, el título del trabajo y la ubicación.
Antes de que tenga lugar la selección de características, el proceso de extracción de características transforma los datos sin procesar en características numéricas que los modelos de machine learning pueden utilizar. La extracción de características simplifica los datos y reduce los requisitos de cómputo necesarios para procesarlos.
La selección de características de aprendizaje supervisado utiliza la variable objetivo para determinar las características más importantes. Debido a que las características de los datos ya están identificadas, la tarea consiste en identificar qué variables de entrada afectan más directamente a la variable objetivo. La correlación es el criterio principal al evaluar las características más importantes.
Los métodos supervisados de selección de características incluyen:
Métodos de filtrado
Métodos de envoltura
Métodos incrustados
También son posibles los métodos híbridos que combinan dos o más métodos supervisados de selección de características.
Los métodos de filtro son un grupo de técnicas de selección de características que se preocupan únicamente por los datos en sí y no consideran directamente la optimización del rendimiento del modelo. Las variables de entrada se evalúan de forma independiente con respecto a la variable objetivo para determinar cuál tiene la mayor correlación. Los métodos que prueban las características una por una se conocen como métodos de selección de características univariantes.
A menudo utilizados como una herramienta de preprocesamiento de datos, los métodos de filtro son algoritmos de selección de características rápidos y eficientes que sobresalen en reducir la redundancia y eliminar características irrelevantes del conjunto de datos. Se utilizan diversas pruebas estadísticas para puntuar cada variable de entrada para la correlación. Sin embargo, otros métodos son mejores para predecir el desempeño del modelo.
Disponible en bibliotecas populares de machine learning como Scikit-Learn (Sklearn), algunos métodos de filtro comunes son:
Ganancia de información: mide cuán importante es la presencia o ausencia de una característica para determinar la variable objetivo por el grado de reducción de entropía.
Información mutua: evalúa la dependencia entre variables midiendo la información obtenida sobre una a través de la otra.
Prueba de Chi-cuadrado: evalúa la relación entre dos variables categóricas comparando los valores observados con los esperados.
Puntaje de Fisher: Emplea derivadas para calcular la importancia relativa de cada característica para clasificar los datos. Un puntaje más alta indica una mayor influencia.
Coeficiente de correlación de Pearson: cuantifica la relación entre dos variables continuas con una puntuación que oscila entre -1 y 1.
Umbral de varianza: elimina todas las características que se encuentran bajo un grado mínimo de varianza porque es probable que las características con más variaciones contengan información más útil. Un método relacionado es la diferencia absoluta media (MAD).
Relación de missing values: calcula los porcentajes de instancias en un conjunto de datos para los que falta una determinada característica o tiene un valor nulo. Si a demasiadas instancias les falta una característica, es probable que no sea útil.
Relación de dispersión: la relación entre la varianza y el valor medio de una característica. Una mayor dispersión indica más información.
ANOVA (análisis de varianza): determina si los diferentes valores de las características afectan el valor de la variable objetivo.
Los métodos de envoltura entrenan el algoritmo de machine learning con varios subconjuntos de características, agregando o eliminando características y probando los resultados en cada iteración. El objetivo de todos los métodos de envoltura es encontrar el conjunto de características que conduce al rendimiento óptimo del modelo.
Los métodos de envoltura que prueban todas las combinaciones de características posibles se conocen como algoritmos voraces. Su búsqueda del mejor conjunto de características requiere un gran esfuerzo computacional y mucho tiempo, por lo que son ideales para conjuntos de datos con espacios de características más pequeños.
Los científicos de datos pueden configurar el algoritmo para que se detenga cuando el rendimiento del modelo disminuya o cuando un número objetivo de características esté en juego.
Los métodos de envoltura incluyen:
Selección hacia adelante: comienza con un conjunto de características vacío y agrega gradualmente nuevas funciones hasta que se encuentre el conjunto óptimo. La selección del modelo tiene lugar cuando el rendimiento del algoritmo no mejora luego de una iteración específica.
Selección hacia atrás: entrena un modelo con todas las características originales y elimina iterativamente la característica menos importante del conjunto de características.
Selección exhaustiva de características: prueba todas las combinaciones posibles de características para encontrar la mejor en general optimizando una métrica de rendimiento específica. Un modelo de regresión logística que emplea una selección exhaustiva de características prueba cada combinación posible de cada número posible de características.
Eliminación recursiva de características (RFE): un tipo de selección hacia atrás que comienza con un espacio de características inicial y elimina o agrega características después de cada iteración en función de su importancia relativa.
Eliminación recursiva de características con validación cruzada: una variación de la eliminación recursiva que utiliza la validación cruzada, que prueba un modelo en datos no vistos, para seleccionar el conjunto de características de mejor rendimiento. La validación cruzada es una técnica común de evaluación de modelos de lenguaje extensos (LLM).
Los métodos integrados incorporan, o integran, la selección de características en el proceso de entrenamiento del modelo. A medida que el modelo se entrena, utiliza varios mecanismos para detectar características de bajo rendimiento y descartarlas de futuras iteraciones.
Muchos métodos integrados giran en torno a la regularización, que penaliza las características en función de un umbral de coeficiente preestablecido. Los modelos cambian un grado de exactitud por una mayor precisión. El resultado es que los modelos funcionan un poco menos bien durante el entrenamiento, pero se vuelven más generalizables al reducir el sobreajuste.
Los métodos incrustados incluyen:
Regresión LASSO (regresión L1): agrega una penalización a la función de pérdida para coeficientes correlacionados de alto valor, moviéndolos hacia un valor de 0. Cuanto mayor sea la penalización, más características se eliminan del espacio de características. El uso eficaz de LASSO consiste en equilibrar la penalización para eliminar suficientes características irrelevantes y mantener todas las importantes.
Importancia del bosque aleatorio: construye cientos de decision trees, cada uno con una selección aleatoria de puntos de datos y características. Cada árbol se evalúa por lo bien que divide los puntos de datos. Cuanto mejores sean los resultados, más importante se considerará la característica o características de ese árbol. Los clasificadores miden la "impureza" de las agrupaciones por impureza de Gini o ganancia de información, mientras que los modelos de regresión utilizan la varianza.
Mejora de gradiente: agrega predictores en secuencia a un conjunto con cada iteración corrigiendo los errores de la anterior. De esta manera, puede identificar qué características conducen más directamente a resultados óptimos.
Con el aprendizaje no supervisado, los modelos descubren características, patrones y relaciones de datos por sí mismos. No es posible adaptar las variables de entrada a una variable de destino conocida. Los métodos de selección de características no supervisadas utilizan otras técnicas para simplificar y optimizar el espacio de características.
Un método de selección de características no supervisado es el análisis de componentes principales (PCA). PCA reduce la dimensionalidad de grandes conjuntos de datos al transformar variables potencialmente correlacionadas en un conjunto más pequeño de variables. Estos componentes principales conservan la mayor parte de la información contenida en el conjunto de datos original. PCA contrarresta la maldición de la dimensionalidad y también reduce el sobreajuste.
Otros incluyen el análisis de componentes independientes (ICA), que separa los datos multivariantes en componentes individuales que son estadísticamente independientes, y los autocodificadores.
Ampliamente empleado con arquitecturas de transformadores , un autocodificador es un tipo de Neural Networks que aprende a comprimir y luego reconstruir datos. Al hacerlo, los autocodificadores descubren variables latentes: aquellas que no son directamente observables, pero que afectan fuertemente la distribución de datos.
El tipo de selección de características utilizada depende de la naturaleza de las variables de entrada y resultados. Estos también dan forma a la naturaleza del desafío del machine learning, ya sea un problema de clasificación o una tarea de regresión.
Entrada numérica, salida numérica: cuando las entradas y los resultados son numéricos, esto indica un problema predictivo de regresión Los modelos lineales dan salida para predicciones numéricas continuas, lo que da como salida una variable objetivo que es un número dentro de un rango de valores posibles. En estos casos, los coeficientes de correlación, como el coeficiente de correlación de Pearson, son un método ideal de selección de características.
Entrada numérica, salida categórica: los modelos de regresión logística clasifican las entradas en salidas categóricas discretas. En este problema de clasificación, se pueden utilizar métodos de selección de características basados en correlaciones que admitan variables objetivo categóricas. Estos incluyen ANOVA para modelos de regresión lineal y el coeficiente de correlación de rango de Kendall para tareas no lineales.
Entrada categórica, salida numérica: este tipo raro de desafío también se puede resolver con métodos de correlación que admiten variables categóricas.
Entrada categórica, salida categórica: los problemas de clasificación con entrada categórica y variables objetivo se prestan al método Chi-cuadrado o a las técnicas de obtención de información.
Otros factores a considerar incluyen el tamaño del conjunto de datos y el espacio de características, la complejidad de las características y el tipo de modelo. Los métodos de filtro pueden eliminar rápidamente una gran parte de las características irrelevantes, pero tienen dificultades con las complejas interacciones de características. En estos casos, los métodos de envoltura e incrustados podrían ser más adecuados.
Saber en qué características enfocarse es el componente esencial de la selección de características. Algunas características son muy deseables para el modelado, mientras que otras pueden dar lugar a resultados deficientes. Además de cómo afectan las variables objetivo, la importancia de las características está determinada por:
Facilidad de modelado: si una característica es fácil de modelar, el proceso general de machine learning es más simple y rápido, con menos oportunidades de error.
Fácil de regularizar: las características que se adaptan bien a la regularización serán más eficientes para trabajar.
Desenredar la causalidad: desenredar los factores causales de una característica observable significa identificar los factores subyacentes que la influyen.
Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.
Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.