¿Qué es la selección de características?

18 de marzo de 2025

Autores

Ivan Belcic

Staff writer

Cole Stryker

Editorial Lead, AI Models

La selección de características es el proceso de seleccionar las más relevantes de un conjunto de datos para utilizarlas en la construcción y el entrenamiento de un modelo de machine learning (ML). Al reducir el espacio de características a un subconjunto seleccionado, la selección de características mejora el rendimiento del modelo de IA y reduce su demanda computacional.

Una "característica" se refiere a una propiedad mensurable de un punto de datos o a una cualidad de los datos que ayuda a describir el fenómeno observado. Un conjunto de datos sobre viviendas puede incluir rasgos como "número de dormitorios" y "año de construcción". 

La selección de características forma parte del proceso de ingeniería de características, en el que los científicos de datos preparan los datos y seleccionan un conjunto de características para los algoritmos de machine learning. La selección de características es la parte de este proceso que se ocupa de elegir las características que se utilizarán en el modelo.

Diseño 3D de bolas rodando por un circuito

Las últimas noticias + conocimientos de IA 


Descubra ideas y noticias de expertos sobre IA, nube y mucho más en el boletín semanal Think. 

Los beneficios de la selección de características

El proceso de selección de características racionaliza un modelo identificando las más importantes, impactantes y no redundantes del conjunto de datos. Al reducir el número de características, se mejora la eficacia del modelo y su rendimiento. 

Los beneficios de la selección de características incluyen: 

  • Mejor rendimiento del modelo: las características irrelevantes debilitan su rendimiento. Por el contrario, elegir el conjunto de características adecuado para un modelo lo hace más preciso y le proporciona una mayor capacidad de recuperación. Las características de los datos afectan a la forma en que los modelos configuran sus ponderaciones durante el entrenamiento, lo que a su vez influye en el rendimiento. Esto difiere del ajuste de hiperparámetros, que tiene lugar antes del entrenamiento.  

  • Reducción del sobreajuste: la sobreadaptación se produce cuando un modelo no puede generalizar más allá de sus datos de entrenamiento. La eliminación de características redundantes reduce la sobreadaptación y mejora la capacidad del modelo para generalizar con datos nuevos. 

  • Tiempos de entrenamiento más cortos: al centrarse en un subconjunto más pequeño de características, los algoritmos se entrenan más rápidamente. Los creadores de modelos pueden probarlos, validarlos e implementarlos más rápidamente con un conjunto más reducido de características seleccionadas. 

  • Menores costes de computación: un conjunto de datos más pequeño compuesto por las mejores características permite crear modelos predictivos más sencillos y que ocupan menos espacio de almacenamiento. Sus requisitos computacionales son inferiores a los de modelos más complejos. 

  • Mayor interpretabilidad: la IA explicable se centra en crear modelos comprensibles para los seres humanos. A medida que los modelos se vuelven más complejos, resulta cada vez más difícil interpretar sus resultados. Los modelos más sencillos son más fáciles de monitorizar y explicar. 

  • Implementación más fluida: los desarrolladores pueden trabajar más fácilmente con modelos más sencillos y pequeños a la hora de crear aplicaciones de IA, como las utilizadas en la visualización de datos

  • Reducción de la dimensionalidad: a mayor número de variables de entrada, mayor distancia entre los puntos de datos dentro del espacio del modelo. Los datos de alta dimensionalidad tienen más espacio vacío, por lo que el algoritmo de machine learning tiene más dificultades para identificar patrones y hacer buenas predicciones. 

    Recopilar más datos puede mitigar la maldición de la dimensionalidad, pero seleccionar las características más importantes es más factible y rentable. 

¿Qué son las características?

Una característica es una cualidad definible de los elementos de un conjunto de datos. También se conocen como variables, porque sus valores pueden cambiar de un punto de datos a otro, y como atributos, porque caracterizan los puntos de datos del conjunto de datos. Los distintos rasgos caracterizan los puntos de datos de diversas maneras. 

Las características pueden ser variables independientes, variables dependientes que derivan su valor de variables independientes o atributos combinados que se obtienen a partir de otras múltiples características.

El objetivo de la selección de características es identificar las variables de entrada más importantes que el modelo puede utilizar para predecir las variables dependientes. La variable objetivo es la variable dependiente que el modelo debe predecir. 

Por ejemplo, en una base de datos de empleados, las características de entrada pueden incluir la edad, la ubicación, el salario, el cargo, las métricas de rendimiento y la duración del empleo. Un empresario puede utilizar estas variables para generar un atributo combinado objetivo que refleje la probabilidad de que un empleado acepte una oferta mejor. A continuación, el empresario puede determinar cómo motivar a esos empleados para que se queden. 

Las características pueden clasificarse en variables numéricas o categóricas. 

  • Las variables numéricas son cuantificables, como la longitud, el tamaño, la edad y la duración. 

  • Las variables numéricas son cuantificables, como la longitud, el tamaño, la edad y la duración. 

Antes de proceder a su selección, el proceso de extracción de características transforma los datos sin procesar en características numéricas que los modelos de machine learning pueden utilizar. De este modo, se simplifican los datos y se reducen los requisitos informáticos necesarios para procesarlos.

Mixture of Experts | 25 de abril, episodio 52

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Métodos supervisados de selección de características

La selección de características del aprendizaje supervisado utiliza la variable objetivo para determinar cuáles son las más importantes. Dado que las características de los datos ya están identificadas, la tarea consiste en identificar qué variables de entrada tienen un impacto más directo en la variable objetivo. La correlación es el criterio principal para evaluar las características más importantes. 

Entre los métodos supervisados de selección de características se incluyen: 

  • Métodos de filtrado

  • Métodos de envoltura 

  • Métodos incrustados

También es posible utilizar métodos híbridos que combinen dos o más métodos supervisados de selección de características.

Métodos de filtrado

Los métodos de filtrado son un grupo de técnicas de selección de características que se ocupan únicamente de los datos y no tienen en cuenta la optimización del rendimiento del modelo. Las variables de entrada se evalúan de forma independiente con respecto a la variable objetivo para determinar cuál tiene la mayor correlación. Los métodos que evalúan una característica cada vez se conocen como métodos de selección de características univariantes. 

A menudo se utilizan como herramienta de preprocesamiento de datos, los métodos de filtrado son algoritmos de selección de características rápidos y eficaces que destacan por reducir la redundancia y eliminar las características irrelevantes del conjunto de datos. Para puntuar cada variable de entrada en función de su correlación, se utilizan diversas pruebas estadísticas. Sin embargo, existen otros métodos más eficaces para predecir el rendimiento del modelo. 

Disponibles en bibliotecas de machine learning populares como Scikit-Learn (Sklearn), algunos métodos de filtrado comunes son: 

  • Ganancia de información: mide lo importante que es la presencia o ausencia de una característica para determinar la variable objetivo mediante la reducción de entropía. 

  • Información mutua: evalúa la dependencia entre variables al medir la información obtenida sobre una variable a partir de la otra. 

  • Prueba de chi-cuadrado: evalúa la relación entre dos variables categóricas comparando los valores observados con los esperados. 

  • Puntuación de Fisher: utiliza derivadas para calcular la importancia relativa de cada característica a la hora de clasificar los datos. Cuanto mayor sea la puntuación, mayor será su influencia. 

  • Coeficiente de correlación de Pearson: cuantifica la relación entre dos variables continuas con una puntuación que oscila entre -1 y 1. 

  • Umbral de varianza: elimina todas las características que están por debajo de un umbral mínimo de varianza, ya que es probable que las características con mayor varianza contengan más información útil. Un método relacionado es la diferencia media absoluta (DMA). 

  • Proporción de valores perdidos: calcula los porcentajes de casos de un conjunto de datos en los que falta una característica o tiene un valor nulo. Si falta una instancia de una característica, es probable que no sea útil. 

  • Coeficiente de dispersión: relación entre la varianza y el valor medio de una característica. Cuanto mayor sea la dispersión, más información habrá. 

  • ANOVA (análisis de varianza): determina si los distintos valores de las características afectan al valor de la variable objetivo.

Métodos de envoltura

Los métodos envolventes entrenan el algoritmo de machine learning con varios subconjuntos de características, y añaden o eliminan características y comprueban los resultados en cada iteración. El objetivo de todos ellos es encontrar el conjunto de características que permita alcanzar el rendimiento óptimo del modelo. 

Los métodos envolventes que prueban todas las combinaciones posibles de características se conocen como algoritmos codiciosos. Dado que su búsqueda del mejor conjunto de características requiere muchos recursos informáticos y tiempo, son más adecuados para conjuntos de datos con pocos espacios de características. 

Los científicos de datos pueden configurar el algoritmo para que se detenga cuando disminuya el rendimiento del modelo o cuando se alcance un número determinado de características. 

Los métodos de envoltura incluyen: 

  • Selección progresiva: se comienza con un conjunto de características vacío y se van añadiendo nuevas características gradualmente hasta encontrar el conjunto óptimo. La selección del modelo se lleva a cabo cuando el rendimiento del algoritmo no mejora tras una iteración específica. 

  • Selección regresiva: entrena un modelo con todas las características originales y elimina iterativamente la característica menos importante del conjunto. 

  • Selección exhaustiva de características: se prueban todas las combinaciones posibles de características para encontrar la mejor en general y optimizar una métrica de rendimiento especificada. Un modelo de regresión logística que utiliza la selección exhaustiva de características prueba todas las combinaciones posibles de todas las características. 

  • Eliminación recursiva de características (RFE): un tipo de selección regresiva que comienza con un espacio de características inicial y elimina o añade características después de cada iteración en función de su importancia relativa. 

  • Eliminación recursiva de características con validación cruzada: una variante de la eliminación recursiva que utiliza la validación cruzada para probar un modelo con datos no vistos y seleccionar el conjunto de características de mejor rendimiento. La validación cruzada es una técnica habitual para evaluar modelos de lenguaje de gran tamaño (LLM).

Métodos incrustados

Los métodos incrustados incluyen la selección de características en el proceso de entrenamiento del modelo. A medida que el modelo se entrena, utiliza diversos mecanismos para detectar las características de bajo rendimiento y descartarlas en futuras iteraciones. 

Muchos métodos incrustados se centran en la regularización, que penaliza las características en función de un umbral de coeficiente preestablecido. Los modelos cambian cierto grado de exactitud por una mayor precisión. El resultado es que los modelos rinden un poco menos durante el entrenamiento, pero se vuelven más generalizables al reducir el sobreajuste. 

Entre los métodos incrustados se incluyen: 

  • Regresión LASSO (regresión L1): añade una penalización a la función de pérdida para coeficientes correlacionados de alto valor, moviéndolos hacia un valor de 0, que se traduce en su eliminación. Cuanto mayor es la penalización, más características se eliminan del espacio de características. El uso eficaz del LASSO consiste en equilibrar la penalización para eliminar suficientes características irrelevantes sin dejar de lado las importantes. 

  • Importancia del bosque aleatorio: genera cientos de árboles de decisión, cada uno con una selección aleatoria de puntos de datos y características. Se evalúa cada árbol en función de la capacidad de división de los puntos de datos que muestra. Cuanto mejores sean los resultados, más importante se considerará la característica o características de ese árbol. Los clasificadores miden la "impureza" de las agrupaciones mediante la impureza de Gini o la ganancia de información, mientras que los modelos de regresión utilizan la varianza. 

  • Aumento de gradiente: añade predictores en secuencia a un conjunto y cada iteración corrige los errores de la anterior. De este modo, puede identificar qué características conducen a resultados óptimos.

Métodos de selección de características no supervisados

En el aprendizaje no supervisado, los modelos descubren por sí solos las características, los patrones y las relaciones de los datos. No es posible adaptar las variables de entrada a una variable objetivo conocida. Los métodos de selección de características sin supervisión utilizan otras técnicas para simplificar y racionalizar el espacio de características. 

Un método de selección de características sin supervisión es el análisis de componentes principales (PCA, por sus siglas en inglés). El PCA reduce la dimensionalidad de los grandes conjuntos de datos transformando las variables potencialmente correlacionadas en un conjunto más pequeño de variables. Estos componentes principales conservan la mayor parte de la información del conjunto de datos original. El PCA contrarresta la "maldición de la dimensionalidad" y también reduce el sobreajuste. 

Otros incluyen el análisis de componentes independientes (ICA), que separa los datos multivariantes en componentes individuales que son estadísticamente independientes, y autocodificadores

Los autocodificadores se utilizan mucho en arquitecturas de transformadores y son un tipo de red neuronal que aprende a comprimir y luego reconstruir datos. Al hacerlo, los autocodificadores descubren variables latentes, es decir, aquellas que no son directamente observables, pero que afectan en gran medida a la distribución de los datos.

Elegir un método de selección de características

El tipo de selección de características utilizado depende de las variables de entrada (input) y salida (output). Estas también determinan el tipo de problema de machine learning, ya sea de clasificación o de regresión. 

  • Entrada numérica, salida numérica: cuando las entradas y las salidas son numéricas, esto indica un problema predictivo de regresión. Los modelos lineales permiten realizar predicciones numéricas continuas, con una variable objetivo que es un número dentro de un intervalo de valores posibles. En estos casos, los coeficientes de correlación, como el coeficiente de correlación de Pearson, son un método ideal de selección de características. 

  • Entrada numérica, salida categórica: los modelos de regresión logística clasifican las entradas en salidas categóricas discretas. En este problema de clasificación, se pueden utilizar métodos de selección de características basados en correlaciones que admitan variables objetivo categóricas. Estos incluyen ANOVA para modelos de regresión lineal y el coeficiente de correlación de rango de Kendall para tareas no lineales. 

  • Entrada categórica, salida numérica: este raro tipo de desafío también se puede resolver con métodos de correlación que admiten variables categóricas. 

  • Entrada categórica, salida categórica: los problemas de clasificación con la entrada categórica y las variables objetivo se prestan al método chi-cuadrado o a las técnicas de ganancia de información. 

Otros factores a tener en cuenta son el tamaño del conjunto de datos y del espacio de características, la complejidad de estas y el tipo de modelo. Los métodos de filtrado pueden eliminar rápidamente una gran parte de las características irrelevantes, pero tienen dificultades con las interacciones de características complejas. En estos casos, los métodos de envoltura e incrustación pueden ser más adecuados.

¿Qué hace que las características sean importantes?

Saber en qué características centrarse es el componente esencial de la selección de características. Algunas características son muy recomendables para modelar, mientras que otras pueden llevar a resultados deficientes. Además de cómo afectan a las variables objetivo, la importancia de las características viene determinada por: 

  • La facilidad de modelado: si una característica es fácil de modelar, el proceso general de machine learning es más sencillo y rápido, con menos oportunidades de error. 

  • La facilidad para regularizarse: las características que se adaptan bien a la regularización serán más eficientes para trabajar. 

  • El desentrañamiento de la causalidad: desentrañar los factores causales de una característica observable significa identificar los factores subyacentes que la hacen aparecer.

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida de desarrollo de la IA. Produzca potentes soluciones de IA con interfaces intuitivas, flujos de trabajo y acceso a API y SDK estándar del sector.

Explore watsonx.ai Solicite una demostración en directo