Una característica es una cualidad definible de los elementos de un conjunto de datos. Las características también se conocen como variables porque sus valores pueden cambiar de un punto de datos a otro, y atributos porque caracterizan los puntos de datos en el conjunto de datos. Las diferentes características caracterizan los puntos de datos de varias maneras.
Las características pueden ser variables independientes, variables dependientes que derivan su valor de variables independientes o atributos combinados que se compilan a partir de otras características.
El objetivo de la selección de características es identificar las variables de entrada más importantes que el modelo puede emplear para predecir las variables dependientes. La variable objetivo es la variable dependiente que el modelo debe predecir.
Por ejemplo, en una base de datos de empleados, las características de entrada pueden incluir edad, ubicación, salario, cargo, métricas de rendimiento y duración del empleo. Un empresario puede emplear estas variables para generar un atributo combinado objetivo que represente la probabilidad de que un empleado se marche por una oferta mejor. A continuación, el empresario puede determinar cómo animar a esos empleados a quedar.
Las características se pueden clasificar en términos generales en variables numéricas o categóricas.
Antes de que tenga lugar la selección de características, el proceso de extracción de características transforma los datos sin procesar en características numéricas que los modelos de machine learning pueden utilizar. La extracción de características simplifica los datos y reduce los requisitos de cómputo necesarios para procesarlos.