Las características o variables de los datos son los atributos de un conjunto de datos que los modelos de machine learning utilizan para tomar decisiones y hacer predicciones. Por ejemplo, para un modelo de visión artificial construido para identificar especies vegetales, las características de los datos podrían incluir la forma y el color de las hojas.
La ingeniería de características es el proceso transformador mediante el cual un científico de datos extrae nueva información de los datos de entrada y la prepara para el machine learning. Una buena selección de ingeniería y funciones puede determinar la diferencia entre un rendimiento de modelo aceptable y uno de alta calidad.
La ingeniería automatizada de características automatiza el proceso de exploración del espacio de características, rellenando los valores que faltan y seleccionando las características que se van a utilizar. Crear manualmente una sola función puede llevar horas y el número de funciones necesario para obtener una puntuación de precisión mínima (y mucho menos una línea base de precisión a nivel de producción) puede llegar a los cientos. La ingeniería automatizada de funciones reduce esta fase de días a minutos.
Además de los beneficios de eficiencia, la eficiencia de las funciones automatizadas también aumenta la explicabilidad de la IA, lo cual es importante para sectores estrictamente regulados, como la atención médica o las finanzas. Una mayor claridad de las funciones hace que los modelos sean más atractivos y que se puedan ejecutar al descubrir nuevos KPI.