El machine learning funciona a través de la lógica matemática. Por lo tanto, las características relevantes (o "funciones") de cada punto de datos deben expresarse numéricamente, de modo que los datos en sí puedan introducirse en un algoritmo matemático que "aprenda" a asignar una entrada determinada a la salida deseada.
Los puntos de datos en el machine learning suelen representarse en forma vectorial, en la que cada elemento (o dimensión) de la incorporación vectorial de un punto de datos corresponde a su valor numérico para una característica específica. Para las modalidades de datos que son inherentemente numéricas, como los datos financieros o las coordenadas geoespaciales, esto es relativamente sencillo. Pero muchas modalidades de datos, como texto, imágenes, datos gráficos de redes sociales o comportamientos de usuarios de aplicación, no son inherentemente numéricas y, por lo tanto, implican una ingeniería de características menos intuitiva de inmediato para expresarse de una manera preparada para ML.
El proceso (a menudo manual) de elegir qué aspectos de los datos usar en los algoritmos de aprendizaje automático se denomina selección de características. Las técnicas de extracción de características refinan los datos solo a sus dimensiones más relevantes y significativas. Ambos son subconjuntos de la ingeniería de características, la disciplina más amplia de preprocesamiento de datos sin procesar para su uso en el machine learning. Una distinción notable del aprendizaje profundo es que normalmente opera con datos sin procesar y automatiza gran parte del proceso de ingeniería de características, o al menos el proceso de extracción de características. Esto hace que el aprendizaje profundo sea más escalable, aunque menos interpretable, que el machine learning tradicional.
Parámetros y optimización del modelo de machine learning
Como ejemplo práctico, considere un algoritmo de regresión lineal simple para predecir los precios de venta de las viviendas en función de una combinación ponderada de tres variables: pies cuadrados, antigüedad de la casa y número de habitaciones. Cada casa se representa como una incorporación vectorial con 3 dimensiones: [square footage, bedrooms, age]
. Una casa de 30 años con 4 dormitorios y 1900 pies cuadrados podría representarse como [1900, 4, 30]
(aunque para fines matemáticos, esos números podrían escalarse o normalizarse primero a un rango más uniforme).
El algoritmo es una función matemática sencilla:
Precio = (A * pies cuadrados) + (B * número de habitaciones) – (C * Antigüedad) + Precio base
Aquí, , and son los parámetros del modelo: ajustarlos ajustará el peso que el modelo le da a cada variable. El objetivo del machine learning es encontrar los valores óptimos para dichos parámetros del modelo: en otras palabras, los valores de los parámetros que derivan en que la función general produzca los resultados más precisos. Si bien la mayoría de las instancias de machine learning del mundo real implican algoritmos más complejos con un mayor número de variables de entrada, el principio sigue siendo el mismo: optimizar los parámetros ajustables del algoritmo para obtener una mayor precisión.