Las últimas tendencias en IA, presentadas por expertos
Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.
La selección de modelos en machine learning es el proceso de escoger el modelo de machine learning (ML) más adecuado para la tarea seleccionada. El modelo seleccionado suele ser aquel que mejor se generaliza a datos no vistos y que, al mismo tiempo, cumple con mayor éxito las métricas de rendimiento relevantes.
El proceso de selección de modelos de ML consiste en comparar diferentes modelos entre sí. Los especialistas en esta disciplina evalúan el rendimiento de cada modelo y, a continuación, eligen el mejor basándose en un conjunto de métricas de evaluación.
La clave de la mayoría de las tareas de machine learning consiste en reconocer patrones en los datos y, a continuación, realizar predicciones sobre nuevos datos basándose en dichos patrones. Elegir el modelo predictivo que mejor rendimiento ofrezca permite obtener predicciones más precisas y una aplicación de ML más fiable.
Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.
La elección del modelo de IA es importante, ya que determina el rendimiento del sistema de machine learning. Cada modelo tiene sus puntos fuertes y débiles, por lo que elegir el adecuado es fundamental para el éxito del proyecto. La selección del modelo es una de las primeras etapas del pipeline general de machine learning para crear e implementar modelos de ML.
Algunas tareas requieren modelos complejos que puedan capturar los detalles de un gran conjunto de datos, pero que pueden tener dificultades para generalizarse a nuevos datos. También pueden requerir más recursos y capacidad de cálculo. Otras tareas se adaptan mejor a modelos más pequeños y sencillos, diseñados para un propósito específico.
Elegir el modelo adecuado para el trabajo puede:
Optimizar la eficiencia: el más sólido de todos los modelos candidatos equilibrará el compromiso entre rendimiento y generalizabilidad con la complejidad y el uso de recursos.
Maximizar el rendimiento del modelo: una herramienta solo es tan eficaz como la tarea para la que se utiliza. Probar y evaluar los modelos candidatos permite descubrir cuál es el más eficaz para la tarea, lo que aumenta las posibilidades de que la aplicación de IA sea viable en el mundo real.
Impulsar el éxito del proyecto: la complejidad del modelo afecta directamente al tiempo de formación y a los requisitos de recursos, así como a los resultados. Los modelos predictivos van de lo simple a lo complejo. Los modelos más simples son más rápidos y económicos de entrenar, mientras que los modelos complejos requieren más datos, dinero y tiempo.
El proceso de selección de modelos está diseñado para producir un modelo que se ajuste a la medida del caso de uso objetivo. Los especialistas en machine learning describen el problema, eligen los modelos que probablemente funcionen mejor y, por último, entrenan y prueban los modelos candidatos para identificar la mejor opción.
Las etapas del proceso de selección de modelos suelen incluir:
Establecer el reto de ML
Elegir los modelos candidatos
Determinar las métricas de evaluación de los modelos
Entrenar y evaluar los modelos
En función de la naturaleza de la tarea, algunos algoritmos de machine learning son mejores opciones que otros. Los desafíos del ML generalmente se dividen en tres categorías:
Los problemas de regresión encomiendan a los modelos la tarea de identificar las relaciones entre las características de entrada y una variable de salida continua seleccionada, como un precio. Algunos ejemplos de problemas de regresión son la predicción de referencias salariales o la probabilidad de que se produzcan catástrofes naturales en función de las condiciones meteorológicas. Las predicciones del modelo se basan en características de entrada relevantes, como la época del año o la información demográfica. La previsión de series temporales es un tipo de reto de regresión que predice el valor de una variable a lo largo del tiempo. Los modelos de series temporales son una clase de modelo eficiente desde el punto de vista computacional especializada en este reto.
Los problemas de clasificación ordenan los puntos de datos en categorías basadas en un conjunto de variables de entrada. Algunos ejemplos de problemas de clasificación son el reconocimiento de objetos y los filtros de correo electrónico no deseado. El conjunto de entrenamiento puede incluir puntos de datos con resultados etiquetados para que el modelo pueda aprender la asociación entre entradas y resultados. Esta práctica se conoce como aprendizaje supervisado.
Los problemas de clustering agrupan puntos de datos en función de las similitudes. El clustering no es exactamente lo mismo que la clasificación, ya que el objetivo es descubrir grupos dentro de los puntos de datos, en lugar de clasificar dichos puntos en categorías conocidas. Los modelos deben discernir similitudes por sí mismos en un entorno de aprendizaje no supervisado. La segmentación del mercado es un ejemplo de reto de clustering.
El proceso de prueba compara los modelos candidatos y evalúa su rendimiento en función de un conjunto de métricas de evaluación preseleccionadas. Si bien existen muchas métricas, algunas son mejores para ciertos tipos de desafíos de ML que otras.
Las métricas de evaluación de modelos para la clasificación incluyen:
Exactitud: el porcentaje de predicciones correctas sobre el total de predicciones realizadas.
Precisión: la proporción de predicciones positivas verdaderas entre todas las predicciones positivas, que mide la exactitud de estas.
Exhaustividad: la proporción de predicciones positivas verdaderas entre todas las instancias positivas reales, que mide la destreza del modelo en la identificación de instancias positivas.
Puntuación F1: combina la precisión y la exhaustividad para obtener una visión general de la capacidad del modelo para reconocer y clasificar correctamente las instancias positivas.
Matriz de confusión: resume el rendimiento de un modelo clasificador mostrando los verdaderos positivos, los falsos positivos, los verdaderos negativos y los falsos negativos en una tabla.
AUC-ROC: un gráfico que traza las tasas de verdaderos positivos y falsos positivos como una curva característica operativa del receptor (ROC). El área bajo la curva (AUC) muestra el rendimiento del modelo.
Las métricas de evaluación de regresión incluyen:
Error cuadrático medio (MSE): promedia la diferencia entre los cuadrados de las diferencias entre los valores previstos y los reales. El MSE es muy sensible a los valores atípicos y penaliza gravemente los errores grandes.
Raíz del error cuadrático medio (RMSE): la raíz cuadrada del MSE, que muestra el índice de error en las mismas unidades que la variable y aumenta la interpretabilidad de la métrica. El MSE muestra el mismo error en unidades al cuadrado.
Error absoluto medio (MAE): la media de las diferencias entre los valores reales y practicados para la variable objetivo. El MAE es menos sensible que el MSE.
Error porcentual absoluto medio (MAPE): transmite el error absoluto medio como un porcentaje en lugar de en las unidades de la variable predicha, lo que facilita la comparación de modelos.
R-cuadrado: proporciona una medida de referencia del rendimiento del modelo entre 0 y 1. Sin embargo, el valor r-cuadrado puede inflarse artificialmente al añadir más características.
R-cuadrado ajustado: refleja las contribuciones de las características que mejoran el rendimiento del modelo, e ignoran las características irrelevantes.
Los científicos de datos se preparan para el entrenamiento y la evaluación de modelos mediante la división los datos disponibles en varios conjuntos. El conjunto de datos de entrenamiento se utiliza para el entrenamiento de modelos, durante el cual los modelos candidatos aprenden a reconocer patrones y relaciones en los puntos de datos. A continuación, se comprueba el rendimiento del modelo con una parte diferente del conjunto de datos.
La forma más sencilla y rápida de hacer pruebas es dividirlas en dos: entrenamiento y prueba. Los científicos de datos dividen el conjunto de datos en dos partes, una para el entrenamiento y otra para las pruebas. El modelo no se expone a la división de prueba hasta después del entrenamiento: el conjunto de prueba sirve como sustituto de los nuevos datos no vistos que el modelo procesará en el mundo real.
Los creadores de modelos tienen acceso a una amplia gama de técnicas de selección de modelos. Algunos se refieren a la configuración inicial y la arquitectura del modelo, lo que a su vez influye en su comportamiento. Otros proporcionan una evaluación más matizada y rigurosa del modelo o predicen cómo se comportarán los modelos en un conjunto de datos específico.
Las técnicas de selección de modelos incluyen:
Ajuste de hiperparámetros
Validación cruzada
Bootstrapping
Criterios de información
El ajuste de hiperparámetros es el proceso de optimización de los hiperparámetros de un modelo, que son ajustes externos que determinan la estructura y el comportamiento del modelo. Los modelos también tienen parámetros internos que se actualizan en tiempo real durante el entrenamiento. Los parámetros internos rigen cómo un modelo procesa los datos. Modelos complejos, como los utilizados para IA generativa, pueden tener más de un billón de parámetros.
El ajuste de hiperparámetros no es lo mismo que el ajuste fino de un modelo, que es cuando un modelo se entrena o ajusta más después de la etapa de entrenamiento inicial (conocida como preentrenamiento).
Varias técnicas notables de ajuste de hiperparámetros son:
Búsqueda en rejilla: se entrenan, prueban y evalúan todas las combinaciones posibles de hiperparámetros. La búsqueda en rejilla, un método exhaustivo y de fuerza bruta, es probable que descubra la mejor combinación única de hiperparámetros. Sin embargo, consume mucho tiempo y recursos.
Búsqueda aleatoria: se seleccionan muestras de combinaciones de hiperparámetros al azar, y cada muestra del subconjunto se utiliza para entrenar y probar un modelo. La búsqueda aleatoria es una alternativa a la búsqueda en rejilla cuando esta última no es viable.
Optimización bayesiana: se utiliza un modelo probabilístico para predecir qué combinaciones de hiperparámetros tienen más probabilidades de dar como resultado el mejor rendimiento del modelo. La optimización bayesiana es un método iterativo que mejora con cada ronda de entrenamiento y prueba, y funciona bien con espacios de hiperparámetros grandes.
En el sistema de remuestreo de validación cruzada de k-fold, los datos se dividen en k conjuntos o pliegues. Los datos de entrenamiento comprenden subconjuntos k-1y el modelo se valida en el conjunto restante. El proceso itera para que cada subconjunto sirva como conjunto de validación. Los puntos de datos se muestrean sin reemplazo, lo que significa que cada punto de datos aparece una vez por iteración.
La validación cruzada K-fold ofrece una visión más holística del rendimiento de un modelo que la división simple entre entrenamiento y prueba.
El bootstrapping es una técnica de remuestreo similar a la validación cruzada, excepto que los puntos de datos se muestrean con reemplazo. Esto significa que los puntos de datos muestreados pueden aparecer en múltiples pliegues.
Los criterios de información comparan el grado de complejidad del modelo con sus posibilidades de sobreajuste o subajuste del conjunto de datos. El sobreajuste significa que el modelo se adapta demasiado al conjunto de entrenamiento y no puede generalizarse a nuevos datos. El subajuste es lo contrario, cuando un modelo no es lo suficientemente complejo como para capturar las relaciones entre los puntos de datos.
Tanto el criterio de información de Akaike (AIC) como el criterio de información bayesiano (BIC) incentivan la adopción del modelo con la menor complejidad posible que pueda manejar adecuadamente el conjunto de datos.
El rendimiento del modelo está lejos de ser el único determinante de lo que hace que un modelo sea "el mejor". Otros factores pueden ser igualmente, o incluso más, relevantes para la decisión.
Los LLM son los modelos básicos de inteligencia artificial para muchas aplicaciones empresariales, como agentes de IA, respuesta a preguntas impulsadas por RAG o chatbots de servicio al cliente con generación automatizada de texto. El procesamiento del lenguaje natural (PLN) es el uso de algoritmos de machine learning para comprender y generar el lenguaje humano, y los LLM son un tipo específico de modelo de PLN.
Los LLM notables incluyen la familia GPT de OpenAI, como GPT-4o y GPT-3.5, algunos de los modelos detrás de ChatGPT, así como Claude de Anthropic, Gemini de Google y Llama 3 de Meta. Todos los LLM son capaces de gestionar tareas complejas, pero las necesidades específicas de un proyecto de machine learning pueden ayudar a determinar el LLM adecuado para el trabajo.
La elección del LLM adecuado se reduce a una serie de factores entre los que se incluyen:
Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.
Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.