¿Qué son los parámetros del modelo?

¿Qué son los parámetros del modelo?

Los parámetros del modelo son los valores aprendidos dentro de un modelo de machine learning que determinan cómo asigna las entradas a los outputs, como el texto generado o una clasificación prevista. El propósito de un algoritmo de machine learning es ajustar los parámetros hasta que los resultados de un modelo de inteligencia artificial (IA) se alineen estrechamente con los resultados esperados.

Los valores de estos parámetros determinan las predicciones de un modelo y, en última instancia, el rendimiento del modelo en una tarea determinada. El número de parámetros de un modelo influye directamente en la capacidad del modelo para capturar patrones en todos los puntos de datos. Los modelos grandes, como los que se utilizan en la IA generativa, pueden tener miles de millones de parámetros, lo que les permite generar outputs muy sofisticados. Cuantos más parámetros se utilicen, más precisos serán los modelos a la hora de capturar patrones de datos matizados, pero un número excesivo de parámetros conlleva el riesgo de sobreajuste.

Los diferentes algoritmos de machine learning tienen diferentes tipos de parámetros. Por ejemplo, los modelos de regresión utilizan coeficientes, las redes neuronales utilizan pesos y sesgos, y otros algoritmos, como las máquinas de vectores de soporte o los modelos de espacio de estados, utilizan tipos de parámetros únicos.

Los parámetros del modelo, variables aprendidas durante el entrenamiento, no deben confundirse con los hiperparámetros, que se establecen de antemano. Ambos tipos de parámetros influyen en el rendimiento y el comportamiento de un modelo, pero de formas significativamente diferentes. 

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Está suscrito.

Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Parámetros del modelo simplificados

Los parámetros del modelo están presentes incluso en el modelo matemático más simple posible, que describe una cantidad que cambia a un ritmo constante.

Regresión lineal

Para averiguar cómo podrían afectar los metros cuadrados al precio de una casa, se podría utilizar un modelo de regresión lineal simple que utilice la ecuación y=mx+bdonde m (la pendiente) y b (la intersección) son parámetros. Al ajustarlos, la línea resultante se desplaza e inclina hasta ajustarse mejor a los datos.

Clasificación

Un ejemplo un poco más complejo podría ser el uso de un modelo de regresión logística para determinar si una casa se venderá o no en función del tiempo que lleva en el mercado.

La regresión logística utiliza la fórmula:  p=11+e-(wx+b) , donde p = la "probabilidad de venta" y x = "días en el mercado". De nuevo, w y b son parámetros que el modelo "aprende". La ecuación se ha vuelto un poco más compleja, pero siguen siendo 2 los parámetros en juego.

Mixture of Experts | 12 de diciembre, episodio 85

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Tipos de parámetros del modelo

En el machine learning, los parámetros del modelo se dividen principalmente en dos tipos: ponderaciones y sesgos. En un modelo de regresión lineal simple, y=mx+b , el peso corresponde a la pendiente m, que controla la intensidad con la que la entrada influye en el output. Cuanto mayor sea el peso, mayor será el impacto de la entrada. El sesgo corresponde a la intersección b. Esto permite que el modelo desplace toda la línea hacia arriba o hacia abajo.

Pesos

Los pesos son los botones de control o ajustes fundamentales de un modelo y determinan cómo un modelo evalúa nuevos datos y realiza predicciones.

En los modelos de regresión lineal, las ponderaciones determinan la influencia relativa de cada característica utilizada para representar cada punto de datos de entrada. En las redes neuronales, los pesos determinan la influencia relativa del output de cada neurona sobre el de cada una de las neuronas de la capa siguiente. 

En el caso de un modelo que intenta predecir si una casa se venderá en función de factores como los "días en el mercado", cada uno de estos factores tiene un peso que refleja la intensidad con la que afecta a la probabilidad de venta.

Sesgos

Los sesgos permiten a los modelos ajustar los outputs independientemente de las ponderaciones y las entradas del modelo, actuando como umbrales o compensaciones. Los sesgos ayudan a los modelos a generalizar y capturar patrones y tendencias más grandes en un conjunto de datos. 

Siguiendo con el modelo de venta de viviendas, históricamente el 60 % de todas las casas de la zona se acaban vendiendo, independientemente del número de días que lleven en el mercado. Esto ocurre incluso si una casa en concreto lleva muchos días a la venta o ha tenido pocas visitas. El sesgo permite que el modelo parta de esta probabilidad de referencia realista y luego se ajuste al alza o a la baja en función de las demás entradas.

Este uso de "sesgo" es un concepto separado del sesgo algorítmico, que es cuando un modelo produce resultados discriminatorios. El sesgo también es el término para el tipo de error que resulta de que el modelo haga suposiciones incorrectas sobre los datos, lo que lleva a una divergencia entre los valores previstos y los reales. Ambos no están relacionados con el sesgo de los parámetros.

Otros parámetros

Existen otros tipos de parámetros en el ámbito del machine learning. Los modelos simples utilizan pesos y sesgos, al igual que las redes neuronales más complejas, junto con parámetros de ganancia y desplazamiento para la normalización.

Las redes neuronales convolucionales, por ejemplo, tienen filtros (también conocidos como núcleos), que detectan patrones espaciales. Las redes neuronales recurrentes con memoria a corto plazo utilizan parámetros de compuerta que controlan el flujo de información a través de la red. Los modelos probabilísticos como Naive Bayes utilizan parámetros para definir probabilidades condicionales o las propiedades de las distribuciones de probabilidad. Las máquinas de vectores de soporte definen parámetros que posicionan y orientan "hiperplanos" para separar clases en el espacio de características. Los modelos de espacio de estados tienen parámetros de observación y ruido.

Esta es una lista limitada de ejemplos, y los parámetros de diferentes modelos funcionan de distintas maneras. En todos ellos, los parámetros determinan la forma en que los modelos asignan los datos de entrada a los outputs.

Parámetros del modelo frente a hiperparámetros

Los parámetros son esencialmente las respuestas a la pregunta que hace el modelo (por ejemplo: "¿Cuál es la pendiente óptima de la ecuación que nos indicará con mayor precisión cuál será el precio de la vivienda en función de los metros cuadrados?")

Los hiperparámetros, por otro lado, pueden percibirse como las reglas del juego que le dicen al modelo cómo encontrar esa respuesta. Los científicos de datos que entrenan el modelo utilizan su comprensión del problema para imponer límites que determinan cómo buscará respuestas el modelo.

Los parámetros del modelo son internos a un modelo y se actualizan mediante iteraciones del proceso de aprendizaje en respuesta a los datos de entrenamiento. El modelo actualiza los valores de los parámetros durante el entrenamiento. Los parámetros controlan cómo reacciona un modelo a datos no vistos.

Los hiperparámetros del modelo son externos a un modelo y se establecen antes del entrenamiento mediante el ajuste de hiperparámetros. Algunos hiperparámetros determinan el comportamiento del modelo durante el entrenamiento, como la tasa de aprendizaje durante el descenso del gradiente o el número de épocas del proceso de entrenamiento. 

Otros hiperparámetros son responsables de la forma y la estructura del modelo, como el número de árboles de decisión en un bosque aleatorio, de clústers en clustering de medias k o de capas ocultas en una redes neuronales

Parámetros de modelo en neural networks

Los modelos de machine learning pueden ser mucho más complejos que los ejemplos anteriores. En una red neuronal como un modelo de lenguaje de gran tamaño (LLM), un modelo toma decisiones de manera similar a la forma en que las neuronas biológicas trabajan juntas en el cerebro humano. Cada red neuronal consta de capas de neuronas artificiales, donde cada neurona representa una función matemática que procesa números. En el deep learning, las redes neuronales constan de muchas de estas capas.

De capa a capa

Cada neurona controla la fuerza con la que una parte de la red influye en la otra. Los pesos determinan la fuerza de las conexiones entre neuronas: el grado en que la salida de una neurona afecta a la entrada de la siguiente neurona. 

Durante el entrenamiento, la red recibe entradas. Siguiendo con el ejemplo de los precios de la vivienda, estos podrían ser los metros cuadrados, el año de construcción, los datos demográficos del barrio, etc.

Estas características de entrada se transmiten a la primera capa de neuronas. Cada entrada se multiplica por un peso, que es la mejor estimación de la red sobre la importancia de esa neurona, y se añade un sesgo para mejorar la flexibilidad y dar cierta independencia a las neuronas de la influencia de la suma ponderada de las entradas de las neuronas de la capa anterior. Una función de activación decide con qué fuerza se "dispara" esa neurona y pasa información a la siguiente capa como entrada a las funciones de activación de cada neurona individual en la siguiente capa. Cada una de estas conexiones de neurona a neurona tiene su propio peso.

Los pesos forman una matriz, los sesgos forman un vector y la capa calcula combinaciones lineales de entradas + sesgo, luego pasa el resultado a través de una función de activación, como una función sigmoidea, tanh, ReLU o softmax. El trabajo de esta función es introducir la no linealidad, lo que permite a la red aprender y modelar patrones complejos en lugar de solo relaciones lineales.

Los datos se mueven a través de las capas "ocultas" posteriores. La primera capa oculta podría combinar los metros cuadrados de la casa y su número de dormitorios para llegar al "espacio habitable general". Otra capa podría combinar la ubicación geográfica de la casa + la calificación de su distrito escolar para determinar la "conveniencia del vecindario". El modelo no tiene la comprensión humana de lo que es la "deseabilidad del vecindario", simplemente reconoce patrones en los números de sus datos de entrenamiento y hace correlaciones.

De capa a capa, la red comienza a "comprender" qué patrones son más relevantes. Estas capas apiladas convierten operaciones simples en una poderosa red capaz de aprender patrones complejos y jerárquicos.

Pérdida y retropropagación

En la siguiente etapa, la red calcula la pérdida (la diferencia entre el output de la red y la verdad básica) la estructura de los datos presentes en el conjunto de datos). Esto proporciona un único número que representa lo lejos que está el modelo.

A continuación, durante la retropropagación, la red calcula el gradiente de la pérdida con respecto a los pesos y sesgos, lo que indica a la red qué parámetros influyen en la pérdida y cómo ajustarlos para minimizarla. Esto ocurre en orden inverso, capa por capa, con un algoritmo de descenso de gradiente. Los algoritmos de optimización, como el descenso de gradiente, están diseñados para minimizar una función de pérdida, indicando al modelo cómo cambiar eficientemente sus parámetros para reducir la pérdida.

Los procesos anteriores se repiten hasta que el modelo es capaz de ofrecer outputs (en este caso, el precio previsto de la vivienda) con el nivel de rendimiento deseado.

El ejemplo de la predicción de los precios de la vivienda expresa cómo las redes neuronales toman muchas características a la vez, las combinan de forma no lineal y output una predicción útil. Sin embargo, esto podría haberse logrado mediante un modelo de regresión lineal más simple. Las redes neuronales realmente brillan cuando los datos no están estructurados o cuando los patrones son demasiado complejos o de alta dimensión para los modelos tradicionales. Por ejemplo, se podría utilizar una red neuronal para procesar fotos de satélite y datos de mapas de barrios para predecir el precio de venta. O bien, se podría entrenar una red neuronal para reconocer términos clave en las descripciones de listados como "calle tranquila" o "techo nuevo".

afinado

Una vez completada la formación inicial, los modelos de IA pueden adaptarse aún más a tareas o áreas temáticas específicas. El afinado es el proceso de adaptar un modelo previamente entrenado para casos de uso específicos. Para ello, los parámetros del modelo se actualizan mediante entrenamiento adicional con nuevos datos.

Otros tipos de aprendizaje

El ejemplo anterior de la red neuronal utilizada para predecir los precios de la vivienda describe el aprendizaje supervisado, en el que los modelos aprenden utilizando datos etiquetados. En este contexto, el modelo recibe tanto las entradas como los outputs correctos. El modelo compara sus predicciones con la verdad del terreno (en este caso, datos etiquetados). El afinado suele tener lugar en un contexto supervisado.

El aprendizaje no supervisado permite a los modelos aprender parámetros encontrando patrones o estructuras en datos no etiquetados, sin que se les diga la "respuesta correcta". En lugar de comparar las predicciones con las etiquetas de verdad (como en el aprendizaje supervisado), estos modelos optimizan los objetivos que miden qué tan bien el modelo explica los datos en sí. Por ejemplo, en clustering, los parámetros (como los centroides de clúster en k-means) se actualizan de forma iterativa para que los puntos similares se agrupen más juntos. En la reducción de la dimensionalidad, los parámetros se aprenden encontrando direcciones que capturen la mayor varianza en los datos.

En el aprendizaje por refuerzo, un modelo (o un agente impulsado por un modelo) interactúa con un entorno y recibe recompensas por las acciones correctas. Los parámetros suelen definir una política o función de valor que estima la recompensa esperada. Los parámetros se actualizan comparando las recompensas previstas con las recompensas reales recibidas.

Validación del rendimiento de los parámetros del modelo

Mejorar el rendimiento de los datos de entrenamiento es el objetivo del entrenamiento, pero eso es solo un medio para un fin. El objetivo principal es la generalización, que se logra entrenando el modelo de manera que se generalice bien a tareas del mundo real que no vio en sus datos de entrenamiento.

Se debe tener cuidado para evitar errores como el sobreajuste, cuando los parámetros capturan ruido o fluctuaciones aleatorias en los datos de entrenamiento, lo que conduce a una mala generalización de los nuevos datos. Los parámetros deben ser lo suficientemente flexibles como para aprender patrones significativos, pero no tanto como para memorizar detalles irrelevantes.

Se utilizan varias técnicas de ciencia de datos para evaluar el rendimiento del modelo. La validación cruzada es una técnica de evaluación de modelos en la que el conjunto de datos se divide en varias partes (pliegues). El modelo se entrena en algunos pliegues y se prueba en el pliegue restante, y este proceso se repite hasta que cada pliegue se haya utilizado como conjunto de prueba. Esto reduce el riesgo de sobreajuste, ya que el modelo se prueba en varias particiones de los datos. La validación cruzada no cambia directamente los parámetros, pero prueba qué tan bien se generalizan los parámetros aprendidos a datos no vistos. Si el rendimiento es consistente en todos los pliegues, es probable que los parámetros estén bien optimizados. De lo contrario, es posible que los parámetros del modelo se ajusten demasiado al subconjunto de los datos de entrenamiento que ya ha visto. La formación adicional sobre datos más diversos puede mejorar la generalización.

Otra técnica es el bootstrapping, un método estadístico que implica la creación de nuevos conjuntos de datos mediante muestreo aleatorio con reemplazo del conjunto de datos original. El bootstrapping produce muchos conjuntos de parámetros, ya que cada muestra de bootstrap es ligeramente diferente. Al observar la variación entre estos modelos bootstrap, se puede medir la fiabilidad de los parámetros cuando se entrenan con datos ligeramente diferentes.

Los profesionales también confían en métricas que cuantifican el rendimiento del modelo, como la exactitud, la precisión, la recuperación o el error cuadrático medio. Estos proporcionan feedback objetivo sobre si los parámetros actuales están moviendo el modelo en la dirección correcta.

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida de desarrollo de la IA. Produzca potentes soluciones de IA con interfaces intuitivas, flujos de trabajo y acceso a API y SDK estándar del sector.

Explore watsonx.ai Solicite una demostración en directo