¿Qué es el deep learning?

El deep learning es un subconjunto de machine learning impulsado por redes neuronales cuyo diseño se inspira en la estructura del cerebro humano. Los modelos de deep learning están detrás de la mayor parte de la inteligencia artificial (IA) más avanzada en la actualidad, desde la visión artificial y la IA generativa hasta los coches autónomos y la robótica.

A diferencia de la lógica matemática explícitamente definida de los algoritmos tradicionales de machine learning, las redes neuronales de los modelos de deep learning comprenden muchas capas interconectadas de "neuronas" que realizan cada una una operación matemática. Mediante el uso del machine learning para ajustar la fuerza de las conexiones entre las neuronas individuales de las capas adyacentes (es decir, los pesos y sesgos variables del modelo), la red puede optimizarse para obtener outputs más precisos. Aunque las redes neuronales y el deep learning se han asociado indisolublemente entre sí, no son estrictamente sinónimos: "deep learning" se refiere al entrenamiento de modelos con al menos 4 capas (aunque las arquitecturas de redes neuronales modernas suelen ser mucho más "profundas" que eso) .

Es esta estructura distribuida, altamente flexible y ajustable lo que explica la increíble potencia y versatilidad de deep learning. Imagine el entrenamiento de datos como puntos de datos dispersos en un gráfico bidimensional, y el objetivo del entrenamiento de modelos es encontrar una línea que pase por cada uno de esos puntos de datos. Esencialmente, el machine learning tradicional tiene como objetivo lograr esto utilizando una sola función matemática que produce una sola línea (o curva); el deep learning, por otro lado, puede juntar un número arbitrario de líneas más pequeñas y ajustables individualmente para formar la forma deseada. Las redes neuronales profundas son aproximadores universales: se ha demostrado teóricamente que para cualquier función, existe una disposición de red neuronal que puede reproducirla.¹

Los modelos de deep learning suelen entrenarse mediante el aprendizaje supervisado en datos etiquetados para realizar tareas de regresión y clasificación. Pero como las redes neuronales suelen requerir una enorme cantidad de datos de entrenamiento para alcanzar un rendimiento óptimo, el coste y el trabajo de adquirir conjuntos de datos de ejemplos de entrenamiento anotados pueden ser prohibitivos. Esto ha llevado al desarrollo de técnicas para replicar tareas de aprendizaje supervisado utilizando datos no etiquetados. El término aprendizaje autosupervisado fue acuñado por Yann LeCun a finales de la década de 2010 para desambiguar estos métodos del aprendizaje no supervisado tradicional. Desde entonces, el aprendizaje autosupervisado se ha convertido en un modo destacado de entrenar redes neuronales, en particular para los modelos fundacionales que sustentan la IA generativa.

Aunque los científicos de datos introdujeron las redes neuronales (o conceptos análogos) al principio de la historia del machine learning, su avance no comenzó en serio hasta finales de la década de 2000 y principios de la de 2010. La llegada de las redes de deep learning en la mayoría de los subconjuntos del machine learning fue posible en parte por los avances en las unidades de procesamiento gráfico (GPU) de alto rendimiento que permitieron el procesamiento paralelo de cantidades masivas de pasos computacionales. Dado que el deep learning requiere una enorme cantidad de potencia informática tanto para el entrenamiento como para la inferencia, estos avances de hardware aumentaron considerablemente la velocidad y la practicidad de la implementación de modelos de deep learning a escala.

Cómo funciona el deep learning

Las redes neuronales artificiales se inspiran, en términos generales, en el funcionamiento de los circuitos neuronales del cerebro humano, cuyo funcionamiento está impulsado por la compleja transmisión de señales químicas y eléctricas a través de redes distribuidas de células nerviosas (neuronas). En el deep learning, las "señales" analógicas son los outputs ponderados de muchas operaciones matemáticas anidadas, realizadas por "neuronas" artificiales (o nodos), que en conjunto conforman la red neuronal.

En resumen, un modelo de deep learning puede entenderse como una intrincada serie de ecuaciones anidadas que asignan una entrada a un output. Ajustar la influencia relativa de las ecuaciones individuales dentro de esa red mediante procesos especializados de machine learning puede alterar la forma en que la red asigna las entradas a los outputs.

Aunque ese marco es muy potente y versátil, se produce a expensas de la interpretabilidad. Por lo general, hay pocas o nulas explicaciones intuitivas (más allá de las matemáticas puras) sobre cómo los valores de los parámetros individuales del modelo aprendidos por una red neuronal reflejan las características reales de los datos. Por esa razón, los modelos de deep learning a menudo se denominan "cajas negras", especialmente en comparación con los tipos tradicionales de modelos de machine learning basados en la ingeniería manual de características.

En comparación con las técnicas clásicas de machine learning, el deep learning requiere una cantidad extremadamente grande de datos y recursos computacionales para el entrenamiento. Dado el coste y la complejidad del hardware de nivel empresarial necesario para desarrollar e implementar sofisticadas aplicaciones de deep learning, los servicios de cloud computing se han convertido en una parte cada vez más integral del ecosistema de deep learning.

Estructura de red neuronal profunda

Las redes neuronales artificiales comprenden capas interconectadas de "neuronas" artificiales (o nodos), cada una de las cuales realiza su propia operación matemática (llamada función de activación). Existen muchas funciones de activación diferentes y una red neuronal suele incorporar varias dentro de su estructura, aunque normalmente todas las neuronas de una misma capa se configuran para realizar la misma función de activación. En la mayoría de las redes neuronales, cada neurona de la capa de entrada está conectada a cada una de las neuronas de la capa siguiente, que a su vez están conectadas a las neuronas de la capa siguiente, y así sucesivamente.

El output de la función de activación de cada nodo contribuye a la entrada de los nodos de la capa siguiente. Es fundamental destacar que las funciones de activación realizadas en cada nodo son no lineales, lo que permite a las redes neuronales modelar patrones y relaciones complejos. La diferencia entre una red neuronal profunda y un modelo de regresión lineal (muy complejo) estriba en el uso de funciones de activación no lineales.

Aunque algunas arquitecturas de redes neuronales especializadas, como la combinación de modelos expertos o las redes neuronales convolucionales, implican variaciones, adiciones o excepciones a esta disposición, todas emplean alguna versión de esta estructura básica. El número específico de capas, el número de nodos dentro de cada capa y las funciones de activación elegidas para los nodos de cada capa son hiperparámetros que deben determinarse manualmente antes del entrenamiento.

Diagrama de una red neuronal con tres capas ocultas: capa de entrada, varias capas ocultas, capa de output

Una red neuronal feedforward estándar con 3 capas ocultas.

Cada una de estas innumerables conexiones de neurona a neurona se multiplica por un peso único, lo que amplifica (o disminuye) la influencia de cada conexión. La entrada proporcionada a la función de activación de cada neurona puede entenderse como la suma ponderada de los outputs de cada neurona en la capa anterior. Por lo general, también se añade un término de sesgo único a cada función de activación que funciona de manera similar al término de sesgo de una función de regresión común.

Durante el entrenamiento, la red neuronal "aprende" a través de ajustes en cada uno de estos términos de ponderación y sesgo que producen outputs más precisos. Estos son los parámetros del modelo: cuando se lee, por ejemplo, que un modelo de lenguaje de gran tamaño (LLM) tiene 8000 millones de "parámetros", esa cifra refleja cada una de las conexiones ponderadas entre neuronas y el sesgo específico de cada neurona en la red neuronal del modelo.

Las capas intermedias, llamadas capas ocultas de la red, son donde se produce la mayor parte del aprendizaje. Es la inclusión de múltiples capas ocultas lo que distingue un modelo de deep learning de una red neuronal "no profunda", como una máquina de Boltzmann restringida (RBN) o un perceptrón multicapa estándar (MLP). La presencia de múltiples capas ocultas permite que un modelo de deep learning aprenda características jerárquicas complejas de los datos, con capas anteriores que identifican patrones más amplios y capas más profundas que identifican patrones más granulares.

Para realizar la inferencia, la red completa una pasada hacia adelante: la capa de entrada recibe los datos de entrada, normalmente en forma de embedding vectorial, y cada neurona de entrada procesa una característica individual del vector de entrada. Por ejemplo, un modelo que trabaja con imágenes en escala de grises de 10x10 píxeles normalmente tendrá 100 neuronas en su capa de entrada, y cada neurona de entrada corresponde a un píxel individual. Por lo tanto, las redes neuronales suelen requerir que los vectores de entrada tengan un tamaño determinado, aunque las técnicas de preprocesamiento, como la agrupación o la normalización, pueden proporcionar cierta flexibilidad con respecto al tamaño de los datos de entrada originales.

Los datos se transforman progresivamente y se pasan a los nodos de cada capa posterior hasta la capa final. Las funciones de activación de las neuronas en la capa de output calculan la predicción de output final de la red. Por ejemplo, cada nodo de output de un modelo de clasificación profunda podría realizar una función softmax, que básicamente toma una entrada numérica y la escala a una probabilidad entre 0 y 1 de que la entrada pertenezca a una categoría de clasificación potencial. El modelo generaría entonces la categoría correspondiente al nodo de output que produjera el mayor rendimiento.

Entrenamiento de redes neuronales profundas

Si bien el potencial teórico de las redes neuronales profundas siempre fue evidente, inicialmente no se sabía cómo entrenarlas de manera eficiente. El objetivo de optimizar los parámetros del modelo mediante el entrenamiento es reducir el error de los outputs de la red, pero aislar y calcular por separado cómo cada uno de los miles, si no millones o miles de millones, de pesos interconectados de una red neuronal contribuye al error general es totalmente poco práctico.

Este obstáculo se superó con la introducción de dos algoritmos esenciales: retropropagación y descenso de gradiente.

Retropropagación

La retropropagación, abreviatura de "propagación hacia atrás del error", es un método elegante para calcular cómo afectarán los cambios en cualquier peso o sesgo individual de una red neuronal a la precisión de las predicciones del modelo.

Recuerde que una red neuronal artificial es esencialmente una serie de funciones matemáticas anidadas: los outputs de las neuronas de una capa sirven como las entradas para las neuronas de la siguiente capa, y así sucesivamente. Durante el entrenamiento, esas ecuaciones interconectadas se anidan en otra función: una función de pérdida que mide la diferencia promedio (o "pérdida") entre el output deseado (o "verdad básica") para una entrada y el output real de la red neuronal para cada pasada hacia adelante.

Una vez que se han determinado los hiperparámetros iniciales del modelo, el entrenamiento suele comenzar con una inicialización aleatoria de los parámetros del modelo. El modelo realiza predicciones sobre un conjunto de ejemplos del conjunto de datos de entrenamiento, y la función de pérdida rastrea el error de cada predicción. El objetivo del entrenamiento es optimizar iterativamente los parámetros hasta que la pérdida media sea inferior a un umbral aceptable.

La retropropagación implica un único paso hacia atrás de extremo a extremo a través de la red, que comienza en el output de la función de pérdida y retrocede hasta la capa de entrada. Utilizando la regla de la cadena del cálculo, la retropropagación calcula el "gradiente" de la función de pérdida: un vector de derivadas parciales de la función de pérdida con respecto a cada variable en cada ecuación que, en última instancia, anida en el cálculo de la función de pérdida. En otras palabras, describe cómo el aumento o la disminución del output de la función de activación de cualquier neurona individual afectará a la pérdida general, lo que, por extensión, describe cómo cualquier cambio en cualquiera de los pesos por los que se multiplican esos outputs (o en los términos de sesgo añadidos a esas salidas) aumentará o disminuirá la pérdida.

Descenso de gradiente

El gradiente calculado durante la retropropagación sirve como entrada para un algoritmo de descenso de gradiente.

Al descender, la pendiente de la función de pérdida disminuirá la pérdida (y, por lo tanto, aumentará la precisión). Dado que el gradiente calculado durante la retropropagación contiene las derivadas parciales de la función de pérdida con respecto a cada parámetro del modelo, sabemos en qué dirección "escalonar" el valor de cada parámetro para reducir la pérdida.

Cada paso implica una actualización de los parámetros del modelo y refleja el "aprendizaje" del modelo a partir de sus datos de entrenamiento. Nuestro objetivo es actualizar iterativamente las ponderaciones hasta que hayamos alcanzado el gradiente mínimo. El objetivo de los algoritmos de descenso de gradiente es encontrar los ajustes de parámetros específicos que "desciendan" el gradiente de la manera más eficiente.

Implementación de modelos de deep learning

Hay una serie de marcos de código abierto para desarrollar modelos de deep learning, ya sea entrenando un modelo desde cero o afinando un modelo preentrenado. Estas bibliotecas de machine learning ofrecen una variedad de módulos y flujos de trabajo preconfigurados para construir, entrenar y evaluar redes neuronales, simplificando y agilizando el proceso de desarrollo.

Entre los marcos de código abierto más populares para trabajar con algoritmos de deep learning se encuentran PyTorch, TensorFlow y (especialmente para LLM) la biblioteca Hugging Face Transformers. Se recomienda aprender Python antes de trabajar con estos marcos.

Tipos de modelos de deep learning

A pesar de su poder y potencial inherentes, el rendimiento adecuado en ciertas tareas sigue siendo imposible o poco práctico para las redes neuronales profundas convencionales ("vainilla"). En las últimas décadas se han producido varias innovaciones en la arquitectura de redes neuronales estándar, cada una de ellas destinada a mejorar el rendimiento en tareas y tipos de datos concretos.

Vale la pena señalar que un tipo determinado de redes neuronales puede prestarse a múltiples tipos de modelos de deep learning, y viceversa. Por ejemplo, un modelo de autocodificador utilizado para tareas de imagen podría aprovechar una arquitectura basada en redes neuronales; los modelos de difusión pueden utilizar arquitecturas basadas en redes neuronales o en transformadores.

Redes neuronales convolucionales (CNN)

Las redes neuronales convolucionales (CNN) se asocian principalmente (pero no exclusivamente) con tareas de visión artificial como la detección de objetos, el reconocimiento de imágenes, la clasificación de imágenes y la segmentación de imágenes, ya que sobresalen en el reconocimiento de patrones "locales" (como las relaciones entre píxeles adyacentes en una imagen).

La intuición detrás del desarrollo de las CNN fue que para ciertas tareas y modalidades de datos, como clasificar imágenes de alta resolución con cientos o miles de píxeles, las redes neuronales de tamaño suficiente que comprendieran solo capas estándar y totalmente conectadas tendrían demasiados parámetros para generalizar bien a nuevos datos después del entrenamiento. En otras palabras, serían computacionalmente ineficientes y propensas a sobreajustar los datos de entrenamiento en lugar de aprender patrones realmente útiles del mundo real.

En teoría, una red neuronal que pueda detectar formas distintas y otras características significativas podría ahorrar potencia computacional extrayendo dichas características de la imagen sin procesar para su posterior procesamiento (y descartando información sobre regiones de la imagen sin características significativas). Una forma de hacerlo sería utilizar filtros: pequeñas matrices bidimensionales de números cuyos valores corresponden a la forma de características útiles. Por ejemplo, los valores de un filtro que escanea los píxeles de una imagen en busca de esquinas superiores izquierdas podrían tener este aspecto:

$[\begin{matrix} 10 & 10 & 10 & 10 & 10 \\ 10 & 0 & 0 & 0 & 0 \\ 10 & 0 & 0 & 0 & 0 \\ 10 & 0 & 0 & 0 & 0 \\ 10 & 0 & 0 & 0 & 0 \end{matrix}]$

Ahora imagine que el filtro 5x5 se multiplica por una cuadrícula de píxeles de 5x5 en una imagen de entrada. En lenguaje matemático, esto se denomina convolución: una operación matemática en la que una función modifica (o convoluciona) una segunda función. Si los valores de los píxeles se asemejan a los del filtro, el producto de esa multiplicación (el producto escalar) será grande y se capturará la característica que representan esos píxeles; de lo contrario, el producto escalar será pequeño y los píxeles se ignorarán.

Diagrama de una convolución en una red neuronal convolucional con una pequeña sección de los valores de píxel de una imagen (izquierda) se multiplican por un filtro de convolución (centro), lo que produce una representación dimensional más baja de los píxeles originales (derecha) que refleja cómo los píxeles originales se parecen a la información representada por el filtro

Una pequeña sección de los valores de píxeles de una imagen (izquierda) se multiplica por un filtro de convolución (centro), lo que da como resultado una representación de menor dimensión de los píxeles originales (derecha) que refleja en qué medida se asemejan a la información representada por el filtro.

Las CNN añaden capas de convolución, que contienen muchos menos nodos que las capas estándar totalmente conectadas que actúan como filtros. En lugar de requerir un nodo único (con un peso único) para cada píxel de la imagen, el filtro de una capa de convolución procesa una cuadrícula de píxeles del tamaño correspondiente cada vez que recorre la imagen. Esto no solo extrae información útil, sino que también reduce significativamente el número de parámetros únicos del modelo necesarios para procesar toda la imagen.

Las CNN suelen ser mucho más "profundas" (en términos de número de capas) que las redes neuronales estándar pero, dado que las capas de convolución contienen relativamente pocas neuronas, siguen siendo eficientes en términos de recuento total de parámetros. A medida que los datos atraviesan la CNN, cada capa convolucional extrae características progresivamente más granulares, ensamblando un "mapa de características". El mapa de características final se pasa finalmente a una capa estándar totalmente conectada que realiza las predicciones finales. Durante el entrenamiento, el modelo aprende de forma natural los pesos de las capas de convolución que hacen que sus filtros capten características que favorecen predicciones finales precisas.

Redes neuronales recurrentes (RNN)

Las redes neuronales recurrentes (RNN) se utilizan para tareas que involucran datos secuenciales, como la previsión de series temporales, el reconocimiento de voz o el procesamiento del lenguaje natural (PLN).

Mientras que las redes neuronales convencionales asignan una única entrada a un único output, las RNN asignan una secuencia de entradas a un output operando en un bucle recurrente en el que el output de un paso determinado de la secuencia de entrada sirve como entrada para el cálculo del siguiente paso. En efecto, esto crea una "memoria" interna de entradas pasadas, llamada estado oculto. Actualizado después de cada paso de tiempo, este estado oculto permite a una RNN mantener una comprensión del contexto y el orden.

Si bien la noción de una única capa "acumulada" es útil para comprender el concepto, esta recurrencia también puede entenderse como datos que atraviesan una serie de múltiples capas que comparten pesos idénticos.

Diagrama de redes neuronales recurrentes

Una RNN, mostrada en forma "enrollada" y "desenrollada"

Esto conduce a algunas deficiencias fundamentales de las RNN convencionales, particularmente con respecto al entrenamiento. Recuerde que la retropropagación calcula el gradiente de la función de pérdida, que determina cómo se debe aumentar o disminuir cada parámetro individual del modelo. Cuando cada una de estas actualizaciones de parámetros se repite en demasiadas capas recurrentes "idénticas", estas actualizaciones se escalan exponencialmente: la ampliación de los parámetros puede provocar la explosión del gradiente, y la minimización de los parámetros puede provocar la desaparición de los gradientes. Ambos problemas pueden introducir inestabilidad en el entrenamiento, ralentizarlo o incluso detenerlo por completo. Por lo tanto, las RNN estándar se limitan al procesamiento de secuencias relativamente cortas.

Varias mejoras en la arquitectura básica de RNN, como las redes de memoria a corto plazo (LSTM) o las unidades recurrentes cerradas (GRU), mitigan estos problemas y aumentan la capacidad del modelo para modelar dependencias de largo alcance.

Autocodificadores

Los autocodificadores están diseñados para comprimir (o codificar) los datos de entrada y, a continuación, reconstruir (decodificar) la entrada original utilizando esta representación comprimida. En el entrenamiento, se optimizan para minimizar la pérdida de reconstrucción, es decir, la divergencia entre los datos reconstruidos y los datos de entrada originales. Aunque este tipo de deep learning utiliza datos no etiquetados y datos no estructurados, los autocodificadores son generalmente considerados un ejemplo arquetípico de aprendizaje autosupervisado.

En esencia, esto obliga al modelo a aprender ponderaciones que dan como resultado que la representación comprimida conserve solo el subconjunto más esencial y significativo de las características de los datos de entrada. En la jerga del machine learning, los autocodificadores modelan el espacio latente.

Los autocodificadores tienen diversos casos de uso, como la compresión de datos, la reducción de la dimensionalidad, la extracción de características, la eliminación del ruido en datos corruptos y la detección del fraude.

En la mayoría de los casos, la red del decodificador solo sirve para ayudar a entrenar al codificador y se descarta después del entrenamiento. En los autocodificadores variacionales (VAE), un tipo de modelo generativo, el decodificador se conserva y se utiliza para generar nuevos puntos de datos añadiendo algo de ruido aleatorio a las representaciones latentes aprendidas por el codificador antes de la reconstrucción.

Modelos de transformadores

El advenimiento de los modelos de transformadores, presentados por primera vez en un artículo seminal de 2017 de Google DeepMind titulado "Attention is all you need" (PDF), fue un momento decisivo en deep learning que condujo directamente a la era actual de IA generativa.

Al igual que las RNN, los transformadores están diseñados intrínsecamente para trabajar con datos secuenciales. La característica definitoria de los modelos de transformadores es su mecanismo único de autoatención, del que los transformadores derivan su impresionante capacidad para discernir las relaciones (o dependencias) entre cada parte de una secuencia de entrada. Más importante aún, este mecanismo de atención permite a los transformadores centrarse selectivamente (o "atender") a las partes de una secuencia de entrada que son más relevantes en un momento dado.

Los mecanismos de atención se introdujeron por primera vez en los contextos de RNN utilizados para la traducción automática. Pero a diferencia de las RNN, los transformadores no utilizan capas recurrentes; una arquitectura del transformador utiliza solo capas de atención y capas de retroalimentación estándar, aprovechando una estructura novedosa inspirada en la lógica de las bases de datos relacionales.

Los transformadores se asocian más comúnmente con modelos de lenguaje de gran tamaño (LLM) y, por asociación, casos de uso de PLN como la generación de texto, los chatbots y el análisis de sentimientos. Pero son modelos extremadamente versátiles capaces de procesar cualquier modalidad de datos secuenciales, incluidos datos de audio o series temporales. Incluso las modalidades de datos, como los datos de imagen, pueden procesarse mediante transformadores de visión (ViT) a través de soluciones inteligentes para representarlos como una secuencia.

Aunque los modelos de transformadores han arrojado resultados de vanguardia en casi todos los dominios del deep learning, no son necesariamente la opción óptima para todos y cada uno de los casos de uso. Por ejemplo, mientras que los ViT han alcanzado las mejores posiciones de rendimiento en las referencias para tareas de visión artificial, las CNN son significativamente más rápidas y más eficientes desde el punto de vista computacional. Para tareas como la detección de objetos o la segmentación de imágenes, la elección entre un transformador o una CNN a menudo se reduce a si una aplicación de deep learning determinada debe priorizar la máxima precisión o el feedback en tiempo real.

Modelos Mamba

Introducidos por primera vez en 2023, los modelos Mamba son una novedosa arquitectura de deep learning para datos secuenciales. Derivado de una variación de los modelos de espacio de estados (SSM), Mamba tiene interesantes conexiones teóricas con las RNN, las CNN y los modelos de transformadores. Lo más importante es que Mamba comparte con los transformadores la capacidad de priorizar (o descartar) selectivamente la información pasada en función de su relevancia en un momento dado, aunque con un mecanismo totalmente único para hacerlo.

Hasta la fecha, Mamba es quizás la única arquitectura que rivaliza significativamente con los transformadores en el dominio de los LLM, ofreciendo un rendimiento comparable con una eficiencia computacional significativamente mayor debido a su algoritmo que consume mucha menos memoria.

Redes generativas adversativas (GAN)

Al igual que las VAE, las redes generativas adversarias (GAN) son redes neuronales que se utilizan para crear datos nuevos similares a los datos originales de entrenamiento. Las GAN son una arquitectura conjunta que combina dos redes de deep learning entrenadas de manera adversaria en un juego de suma cero.

La red generadora crea nuevos puntos de datos, como imágenes originales. Cualquier arquitectura generativa capaz de producir el output deseado puede utilizarse para una red generadora de GAN. Su única característica definitoria es cómo interactúa con el discriminador, y su único requisito es que el algoritmo sea diferenciable (y, por lo tanto, capaz de optimizarse mediante retropropagación y descenso de gradiente).
El discriminador recibe imágenes "reales" del conjunto de datos y imágenes "falsas" generadas por el generador y tiene la tarea de determinar si una imagen determinada es real o falsa. Al igual que el generador, el discriminador puede adoptar la forma de cualquier arquitectura adecuada.
En primer lugar, el discriminador está entrenado para clasificar correctamente las imágenes falsas. Durante ese tiempo, los pesos del generador están congelados.
A continuación, se congelan los pesos del discriminador y se utiliza el feedback del discriminador para entrenar al generador. Los pesos del generador están optimizados para producir imágenes más propensas a engañar al discriminador.
El proceso se repite: el discriminador recibe otra selección de imágenes "reales" de los datos de entrenamiento e imágenes "falsas" del generador, que ahora presumiblemente son más convincentes. El discriminador predice una vez más si cada imagen es real o falsa y se actualiza una vez más.
Una vez más, se utiliza el feedback del discriminador (que presumiblemente es más difícil de engañar) para seguir entrenando al generador.
El proceso continúa de forma iterativa hasta que el discriminador ya no puede discernir entre muestras reales y falsas.

Las GAN son capaces de aprender a producir ejemplos increíblemente precisos, pero la naturaleza adversa del proceso hace que el entrenamiento sea intrínsecamente complicado e inestable.

Modelos de difusión

Los modelos de difusión son entre las arquitecturas de redes neuronales más destacadas en IA generativa. Son prácticos y eficaces, ofrecen la estabilidad de entrenamiento de los VAE y la fidelidad del output de las GAN. Se utilizan más comúnmente para la generación de imágenes, pero también son capaces de generar datos de texto, vídeo y audio.

Al igual que los autocodificadores, los modelos de difusión están esencialmente entrenados para destruir una imagen y luego reconstruirla con precisión, aunque de una manera completamente diferente. En el entrenamiento, los modelos de difusión aprenden a difundir gradualmente un punto de datos paso a paso con ruido gaussiano y, a continuación, invierten ese proceso para reconstruir la entrada original. Al hacerlo, obtienen la capacidad de generar nuevas muestras (que se asemejan a los datos de entrenamiento originales) "eliminando el ruido" de una muestra de ruido aleatorio.

Los modelos de difusión latente son, esencialmente, una combinación de los VAE y los modelos de difusión. Primero, comprimen (o codifican) los datos de entrada hasta el espacio latente; luego, realizan el proceso de difusión y, por último, envían el resultado a un decodificador que lo remuestrea al tamaño de imagen deseado.

Aunque los modelos de difusión suelen utilizar una arquitectura basada en CNN (en concreto, la arquitectura U-net utilizada de forma destacada para la segmentación en imágenes médicas), algunos aprovechan en su lugar una arquitectura basada en transformadores.

Redes neuronales de grafos

Las redes neuronales de grafos (GNN) están diseñadas para tareas que requieren modelar relaciones más complejas entre diferentes entidades que las típicas de la mayoría de las modalidades de datos.

Considere los datos de imagen, en los que los píxeles de una imagen están dispuestos en una cuadrícula bidimensional: cualquier píxel está conectado directamente a, como máximo, 8 píxeles adyacentes. Una CNN estándar es adecuada para modelar tales relaciones. Pero esa capacidad se extiende mal al modelado de las relaciones dentro, por ejemplo, de una red de medios sociales en la que un usuario determinado puede estar conectado directamente con miles de otros usuarios e indirectamente con muchos miles más.

La estructura de las redes neuronales gráficas permite representaciones de datos más complejas e irregulares que las posibles en el flujo unidireccional de datos inherente a otras arquitecturas de redes neuronales.

Mixture of Experts | 12 de diciembre, episodio 85

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Vea todos los episodios de Mixture of Experts

Ciencia de datos y MLOps para líderes de datos

Únase a otros líderes para impulsar los tres pilares esenciales del MLOps y la IA fiable: confianza en los datos, confianza en los modelos y confianza en los procesos.

Recursos

Amplíe sus conocimientos de ML

Aprenda los conceptos fundamentales y desarrolle sus habilidades con laboratorios prácticos, cursos, proyectos guiados, pruebas y mucho más.

Desbloquee el poder de la IA generativa + ML

Aprenda a incorporar con confianza la IA generativa y el machine learning a su negocio.

Explicación del machine learning

Techsplainers de IBM desglosa los fundamentos del machine learning, desde los conceptos clave hasta los casos de uso del mundo real. Los episodios claros y rápidos le ayudan a aprender los fundamentos rápidamente.

Ponga la IA a trabajar: cómo impulsar el ROI con la IA generativa

¿Quiere obtener un mayor rendimiento de sus inversiones en IA? Descubra cómo escalar la IA generativa en áreas clave impulsa el cambio ayudando a sus mentes más brillantes a crear y ofrecer nuevas soluciones innovadoras.

Cómo elegir el modelo fundacional adecuado

Aprenda a seleccionar el modelo fundacional de IA más adecuado para su caso de uso.

Explore IBM Granite

IBM® Granite es nuestra familia de modelos de IA abiertos, eficaces y de confianza, adaptados para la empresa y optimizados para escalar sus aplicaciones de IA. Explore las opciones de lenguaje, código, series temporales y límites de protección.

Cómo prosperar en la era de la IA con seguridad y confianza

Profundice en los tres elementos cruciales de una estrategia de IA sólida: crear una ventaja competitiva, ampliar la IA en toda la empresa y promover una IA fiable.

Soluciones relacionadas

IBM watsonx.ai

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai

Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.

Explore las soluciones de IA

Consultoría y servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA

Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida de desarrollo de la IA. Produzca potentes soluciones de IA con interfaces intuitivas, flujos de trabajo y acceso a API y SDK estándar del sector.

Notas a pie de página

¹ Leshno, M., Lin, V.Y., Pinkus, A. and Schocken, S. “Multilayer feedforward networks with a nonpolynomial activation function can approximate any function” (PDF). New York University. Marzo de 1992.