¿Qué es el aprendizaje profundo?

El aprendizaje profundo es un subconjunto del machine learning impulsado por redes neuronales multicapa cuyo diseño está inspirado en la estructura del cerebro humano. Los modelos de aprendizaje profundo impulsan la mayoría de la inteligencia artificial (IA) de última generación en la actualidad, desde la visión artificial y la IA generativa hasta los automóviles autónomos y la robótica.

A diferencia de la lógica matemática explícitamente definida de los algoritmos tradicionales de machine learning, las redes neuronales artificiales de los modelos de aprendizaje profundo comprenden muchas capas interconectadas de "neuronas" que realizan una operación matemática. Al utilizar el machine learning para ajustar la fuerza de las conexiones entre neuronas individuales en capas adyacentes (en otras palabras, las ponderaciones y sesgos del modelo), la red se puede optimizar para producir resultados más precisos. Si bien las redes neuronales y el aprendizaje profundo se han asociado inextricablemente entre sí, no son estrictamente sinónimos: "aprendizaje profundo" se refiere al entrenamiento de modelos con al menos 4 capas (aunque las arquitecturas de redes neuronales modernas suelen ser mucho más "profundas" que eso).

Es esta estructura distribuida, altamente flexible y ajustable la que explica el increíble poder y la versatilidad del aprendizaje profundo. Imagine entrenar datos como puntos de datos dispersos en un gráfico bidimensional, y el objetivo del entrenamiento de modelos es encontrar una línea que pase por cada uno de esos puntos de datos. Esencialmente, el machine learning tradicional tiene como objetivo lograr esto utilizando una sola función matemática que produce una sola línea (o curva); el aprendizaje profundo, por otro lado, puede unir un número arbitrario de líneas más pequeñas y ajustables individualmente para lograr la forma deseada. Las redes neuronales profundas son aproximadores universales: se ha demostrado teóricamente que, para cualquier función, existe una disposición de red neuronal que puede reproducirla.¹

Los modelos de aprendizaje profundo se entrenan más comúnmente a través del aprendizaje supervisado en datos etiquetados para realizar tareas de regresión y clasificación. Pero debido a que las redes neuronales a gran escala generalmente requieren una cantidad masiva de datos de entrenamiento para alcanzar un rendimiento óptimo, el costo y el trabajo de adquirir conjuntos de datos suficientemente grandes de ejemplos de entrenamiento anotados pueden ser prohibitivos. Esto ha llevado al desarrollo de técnicas para replicar tareas de aprendizaje supervisado utilizando datos sin etiquetar. El término aprendizaje autosupervisado fue acuñado por Yann LeCun a finales de la década de 2010 para desambiguar estos métodos del aprendizaje tradicional no supervisado. Desde entonces, el aprendizaje autosupervisado ha surgido como un modo destacado de entrenar redes neuronales, particularmente para los modelos fundacionales que sustentan la IA generativa.

Aunque los científicos de datos introdujeron las redes neuronales (o conceptos análogos) al principio de la historia del machine learning, su avance no comenzó en serio hasta finales de la década de 2000 y principios de la de 2010. La llegada de las redes de aprendizaje profundo en la mayoría de los subconjuntos de machine learning fue posible en parte por los avances en las unidades de procesamiento gráfico (GPU) de alto rendimiento que permitieron el procesamiento paralelo de cantidades masivas de pasos computacionales. Debido a que el aprendizaje profundo requiere una enorme cantidad de potencia informática tanto para el entrenamiento como para la inferencia, estos avances de hardware aumentaron enormemente la velocidad y la practicidad de implementar modelos de aprendizaje profundo a escala.

Únase a los más de 100 000 suscriptores que leen las últimas noticias en tecnología

Manténganse al día de las tendencias más importantes e interesantes de las industrias en IA, automatización, datos y más temas con el boletín Think, que se envía dos veces por semana. Consulte la Declaración de privacidad de IBM.

Cómo funciona el aprendizaje profundo

En términos generales, las redes neuronales están inspiradas en el funcionamiento de los circuitos neuronales del cerebro humano, cuyo funcionamiento está impulsado por la compleja transmisión de señales químicas y eléctricas a través de redes distribuidas de células nerviosas (neuronas). En el aprendizaje profundo, las "señales" análogas son los resultados ponderados de muchas operaciones matemáticas anidadas, cada una realizada por una "neurona" artificial (o nodo), que colectivamente componen la red neuronal.

En resumen, un modelo de aprendizaje profundo puede entenderse como una intrincada serie de ecuaciones anidadas que asignan una entrada a una salida. Ajustar la influencia relativa de las ecuaciones individuales dentro de esa red mediante procesos especializados de machine learning puede, a su vez, alterar la forma en que la red asigna las entradas a los resultados.

Si bien esa infraestructura es muy poderosa y versátil, se produce a expensas de la interpretabilidad. A menudo hay poca o ninguna explicación intuitiva, más allá de una matemática en bruto, de cómo los valores de los parámetros del modelo individual aprendidos por una red neuronal reflejan las características de los datos del mundo real. Por esa razón, los modelos de aprendizaje profundo a menudo se denominan "cajas negras", especialmente cuando se comparan con los tipos tradicionales de modelos de machine learning basados en la ingeniería manual de características.

En relación con las técnicas de machine learning, el aprendizaje profundo requiere una cantidad extremadamente grande de datos y recursos para el entrenamiento. Dado el costo y la complejidad del hardware de nivel empresarial necesario para desarrollar e implementar aplicaciones sofisticadas de aprendizaje profundo, los servicios de computación en la nube se han convertido en una parte cada vez más integral del ecosistema de aprendizaje profundo.

Estructura de red neuronal profunda

Las redes neuronales comprenden capas interconectadas de "neuronas" artificiales (o nodos), cada una de las cuales realiza su propia operación matemática (llamada "función de activación"). Existen muchas funciones de activación diferentes; una red neuronal a menudo incorporará múltiples funciones de activación dentro de su estructura, pero normalmente todas las neuronas en una capa determinada de la red neuronal estarán configuradas para realizar la misma función de activación. En la mayoría de las redes neuronales, cada neurona de la capa de entrada está conectada a cada una de las neuronas de la siguiente capa, que a su vez están conectadas a las neuronas de la capa posterior, y así sucesivamente.

La salida de la función de activación de cada nodo contribuye con parte de la entrada proporcionada a cada uno de los nodos de la siguiente capa. De manera crucial, las funciones de activación que se realizan en cada nodo son no lineales, lo que permite a las redes neuronales modelar patrones y dependencias complejos. Es el uso de funciones de activación no lineales lo que distingue una red neuronal profunda de un modelo de regresión lineal (muy complejo).

Si bien algunas arquitecturas de redes neuronales especializadas, como la combinación de modelos de expertos o redes neuronales convolucionales, implican variaciones, adiciones o excepciones a esta disposición, todas las redes neuronales emplean alguna versión de esta estructura central. El número específico de capas, el número de nodos dentro de cada capa y las funciones de activación elegidas para los nodos de cada capa son hiperparámetros que se determinarán manualmente antes del entrenamiento.

Diagrama de una red neuronal con tres capas ocultas: capa de entrada, múltiples capas ocultas, capa de salida

Una red neuronal de retroalimentación estándar con 3 capas ocultas.

Cada una de estas innumerables conexiones de neurona a neurona se multiplica por una ponderación única, que amplifica (o disminuye) la influencia de cada conexión. La entrada proporcionada a la función de activación de cada neurona puede entenderse como la suma ponderada de las salidas de cada neurona en la capa anterior. Por lo general, también se agrega un término de sesgo único a cada función de activación, que funciona de manera similar al término de sesgo de una función de regresión común.

Durante el entrenamiento, la red neuronal "aprende" a través de ajustes a cada uno de estos términos de ponderación y sesgo que producen resultados más precisos. Estos son los parámetros del modelo: cuando lee, por ejemplo, sobre un modelo de lenguaje grande (LLM) que tiene 8 mil millones de "parámetros", ese número refleja cada conexión ponderada de neurona a neurona y el sesgo específico de la neurona en la red neuronal del modelo.

Las capas intermedias, llamadas capas ocultas de la red, son donde ocurre la mayor parte del aprendizaje. Es la inclusión de múltiples capas ocultas lo que distingue un modelo de aprendizaje profundo de una red neuronal "no profunda", como una máquina de Boltzmann restringida (RBN) o un perceptrón multicapa estándar (MLP). La presencia de múltiples capas ocultas permite que un modelo de aprendizaje profundo aprenda características jerárquicas complejas de los datos, con capas anteriores que identifican patrones más amplios y capas más profundas que identifican patrones más granulares.

Para realizar la inferencia, la red completa un paso hacia adelante: la capa de entrada recibe datos de entrada, generalmente en forma de incorporación vectorial, y cada neurona de entrada procesa una característica individual del vector de entrada. Por ejemplo, un modelo que trabaja con imágenes en escala de grises de 10x10 pixeles normalmente tendrá 100 neuronas en su capa de entrada, y cada neurona de entrada corresponde a un pixel individual. Por lo tanto, las redes neuronales suelen requerir que las entradas se fijen a un cierto tamaño, aunque las técnicas de preprocesamiento, como la agrupación o la normalización, pueden proporcionar cierta flexibilidad con respecto al tamaño de los datos de entrada originales en sí.

Los datos se transforman progresivamente y se pasan a los nodos de cada capa posterior hasta la capa final. Las funciones de activación de las neuronas en la capa de salida calculan la predicción de salida final de la red. Por ejemplo, cada nodo de resultados de un modelo de clasificación profundo podría realizar una función softmax que esencialmente toma una entrada numérica y la escala a una probabilidad, entre 0 y 1, de que la entrada pertenezca a una categoría de clasificación potencial. Luego, el modelo generaría la categoría correspondiente al nodo de salida que arrojara el resultado más alto.

Entrenamiento de redes neuronales profundas

Si bien el potencial teórico de las redes neuronales siempre fue evidente, inicialmente no se sabía cómo entrenarlas de manera eficiente. El objetivo de optimizar los parámetros del modelo a través del entrenamiento es reducir el error de los resultados de la red neuronal, pero aislar y calcular por separado cómo cada uno de los miles, si no millones o miles de millones, de ponderaciones interconectadas de una red neuronal contribuyó al error general es completamente poco práctico.

Este obstáculo se superó con la introducción de dos algoritmos esenciales: retropropagación y descenso de gradiente.

Retropropagación

La retropropagación, abreviatura de "propagación hacia atrás del error", es un método elegante para calcular cómo los cambios en cualquier peso o sesgo individual en una red neuronal afectarán la precisión de las predicciones del modelo.

Recuerde que una red neuronal artificial es esencialmente una serie de funciones matemáticas anidadas: los resultados de las neuronas de una capa sirven como la entrada para las neuronas de la siguiente capa, y así sucesivamente. Durante el entrenamiento, esas ecuaciones interconectadas se anidan en otra función: una función de pérdida que mide la diferencia promedio (o "pérdida") entre los resultados deseados (o "verdad fundamental") para una entrada determinada y los resultados reales de la red neuronal para cada pase hacia adelante.

Una vez que se determinaron los hiperparámetros iniciales del modelo, el entrenamiento generalmente comienza con una inicialización aleatoria de los parámetros del modelo. El modelo hace predicciones sobre un lote de ejemplos del conjunto de datos de entrenamiento y la función de pérdida rastrea el error de cada predicción. El objetivo del entrenamiento es optimizar iterativamente los parámetros hasta que la pérdida promedio se haya reducido por debajo de un umbral aceptable.

La retropropagación implica un único paso hacia atrás de extremo a extremo a través de la red, comenzando con la salida de la función de pérdida y trabajando hasta la capa de entrada. Utilizando la regla de la cadena del cálculo, la retropropagación calcula el "gradiente" de la función de pérdida: un vector de derivadas parciales de la función de pérdida con respecto a cada variable en cada ecuación que finalmente anida en el cálculo de la función de pérdida. En otras palabras, describe cómo el aumento o la disminución de la salida de la función de activación de cualquier neurona individual afectará la pérdida general, lo que, por extensión, describe cómo cualquier cambio en cualquiera de los pesos por los que se multiplican esas salidas (o a los términos de sesgo agregados a esas salidas) aumentará o disminuirá la pérdida.

Gradiente descendente

El gradiente calculado durante la retropropagación sirve como entrada para un algoritmo de descenso de gradiente.

Bajar o descender el gradiente de la función de pérdida disminuirá la pérdida (y, por lo tanto, aumentará la precisión). Dado que el gradiente calculado durante la retropropagación contiene las derivadas parciales de la función de pérdida con respecto a cada parámetro del modelo, sabemos en qué dirección "escalonar" el valor de cada parámetro para reducir la pérdida.

Cada paso implica una actualización de los parámetros del modelo y refleja el "aprendizaje" del modelo a partir de sus datos de entrenamiento. Nuestro objetivo es actualizar iterativamente los pesos hasta que alcanzamos el gradiente mínimo. El objetivo de los algoritmos de descenso de gradiente es encontrar los ajustes de parámetros específicos que "desciendan" el gradiente de manera más eficiente.

Implementación de modelos de aprendizaje profundo

Hay una serie de marcos de código abierto para desarrollar modelos de aprendizaje profundo, ya sea entrenando un modelo desde cero o ajustando un modelo previamente entrenado. Estas bibliotecas de machine learning ofrecen una variedad de módulos y flujos de trabajo preconfigurados para crear, entrenar y evaluar redes neuronales, simplificando y agilizando el proceso de desarrollo.

Entre los marcos de código abierto más populares para trabajar con algoritmos de aprendizaje profundo se encuentran PyTorch, TensorFlow y (particularmente para los LLM) la biblioteca Hugging Face Transformers. Se recomienda aprender Python antes de trabajar con estas infraestructuras.

Tipos de modelos de aprendizaje profundo

A pesar de su poder y potencial inherentes, el rendimiento adecuado en ciertas tareas sigue siendo imposible o poco práctico para las redes neuronales profundas convencionales ("vanilla"). Las últimas décadas han visto varias innovaciones en la arquitectura estándar de las redes neuronales, cada una dirigida a mejorar el rendimiento en tareas y tipos de datos particulares.

Vale la pena señalar que un tipo determinado de red neuronal puede prestarse a múltiples tipos de modelos de aprendizaje profundo, y viceversa. Por ejemplo, un modelo de autocodificador utilizado para tareas de imágenes podría aprovechar una arquitectura basada en redes neuronales convolucionales; los modelos de difusión pueden utilizar arquitecturas basadas en CNN o transformadores.

Redes neuronales convolucionales (CNN)

Las redes neuronales convolucionales (CNN) se asocian principalmente (pero no exclusivamente) con tareas de visión artificial como detección de objetos, reconocimiento de imágenes, clasificación de imágenes y segmentación de imágenes, ya que sobresalen en el reconocimiento de patrones “locales” (como las relaciones entre píxeles adyacentes en una imagen).

La intuición detrás del desarrollo de las CNN fue que para ciertas tareas y modalidades de datos, como clasificar imágenes de alta resolución con cientos o miles de píxeles, las redes neuronales de tamaño suficiente que comprendieran solo capas estándar y totalmente conectadas tendrían demasiados parámetros para generalizar bien a nuevos datos después del entrenamiento. En otras palabras, serían computacionalmente ineficientes y propensos a sobreajustar los datos de entrenamiento en lugar de aprender patrones realmente útiles del mundo real.

En teoría, una red neuronal que pueda detectar formas distintas y otras características significativas podría ahorrar poder informático extrayendo dichas características de la imagen sin procesar para su posterior procesamiento (y descartando información sobre regiones de la imagen sin características significativas). Una forma de hacerlo sería utilizar filtros: pequeñas matrices bidimensionales de números cuyos valores corresponden a la forma de características útiles. Por ejemplo, los valores de un filtro que escanea los píxeles de una imagen en busca de esquinas superiores izquierdas podrían verse así:

$[\begin{matrix} 10 & 10 & 10 & 10 & 10 \\ 10 & 0 & 0 & 0 & 0 \\ 10 & 0 & 0 & 0 & 0 \\ 10 & 0 & 0 & 0 & 0 \\ 10 & 0 & 0 & 0 & 0 \end{matrix}]$

Ahora imagine que el filtro 5x5 se multiplica por una cuadrícula de píxeles de 5x5 en una imagen de entrada. En lenguaje matemático, esto se denomina convolución: una operación matemática en la que una función modifica (o convoluciona) una segunda función. Si los valores de los píxeles se asemejan a los del filtro, el producto de esa multiplicación (el producto punto) será grande y se capturará la característica que representan esos píxeles; de lo contrario, el producto punto será pequeño y los píxeles se ignorarán.

Diagrama de una convolución en una red neuronal convolucional con una pequeña sección de los valores de píxeles de una imagen (izquierda) que se multiplican por un filtro de convolución (centro), lo que produce una representación dimensional inferior de los píxeles originales (derecha) que refleja cómo se parecen los píxeles originales la información representada por el filtro

Una pequeña sección de los valores de píxeles de una imagen (izquierda) se multiplica por un filtro de convolución (centro), lo que produce una representación dimensional inferior de los píxeles originales (derecha) que refleja cómo los píxeles originales se parecen a la información representada por el filtro.

Las CNN agregan capas de convolución, que contienen muchos menos nodos que las capas estándar totalmente conectadas que actúan como tales filtros. En lugar de requerir un nodo único (con una ponderación única) correspondiente a cada píxel individual de la imagen, el filtro de una capa de convolución avanza a lo largo de toda la imagen, procesando una cuadrícula de píxeles del tamaño correspondiente a la vez. Esto no solo extrae información útil, sino que también reduce significativamente la cantidad de parámetros únicos del modelo necesarios para procesar toda la imagen.

Las CNN suelen ser mucho más "profundas" (en términos de número de capas) que las redes neuronales estándar, pero, debido a que las capas de convolución contienen relativamente pocas neuronas, siguen siendo eficientes en términos de recuento total de parámetros. A medida que los datos atraviesan la CNN, cada capa convolucional extrae características progresivamente más granulares, ensamblando un "mapa de características". El mapa de características final eventualmente se pasa a una capa estándar totalmente conectada que realiza las predicciones finales. En el entrenamiento, el modelo aprende naturalmente pesos para las capas de convolución que dan como resultado que sus filtros capturen características conducentes a predicciones finales precisas.

Redes neuronales recurrentes (RNN)

La redes neuronales recurrentes (RNN) se utilizan para tareas que involucran datos secuenciales, como forecasting, reconocimiento de voz o procesamiento de lenguaje natural (PLN).

Mientras que las redes neuronales convencionales asignan una sola entrada a una sola salida, las RNN asignan una secuencia de entradas a una salida operando en un bucle recurrente en el que los resultados de un paso determinado en la secuencia de entrada sirven como entrada para el cálculo del siguiente paso. En efecto, esto crea una "memoria" interna de entradas pasadas, llamada estado oculto. Actualizado después de cada paso de tiempo, este estado oculto permite que una RNN mantenga una comprensión del contexto y el orden.

Si bien la noción de una sola capa "acumulada" es útil para comprender el concepto, esta recurrencia también puede entenderse como datos que atraviesan una serie de múltiples capas que comparten pesos idénticos.

Diagrama de redes neuronales recurrentes

Un RNN, que se muestra en formularios "enrollados" y "desenrollados"

Esto conduce a algunas deficiencias fundamentales de las RNN convencionales, particularmente con respecto al entrenamiento. Recuerde que la retropropagación calcula el gradiente de la función de pérdida, que determina cómo se debe aumentar o disminuir cada parámetro individual del modelo. Cuando cada una de estas actualizaciones de parámetros se repite en demasiadas capas recurrentes "idénticas", estas actualizaciones se escalan exponencialmente: la ampliación de los parámetros puede provocar un gradiente explosivo, y la minimización de los parámetros puede provocar la desaparición de los gradientes. Ambos problemas pueden introducir inestabilidad en el entrenamiento, ralentizar el entrenamiento o incluso detenerlo por completo. Por lo tanto, los RNN estándar se limitan a procesar secuencias relativamente cortas.

Varias mejoras en la arquitectura básica de RNN, como redes de memoria a largo plazo (LSTM) o unidades recurrentes cerradas (GRU), mitigan estos problemas y aumentan la capacidad del modelo para modelar dependencias de largo alcance.

autocodificadores

Los autocodificadores están diseñados para comprimir (o codificar) los datos de entrada y, a continuación, reconstruir (decodificar) la entrada original empleando esta representación comprimida. En el entrenamiento, están optimizados para minimizar la pérdida de reconstrucción: la divergencia entre el punto de datos reconstruido y los datos de entrada originales. Aunque este tipo de aprendizaje profundo utiliza datos no etiquetados y no estructurados, los autocodificadores generalmente se consideran un ejemplo arquetípico de aprendizaje autosupervisado.

En esencia, esto obliga al modelo a aprender ponderaciones que dan como resultado que la representación comprimida conserve solo el subconjunto más esencial y significativo de las características de los datos de entrada. En el lenguaje del machine learning, los autocodificadores modelan el espacio latente.

Los autocodificadores tienen una variedad de casos de uso, como la compresión de datos, la reducción de dimensionalidad, la extracción de características, la eliminación de ruido en datos corruptos y la detección de fraude.

En la mayoría de los casos, la red del decodificador solo sirve para ayudar a entrenar al codificador y se descarta después del entrenamiento. En los autocodificadores variacionales (VAE), un tipo de modelo generativo, el decodificador se retiene y se utiliza para generar nuevos puntos de datos agregando algo de ruido aleatorio a las representaciones latentes aprendidas por el codificador antes de la reconstrucción.

Modelos transformadores

La llegada de los modelos transformadores, presentada por primera vez en un documento seminal de 2017 de Google DeepMind titulado “Attention is all you need” (PDF), fue un momento decisivo en el aprendizaje profundo que condujo directamente a la era actual de la IA generativa.

Al igual que los RNN, los transformadores están inherentemente diseñados para trabajar con datos secuenciales. La característica definitoria de los modelos de transformadores es su mecanismo único de autoatención, del cual los transformadores derivan su impresionante capacidad para discernir las relaciones (o dependencias) entre cada parte de una secuencia de entrada. Más importante aún, este mecanismo de atención permite a los transformadores enfocarse selectivamente (o “atender a”) las partes de una secuencia de entrada que son más relevantes en un momento dado.

Los mecanismos de atención se introdujeron por primera vez en los contextos de RNN utilizados para la traducción automática. Pero a diferencia de los RNN, los transformadores no utilizan capas recurrentes; una arquitectura transformadora estándar utiliza solo capas de atención y capas de retroalimentación estándar, aprovechando una estructura novedosa inspirada en la lógica de las bases de datos relacionales.

Los transformadores se asocian más comúnmente con modelos de lenguaje grandes (LLM) y, por asociación, casos de uso de PLN, como generación de texto, chatbots y análisis de sentimientos. Pero son modelos extremadamente versátiles capaces de procesar cualquier modalidad de datos secuenciales, incluidos datos de audio o series temporales. Incluso las modalidades de datos, como los datos de imágenes, pueden procesarse mediante transformadores de visión (ViT) a través de soluciones inteligentes para representarlos como una secuencia.

Aunque los modelos transformadores han arrojado resultados de vanguardia en casi todos los dominios del aprendizaje profundo, no son necesariamente la opción óptima para todos los casos de uso. Por ejemplo, mientras que los ViT han alcanzado las mejores clasificaciones de rendimiento en los puntos de referencia para tareas de visión artificial, las CNN son significativamente más rápidas y más eficientes desde el punto de vista computacional. Para tareas como la detección de objetos o la segmentación de imágenes, la elección entre un transformador o CNN a menudo se reduce a si una aplicación de aprendizaje profundo determinada debe priorizar la máxima precisión o el feedback en tiempo real.

Modelos Mamba

Presentados por primera vez en 2023, los modelos Mamba son una novedosa arquitectura de aprendizaje profundo para datos secuenciales. Derivado de una variación de los modelos de espacio de estado (SSM), Mamba tiene conexiones teóricas interesantes con RNN, CNN y modelos de transformadores. Lo más importante es que Mamba comparte con los transformadores la capacidad de priorizar (o descartar) información pasada de forma selectiva en función de su relevancia en un momento dado, aunque con un mecanismo completamente único para hacerlo.

Hasta la fecha, Mamba es quizás la única arquitectura que compite significativamente con los transformadores en el dominio de los LLM, ofreciendo un rendimiento comparable con una eficiencia computacional significativamente mayor debido a su algoritmo que requiere mucha menos memoria.

Redes generativas adversativas (GAN)

Al igual que los VAE, las redes generativas adversarias (GAN) son redes neuronales que se utilizan para crear nuevos datos que se asemejan a los datos de entrenamiento originales. Las GAN son una arquitectura conjunta que combina dos redes de aprendizaje profundo entrenadas de manera adversaria en un juego de suma cero.

La red generadora crea nuevos puntos de datos, como imágenes originales. Cualquier arquitectura generativa capaz de producir el resultado deseado se puede utilizar para una red generadora de GAN. Su única característica definitoria es cómo interactúa con el discriminador, y su único requisito es que el algoritmo sea diferenciable (y, por lo tanto, capaz de optimizarse mediante retropropagación y descenso de gradiente).
Al discriminador se le proporcionan tanto imágenes “reales” del conjunto de datos de entrenamiento como imágenes “falsas” del generador y con la tarea de determinar si una imagen dada es real o falsa. Al igual que el generador, el discriminador puede adoptar la forma de cualquier arquitectura adecuada.
Primero, el discriminador está entrenado para clasificar correctamente las imágenes falsas. Durante ese tiempo, las ponderaciones del generador están congeladas.
A continuación, los pesos del discriminador se congelan y la retroalimentación del discriminador se utiliza para entrenar al generador. Las ponderaciones del generador están optimizadas para producir imágenes con más probabilidades de engañar al discriminador.
El proceso se repite: el discriminador recibe otra variedad de imágenes "reales" de los datos de entrenamiento e imágenes "falsas" del generador, que ahora son, presumiblemente, más convincentes. El discriminador predice una vez más si cada imagen es real o falsa y se actualiza una vez más.
Una vez más, la retroalimentación del discriminador (presumiblemente más difícil de engañar) se utiliza para entrenar aún más al generador.
El proceso continúa iterativamente hasta que el discriminador ya no puede discernir entre muestras reales y falsas.

Las GAN son capaces de aprender a producir ejemplos increíblemente precisos, pero la naturaleza contradictoria del proceso hace que el entrenamiento sea inherentemente complicado e inestable.

Modelos de difusión

Los modelos de difusión se encuentran entre las arquitecturas de redes neuronales más destacadas en IA generativa. Son prácticos y de alto rendimiento, ofrecen la estabilidad de entrenamiento de los VAE y la fidelidad de salida de las GAN. Se utilizan más comúnmente para la generación de imágenes, pero también son capaces de generar datos de texto, video y audio.

Al igual que los autocodificadores, los modelos de difusión están esencialmente entrenados para destruir una imagen y luego reconstruirla con precisión, aunque de una manera completamente diferente. En el entrenamiento, los modelos de difusión aprenden a difundir gradualmente un punto de datos paso a paso con ruido gaussiano y luego invierten ese proceso para reconstruir la entrada original. Al hacerlo, obtienen la capacidad de generar nuevas muestras (que se asemejan a los datos de entrenamiento originales) "eliminando el ruido" de una muestra de ruido aleatorio.

Los modelos de difusión latente son esencialmente un híbrido de VAE y modelos de difusión: primero comprimen (codifican) los datos de entrada hasta el espacio latente, luego realizan el proceso de difusión y luego alimentan el resultado a un decodificador que lo muestrea al tamaño de imagen deseado.

Si bien los modelos de difusión suelen utilizar una arquitectura basada en CNN, específicamente, la arquitectura U-net utilizada de manera destacada para la segmentación en imágenes médicas, algunos aprovechan una arquitectura basada en transformadores.

Redes neuronales de grafos

Las redes neuronales gráficas (GNN) están diseñadas para tareas que requieren modelar relaciones más complejas entre diferentes entidades que las típicas de la mayoría de las modalidades de datos.

Considere los datos de imagen, en los que los píxeles de una imagen están dispuestos en una cuadrícula bidimensional: cualquier píxel está conectado directamente a, como máximo, 8 píxeles adyacentes. Una CNN estándar es adecuada para modelar tales relaciones. Pero esa capacidad se extiende mal al modelado de las relaciones dentro, por ejemplo, de una red social en la que un usuario determinado puede estar conectado directamente con miles de otros usuarios e indirectamente con muchos miles más.

La estructura de las redes neuronales gráficas permite representaciones de datos más complejas e irregulares que las posibles en el flujo unidireccional de datos inherente a otras arquitecturas de redes neuronales.

Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Vea todos los episodios de Mixture of Experts

Ciencia de datos y MLOps para líderes de datos

Una fuerzas con otros líderes para impulsar los tres pilares esenciales de MLOps y la IA confiable: confianza en los datos, confianza en los modelos y confianza en los procesos.

Recursos

Amplíe sus conocimientos de aprendizaje automático (ML)

Aprenda los conceptos fundamentales y construya sus habilidades con laboratorios prácticos, cursos, proyectos guiados, ensayos y mucho más.

Desbloquee el poder de la IA generativa + ML

Aprenda a incorporar con confianza la IA generativa y el aprendizaje automático en su negocio.

Explicación del machine learning

Techsplainers de IBM desglosa los fundamentos del machine learning, desde conceptos clave hasta casos de uso del mundo real. Los episodios claros y rápidos le ayudan a aprender los fundamentos rápidamente.

Ponga la IA a trabajar: Impulso del retorno de la inversión (ROI) con IA generativa

¿Quiere rentabilizar mejor sus inversiones en IA? Descubra cómo la IA generativa escalable en áreas clave impulsa el cambio ayudando a sus mejores mentes a crear y ofrecer nuevas soluciones innovadoras.

Cómo elegir el modelo fundacional adecuado

Aprenda a seleccionar el modelo fundacional de IA más adecuado para su caso de uso.

Explorar IBM Granite

IBM Granite es nuestra familia de modelos de IA abiertos, de alto rendimiento y confiables, diseñados para empresas y optimizados para escalar sus aplicaciones de IA. Explore opciones de lenguaje, código, series de tiempo y medidas de protección.

Cómo prosperar en esta nueva era de la IA con confianza y seguridad

Indague en los 3 elementos críticos de una estrategia sólida de IA: crear una ventaja competitiva, escalar la IA en todo el negocio y avanzar en la IA confiable.

Soluciones relacionadas

IBM watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai

Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA

Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA

Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

Notas de pie de página

¹ Leshno, M., Lin, V.Y., Pinkus, A. and Schocken, S. “Multilayer feedforward networks with a nonpolynomial activation function can approximate any function” (PDF). New York University, marzo de 1992.

¿Qué es el aprendizaje profundo?