¿Qué son las redes neuronales?

Autor

Fangfang Lee

Developer Advocate

IBM

¿Qué son las redes neuronales?

Una red neuronal es un modelo de aprendizaje automático que apila "neuronas" simples en capas y aprende a reconocer patrones a partir de datos para asignar entradas a outputs.

Las redes neuronales se encuentran entre los algoritmos más influyentes en el machine learning moderno y la inteligencia artificial (IA). Son la base de los avances en visión artificial, procesamiento del lenguaje natural (PLN), reconocimiento de voz y numerosas aplicaciones del mundo real que van desde la previsión hasta el reconocimiento facial. Aunque las redes neuronales actuales alimentan sistemas tan complejos como los transformadores y las redes neuronales convolucionales (CNN), los orígenes de las redes neuronales se remontan a modelos simples como la regresión lineal y cómo el cerebro humano digiere, procesa y decide sobre la información presentada a ello.

¿Cómo funcionan las redes neuronales?

En un alto nivel, la inspiración para las redes neuronales proviene de las neuronas biológicas del cerebro humano, que se comunican a través de señales eléctricas. En 1943, Warren McCulloch y Walter Pitts propusieron el primer modelo matemático de una neurona, demostrando que unidades simples podían realizar el cálculo de una función. Más tarde, en 1958, Frank Rosenblatt introdujo el perceptrón, un algoritmo diseñado para realizar el reconocimiento de patrones. El perceptrón es el antepasado histórico de las redes actuales: esencialmente un modelo lineal con un output restringido. En la siguiente sección, profundizaremos en cómo las redes neuronales se inspiran en el cerebro humano para tomar decisiones y reconocer patrones.  

Una red neuronal puede entenderse a través de un ejemplo sencillo: la detección. Se introduce un correo electrónico en la red y se utilizan como entradas características como palabras o frases como "premio", "dinero", "querido" o "ganar". Las primeras neuronas de la red procesan la importancia de cada señal, mientras que las capas posteriores combinan esta información en señales de nivel superior que captan el contexto y el tono. A continuación, la capa final calcula una probabilidad de que el correo electrónico sea spam y, si esa probabilidad es lo suficientemente alta, se marca el correo electrónico. En esencia, la red aprende a transformar las características sin procesar en patrones significativos y a utilizarlos para hacer predicciones.

Este proceso se basa en dos conceptos fundamentales: pesos y sesgos. Los pesos actúan como diales que controlan la fuerza con la que cada característica de entrada influye en la decisión: una palabra como "premio" puede tener más peso que una palabra común como "hola". Los sesgos son valores incorporados que cambian el umbral de decisión, lo que permite que una neurona se active incluso si las entradas en sí son débiles. Juntos, estos parámetros del modelo determinan cómo contribuye cada neurona al cálculo general. Al ajustar estos valores durante el entrenamiento, la red aprende gradualmente a hacer predicciones precisas, en este caso, si un correo electrónico es spam o no.

Matemáticamente, una red neuronal aprende una función  f(X)  al mapear un vector de entrada  X=(x1,x2,x3...)  para predecir una respuesta  Y.  Lo que distingue a las redes neuronales de otros algoritmos tradicionales de machine learning es su estructura en capas y su capacidad para realizar transformaciones no lineales.  

Una red neuronal se compone de:

  • Capa de entrada: contiene las características sin procesar  (X1,X2,X3,..) .

  • Capas ocultas: consisten en neuronas artificiales (o nodos) que transforman las entradas en nuevas representaciones. Matemáticamente, las capas ocultas se expresan como las características de entrada, multiplicadas por sus pesos asociados y el sesgo añadido para pasar de una capa a la siguiente, llegando finalmente a la capa de output final. Aquí es donde ocurre la transformación lineal entre entrada y output. 

  • Capa de output: tras realizar la transformación lineal en la capa oculta, se añade una función de activación no lineal (tanh, sigmoide o ReLU) para obtener la predicción final (un número para la regresión o una distribución de probabilidad para la clasificación).  
Diagrama de una red neuronal con tres capas ocultas: capa de entrada, varias capas ocultas, capa de output Una red neuronal feedforward estándar con 3 capas ocultas.

Entrenamiento de redes neuronales

Al igual que otros algoritmos de machine learning, una red neuronal requiere un entrenamiento riguroso para funcionar bien en las pruebas. Para entrenar una red, una sola neurona calcula: 

 z=i=1nwixi+b

 a=σ(z)

Donde:

  •  xi = característica de entrada,
  •  wi = peso,
  •  b  = sesgo,
  •  z  = suma ponderada (transformación lineal),
  •  σ  = función de activación (transformación no lineal),
  •  a  = output,

 σ  representa una función de activación en la capa de output que transforma la combinación lineal para ajustarla a la decisión de la función. Con esta arquitectura, las características de entrada X se transforman en un output Y, que sirve como un modelo predictivo de machine learning.  

El poder de una red neuronal proviene de su capacidad para aprender los pesos y sesgos correctos a partir de los datos. Esto se consigue comparando las predicciones de la red  Y^ a la verdadera etiqueta  Y  y medir el error utilizando una función de pérdida. Por ejemplo, en tareas de clasificación, la pérdida podría medir qué tan lejos está la probabilidad predicha de la respuesta correcta.

Para minimizar esta pérdida, la red utiliza un algoritmo llamado retropropagación. La red neuronal se entrena en cuatro pasos:

  • Pasada hacia adelante: las entradas fluyen a través de la red, se calculan combinaciones lineales, se pasa por la función de activación no lineal y se produce una predicción de output.

  • Cálculo del error: la función de pérdida mide la diferencia entre la predicción y la verdad.

  • Pasadahacia atrás (retropropagación): el error se propaga hacia atrás a través de la red. En cada neurona, el algoritmo calcula la contribución de cada peso y sesgo al error mediante la regla de la cadena del cálculo.

  • Actualización de ponderación: las ponderaciones y los sesgos se ajustan ligeramente en la dirección que reduce el error, utilizando un método de optimización como el descenso de gradiente.
Diagrama de descenso de gradiente, "valor de peso" en el eje x y "pérdida" en el eje y, y un "punto de partida" en la parte superior izquierda del diagrama, en la parte inferior está el texto "punto de convergencia, es decir, donde la función de coste es mínima"

Este proceso se repite muchas veces sobre el conjunto de datos de entrenamiento. Cada pasada ayuda a la red a "ajustar" sus parámetros internos para que sus predicciones se acerquen cada vez más a las respuestas correctas. Con el tiempo, la red converge en un conjunto de pesos y sesgos que minimizan el error y se generalizan bien a datos no vistos. La retropropagación, junto con el descenso de gradiente, es el motor que hace que las redes neuronales funcionen. Permite que las redes con millones (o incluso miles de millones) de parámetros aprendan patrones significativos a partir de conjuntos de datos masivos.  

Sin embargo, a pesar del esfuerzo de los profesionales por entrenar modelos de alto rendimiento, las redes neuronales siguen enfrentándose a retos similares a otros modelos de machine learning, sobre todo el sobreajuste. Cuando las redes neuronales se vuelven demasiado complejas con demasiados parámetros, el modelo se sobreajustará a los datos de entrenamiento y predecirá mal. El sobreajuste es un problema común en todo tipo de redes neuronales, y prestar mucha atención a la compensación sesgo-varianza es fundamental para crear modelos de redes neuronales de alto rendimiento.  

Las arquitecturas de redes neuronales modernas, como los transformadores y los modelos de codificador-decodificador, siguen los mismos principios básicos (pesos y sesgos aprendidos, capas apiladas, activaciones no lineales, entrenamiento de extremo a extremo mediante retropropagación). Difieren principalmente en cómo se mezclan las entradas en las capas. En lugar de una mezcla totalmente conectada, los transformadores utilizan la atención para formar combinaciones ponderadas de representaciones dependientes de los datos, junto con conexiones residuales, normalización y codificaciones posicionales para enriquecer el cableado construido sobre los mismos fundamentos.

Tipos de redes neuronales

Si bien los perceptrones multicapa son la base, las redes neuronales han evolucionado hacia arquitecturas especializadas adecuadas para diferentes dominios:

  • Redes neuronales convolucionales (CNN o ConvNets): están diseñadas para procesar datos en forma de cuadrícula, como imágenes. Destacan en el reconocimiento de imágenes, la visión artificial y el reconocimiento facial gracias a los filtros convolucionales, que detectan jerarquías espaciales de características. 

  • Redes neuronales recurrentes: incorporan bucles de feedback que permiten que la información persista a lo largo de los pasos temporales. Las RNN son adecuadas para el reconocimiento de voz, la previsión de series temporales y los datos secuenciales. 

  • Transformadores: una arquitectura moderna que reemplazó a las RNN para muchas tareas de secuencia. Los transformadores aprovechan los mecanismos de atención para capturar dependencias en el procesamiento del lenguaje natural (PLN) y potencian modelos de última generación como GPT. 

  •  Estas variaciones destacan la versatilidad de las redes neuronales. Independientemente de la arquitectura, todas se basan en los mismos principios: neuronas artificiales, activaciones no lineales y algoritmos de optimización.
Mixture of Experts | 12 de diciembre, episodio 85

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Aplicaciones de las redes neuronales

Las redes neuronales sustentan muchos de los sistemas de IA actuales. Algunas aplicaciones destacadas de las redes neuronales incluyen:

  • Visión artificial: CNN para reconocimiento de imágenes, imágenes médicas y vehículos autónomos. 

  • Procesamiento del lenguaje natural: transformadores para la traducción automática, los chatbots y la generación de resúmenes. 

  • Reconocimiento de voz: RNN y redes profundas para transcripción y asistentes de voz.

  • Previsiones y series temporales: predicción de la demanda, modelización financiera y previsión meteorológica.

  • Aprendizaje por refuerzo: redes neuronales como aproximadores de funciones en agentes de juego (por ejemplo, AlphaGo de Deepmind). 

  • Reconocimiento de patrones: identificación de fraudes, detección de anomalías o clasificación de documentos. 

Estas aplicaciones impulsan las innovaciones del mundo real en la sanidad, las finanzas, la robótica, el entretenimiento y mucho más.

Por qué son importantes las redes neuronales 

Las redes neuronales aprenden representaciones internas útiles directamente de los datos, capturando la estructura no lineal que los modelos clásicos pasan por alto. Con capacidad suficiente, objetivos sólidos y regularización contra el sobreajuste, escalan desde pequeñas referencias hasta sistemas de producción en visión artificial, procesamiento del lenguaje natural, reconocimiento de voz, previsiones y más, ofreciendo ganancias cuantificables en precisión y solidez. 
 
El deep learning moderno amplía estas bases. Las CNN se especializan en la extracción de características espaciales para imágenes. Las RNN modelan dependencias temporales en secuencias. Los transformadores reemplazan la recurrencia por la atención, con la ayuda de conexiones residuales, normalización y paralelismo eficiente en las GPU.  

A pesar de las diferencias arquitectónicas, el entrenamiento sigue siendo integral con retropropagación en grandes conjuntos de datos, y la visión central sigue siendo válida:  Y=f(X;σ)  se aprende componiendo transformaciones dependientes de los datos con activaciones no lineales. La IA generativa se basa en los mismos principios a mayor escala. Los modelos de lenguaje de gran tamaño, los modelos de difusión, los VAE y las GAN aprenden distribuciones sobre datos para sintetizar texto, imágenes, audio y código.  

El salto de un perceptrón multicapa a generadores de última generación es principalmente de arquitectura, datos y computación. Comprender las funciones de activación, los requisitos de entrenamiento y los principales tipos de redes proporciona un puente práctico desde las redes neuronales clásicas hasta los sistemas generativos actuales y aclara por qué estos modelos se han convertido en el centro de la IA moderna.

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida de desarrollo de la IA. Produzca potentes soluciones de IA con interfaces intuitivas, flujos de trabajo y acceso a API y SDK estándar del sector.

Explore watsonx.ai Solicite una demostración en directo