¿Qué son las redes neuronales?

Autor

Fangfang Lee

Developer Advocate

IBM

¿Qué son las redes neuronales?

Una red neuronal es un modelo de machine learning que apila "neuronas" simples en capas y aprende pesos y sesgos de reconocimiento de patrones de los datos para asignar entradas a salidas.

Las redes neuronales se encuentran entre los algoritmos más influyentes en el machine learning moderno y la inteligencia artificial (IA). Respaldan los avances en visión artificial, procesamiento de lenguaje natural (PLN), reconocimiento de voz y aplicaciones incontables del mundo real que van desde el forecasting hasta el reconocimiento facial. Si bien las redes neuronales actuales alimentan sistemas tan complejos como transformadores y redes neuronales convolucionales, los orígenes de las redes neuronales se remontan a modelos simples como la regresión y cómo el cerebro humano digiere, procesa y decide sobre la información presentada a ello.

¿Cómo funcionan las redes neuronales?

En un alto nivel, la inspiración para las redes neuronales proviene de las neuronas biológicas del cerebro humano, que se comunican a través de señales eléctricas. En 1943, Warren McCulloch y Walter Pitts propusieron el primer modelo matemático de una neurona, demostrando que unidades simples podían realizar el cálculo de una función. Más tarde, en 1958, Frank Rosenblatt introdujo el perceptrón, un algoritmo diseñado para realizar el reconocimiento de patrones. El perceptrón es el antepasado histórico de las redes actuales: esencialmente un modelo lineal con una salida restringida. En la siguiente sección, profundizaremos en cómo las redes neuronales se inspiran en el cerebro humano para tomar decisiones y reconocer patrones.  

Una red neuronal se puede entender a través de un ejemplo simple: detección de spam. Se introduce un correo electrónico en la red y se utilizan características como entradas palabras o frases como “prize,” “money,” “dear” o “win”. Las primeras neuronas de la red procesan la importancia de cada señal, mientras que las capas posteriores combinan esta información en señales de nivel superior que capturan el contexto y el tono. Luego, la capa final calcula una probabilidad de si el correo electrónico es spam y, si esa probabilidad es lo suficientemente alta, el correo electrónico se marca. En esencia, la red aprende a transformar características sin procesar en patrones significativos y a utilizarlos para hacer predicciones.

Este proceso está impulsado por dos conceptos fundamentales: ponderaciones y sesgos. Las ponderaciones actúan como diales que controlan la fuerza con la que cada característica de entrada influye en la decisión: una palabra como "prize" puede tener más peso que una palabra común como "hello". Los sesgos son valores incorporados que cambian el umbral de decisión, lo que permite que una neurona se active incluso si las entradas en sí son débiles. Juntos, estos parámetros del modelo determinan cómo contribuye cada neurona al cálculo general. Al ajustar estos valores durante el entrenamiento, la red aprende gradualmente a hacer predicciones precisas, en este caso, si un correo electrónico es spam o no.

Matemáticamente, una red neuronal aprende una función  f(X)  mapeando un vector de entrada  X=(x1,x2,x3...)  para predecir una respuesta  Y.  Lo que distingue a las redes neuronales de otros machine learning tradicionales es su estructura en capas y su capacidad para realizar Transformación no lineal.  

Una red neuronal se compone de:

  • Capa de entrada: contiene las características sin procesar  (X1,X2,X3,..) .

  • Capas ocultas: consisten en neuronas artificiales (o nodos) que transforman las entradas en nuevas representaciones. Matemáticamente, las capas ocultas se expresan como las entidades de entrada, multiplicadas por sus pesos asociados y el sesgo agregado para pasar de una capa a la siguiente, llegando finalmente a la capa de salida final. Aquí es donde ocurre la transformación lineal entre la entrada y la salida. 

  • Capa de salida: después de realizar la transformación lineal en la capa oculta, se agrega una función de activación no lineal (tanh, sigmoid, ReLU ) para producir la predicción final (como un número para la regresión o una distribución de probabilidad para la clasificación).  
Diagrama de una red neuronal con tres capas ocultas: capa de entrada, múltiples capas ocultas, capa de salida Una red neuronal de retroalimentación estándar con 3 capas ocultas.

Entrenamiento de Neural Networks

Al igual que otros algoritmos de machine learning, una red neuronal requiere un entrenamiento riguroso para funcionar bien en las pruebas. Para entrenar una red, una sola neurona calcula: 

 z=i=1nwixi+b

 a=σ(z)

Dónde:

  •  xi = característica de entrada,
  •  wi = ponderación,
  •  b  = sesgo,
  •  z  = suma ponderada (transformación lineal),
  •  σ  = función de activación (transformación no lineal),
  •  a  = salida,

 σ  representa una función de activación en la capa de salida que transforma la combinación lineal para que se ajuste a la decisión de la función. Con esta arquitectura, las características de entrada X se transforman en resultados Y, sirviendo como un modelo de machine learning predictivo.  

El poder de una red neuronal proviene de su capacidad para aprender las ponderaciones y sesgos correctos de los datos. Esto se hace comparando la predicción de la red  Y^ para la verdadera etiqueta  Y  y medir el error utilizando una función de pérdida. Por ejemplo, en las tareas de clasificación, la pérdida podría medir qué tan lejos está la probabilidad predicha de la respuesta correcta.

Para minimizar esta pérdida, la red emplea un algoritmo llamado retropropagación. La red neuronal se entrena en cuatro pasos:

  • Paso hacia adelante: las entradas fluyen a través de la red, calculan combinaciones lineales, pasan por la función de activación no lineal y producen una predicción de salida.

  • Cálculo de errores: la función de pérdida mide la diferencia entre la predicción y la verdad.

  • Pase hacia atrás (retropropagación): el error se propaga hacia atrás a través de la red. En cada neurona, el algoritmo calcula cuánto contribuyó cada ponderación y sesgo al error utilizando la regla de la cadena de cálculo.

  • Actualización de peso: los pesos y sesgos se ajustan ligeramente en la dirección que reduce el error, utilizando un método de optimización como el descenso de gradiente.
Diagrama de descenso del gradiente, "valor de ponderación" en el eje x y "pérdida" en el eje y, y un "punto de partida" en la parte superior izquierda del diagrama, en la parte inferior está el texto "punto de convergencia, es decir donde la función de costo es mínima"

Este proceso se repite muchas veces sobre el conjunto de datos de entrenamiento. Cada pase ayuda a la red a "ajustar" sus parámetros internos para que sus predicciones se acerquen cada vez más a las respuestas correctas. Con el tiempo, la red converge en un conjunto de ponderaciones y sesgos que minimizan el error y se generalizan bien a datos invisibles. La retropropagación, junto con el descenso del gradiente, es el motor que hace que las redes neuronales funcionen. Permite que las redes con millones (o incluso miles de millones) de parámetros aprendan patrones significativos a partir de conjuntos de datos masivos.  

Sin embargo, a pesar del esfuerzo de los profesionales por entrenar modelos de alto rendimiento, las redes neuronales aún enfrentan desafíos similares a otros modelos de machine learning, el más importante, el sobreajuste. Cuando una red neuronal se vuelve demasiado compleja con demasiados parámetros, el modelo se sobreajustará a los datos de entrenamiento y predirá mal. El sobreajuste es un problema común en todo tipo de redes neuronales, y prestar mucha atención a la compensación sesgo-varianza es primordial para crear modelos de redes neuronales de alto rendimiento.  

Las arquitecturas modernas de redes neuronales, como los transformadores y los modelos de codificador-decodificador, siguen los mismos principios básicos (pesos y sesgos aprendidos, capas apiladas, activaciones no lineales, entrenamiento de extremo a extremo por retropropagación). Se diferencian principalmente en cómo se mezclan las entradas entre capas. En lugar de mezclar solo completamente conectados, los transformadores utilizan la atención para formar combinaciones ponderadas de representaciones dependientes de los datos, junto con conexiones residuales, normalización y codificaciones posicionales para enriquecer el cableado construido sobre los mismos fundamentos.

Tipos de redes neuronales

Si bien los perceptrones multicapa son la base, las redes neuronales han evolucionado hasta convertirse en arquitecturas especializadas adecuadas para diferentes dominios:

  • Redes neuronales convolucionales (CNN o convnets): diseñadas para datos en forma de cuadrícula, como imágenes. Las CNN se destacan en el reconocimiento de imágenes, la visión artificial y el reconocimiento facial gracias a los filtros convolucionales que detectan jerarquías espaciales de características. 

  • Redes neuronales recurrentes: incorporan bucles de feedback que permiten que la información persista a lo largo de los pasos de tiempo. Las RNN son adecuadas para el reconocimiento de voz, el forecasting de series temporales y los datos secuenciales. 

  • Transformadores: una arquitectura moderna que reemplazó a las RNN para muchas tareas de secuencia. Los transformadores aprovechan los mecanismos de atención para capturar dependencias en el procesamiento de lenguaje natural (PLN) y aprovechan modelos de última generación como GPT. 

  •  Estas variaciones destacan la versatilidad de las redes neuronales. Independientemente de la arquitectura, todas se basan en los mismos principios: neuronas artificiales, activaciones no lineales y algoritmos de optimización.
Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Aplicaciones de redes neuronales

Las redes neuronales sustentan muchos de los sistemas de IA actuales. Algunas aplicaciones destacadas de las redes neuronales incluyen:

  • Visión artificial: CNN para reconocimiento de imágenes, imágenes médicas y vehículos autónomos. 

  • Procesamiento de lenguaje natural: transformadores para traducción automática, chatbots y resumen. 

  • Reconocimiento de voz: RNN y redes profundas para transcripción y asistentes de voz.

  • Forecasting y series temporales: predicción de la demanda, modelos financieros y forecasting meteorológico.

  • Aprendizaje por refuerzo: redes neuronales como aproximadores de funciones en agentes de juegos (por ejemplo, AlphaGo de Deepmind). 

  • Reconocimiento de patrones: identificación de fraudes, detección de anomalías o clasificación de documentos. 

Estas aplicaciones impulsan innovaciones del mundo real en atención médica, finanzas, robótica, entretenimiento y más.

Por qué son importantes las neural networks 

Las redes neuronales aprenden representaciones internas útiles directamente de los datos, capturando la estructura no lineal que los modelos clásicos pasan por alto. Con capacidad suficiente, objetivos sólidos y regularización contra el sobreajuste, escalan desde pequeños puntos de referencia hasta sistemas de producción en visión artificial, procesamiento de lenguaje natural, reconocimiento de voz, forecasting y más, brindando ganancias medibles en precisión y robustez. 
 
El aprendizaje profundo moderno amplía estas bases. Las CNN se especializan en la extracción de características espaciales para imágenes. Las RNN modelan dependencias temporales en secuencias. Los transformadores reemplazan la recurrencia con atención, con la ayuda de conexiones residuales, normalización y paralelismo eficiente en las GPU.  

A pesar de las diferencias arquitectónicas, el entrenamiento sigue siendo integral con retropropagación en grandes conjuntos de datos, y la visión central sigue siendo válida:  Y=f(X;σ)  se aprende componiendo transformaciones dependientes de datos con activaciones no lineales. La IA generativa se basa en los mismos principios a mayor escala. Los modelos de lenguaje grandes, los modelos de difusión, los VAE y las GAN aprenden distribuciones sobre datos para sintetizar texto, imágenes, audio y código.  

El salto de un perceptrón multicapa a generadores de última generación es principalmente de arquitectura, datos y computación. Comprender las funciones de activación, los requisitos de entrenamiento y los principales tipos de redes proporciona un puente práctico desde las redes neuronales clásicas hasta los sistemas generativos actuales y aclara por qué estos modelos se han vuelto fundamentales para la IA moderna.

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

Explore watsonx.ai Reserve una demostración en vivo