Una red neuronal es un modelo de aprendizaje automático que apila "neuronas" simples en capas y aprende a reconocer patrones a partir de datos para asignar entradas a outputs.
Las redes neuronales se encuentran entre los algoritmos más influyentes en el machine learning moderno y la inteligencia artificial (IA). Son la base de los avances en visión artificial, procesamiento del lenguaje natural (PLN), reconocimiento de voz y numerosas aplicaciones del mundo real que van desde la previsión hasta el reconocimiento facial. Aunque las redes neuronales actuales alimentan sistemas tan complejos como los transformadores y las redes neuronales convolucionales (CNN), los orígenes de las redes neuronales se remontan a modelos simples como la regresión lineal y cómo el cerebro humano digiere, procesa y decide sobre la información presentada a ello.
En un alto nivel, la inspiración para las redes neuronales proviene de las neuronas biológicas del cerebro humano, que se comunican a través de señales eléctricas. En 1943, Warren McCulloch y Walter Pitts propusieron el primer modelo matemático de una neurona, demostrando que unidades simples podían realizar el cálculo de una función. Más tarde, en 1958, Frank Rosenblatt introdujo el perceptrón, un algoritmo diseñado para realizar el reconocimiento de patrones. El perceptrón es el antepasado histórico de las redes actuales: esencialmente un modelo lineal con un output restringido. En la siguiente sección, profundizaremos en cómo las redes neuronales se inspiran en el cerebro humano para tomar decisiones y reconocer patrones.
Una red neuronal puede entenderse a través de un ejemplo sencillo: la detección. Se introduce un correo electrónico en la red y se utilizan como entradas características como palabras o frases como "premio", "dinero", "querido" o "ganar". Las primeras neuronas de la red procesan la importancia de cada señal, mientras que las capas posteriores combinan esta información en señales de nivel superior que captan el contexto y el tono. A continuación, la capa final calcula una probabilidad de que el correo electrónico sea spam y, si esa probabilidad es lo suficientemente alta, se marca el correo electrónico. En esencia, la red aprende a transformar las características sin procesar en patrones significativos y a utilizarlos para hacer predicciones.
Este proceso se basa en dos conceptos fundamentales: pesos y sesgos. Los pesos actúan como diales que controlan la fuerza con la que cada característica de entrada influye en la decisión: una palabra como "premio" puede tener más peso que una palabra común como "hola". Los sesgos son valores incorporados que cambian el umbral de decisión, lo que permite que una neurona se active incluso si las entradas en sí son débiles. Juntos, estos parámetros del modelo determinan cómo contribuye cada neurona al cálculo general. Al ajustar estos valores durante el entrenamiento, la red aprende gradualmente a hacer predicciones precisas, en este caso, si un correo electrónico es spam o no.
Matemáticamente, una red neuronal aprende una función al mapear un vector de entrada para predecir una respuesta Lo que distingue a las redes neuronales de otros algoritmos tradicionales de machine learning es su estructura en capas y su capacidad para realizar transformaciones no lineales.
Una red neuronal se compone de:
Al igual que otros algoritmos de machine learning, una red neuronal requiere un entrenamiento riguroso para funcionar bien en las pruebas. Para entrenar una red, una sola neurona calcula:
Donde:
representa una función de activación en la capa de output que transforma la combinación lineal para ajustarla a la decisión de la función. Con esta arquitectura, las características de entrada X se transforman en un output Y, que sirve como un modelo predictivo de machine learning.
El poder de una red neuronal proviene de su capacidad para aprender los pesos y sesgos correctos a partir de los datos. Esto se consigue comparando las predicciones de la red a la verdadera etiqueta y medir el error utilizando una función de pérdida. Por ejemplo, en tareas de clasificación, la pérdida podría medir qué tan lejos está la probabilidad predicha de la respuesta correcta.
Para minimizar esta pérdida, la red utiliza un algoritmo llamado retropropagación. La red neuronal se entrena en cuatro pasos:
Este proceso se repite muchas veces sobre el conjunto de datos de entrenamiento. Cada pasada ayuda a la red a "ajustar" sus parámetros internos para que sus predicciones se acerquen cada vez más a las respuestas correctas. Con el tiempo, la red converge en un conjunto de pesos y sesgos que minimizan el error y se generalizan bien a datos no vistos. La retropropagación, junto con el descenso de gradiente, es el motor que hace que las redes neuronales funcionen. Permite que las redes con millones (o incluso miles de millones) de parámetros aprendan patrones significativos a partir de conjuntos de datos masivos.
Sin embargo, a pesar del esfuerzo de los profesionales por entrenar modelos de alto rendimiento, las redes neuronales siguen enfrentándose a retos similares a otros modelos de machine learning, sobre todo el sobreajuste. Cuando las redes neuronales se vuelven demasiado complejas con demasiados parámetros, el modelo se sobreajustará a los datos de entrenamiento y predecirá mal. El sobreajuste es un problema común en todo tipo de redes neuronales, y prestar mucha atención a la compensación sesgo-varianza es fundamental para crear modelos de redes neuronales de alto rendimiento.
Las arquitecturas de redes neuronales modernas, como los transformadores y los modelos de codificador-decodificador, siguen los mismos principios básicos (pesos y sesgos aprendidos, capas apiladas, activaciones no lineales, entrenamiento de extremo a extremo mediante retropropagación). Difieren principalmente en cómo se mezclan las entradas en las capas. En lugar de una mezcla totalmente conectada, los transformadores utilizan la atención para formar combinaciones ponderadas de representaciones dependientes de los datos, junto con conexiones residuales, normalización y codificaciones posicionales para enriquecer el cableado construido sobre los mismos fundamentos.
Si bien los perceptrones multicapa son la base, las redes neuronales han evolucionado hacia arquitecturas especializadas adecuadas para diferentes dominios:
Las redes neuronales sustentan muchos de los sistemas de IA actuales. Algunas aplicaciones destacadas de las redes neuronales incluyen:
Estas aplicaciones impulsan las innovaciones del mundo real en la sanidad, las finanzas, la robótica, el entretenimiento y mucho más.
Las redes neuronales aprenden representaciones internas útiles directamente de los datos, capturando la estructura no lineal que los modelos clásicos pasan por alto. Con capacidad suficiente, objetivos sólidos y regularización contra el sobreajuste, escalan desde pequeñas referencias hasta sistemas de producción en visión artificial, procesamiento del lenguaje natural, reconocimiento de voz, previsiones y más, ofreciendo ganancias cuantificables en precisión y solidez.
El deep learning moderno amplía estas bases. Las CNN se especializan en la extracción de características espaciales para imágenes. Las RNN modelan dependencias temporales en secuencias. Los transformadores reemplazan la recurrencia por la atención, con la ayuda de conexiones residuales, normalización y paralelismo eficiente en las GPU.
A pesar de las diferencias arquitectónicas, el entrenamiento sigue siendo integral con retropropagación en grandes conjuntos de datos, y la visión central sigue siendo válida: se aprende componiendo transformaciones dependientes de los datos con activaciones no lineales. La IA generativa se basa en los mismos principios a mayor escala. Los modelos de lenguaje de gran tamaño, los modelos de difusión, los VAE y las GAN aprenden distribuciones sobre datos para sintetizar texto, imágenes, audio y código.
El salto de un perceptrón multicapa a generadores de última generación es principalmente de arquitectura, datos y computación. Comprender las funciones de activación, los requisitos de entrenamiento y los principales tipos de redes proporciona un puente práctico desde las redes neuronales clásicas hasta los sistemas generativos actuales y aclara por qué estos modelos se han convertido en el centro de la IA moderna.
Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.
Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.