Una red neuronal es un modelo de machine learning que apila "neuronas" simples en capas y aprende pesos y sesgos de reconocimiento de patrones de los datos para asignar entradas a salidas.
Las redes neuronales se encuentran entre los algoritmos más influyentes en el machine learning moderno y la inteligencia artificial (IA). Respaldan los avances en visión artificial, procesamiento de lenguaje natural (PLN), reconocimiento de voz y aplicaciones incontables del mundo real que van desde el forecasting hasta el reconocimiento facial. Si bien las redes neuronales actuales alimentan sistemas tan complejos como transformadores y redes neuronales convolucionales, los orígenes de las redes neuronales se remontan a modelos simples como la regresión y cómo el cerebro humano digiere, procesa y decide sobre la información presentada a ello.
En un alto nivel, la inspiración para las redes neuronales proviene de las neuronas biológicas del cerebro humano, que se comunican a través de señales eléctricas. En 1943, Warren McCulloch y Walter Pitts propusieron el primer modelo matemático de una neurona, demostrando que unidades simples podían realizar el cálculo de una función. Más tarde, en 1958, Frank Rosenblatt introdujo el perceptrón, un algoritmo diseñado para realizar el reconocimiento de patrones. El perceptrón es el antepasado histórico de las redes actuales: esencialmente un modelo lineal con una salida restringida. En la siguiente sección, profundizaremos en cómo las redes neuronales se inspiran en el cerebro humano para tomar decisiones y reconocer patrones.
Una red neuronal se puede entender a través de un ejemplo simple: detección de spam. Se introduce un correo electrónico en la red y se utilizan características como entradas palabras o frases como “prize,” “money,” “dear” o “win”. Las primeras neuronas de la red procesan la importancia de cada señal, mientras que las capas posteriores combinan esta información en señales de nivel superior que capturan el contexto y el tono. Luego, la capa final calcula una probabilidad de si el correo electrónico es spam y, si esa probabilidad es lo suficientemente alta, el correo electrónico se marca. En esencia, la red aprende a transformar características sin procesar en patrones significativos y a utilizarlos para hacer predicciones.
Este proceso está impulsado por dos conceptos fundamentales: ponderaciones y sesgos. Las ponderaciones actúan como diales que controlan la fuerza con la que cada característica de entrada influye en la decisión: una palabra como "prize" puede tener más peso que una palabra común como "hello". Los sesgos son valores incorporados que cambian el umbral de decisión, lo que permite que una neurona se active incluso si las entradas en sí son débiles. Juntos, estos parámetros del modelo determinan cómo contribuye cada neurona al cálculo general. Al ajustar estos valores durante el entrenamiento, la red aprende gradualmente a hacer predicciones precisas, en este caso, si un correo electrónico es spam o no.
Matemáticamente, una red neuronal aprende una función mapeando un vector de entrada para predecir una respuesta Lo que distingue a las redes neuronales de otros machine learning tradicionales es su estructura en capas y su capacidad para realizar Transformación no lineal.
Una red neuronal se compone de:
Al igual que otros algoritmos de machine learning, una red neuronal requiere un entrenamiento riguroso para funcionar bien en las pruebas. Para entrenar una red, una sola neurona calcula:
Dónde:
representa una función de activación en la capa de salida que transforma la combinación lineal para que se ajuste a la decisión de la función. Con esta arquitectura, las características de entrada X se transforman en resultados Y, sirviendo como un modelo de machine learning predictivo.
El poder de una red neuronal proviene de su capacidad para aprender las ponderaciones y sesgos correctos de los datos. Esto se hace comparando la predicción de la red para la verdadera etiqueta y medir el error utilizando una función de pérdida. Por ejemplo, en las tareas de clasificación, la pérdida podría medir qué tan lejos está la probabilidad predicha de la respuesta correcta.
Para minimizar esta pérdida, la red emplea un algoritmo llamado retropropagación. La red neuronal se entrena en cuatro pasos:
Este proceso se repite muchas veces sobre el conjunto de datos de entrenamiento. Cada pase ayuda a la red a "ajustar" sus parámetros internos para que sus predicciones se acerquen cada vez más a las respuestas correctas. Con el tiempo, la red converge en un conjunto de ponderaciones y sesgos que minimizan el error y se generalizan bien a datos invisibles. La retropropagación, junto con el descenso del gradiente, es el motor que hace que las redes neuronales funcionen. Permite que las redes con millones (o incluso miles de millones) de parámetros aprendan patrones significativos a partir de conjuntos de datos masivos.
Sin embargo, a pesar del esfuerzo de los profesionales por entrenar modelos de alto rendimiento, las redes neuronales aún enfrentan desafíos similares a otros modelos de machine learning, el más importante, el sobreajuste. Cuando una red neuronal se vuelve demasiado compleja con demasiados parámetros, el modelo se sobreajustará a los datos de entrenamiento y predirá mal. El sobreajuste es un problema común en todo tipo de redes neuronales, y prestar mucha atención a la compensación sesgo-varianza es primordial para crear modelos de redes neuronales de alto rendimiento.
Las arquitecturas modernas de redes neuronales, como los transformadores y los modelos de codificador-decodificador, siguen los mismos principios básicos (pesos y sesgos aprendidos, capas apiladas, activaciones no lineales, entrenamiento de extremo a extremo por retropropagación). Se diferencian principalmente en cómo se mezclan las entradas entre capas. En lugar de mezclar solo completamente conectados, los transformadores utilizan la atención para formar combinaciones ponderadas de representaciones dependientes de los datos, junto con conexiones residuales, normalización y codificaciones posicionales para enriquecer el cableado construido sobre los mismos fundamentos.
Si bien los perceptrones multicapa son la base, las redes neuronales han evolucionado hasta convertirse en arquitecturas especializadas adecuadas para diferentes dominios:
Las redes neuronales sustentan muchos de los sistemas de IA actuales. Algunas aplicaciones destacadas de las redes neuronales incluyen:
Estas aplicaciones impulsan innovaciones del mundo real en atención médica, finanzas, robótica, entretenimiento y más.
Las redes neuronales aprenden representaciones internas útiles directamente de los datos, capturando la estructura no lineal que los modelos clásicos pasan por alto. Con capacidad suficiente, objetivos sólidos y regularización contra el sobreajuste, escalan desde pequeños puntos de referencia hasta sistemas de producción en visión artificial, procesamiento de lenguaje natural, reconocimiento de voz, forecasting y más, brindando ganancias medibles en precisión y robustez.
El aprendizaje profundo moderno amplía estas bases. Las CNN se especializan en la extracción de características espaciales para imágenes. Las RNN modelan dependencias temporales en secuencias. Los transformadores reemplazan la recurrencia con atención, con la ayuda de conexiones residuales, normalización y paralelismo eficiente en las GPU.
A pesar de las diferencias arquitectónicas, el entrenamiento sigue siendo integral con retropropagación en grandes conjuntos de datos, y la visión central sigue siendo válida: se aprende componiendo transformaciones dependientes de datos con activaciones no lineales. La IA generativa se basa en los mismos principios a mayor escala. Los modelos de lenguaje grandes, los modelos de difusión, los VAE y las GAN aprenden distribuciones sobre datos para sintetizar texto, imágenes, audio y código.
El salto de un perceptrón multicapa a generadores de última generación es principalmente de arquitectura, datos y computación. Comprender las funciones de activación, los requisitos de entrenamiento y los principales tipos de redes proporciona un puente práctico desde las redes neuronales clásicas hasta los sistemas generativos actuales y aclara por qué estos modelos se han vuelto fundamentales para la IA moderna.
Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.
Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.