¿Qué es una red neuronal?
Explore la solución de red neuronal de IBM Suscríbase a las actualizaciones sobre la IA
La cara de la IA procesando información y aprendiendo a imitar a los humanos.
¿Qué es una red neuronal?

Una red neuronal es un programa o modelo de aprendizaje automático que toma decisiones de manera similar al cerebro humano, mediante el uso de procesos que imitan la forma en que las neuronas biológicas trabajan juntas para identificar fenómenos, sopesar opciones y llegar a conclusiones.

Cada red neuronal consta de capas de nodos o neuronas artificiales: una capa de entrada, una o más capas ocultas y una capa de salida. Cada nodo se conecta a otros y tiene su propia ponderación y umbral asociados. Si la salida de cualquier nodo individual está por encima del valor del umbral especificado, ese nodo se activa y envía datos a la siguiente capa de la red. De lo contrario, no se pasa ningún dato a la siguiente capa de la red.

Las redes neuronales se basan en datos de entrenamiento para aprender y mejorar su precisión con el tiempo. Una vez que se ajustan para obtener precisión, son herramientas poderosas en informática e inteligencia artificial, lo que nos permite clasificar y agrupar datos a alta velocidad. Las tareas de reconocimiento de voz o reconocimiento de imágenes pueden tardar minutos en lugar de horas en comparación con la identificación manual por parte de expertos humanos. Uno de los ejemplos más conocidos de una red neuronal es el algoritmo de búsqueda de Google.

Las redes neuronales a veces se denominan redes neuronales artificiales (ANN) o redes neuronales simuladas (SNN). Son un subconjunto del aprendizaje automático y están en el corazón de los modelos de aprendizaje profundo .

Desarrolle flujos de trabajo de IA responsables con gobernanza de IA

Conozca los componentes básicos y las mejores prácticas para ayudar a sus equipos a acelerar la IA responsable.

Contenido relacionado

Regístrese para obtener el libro electrónico sobre IA generativa

¿Cómo funcionan las redes neuronales?

Piense en cada nodo individual como su propio modelo de regresión lineal , compuesto por datos de entrada, ponderaciones, un sesgo (o umbral) y una salida. La fórmula se vería así:

∑wixi + sesgo = w1x1 + w2x2 + w3x3 + sesgo

salida = f(x) = 1 if ∑w1x1 + b>= 0; 0 if ∑w1x1 + b < 0

Una vez determinada la capa de entrada, se asignan las ponderaciones. Estas ponderaciones ayudan a determinar la importancia de cualquier variable, ya que las más grandes contribuyen de forma más significativa a la producción en comparación con otros insumos. A continuación, todas las entradas se multiplican por sus ponderaciones respectivas y luego se suman. Después, la salida pasa por una función de activación, que determina la salida. Si esa salida excede un umbral determinado, "dispara" (o activa) el nodo, pasa los datos a la siguiente capa de la red. El resultado es que la salida de un nodo se convierte en la entrada del siguiente. Este proceso de paso de datos de una capa a la siguiente define esta red neuronal como una red de retroalimentación.

Analicemos cómo se vería un solo nodo usando valores binarios. Podemos aplicar este concepto a un ejemplo más tangible, como si debes ir a surfear (Sí: 1, No: 0). La decisión de ir o no ir es nuestro resultado previsto, o lo que sea. Supongamos que hay tres factores que influyen en su toma de decisiones:

  1. ¿Son buenas las olas? (Sí: 1, No: 0)
  2. ¿El lugar está vacío? (Sí: 1, No: 0)
  3. ¿Ha habido recientemente un ataque de tiburón? (Sí: 0, No: 1)

Entonces, supongamos lo siguiente, dándonos las siguientes entradas:

  • X1 = 1, ya que las olas son ideales
  • X2 = 0, ya que no hay mucha gente
  • X3 = 1, ya que no ha habido un ataque de tiburón reciente

Ahora, necesitamos asignar algunas ponderaciones para determinar la importancia. Las ponderaciones más grandes significan que las variables particulares son de mayor importancia para la decisión o el resultado.

  • W1 = 5, ya que las grandes olas no se presentan con frecuencia
  • W2 = 2, ya que es común que haya mucha gente
  • W3 = 4, ya que le tiene miedo a los tiburones

Finalmente, también asumiremos un valor de umbral de 3, lo que se traduciría en un valor de sesgo de -3. Con todas las diversas entradas, podemos comenzar a introducir valores en la fórmula para obtener el resultado deseado.

Y-hat = (1*5) + (0*2) + (1*4) – 3 = 6

Si usamos la función de activación del principio de esta sección, podemos determinar que la salida de este nodo sería 1, ya que 6 es mayor que 0. En este caso, iría a surfear; pero si ajustamos las ponderaciones o el umbral, podemos lograr diferentes resultados del modelo. Cuando observamos una decisión, como en el ejemplo anterior, podemos ver cómo una red neuronal podría tomar decisiones cada vez más complejas dependiendo del resultado de decisiones o capas anteriores.

En el ejemplo anterior, utilizamos perceptrones para ilustrar algunas de las matemáticas en juego aquí, pero las redes neuronales aprovechan las neuronas sigmoides, que se distinguen por tener valores entre 0 y 1. Dado que las redes neuronales se comportan de manera similar a los árboles de decisión, la cascada de datos de un nodo a otro, tener valores x entre 0 y 1 reducirá el impacto de cualquier cambio dado de una sola variable en la salida de cualquier nodo dado, y posteriormente, la salida de la red neuronal.

A medida que empecemos a pensar en casos de uso más prácticos para las redes neuronales, como el reconocimiento o la clasificación de imágenes, aprovecharemos el aprendizaje supervisado o conjuntos de datos etiquetados para entrenar el algoritmo. A medida que entrenamos el modelo, querremos evaluar su precisión utilizando una función de costo (o pérdida). Esto también se conoce comúnmente como error cuadrático medio (MSE). En la siguiente ecuación,

  • i representa el índice de la muestra,
  • y-hat es el resultado previsto,
  • y es el valor real, y
  • m es el número de muestras.

= =1/2 ∑129_(=1)^▒( ̂^(() )−^(() ) )^2

En última instancia, el objetivo es minimizar nuestra función de costo para garantizar la corrección del ajuste para cualquier observación dada. A medida que el modelo ajusta sus ponderaciones y sesgos, utiliza la función de costo y el aprendizaje por refuerzo para alcanzar el punto de convergencia, o el mínimo local. El proceso en el que el algoritmo ajusta sus ponderaciones es a través del descenso de gradiente, lo que permite que el modelo determine la dirección a seguir para reducir errores (o minimizar la función de costo). Con cada ejemplo de entrenamiento, los parámetros del modelo se ajustan para converger gradualmente al mínimo.  

Consulte este artículo de IBM Developer para obtener una explicación más profunda de los conceptos cuantitativos involucrados en las redes neuronales.

La mayoría de las redes neuronales profundas son de retroalimentación, lo que significa que fluyen en una sola dirección, desde la entrada hasta la salida. Sin embargo, también puede entrenar el modelo a través de la retropropagación; es decir, moverse en la dirección opuesta de la salida a la entrada. La retropropagación nos permite calcular y atribuir el error asociado a cada neurona, lo que nos permite ajustar y adaptar los parámetros del modelo o modelos de forma adecuada.

Ahora disponible: watsonx.ai

El nuevo estudio empresarial que aúna el aprendizaje automático tradicional con las nuevas funciones de IA generativa basadas en modelos fundacionales

tipos de redes neuronales

Las redes neuronales se pueden clasificar en diferentes tipos, que se utilizan para diferentes propósitos. Si bien esta no es una lista completa de tipos, la siguiente sería representativa de los tipos más comunes de redes neuronales que encontrará para sus casos de uso comunes:

El perceptrón es la red neuronal más antigua, creada por Frank Rosenblatt en 1958.

Las redes neuronales de retroalimentación, o perceptrones multicapa (MLP), son en lo que nos hemos centrado principalmente en este artículo. Se componen de una capa de entrada, una capa o capas ocultas y una capa de salida. Si bien estas redes neuronales también se conocen comúnmente como MLP, es importante tener en cuenta que en realidad están compuestas por neuronas sigmoides, no por perceptrones, ya que la mayoría de los problemas del mundo real no son lineales. Por lo general, los datos se introducen en estos modelos para entrenarlos, y son la base de la visión artificial, el procesamiento del lenguaje natural y otras redes neuronales.

Las redes neuronales convolucionales (CNN) son similares a las redes de retroalimentación, pero generalmente se utilizan para el reconocimiento de imágenes, el reconocimiento de patrones o la visión artificial. Estas redes aprovechan los principios del álgebra lineal, en particular la multiplicación de matrices, para identificar patrones dentro de una imagen.

Las redes neuronales recurrentes (RNN) se identifican por sus bucles de retroalimentación. Estos algoritmos de aprendizaje se aprovechan principalmente cuando se utilizan datos de series de tiempo para hacer predicciones sobre resultados futuros, como predicciones del mercado de valores o pronósticos de ventas.

 

Redes neuronales frente a aprendizaje profundo

El aprendizaje profundo y las redes neuronales tienden a usarse indistintamente en la conversación, lo que puede resultar confuso. Como resultado, vale la pena señalar que lo "profundo" en el aprendizaje profundo simplemente se refiere a la profundidad de las capas en una red neuronal. Una red neuronal que consta de más de tres capas (que incluirían las entradas y la salida) puede considerarse un algoritmo de aprendizaje profundo. Una red neuronal que solo tiene dos o tres capas es solo una red neuronal básica.

Para obtener más información sobre las diferencias entre redes neuronales y otras formas de inteligencia artificial,  como el aprendizaje automático, lea la publicación del blog "AI vs. Machine Learning vs. Deep Learning vs. Neural Networks: What’s the Difference?" (IA vs. Aprendizaje automático vs. Aprendizaje profundo vs. Redes neuronales: ¿Cuál es la diferencia?)

Historia de las redes neuronales

La historia de las redes neuronales es más larga de lo que la mayoría de la gente piensa. Si bien la idea de “una máquina que piensa” se remonta a los antiguos griegos, nos centraremos en los eventos clave que llevaron a la evolución del pensamiento en torno a las redes neuronales, cuya popularidad ha tenido altibajos a lo largo de los años:

1943: Warren S. McCulloch y Walter Pitts publicaron "Un cálculo lógico de las ideas inmanentes a la actividad nerviosa (enlace externo a ibm.com)" Esta investigación buscó comprender cómo el cerebro humano podría producir patrones complejos a través de células cerebrales conectadas, o neuronas. Una de las principales ideas que surgieron de este trabajo fue la comparación de neuronas con un umbral binario con la lógica booleana (es decir, 0/1 o declaraciones de verdadero/falso).   

1958: A Frank Rosenblatt se le atribuye el desarrollo del perceptrón, documentado en su investigación, “The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain” [El Perceptrón: Un modelo probabilístico de almacenamiento y organización de la información en el cerebro] (enlace externo a ibm.com). Lleva el trabajo de McCulloch y Pitt un paso más allá al introducir ponderaciones en la ecuación. Aprovechando un IBM 704, Rosenblatt pudo hacer que una computadora aprendiera a distinguir las tarjetas marcadas a la izquierda frente a las tarjetas marcadas a la derecha.

1974: Si bien numerosos investigadores contribuyeron a la idea de la retropropagación, Paul Werbos fue la primera persona en los Estados Unidos en señalar su aplicación dentro de las redes neuronales dentro de su tesis doctoral (enlace externo a ibm.com).

Año 1989: Yann LeCun publicó un artículo ibm.com que ilustra cómo el uso de restricciones en la retropropagación y su integración en la arquitectura de redes neuronales se puede utilizar para entrenar algoritmos. Esta investigación aprovechó con éxito una red neuronal para reconocer los dígitos del código postal escritos a mano proporcionados por el Servicio Postal de EE. UU.

Soluciones relacionadas
Soluciones de aprendizaje profundo

Diseñe redes neuronales complejas. Experimente a escala para implementar modelos de aprendizaje optimizados dentro de IBM Watson Studio.

Explore las soluciones de aprendizaje profundo
IBM Watson Studio

Cree y amplíe la IA de confianza en cualquier nube. Automatice el ciclo de vida de la IA para ModelOps.

Conozca IBM Watson Studio
watsonx.ai

Dé el siguiente paso para comenzar a poner en marcha y escalar la IA generativa y el aprendizaje automático para empresas. 

Explore watsonx.ai
Recursos IA en la empresa, 2021: Liberar la oportunidad a través de datos

Regístrese para obtener nuestro libro electrónico y obtener información sobre las oportunidades, los desafíos y las lecciones aprendidas al infundir la IA en las empresas.

IA, aprendizaje automático, aprendizaje profundo y redes neuronales: ¿cuál es la diferencia?

Estos términos a menudo se usan indistintamente, pero ¿qué diferencias hacen que cada uno sea una tecnología única?

Redes neuronales desde cero

Conozca en profundidad las redes neuronales, sus funciones básicas y los fundamentos para construir una.

Dé el siguiente paso

Capacite, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de aprendizaje automático con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Explore watsonx.ai Reserve una demostración en vivo