¿Qué es una unidad de procesamiento neuronal (NPU)?

Una unidad de procesamiento neuronal (NPU) es un microprocesador informático especializado diseñado para imitar la función de procesamiento del cerebro humano. Están optimizados para tareas y aplicaciones de inteligencia artificial (IA) neuronal, aprendizaje profundo y machine learning.

A diferencia de las unidades centrales de procesamiento (CPU) de uso general o las unidades de procesamiento de gráficos (GPU), las NPU están diseñadas para acelerar las tareas y cargas de trabajo de IA, como el cálculo de capas de redes neuronales compuestas por matemáticas escalares, vectoriales y tensoriales.

También conocidas como chip de IA o acelerador de IA, las NPU se utilizan normalmente dentro de arquitecturas informáticas heterogéneas que combinan múltiples procesadores (por ejemplo, CPU y GPU). Los centros de datos a gran escala pueden utilizar NPU independientes conectadas directamente a la placa base de un sistema; sin embargo, la mayoría de las aplicaciones de consumo, como teléfonos inteligentes, dispositivos móviles y computadoras portátiles, combinan la NPU con otros coprocesadores en un único microchip semiconductor conocido como sistema en chip (SoC).

Al integrar una NPU dedicada, los fabricantes pueden ofrecer aplicaciones de IA generativa en el dispositivo capaces de procesar aplicaciones de IA, cargas de trabajo de IA y algoritmos de machine learning en tiempo real con un consumo de energía relativamente bajo y un alto rendimiento.

Boletín de la industria

Las últimas noticias tecnológicas, respaldadas por los insights de expertos

Manténgase al día sobre las tendencias más importantes e intrigantes de la industria sobre IA, automatización, datos y más con el boletín Think. Consulte la Declaración de privacidad de IBM.

Características clave de las NPU

Las unidades de procesamiento neuronal (NPU) son adecuadas para tareas que requieren computación paralela de baja latencia, como el procesamiento de algoritmos de aprendizaje profundo, el reconocimiento de voz, el procesamiento de lenguaje natural, el procesamiento de fotos y videos y la detección de objetos.

Las características clave de las NPU incluyen las siguientes:

Procesamiento paralelo: las NPU pueden desglosar problemas más grandes en componentes para la resolución de problemas multitarea. Esto permite que el procesador ejecute múltiples operaciones de redes neuronales simultáneamente.

Aritmética de baja precisión: las NPU suelen admitir operaciones de 8 bits (o inferiores) para reducir la complejidad computacional y aumentar la eficiencia energética.

Memoria de gran ancho de banda: muchas NPU cuentan con característica de memoria en chip de gran ancho de banda para realizar de manera eficiente tareas de procesamiento de IA que requieren grandes conjuntos de datos.

Aceleración de hardware: los avances en el diseño de NPU han llevado a la incorporación de técnicas de aceleración de hardware, como arquitecturas de matriz sistólica o procesamiento de tensores mejorado.

Cómo funcionan las NPU

Basadas en las redes neuronales del cerebro, las unidades de procesamiento neuronal (NPU) funcionan simulando el comportamiento de las neuronas humanas y las sinapsis en la capa del circuito. Esto permite el procesamiento de conjuntos de instrucciones de aprendizaje profundo en los que una instrucción completa el procesamiento de un conjunto de neuronas virtuales.

A diferencia de los procesadores tradicionales, las NPU no están diseñadas para cálculos precisos. En cambio, las NPU están diseñadas específicamente para funciones de resolución de problemas y pueden mejorar con el tiempo, aprendiendo de diferentes tipos de datos y entradas. Aprovechando el machine learning, los sistemas de IA que incorporan NPU pueden proporcionar soluciones personalizadas más rápido, sin necesidad de más programación manual.

Como característica destacada, las NPU ofrecen un procesamiento paralelo superior y pueden acelerar las operaciones de IA a través de núcleos simplificados de alta capacidad que están libres de realizar múltiples tipos de tareas. Una NPU incluye módulos específicos para multiplicación y suma, funciones de activación, operaciones de datos 2D y descompresión. El módulo especializado de multiplicación y suma se utiliza para realizar operaciones relevantes para el procesamiento de aplicaciones de redes neuronales, como el cálculo de la multiplicación y suma de matrices, la convolución, el producto punto y otras funciones.

Si bien los procesadores tradicionales requieren miles de instrucciones para completar este tipo de procesamiento de neuronas, una NPU podría completar una operación similar con solo una. Una NPU también integrará el almacenamiento y el cálculo a través de pesos sinápticos, una variable computacional fluida asignada a los nodos de red que indica la probabilidad de un resultado "correcto" o "deseado" que puede ajustarse o "aprender" con el tiempo, lo que lleva a una mayor eficiencia operativa.

Si bien el desarrollo de NPU continúa evolucionando, las pruebas han demostrado que el rendimiento de algunas NPU es más de 100 veces mejor que una GPU comparable, con el mismo consumo de energía.

Smart Talks con IBM

Cómo la infraestructura está potenciando la era de la IA

Aprenda cómo las capacidades de hardware permiten las matemáticas matriciales necesarias para ejecutar modelos de lenguaje grandes, e indague en algunos ejemplos creativos de cómo poner a trabajar la IA: desde su banco hasta su cafetería local.

Descubra los podcasts de IBM

Principales ventajas de las NPU

Las unidades de procesamiento neuronal (NPU) no están diseñadas ni se espera que reemplacen a las CPU y GPU tradicionales. Sin embargo, la arquitectura de una NPU mejora el diseño de ambos procesadores para proporcionar un paralelismo inigualable y más eficiente y el machine learning. Capaces de mejorar las operaciones generales (pero más adecuadas para ciertos tipos de tareas generales), cuando se combinan con CPU y GPU, las NPU ofrecen varias ventajas valiosas sobre los sistemas tradicionales.

Las principales ventajas incluyen las siguientes:

Procesamiento paralelo: como se mencionó, las NPU pueden desglosar problemas más grandes en componentes para la resolución de problemas multitarea. La clave es que, si bien las GPU también se destacan en el procesamiento paralelo, la estructura única de una NPU puede superar a una GPU equivalente con un consumo de energía reducido y una huella física más pequeña.

Eficiencia mejorada: si bien las GPU se utilizan a menudo para tareas de computación e IA de alto rendimiento, las NPU pueden realizar un procesamiento paralelo similar con una eficiencia energética mucho mejor. A medida que la IA y otras computaciones de alto rendimiento se vuelven cada vez más comunes y exigen más energía, las NPU ofrecen una solución valiosa para reducir el consumo de energía crítico.

Procesamiento de datos multimedia en tiempo real: las NPU están diseñadas para procesar y responder mejor a una gama más amplia de entradas de datos, incluidas imágenes, video y voz. El aumento de aplicaciones como la robótica, los dispositivos del Internet de las cosas (IoT) y los wearables con NPU puede proporcionar retroalimentación en tiempo real, reducir la fricción operativa y proporcionar feedback crítico y soluciones cuando el tiempo de respuesta es más importante.

NPU vs. GPU vs. CPU

En el mundo de la informática clásica, la unidad central de procesamiento (CPU) se considera el "cerebro" de la computadora. La CPU procesa la mayoría de las tareas informáticas tradicionales y es responsable de una amplia gama de aplicaciones potenciales. Si bien hay muchos tipos diferentes, generalmente todas las CPU realizan operaciones en orden lineal, respondiendo a las solicitudes en el orden en que llegan.

Desde la década de 1950 hasta la de 1990, las CPU soportaron la peor parte de prácticamente todo el procesamiento informático, ejecutando instrucciones para ejecutar programas, controlar sistemas y gestionar entradas/salidas (E/S).

Las aplicaciones exigentes llevaron regularmente generación tras generación de diseños de CPU a sus límites de hardware, lo que a menudo provocó una ralentización significativa o incluso fallas del sistema. Pero con la llegada de los juegos de computadora personal y el diseño asistido por computadora (CAD) en la década de 1980, la industria requirió una solución más rápida y eficiente para renderizar gráficos por computadora.

La unidad de procesamiento de gráficos (GPU) se creó inicialmente para descargar tareas exigentes de procesamiento de imágenes de la CPU principal. Si bien las GPU tienden a usar menos núcleos para realizar operaciones lineales, las GPU cuentan con cientos o miles de núcleos con la característica de realizar procesamiento paralelo, un proceso en el que las tareas grandes se dividen en problemas más pequeños que pueden resolverse simultáneamente mediante múltiples procesadores y/o núcleos.

Inicialmente desarrollado para manejar las necesidades de procesamiento de video e imágenes, las capacidades de procesamiento paralelo de las GPU han hecho que el hardware sea especialmente adecuado para otras aplicaciones informáticas exigentes, como las tareas relacionadas con blockchain y la IA. Si bien las GPU no son el único tipo de procesador capaz de realizar procesamiento paralelo o computación paralela, son muy adecuadas para el paralelismo. Sin embargo, las GPU no están exentas de limitaciones y, por lo general, requieren un consumo de energía extremadamente costoso para ejecutar operaciones más exigentes. Con las GPU, un mayor rendimiento conlleva un mayor costo de energía.

Las NPU y otros aceleradores de IA ofrecen alternativas más eficientes. Al incorporar y mejorar el paralelismo avanzado de las GPU, las NPU diseñadas específicamente para operaciones de IA proporcionan un alto rendimiento con un menor consumo de energía (y la ventaja adicional de una footprint más pequeña).

Comparación de procesadores

Unidades centrales de procesamiento: el "cerebro" de la computadora. Las CPU suelen asignar alrededor del 70 % de sus transistores internos para crear memoria caché y forman parte de la unidad de control de una computadora. Contienen relativamente pocos núcleos, utilizan arquitecturas de computación en serie para la resolución de problemas lineales y están diseñados para operaciones precisas de control lógico.

Unidades de procesamiento gráfico: desarrolladas por primera vez para manejar el procesamiento de imágenes y videos, las GPU contienen muchos más núcleos que las CPU y usan la mayoría de sus transistores para construir múltiples unidades computacionales, cada una con baja complejidad computacional, lo que permite un procesamiento paralelo avanzado. Adecuadas para cargas de trabajo que requieren procesamiento de datos a gran escala, las GPU han encontrado una gran utilidad adicional en big data, centros de servidores backend y aplicaciones de blockchain.

Unidades de procesamiento neuronal: basándose en el paralelismo de las GPU, las NPU utilizan una arquitectura informática diseñada para simular las neuronas del cerebro humano para proporcionar un alto rendimiento altamente eficiente. Las NPU utilizan pesos sinápticos para integrar tanto el almacenamiento como las funciones de cálculo, proporcionando ocasionalmente soluciones menos precisas a una baja latencia. Si bien las CPU están diseñadas para una computación lineal precisa, las NPU están diseñadas para el machine learning, lo que resulta en una mejor multitarea, procesamiento paralelo y la capacidad de ajustar y personalizar las Operaciones con el tiempo sin necesidad de otra programación.

Casos de uso de NPU

Como tecnología emergente, muchos fabricantes líderes de computadoras y hardware, incluidos Microsoft, Intel, Nvidia, Qualcomm y Samsung, ofrecen unidades de procesamiento neuronal (NPU) independientes o variaciones integradas, como Apple Neural Engine.

La incorporación de NPU en la electrónica de consumo ofrece una amplia gama de beneficios, como un mejor reconocimiento de imágenes y optimización para cámaras habilitadas para IA para desenfocar mejor el fondo en las videollamadas. Algunas aplicaciones adicionales para las NPU incluyen las siguientes.

Inteligencia artificial y modelos de lenguaje de gran tamaño

Como un tipo de acelerador de IA, las NPU están diseñadas específicamente para mejorar el rendimiento de los sistemas de IA y machine learning (ML), como las redes neuronales. Complementando a las GPU, el paralelismo mejorado de las NPU ofrece mejoras dramáticas para modelos de lenguaje grandes que requieren procesamiento adaptativo de baja latencia para interpretar señales multimedia, realizar reconocimiento de voz y producir el lenguaje natural y el arte utilizado en herramientas como chatbots de IA y aplicaciones de imagen y video de IA generativa. .

Dispositivos de Internet de las cosas (IoT)

Con capacidades excepcionales de procesamiento paralelo y autoaprendizaje, las NPU son muy adecuadas para dispositivos IoT en red, como wearables, asistentes de voz y electrodomésticos inteligentes.

Centro de datos

La IA y el machine learning han sido una gran ayuda para los centros de datos que buscan optimizar los recursos. Las NPU de alto rendimiento y eficiencia energética ofrecen un enorme valor para los centros de datos, ya que ofrecen una mejor gestión de recursos para la computación en la nube.

Vehículos autónomos

Los vehículos autónomos como drones o coches y camiones autónomos se benefician enormemente de las capacidades de procesamiento en tiempo real de las NPU, lo que permite una corrección de rumbo más rápida y mejor basada en la entrada de sensores multimedia. Con un procesamiento paralelo inigualable, las NPU pueden ayudar a los vehículos autónomos a interpretar y procesar entradas que se desarrollan rápidamente, como señales de tráfico, patrones de tráfico e incluso obstáculos inesperados.

Computación edge y IA edge

Si bien la computación en la nube ofrece soluciones avanzadas de datos y recursos externos para IoT, dispositivos inteligentes y otros dispositivos informáticos personales, la computación perimetral y la IA perimetral buscan acercar físicamente los datos críticos y los recursos informáticos a los usuarios. Esto reduce la latencia, mitiga el consumo de energía y refuerza la privacidad. Al requerir menos energía y ofrecer una huella física más pequeña, las NPU se están convirtiendo en un componente valioso en la computación edge y la IA en el dispositivo.

Robótica

Expertas en el manejo de tareas que requieren machine learning y visión artificial, las NPU ofrecen un apoyo crítico para el desarrollo de la industria de la robótica. La robótica habilitada por IA, desde asistentes domésticos hasta herramientas quirúrgicas automatizadas, depende de las NPU para desarrollar la capacidad de detectar, aprender y reaccionar ante sus entornos.

Convierta su infraestructura en una ventaja de la IA

Únase a este seminario web para saber cómo los equipos líderes están personalizando la IA con la nube híbrida y la infraestructura impulsada por GPU. Vea lo que es posible cuando su entorno está diseñado para acelerar la IA y cómo empezar.

¿Qué es una unidad de procesamiento neural (NPU)?