Qu’est-ce qu’une unité de traitement neuronal (NPU) ?

Une unité de traitement neuronal (NPU) est un microprocesseur informatique spécialisé conçu pour imiter l’activité de traitement du cerveau humain. Elle est optimisée pour les réseaux de neurones de l’intelligence artificielle (IA), les tâches et les applications d’apprentissage profond et de machine learning.

Différentes des unités centrales de traitement (CPU) à usage général ou des unités de traitement graphique (GPU), les NPU sont conçues pour accélérer les tâches et les workloads d’IA, tels que le calcul des couches de réseaux neuronaux composées de mathématiques scalaires, vectorielles et tensorielles.

Également connues sous le nom de puces IA ou d’accélérateurs IA, les NPU sont généralement utilisées dans des architectures de calcul hétérogène qui combinent plusieurs processeurs (par exemple, un CPU et un GPU). Les centres de données à grande échelle peuvent utiliser des NPU autonomes raccordées directement à la carte mère d'un système. Cependant, la plupart des applications grand public, comme les smartphones, les appareils mobiles et les ordinateurs portables, combinent l’NPU à d'autres coprocesseurs sur une seule micropuce à semi-conducteur connue sous le nom de système sur puce (SoC).

En intégrant une NPU dédiée, les fabricants sont en mesure de proposer des applications d’IA générative intégrées aux appareils capables de traiter les applications d’IA, les workloads d’IA et les algorithmes de machine learning en temps réel avec une consommation d’énergie relativement faible et un débit élevé.

Newsletter sectorielle

Les dernières actualités technologiques, étayées par des avis d’experts

Restez au fait des tendances les plus étonnantes du secteur dans le domaine de l’IA, de l’automatisation, des données et bien d’autres avec la newsletter Think. Consultez la Déclaration de confidentialité d’IBM.

Fonctionnalités principales des NPU

Les unités de traitement neuronal (NPU) conviennent bien aux tâches qui nécessitent un calcul parallèle à faible latence, telles que le traitement des algorithmes d’apprentissage profond, la reconnaissance vocale, le traitement automatique du langage naturel, le traitement des photos et des vidéos et la détection d’objets.

Les fonctionnalités principales des NPU sont les suivantes :

Traitement parallèle : les NPU peuvent décomposer les problèmes importants en composants pour une résolution en mode multitâche. Cela permet au processeur d’exécuter simultanément plusieurs opérations de réseau de neurones.

Arithmétique de basse précision : les NPU prennent souvent en charge les opérations à 8 bits (ou moins) pour réduire la complexité des calculs et augmenter l’efficacité énergétique.

Mémoire à large bande passante : de nombreux NPU disposent d’une mémoire à large bande passante sur puce pour effectuer efficacement les tâches de traitement de l’IA qui nécessitent de grands jeux de données.

Accélération matérielle : les progrès dans la conception des NPU ont conduit à l’intégration de techniques d'accélération matérielle telles que les architectures de réseaux systoliques ou le traitement tensoriel amélioré.

Fonctionnement des NPU

Basées sur les réseaux de neurones du cerveau, les unités de traitement neuronales (NPU) fonctionnent en simulant le comportement des neurones humains et des synapses au niveau de la couche circuit. Cela permet de traiter des ensembles d’instructions d’apprentissage profond dans lesquels une instruction complète le traitement d’un ensemble de neurones virtuels.

Contrairement aux processeurs traditionnels, les NPU ne sont pas conçues pour des calculs précis. Les NPU sont plutôt conçues pour des fonctions de résolution de problèmes et peuvent s’améliorer au fil du temps, en apprenant à partir de différents types de données et d’entrées. Grâce au machine learning, les systèmes d’IA qui intègrent des NPU peuvent fournir des solutions personnalisées plus rapidement, sans nécessiter de programmation manuelle supplémentaire.

En tant que fonctionnalité, les NPU offrent un traitement parallèle supérieur et sont capables d’accélérer les opérations d’IA grâce à des cœurs simplifiés à haute capacité qui sont libérés de l’exécution de plusieurs types de tâches. Une NPU comprend des modules spécifiques pour la multiplication et l’addition, les fonctions d’activation, les opérations de données 2D et la décompression. Le module spécialisé de multiplication et d’addition est utilisé pour effectuer des opérations pertinentes pour le traitement des applications de réseaux de neurones, comme le calcul de la multiplication et de l’ajout de matrices, de la convolution, du produit scalaire et d’autres fonctions.

Alors que les processeurs traditionnels nécessitent des milliers d’instructions pour effectuer ce type de traitement neuronal, une NPU est probablement capable de réaliser une opération similaire avec une seule. Une NPU intègre également le stockage et le calcul grâce aux poids synaptiques, une variable de calcul évolutive affectée aux nœuds du réseau qui indique la probabilité d’un résultat « correct » ou « attendu », qui peut s'ajuster et « apprendre » au fil du temps et mène à une efficacité opérationnelle améliorée.

Alors que le développement des NPU continue, des tests ont montré que certaines performances des NPU étaient plus de 100 fois supérieures à celles d’un GPU comparable, avec la même consommation d’énergie.

Smart Talks with IBM

Comment l’infrastructure alimente l’ère de l’IA

Découvrez comment les capacités matérielles permettent les calculs matriciels nécessaires à l’exécution de grands modèles de langage, et plongez-vous dans des exemples créatifs d’exploitation de l’IA, de votre banque à votre café local.

Découvrir les podcasts IBM

Principaux avantages des NPU

Les unités de traitement neuronal (NPU) ne sont pas conçues pour remplacer les CPU et les GPU traditionnels ni ne sont destinées à le faire. Cependant, l’architecture d’un NPU améliore la conception des deux processeurs pour fournir un parallélisme et un machine learning inégalés et plus efficaces. Capables d’améliorer les opérations générales (mais mieux adaptés à certains types de tâches générales), lorsqu’ils sont associés à des CPU et des GPU, les NPU offrent plusieurs avantages précieux par rapport aux systèmes traditionnels.

On compte parmi ces principaux avantages :

Traitement parallèle : comme précédemment mentionné, les NPU peuvent décomposer des problèmes plus importants en composants pour une résolution multitâche. L’essentiel est que si les GPU excellent également dans le traitement parallèle, la structure unique d’un NPU peut surpasser un GPU équivalent avec une consommation d’énergie réduite et un encombrement physique plus faible.

Une efficacité améliorée : alors que les GPU sont souvent utilisés pour les tâches de calcul et d’IA à haute performance, les NPU peuvent effectuer un traitement parallèle similaire avec une efficacité énergétique bien supérieure. Alors que l’IA et d’autres calculs à haute performance deviennent de plus en plus courants et exigent plus d’énergie, les NPU offrent une solution précieuse pour réduire la consommation électrique critique.

Traitement des données multimédias en temps réel : les NPU sont conçues pour mieux traiter un large éventail d’entrées de données et mieux y répondre, notamment les images, les vidéos et la parole. Les applications comme la robotique, les appareils de l’Internet des objets (IoT) et les équipements portables dotés d’une NPU peuvent fournir des commentaires en temps réel, ce qui réduit les frictions opérationnelles et fournit un retour critique et des solutions lorsque le temps de réponse est l’aspect le plus important.

NPU, GPU et CPU

Dans le monde de l’informatique classique, l’unité centrale de traitement (CPU) est considérée comme le « cerveau » de l’ordinateur. Le CPU traite la plupart des tâches informatiques courantes et est responsable d’un large éventail d’applications potentielles. Bien qu’il existe de nombreux types, en général, tous les CPU effectuent les opérations dans un ordre linéaire (ils répondent aux requêtes dans l’ordre où elles arrivent).

Des années 1950 aux années 1990, les CPU ont assuré la majeure partie de la charge de pratiquement tous les traitements informatiques, en exécutant des instructions pour faire fonctionner les programmes, assurer le contrôle des systèmes et gérer les entrées-sorties (E/S).

Les applications exigeantes ont régulièrement poussé les conceptions de CPU successives à leurs limites matérielles, ce qui a souvent provoqué des ralentissements importants, voire une défaillance du système. Mais avec l’essor du gaming sur PC et de la conception assistée par ordinateur (CAO) dans les années 1980, le secteur avait besoin d’une solution plus rapide et plus efficace pour le rendu graphique des ordinateurs.

Le processeur graphique (GPU) a été initialement créé pour décharger le processeur principal des tâches exigeantes de traitement des images. Alors que les CPU ont tendance à utiliser peu de cœurs pour effectuer des opérations linéaires, les GPU disposent de centaines, voire de milliers de cœurs, avec la capacité d’effectuer un traitement parallèle, un processus dans lequel les tâches volumineuses sont décomposées en problèmes plus petits, qui peuvent être résolus simultanément par plusieurs processeurs et/ou cœurs.

Initialement développées pour répondre aux besoins en matière de traitement vidéo et d’image, les capacités de traitement parallèle des GPU ont permis à ce composant de répondre parfaitement à d’autres applications informatiques exigeantes, telles que les tâches liées à la blockchain et à l’IA. Bien que les GPU ne soient pas le seul type de processeur capable d’effectuer un traitement parallèle ou un calcul parallèle, ils sont bien adaptés au parallélisme. Cependant, les GPU ont leurs limites et nécessitent généralement une consommation d’électricité importante et coûteuse pour exécuter des opérations plus exigeantes. Avec les GPU, l’amélioration des performances se fait au prix d’un coût énergétique accru.

Les NPU et d’autres accélérateurs d’IA offrent des solutions plus efficaces. En intégrant et en améliorant le parallélisme avancé des GPU, les NPU spécifiquement conçues pour les opérations d’IA offrent des performances élevées avec une consommation d’énergie réduite (et avec en prime un encombrement physique réduit).

Comparaison des processeurs

Unités centrales de traitement : le « cerveau » de l’ordinateur. Les CPU allouent généralement environ 70 % de leurs transistors internes pour créer de la mémoire cache et font partie de l’unité de contrôle d’un ordinateur. Ils contiennent relativement peu de cœurs, utilisent des architectures informatiques en série pour la résolution de problèmes linéaires et sont conçus pour des opérations de contrôle logique précises.

Unités de traitement graphique : d’abord développés pour le traitement des images et des vidéos, les GPU contiennent beaucoup plus de cœurs que les CPU et utilisent la plupart de leurs transistors pour construire plusieurs unités de calcul, chacune avec une faible complexité de calcul, ce qui permet un traitement parallèle avancé. Adaptés aux workloads qui nécessitent un traitement des données à grande échelle, les GPU se sont révélés très utiles dans le big data, les centres de serveurs backend et les applications de blockchain.

Unités de traitement neuronal : s’appuyant sur le parallélisme des GPU, les NPU utilisent une architecture informatique conçue pour simuler les neurones du cerveau humain afin de fournir des performances très élevées. Les NPU utilisent des poids synaptiques pour intégrer à la fois les fonctions de stockage de mémoire et de calcul, et fournissent parfois des solutions moins précises à une faible latence. Alors que les CPU sont conçues pour un calcul linéaire et précis, les NPU sont conçues pour le machine learning, ce qui améliore le multitâche, le traitement parallèle et la possibilité d’ajuster et de personnaliser les opérations au fil du temps sans avoir besoin d’une autre programmation.

Cas d’utilisation des NPU

Étant donné qu’il s'agit d'une technologie émergente, de nombreux grands acteurs de l’informatique et des composants matériels (comme Microsoft, Intel, Nvidia, Qualcomm et Samsung) proposent soit des unités de traitement neuronal (NPU) autonomes, soit des variantes intégrées, comme l’Apple Neural Engine.

L’intégration de NPU dans l’électronique grand public offre de nombreux avantages, comme l’amélioration de la reconnaissance des images et l’optimisation pour les caméras assistées par l’IA afin de mieux flouter l’arrière-plan lors des appels vidéo. Voici quelques applications supplémentaires pour les NPU.

Intelligence artificielle et grands modèles de langage

En tant qu’accélératrices d’IA, les NPU sont conçues pour améliorer la performance des systèmes d’IA et de ML, comme les réseaux de neurones. En complétant les GPU, le parallélisme amélioré des NPU offre des améliorations spectaculaires pour les grands modèles de langage qui nécessitent un traitement adaptatif à faible latence pour interpréter les signaux multimédias, effectuer la reconnaissance vocale et produire le langage naturel et l’art utilisé dans des outils tels que les chatbots IA et les applications d’IA générative.

Appareils de type Internet des objets (IdO)

Avec des capacités exceptionnelles de traitement parallèle et d’auto-apprentissage, les NPU sont bien adaptés aux appareils IdO en réseau, comme les équipements portables, les assistants vocaux et les appareils intelligents.

Centres de données

L’IA et le machine learning ont été un atout majeur pour les centres de données qui cherchaient à optimiser les ressources énergétiques. Les NPU à haute performance et économes en énergie apportent une valeur considérable aux centres de données en offrant une meilleure gestion des ressources pour le cloud computing.

Véhicules autonomes

Les véhicules autonomes, comme les drones ou les voitures et camions à conduite automatique, tirent un grand avantage des capacités de traitement en temps réel des NPU, car ces dernières permettent une correction de trajectoire plus rapide et plus efficace en fonction de l’entrée des capteurs multimédias. Grâce à un traitement parallèle inégalé, les NPU peuvent aider les véhicules autonomes à interpréter et à traiter rapidement les entrées, telles que les panneaux de signalisation, les schémas de circulation et même les obstacles inattendus.

Edge computing et IA en périphérie

Alors que le cloud computing offre des solutions avancées de données et de ressources délocalisées pour l’IdO, les appareils connectés et d’autres appareils informatiques personnels, l’ edge computing et l’ edge AI cherchent à rapprocher physiquement les données critiques et les ressources informatiques des utilisateurs. Cela permet de réduire la latence, d’atténuer la consommation d’énergie et de renforcer la confidentialité. Comme elles ont besoin de moins d’énergie et offrent un encombrement réduit, les NPU deviennent un composant précieux de l’edge computing et de l’IA embarquée.

Robotique

Particulièrement efficaces dans le traitement des tâches qui nécessitent le machine learning et la vision par ordinateur, les NPU offrent un soutien essentiel au développement du secteur de la robotique. Les robots dotés d’IA, qu’il s’agisse d’assistants domestiques ou d’outils chirurgicaux automatisés, s’appuient sur les NPU pour développer leur capacité à détecter leur environnement, à en tirer des informations et à y réagir.

Transformez votre infrastructure en un avantage pour l’IA

Participez à ce webinaire pour découvrir comment les équipes de pointe personnalisent l’IA grâce au cloud hybride et à une infrastructure alimentée par des GPU. Découvrez les possibilités offertes par un environnement conçu pour accélérer l’IA et comment vous lancer.

Qu’est-ce qu’une unité de traitement neuronal (NPU) ?