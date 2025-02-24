La course aux puces électroniques dans la Silicon Valley a commencé bien avant que les applications d’IA générative ne stimulent l’appétit des entreprises technologiques pour celles-ci. En 2015, le système d’IA AlphaGo de Google, alimenté par une puce conçue par Google appelée unité de traitement tensoriel (TPU), a battu un joueur professionnel humain au jeu chinois ancestral de go. Depuis, Google a dévoilé une série de puces conçues en interne pour alimenter les systèmes d’IA de ses centres de données. Plus récemment, en décembre 2024, Google a annoncé une nouvelle puce d’IA pour l’informatique quantique, baptisée Willow. Selon l’entreprise, Willow peut effectuer un calcul de référence standard en moins de 5 minutes, alors qu’il faudrait 10 septillions, soit 1025 années, à l’un des supercalculateurs les plus rapides actuels pour y parvenir.

À peu près au moment où Google lançait AlphaGo, les chercheurs d’IBM ont également commencé à s’intéresser à la construction de matériel d’IA. En 2021, IBM a ouvert son centre de matériel d’IA à Albany, dans l’État de New York, afin de créer un écosystème matériel-logiciel IA plus large. En 2022, la nouvelle puce microprocesseur Telum d’IBM a permis d’intégrer l’inférence IA à IBM Z, les mainframes qui traitent environ 70 % des transactions mondiales en valeur. Fin 2024, IBM a annoncé une nouvelle puce d’accélération Spyre, qui a apporté l’IA générative aux mainframes IBM Z pour les utilisateurs professionnels.

Parallèlement, AWS travaille sur ses propres puces informatiques pour des projets d’IA depuis au moins 2018. Avance rapide jusqu’à l’événement annuel 2024 d’AWS, où Amazon a annoncé sa dernière puce d’IA personnalisée Trainium3, qu’elle propose à ses clients en association avec les grands modèles de langage de son partenaire Anthropic. De nombreuses entreprises se sont précipitées sur les puces d’IA d’AWS, notamment Apple, qui a attiré l’attention lors de l’AWS 2024, car c’était l’un des rares moments où Apple a évoqué l’un de ses fournisseurs.

Pour ne pas être en reste, Microsoft, qui fabrique depuis des années des puces pour alimenter ses fonctions de jeu, a annoncé ses propres puces d’IA personnalisées en 2023, à peu près au moment où le géant technologique Meta a annoncé ses propres projets de puces en silicium. OpenAI est le dernier à rejoindre le groupe des fabricants de puces personnalisées, bien qu’il n’ait encore fait aucune annonce officielle. Si aucun détail n’ait été rendu public, Reuters a rapporté au début du mois qu’OpenAI finalisait la conception de ses puces et prévoyait de commencer à les fabriquer via TSMC en 2025.

Pourquoi la course aux puces s’est-elle intensifiée récemment ? Selon M. Varshney d’IBM, lorsque les entreprises peuvent personnaliser des puces en fonction de modèles de langage spécifiques pour les cas d’utilisation dont elles ont besoin, elles peuvent réduire leurs coûts, améliorer la latence ou accélérer le transfert de données d’un réseau à un autre. Il cite un exemple : historiquement, lorsque les entreprises détectaient les fraudes et examinaient les factures entrantes, elles utilisaient des techniques informatiques classiques car le volume était élevé et elles avaient besoin d’une latence très rapide. « Elles devaient également le faire un million de fois par jour, ce qui entraînait une augmentation très rapide des coûts », explique M. Varshney.

Maintenant que les entreprises peuvent optimiser leurs puces pour des modèles spécifiques, le coût des cas d’utilisation à haut volume diminue et il devient plus rentable d’employer ces solutions dans la production à grande échelle. « Du point de vue de l’entreprise, les cas d’utilisation ne changent pas, explique M. Varshney. Mais nous commençons désormais à nous intéresser aux cas à volume élevé pour lesquels le retour sur investissement était auparavant inexistant. »