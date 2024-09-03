Si nous commençons à rencontrer des problèmes d’approvisionnement, que ce soit au niveau des données, de la puissance de calcul ou de la puissance, Chris Hay estime que les ingénieurs feront preuve de créativité pour surmonter ces obstacles.

« Quand on a quelque chose en abondance, on le consomme, explique-t-il. « Si vous avez des centaines de milliers de GPU à disposition, vous allez les utiliser. Mais quand on a des contraintes, on devient plus créatif. »

Par exemple, les données synthétiques constituent un moyen prometteur de faire face à la crise des données. Ces données sont créées de manière algorithmique afin d’imiter les caractéristiques des données réelles et peuvent servir d’alternative ou de complément à ces dernières. Bien que les ingénieurs en machine learning doivent veiller à ne pas surutiliser les données synthétiques, une approche hybride pourrait aider à pallier la pénurie de données du monde réel à court terme. Par exemple, les récents modèles Microsoft PHI-3.5 ou les modèles Hugging Face SMOL ont été entraînés à partir d’importantes quantités de données synthétiques, ce qui a permis de créer de petits modèles très performants.

Les LLM d’aujourd’hui sont gourmands en énergie, mais il n’y a pas de raison de croire que les transformers actuels constituent l’architecture finale. Les modèles basés sur des SSM, tels que Mistral Codestral Mamba, Jamba 1.5 ou Falcon Mamba 1.5, gagnent en popularité grâce à leurs capacités accrues en termes de longueur de contexte. Les architectures hybrides qui utilisent plusieurs types de modèles gagnent également du terrain. Au-delà de l’architecture, les ingénieurs trouvent de la valeur dans d’autres méthodes, telles que la quantification, les puces conçues spécifiquement pour l’inférence, et le réglage fin, une technique d’apprentissage profond qui implique l’adaptation d’un modèle pré-entraîné à des cas d’utilisation spécifiques.

« J’aimerais voir une communauté plus soudée autour du réglage fin au sein du secteur, plutôt qu'autour du pré-entraînement », déclare M. Hay. « L’entraînement initial est la partie la plus coûteuse du processus.» Le réglage fin est beaucoup moins cher, et vous pouvez potentiellement en tirer beaucoup plus de valeur. »

Hay suggère qu’à l’avenir, nous aurons peut-être plus de GPU que nous ne saurons quoi en faire, car nos techniques sont devenues bien plus efficaces. Il a récemment expérimenté la transformation d’un ordinateur portable personnel en une machine capable d’entraîner des modèles. En reconstruisant des pipelines de données plus efficaces et en ajustant le batching, il trouve des moyens de travailler dans les limites imposées. Il aurait pu naturellement faire tout cela sur un GPU H100 Tensor Core coûteux, mais une mentalité axée sur la rareté lui a permis de trouver des moyens plus efficaces d’obtenir les résultats souhaités. La nécessité est la mère de l’invention.