Un modèle plus grand n’est pas forcément plus efficace, et la petite taille des SLM est compensée par les avantages suivants :
Accessibilité : les chercheurs, les développeurs d’IA et d’autres utilisateurs peuvent explorer et expérimenter des modèles de langage sans avoir à investir dans une multitude de GPU (unités de traitement graphique) ou dans d’autres équipements spécialisés.
Efficacité : la légèreté des SLM les rend moins gourmands en ressources, pour un entraînement et un déploiement rapides.
Performance efficace : cette efficacité ne se fait pas au détriment de la performance. Les petits modèles peuvent présenter des performances comparables, voire supérieures, à celles de leurs équivalents de grande taille. Par exemple, GPT-4o mini surpasse GPT-3.5 Turbo en termes de compréhension du langage, de réponse aux questions, de raisonnement de bon sens, de raisonnement mathématique et de génération de code dans les benchmarks de LLM10. Les performances de GPT-4o mini sont également proches de celles de son grand frère GPT-4o10.
Contrôle accru de la confidentialité et de la sécurité : en raison de leur taille réduite, les SLM peuvent être déployés dans des environnements de cloud computing privé ou sur site, pour une protection des données, une gestion et une atténuation des menaces de cybersécurité améliorées. Cela peut s’avérer particulièrement utile dans des secteurs comme la finance ou la santé, où la confidentialité et la sécurité sont primordiales.
Latence réduite : la réduction du nombre de paramètres se traduit par une réduction des temps de traitement, permettant aux SLM de répondre plus rapidement. Par exemple, Granite 3.0 1B-A400M et Granite 3.0 3B-A800M contiennent au total 1 milliard et 3 milliards de paramètres respectivement, mais au moment de l’inférence, le modèle 1B compte 400 millions de paramètres actifs et le modèle 3B 800 millions. Cela permet à ces deux SLM de minimiser la latence tout en offrant des performances d’inférence élevées.
Meilleure durabilité environnementale : parce qu’ils nécessitent moins de ressources, les petits modèles linguistiques consomment moins d’énergie, ce qui réduit leur empreinte carbone.
Coûts réduits : les organisations peuvent économiser sur les dépenses de développement, d’infrastructure et d’exploitation (acquisition d’énormes quantités de données d’apprentissage de haute qualité et utilisation de matériel avancé par exemple), qui seraient nécessaires pour exécuter des modèles massifs.