Tout le monde parle d’IA, mais peu se préparent à l’exigence d’exactitude et à l’industrialisation de l’IA. Prompter l’IA est rapide. Vérifier le résultat est beaucoup plus lent.
Et c’est là le nouveau goulet d’étranglement. Tout le monde court après la vitesse de l’IA. On ne peut pas automatiser quelque chose en quoi on n’a pas confiance. Et c’est encore plus vrai pour les agents.
L’intégration des modèles de langage de grande taille (LLMs) dans les systèmes d’entreprise révèle une fragilité préoccupante, malgré leur puissance. Aujourd’hui, l’interaction avec ces modèles ressemble souvent à celle avec un oracle capricieux : une variation minime d’un prompt peut produire un résultat totalement différent. Comme le souligne Ruchir Puri, Chief Scientist chez IBM Research : « Vous tapez quelque chose, et vous obtenez une réponse différente selon la formulation … c’est comme dans les premiers jours de la recherche »
Cette imprévisibilité, due à des hallucinations ou à une adhésion fluctuante aux instructions, rend leur adoption problématique pour les processus critiques et dans différentes industries où la fiabilité prime sur la créativité comme les banques, hôpitaux ou administrations.
Le vrai problème n’est pas seulement les hallucinations, mais bien que les modèles ne répondent pas de façon garantie et stable aux mêmes directives, ce qui va à l’encontre des principes de l’ingénierie logicielle. Il devient donc urgent de repenser notre approche, pour aller du prompt artisanal à une architecture maîtrisée, modulaire, fiable et maintenable.
Les prompts étaient une approche raisonnable pour construire de simples chatbots. Cependant, à mesure que la complexité et la sophistication des applications ont augmenté, les prompts sont devenus plus longs et plus complexes. Aujourd’hui, de nombreux agents reposent sur des prompts qui s’étendent sur plusieurs pages de texte soigneusement rédigé.
Enfin, les prompts volumineux sont également inefficaces. Et ici, c’est la double peine. Les prompts longs et non structurés nécessitent généralement un modèle plus grand pour interpréter correctement un langage libre et complexe. Et bien sûr, les prompts volumineux eux-mêmes demandent plus de puissance de calcul que les prompts plus courts. Ainsi, la combinaison d’un prompt long et d’un modèle de grande taille contraint vos agents à consommer beaucoup plus de ressources GPU coûteuses.
En passant du prompting à une véritable programmation, nous pouvons construire des agents d’IA d’entreprise plus efficients, sécurisés, portables et faciles à maintenir.
C’est dans ce contexte qu’IBM a introduit à Think 2025 le concept de Generative Computing — soit une nouvelle façon de considérer les LLMs, non plus comme des entités mystérieuses et incontrôlables, mais comme des composants programmables, à intégrer dans les architectures logicielles de manière modulaire et rigoureuse.
David Cox, directeur à IBM Research, est à l’avant-garde de cette vision. Il insiste sur le fait que les LLMs ne remplacent pas la programmation, mais deviennent une nouvelle primitive de programmation. Autrement dit, on ne remplace pas le code par des prompts, mais on développe les prompts comme des structures logicielles maintenables. L’objectif est clair : passer d’une interaction intuitive avec l’IA à une conception architecturée, où chaque composant basé sur un modèle est identifiable, testable et réutilisable.
Cette discipline naissante vise donc à réingénier les systèmes pour intégrer l’IA de façon contrôlée, écartant toute approche ésotérique au profit de méthodes disciplinées, dignes de l’ingénierie logicielle traditionnelle.
IBM ne se contente pas de proposer un concept abstrait : le projet Mellea matérialise le Generative Computing en fournissant une bibliothèque open-source, conçue pour écrire des programmes génératifs structurés, robustes et maintenables.
Le projet Mellea permet aux développeurs de :
Le projet reflète ainsi une transition du bricolage (prompt engineering) vers une programmation déclarative des interactions LLM, où les prompts deviennent du code : traçable, testable, versionnable.
Dans le code ci-dessous, vous pouvez voir au travers de la bibliothèque Mellea une simple application de génération d’email paramétrisé, avec des contraintes et un mécanisme de validation (LLM-as-judge).
Imaginez ce que vous auriez dû écrire pour cette simple application sans l’abstraction de la bibliothèque.
Que perdez-vous à ne pas traiter les LLMs au travers du prisme du generative Computing :
1 Limites d’abstraction
· Les consignes données à un modèle (prompts) ne fonctionnent pas forcément avec un autre modèle, ni même avec une nouvelle version du même modèle.
· Il est difficile de regrouper et stabiliser une fonction pour la réutiliser.
2 Possibilités de combinaison et de réutilisation
· Les « agents » ressemblent à des petits services qu’on peut assembler, mais ça reste limité.
· Les bibliothèques de prompts sont lourdes et compliquées, et il est presque impossible de les utiliser de manière flexible.
3 Prévisibilité et fiabilité
· Le comportement des modèles est en partie aléatoire.
· Ils ne suivent pas toujours les instructions comme on le voudrait.
4 Contrôle et maintenabilité
· Quelles étapes faut-il vraiment suivre pour obtenir le résultat souhaité ?
· Est-il réaliste d’entretenir un prompt qui fait la taille d’un essai de 10 000 mots ?
Ce virage vers une génération structurée pourrait bien transformer la manière dont les entreprises adoptent et industrialisent l’intelligence générative. Derrière l’impression d’imprévisibilité actuelle se dessine une discipline cohérente, prête à faire des LLMs des composants de confiance dans vos systèmes logiciels.
Sources :
Towards a generative future for computing : https://research.ibm.com/blog/generative-computing-mellea
The future is programmable: How generative computing could reinvent software : https://www.ibm.com/fr-fr/think/news/how-generative-computing-reinvent-software
Bibliothèque Mellea : https://github.com/generative-computing/mellea
