Tout le monde parle d’IA, mais peu se préparent à l’exigence d’exactitude et à l’industrialisation de l’IA. Prompter l’IA est rapide. Vérifier le résultat est beaucoup plus lent.

Et c’est là le nouveau goulet d’étranglement. Tout le monde court après la vitesse de l’IA. On ne peut pas automatiser quelque chose en quoi on n’a pas confiance. Et c’est encore plus vrai pour les agents.

L’intégration des modèles de langage de grande taille (LLMs) dans les systèmes d’entreprise révèle une fragilité préoccupante, malgré leur puissance. Aujourd’hui, l’interaction avec ces modèles ressemble souvent à celle avec un oracle capricieux : une variation minime d’un prompt peut produire un résultat totalement différent. Comme le souligne Ruchir Puri, Chief Scientist chez IBM Research : « Vous tapez quelque chose, et vous obtenez une réponse différente selon la formulation … c’est comme dans les premiers jours de la recherche »

Cette imprévisibilité, due à des hallucinations ou à une adhésion fluctuante aux instructions, rend leur adoption problématique pour les processus critiques et dans différentes industries où la fiabilité prime sur la créativité comme les banques, hôpitaux ou administrations.

Le vrai problème n’est pas seulement les hallucinations, mais bien que les modèles ne répondent pas de façon garantie et stable aux mêmes directives, ce qui va à l’encontre des principes de l’ingénierie logicielle. Il devient donc urgent de repenser notre approche, pour aller du prompt artisanal à une architecture maîtrisée, modulaire, fiable et maintenable.

Les prompts étaient une approche raisonnable pour construire de simples chatbots. Cependant, à mesure que la complexité et la sophistication des applications ont augmenté, les prompts sont devenus plus longs et plus complexes. Aujourd’hui, de nombreux agents reposent sur des prompts qui s’étendent sur plusieurs pages de texte soigneusement rédigé.

Enfin, les prompts volumineux sont également inefficaces. Et ici, c’est la double peine. Les prompts longs et non structurés nécessitent généralement un modèle plus grand pour interpréter correctement un langage libre et complexe. Et bien sûr, les prompts volumineux eux-mêmes demandent plus de puissance de calcul que les prompts plus courts. Ainsi, la combinaison d’un prompt long et d’un modèle de grande taille contraint vos agents à consommer beaucoup plus de ressources GPU coûteuses.

En passant du prompting à une véritable programmation, nous pouvons construire des agents d’IA d’entreprise plus efficients, sécurisés, portables et faciles à maintenir.