En utilisant Astra DB sur IBM watsonx.data comme base de données vectorielle et Langflow pour accélérer l’itération lors de la construction de systèmes RAG, Shorthills obtient une amélioration de 60 % en termes de rappel et de précision.
Les techniques modernes d’intelligence artificielle telles que la recherche sémantique et la génération augmentée de récupération (RAG) peuvent réduire le temps que les cabinets juridiques consacrent à la recherche de longs documents. Leur méthode consiste à identifier les sections conceptuellement pertinentes, à résumer les points essentiels et à fournir des citations vérifiables afin de valider les résultats.
Bien menée, cela permet de transformer la recherche juridique d’un workflow manuel « en dix onglets ouverts » en une expérience de recherche guidée et étayée par des preuves, sans pour autant sacrifier la rigueur requise par les équipes juridiques. Dans la recherche juridique, les utilisateurs n’ont pas seulement besoin d’une réponse ; ils ont besoin de la bonne réponse. Cette réponse doit être étayée par les autorités compétentes, les exceptions pertinentes et les passages exacts qu’elles peuvent citer, rapidement.
Dans cette optique, Shorthills AI, basée dans le New Jersey, a mis au point un cadre génératif d’agents d’IA sous la forme de chatbots optimisés pour un domaine spécifique, en utilisant le RAG et un graphique de connaissances. Ce cadre des exigences est alimenté par l’IA informations pour les secteurs juridiques, où la pertinence, l’exhaustivité et l’origine vérifiable comptent autant que la vitesse brute.
Les solutions IBM contribuent également à multiplier par 4 l’exhaustivité, c’est-à-dire la capacité des résultats à saisir les détails et les aspects de la requête de l’utilisateur. Ils sont également neuf fois plus diversifiés, c’est-à-dire qu’ils offrent aux utilisateurs plusieurs interprétations et angles de vue plutôt qu’une seule ligne de raisonnement. Cette fonctionnalité est critique pour préparer les arguments et les réfutations dans les workflows juridiques.
Les services juridiques qui passent au crible un jeu de données de centaines de milliers de documents juridiques ont besoin d’une récupération fiable, de plusieurs angles sur une question et de la possibilité de retracer les résultats jusqu’aux documents sources. Obtenir 70 % de la réponse peut comporter des risques importants, et les hallucinations sont inacceptables.
Le déploiement constitue une contrainte majeure pour de nombreux clients du secteur juridique. Certaines entreprises pourraient ne pas pouvoir partager des données sensibles dans des contenus juridiques avec des hyperscalers en raison de contraintes réglementaires, notamment l’exigence qu’une base de connaissances reste sur site, comme le contenu qui comprend des données personnelles (PII) ou des données de santé protégées (PHI).
Le système d’IA juridique de Shorthills se compose de deux pipelines :
Les fichiers sont importés dans un data lake, puis préparés pour que la récupération fonctionne de manière fiable à l’échelle :
Du côté des requêtes, Shorthills applique une philosophie pragmatique à son environnement de production : éviter de dépendre d’une seule méthode de recherche universelle.
Pour mettre en œuvre cette approche, le système inclut des routeurs qui envoient une requête à la recherche par mot-clé, vecteur ou graphique en fonction de l’intention de l’utilisateur. Chaque option comporte des compromis différents en termes de temps et de coûts.
Parmi les autres considérations critiques, citons :
Enfin, l’expérience va au-delà d’une simple interface de chat. Dans ce cas d’utilisation de recherche juridique, les utilisateurs peuvent récupérer plusieurs types de sources de données, notamment des documents Word, des images, des PDF et des fichiers texte.
L’une des principales raisons pour lesquelles Shorthills a choisi de créer cette plateforme d’assistant IA avec la pile d’IBM provient des réalités du déploiement en entreprise dans le monde juridique :
Ces processus devaient fonctionner dans le cadre de paramètres techniques pratiques : Les LLM sont gourmands en ressources informatiques et la mise à l’échelle sur site nécessite un temps d’exécution et un outil de déploiement adéquats pour être efficace.
En termes de résultats mesurables pour les utilisateurs finaux, Shorthills a rapporté ce qui suit :
L’impact est concret : rappel et précision améliorés, exhaustivité et diversité accrues et soutien de haute qualité aux citations. Les utilisateurs finaux passent ainsi moins de temps à rechercher du matériel et plus de temps à l’évaluer.
L’enseignement principal de Shorthills est que la recherche de solutions d’IA pour la production est un exercice d’ingénierie itératif. Passer d’une poignée de documents à des milliers (et plus) change le problème. En fin de compte, la « recherche » devient un parcours d’amélioration continue, évoluant à travers la recherche par mot-clé, vecteur, hybride et graphique, avec un routage minutieux pour que la latence et les coûts restent prévisibles.
En s’appuyant sur IBM watsonx.data et Langflow, Shorthills a mis en place un système de recherche piloté par l’IA pour les professionnels du droit, capable d’opérer à l’échelle de l’entreprise, de gérer les contraintes de l’entreprise, y compris les exigences sur site. Le système offre des gains de pertinence mesurables et fournit les citations et l’étendue des perspectives dont les utilisateurs finaux du droit ont besoin pour déterminer les résultats en toute confiance.
Des besoins clients et des exigences de gouvernance similaires existent dans tous les secteurs, par exemple la santé et les services financiers. L’évolutivité de l’infrastructure sous-jacente nous permet de déployer des solutions similaires dans de nombreux secteurs et dans le monde entier.
Dans une prochaine étape, Shorthills voit cette base de récupération s’étendant dans des workflows basés sur des agents. Dans ces workflows, un agent peut faire des recherches, rédiger et présenter des productions pour examen humain sans avoir à reconstruire à chaque fois les données sous-jacentes et la pile.