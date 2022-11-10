À la fin des années 1990 et au début des années 2000, plusieurs équipes ont travaillé en parallèle pour développer les premières formes de technologie CAPTCHA. Leur objectif commun était de lutter contre les activités malveillantes perpétrées par des bots sur Internet. Par exemple, les ingénieurs d'AltaVista souhaitaient empêcher les bots de soumettre des liens malveillants à la base de données du moteur de recherche.

Les premiers systèmes CAPTCHA ont été déposés par la société Sanctum en 1997. Toutefois, le terme CAPTCHA a été introduit en 2003 par un groupe de chercheurs en informatique de l'université Carnegie Mellon, dirigé par Luis von Ahn et Manuel Blum. Cette équipe a été incitée à travailler sur cette technologie par un cadre de Yahoo qui avait fait un exposé sur les problèmes rencontrés par l'entreprise avec les spambots qui s'inscrivaient à des millions de faux comptes de courrier électronique.

Pour résoudre le problème de Yahoo, von Ahn et Blum ont créé un programme informatique qui :

Génère une chaîne de texte aléatoire ; Crée une image déformée de ce texte (appelée « code CAPTCHA ») ; Présente cette image à l'utilisateur ; Demande à l'utilisateur de saisir le texte dans un champ, puis de valider en cochant la case « Je ne suis pas un robot ».

À l'époque, la technologie OCR avait du mal à interpréter ces textes déformés, rendant les bots incapables de résoudre le défi. Si l'utilisateur saisissait correctement la chaîne de caractères, il était alors identifié comme humain et pouvait compléter son inscription ou soumettre un formulaire.

Yahoo a adopté la technologie de l'université Carnegie Mellon pour protéger l'enregistrement des comptes e-mail, réduisant ainsi considérablement les activités des spambots. D'autres entreprises ont rapidement suivi le mouvement pour protéger leurs formulaires web. Cependant, avec le temps, les pirates informatiques ont commencé à développer des algorithmes capables de résoudre les CAPTCHA de manière fiable en exploitant les données des tests réussis. Cela a lancé une véritable course entre les développeurs de CAPTCHA et les cybercriminels, alimentant ainsi l'évolution continue des fonctionnalités des CAPTCHA.

reCAPTCHA v1

Lancé par Luis von Ahn en 2007, reCAPTCHA v1 avait deux objectifs principaux : rendre les CAPTCHA textuels plus difficiles à contourner pour les bots et améliorer la précision de la reconnaissance optique de caractères (OCR) utilisée à l'époque pour numériser des textes imprimés.

Pour atteindre le premier objectif, reCAPTCHA augmentait la distorsion du texte affiché à l'utilisateur, et ajoutait parfois des lignes à travers les caractères.

Le second objectif était atteint en remplaçant une simple image de texte déformé par deux images de mots numérisés à partir de véritables textes, analysés par deux programmes OCR distincts. Le premier mot, ou mot de contrôle, était correctement identifié par les deux programmes. Le second mot, en revanche, était celui que les deux programmes avaient échoué à reconnaître. Si l'utilisateur identifiait correctement le mot de contrôle, reCAPTCHA supposait qu'il s'agissait d'un humain et lui permettait de poursuivre son activité. En outre, il considérait que l'utilisateur avait également identifié correctement le second mot, et la réponse était utilisée pour affiner les futurs résultats de l'OCR.

Ainsi, reCAPTCHA améliorait à la fois la sécurité contre les bots et la précision des textes numérisés pour des archives comme celles de l'Internet Archive et du New York Times. Ironiquement, cette technologie a également contribué à l'amélioration des algorithmes d'intelligence artificielle et de machine learning, au point qu'en 2014, ces derniers pouvaient identifier les CAPTCHA les plus déformés dans 99,8 % des cas.

En 2009, Google a acquis reCAPTCHA et l'a utilisé pour numériser des textes pour Google Books, tout en offrant cette technologie à d'autres organisations. Cependant, à mesure que la technologie OCR progressait, les algorithmes d'intelligence artificielle capables de résoudre efficacement les CAPTCHA textuels se perfectionnaient également. En réponse, Google a introduit en 2012 des CAPTCHA basés sur la reconnaissance d'images, remplaçant le texte déformé par des images issues de Google Street View. Les utilisateurs prouvaient leur humanité en identifiant des objets du monde réel, tels que des lampadaires ou des taxis. En plus de contourner les avancées des bots en OCR, ces reCAPTCHA basés sur des images étaient plus pratiques pour les utilisateurs mobiles.

reCAPTCHA v2 de Google : Le reCAPTCHA sans CAPTCHA

En 2014, Google a lancé reCAPTCHA v2, qui remplaçait les défis textuels et visuels par une simple case à cocher « Je ne suis pas un robot ». Lorsqu'un utilisateur coche cette case, reCAPTCHA v2 analyse ses interactions avec la page web, évaluant des facteurs comme la vitesse de frappe, les cookies, l'historique de l'appareil et l'adresse IP pour déterminer si l'utilisateur est probablement un humain. Le mouvement de la souris lors du clic sur la case fait également partie de l'analyse : les mouvements humains sont plus chaotiques, tandis que ceux des bots sont plus réguliers et précis. Si reCAPTCHA v2 soupçonne qu'un utilisateur est un bot, il présente un défi basé sur des images.

reCAPTCHA v3

Lancé en 2018, reCAPTCHA v3 abandonne la case à cocher et renforce l'analyse des risques pilotée parr l'IA introduite par reCAPTCHA v2. Ce système s'intègre aux pages web via une API JavaScript et fonctionne en arrière-plan, en évaluant le comportement des utilisateurs sur une échelle de 0,0 (probablement un bot) à 1,0 (probablement un humain). Les administrateurs de sites peuvent configurer des actions automatisées pour les utilisateurs ayant un score bas. Par exemple, les commentaires d'utilisateurs à faible score peuvent être soumis à une modération avant publication, ou ces utilisateurs peuvent être invités à passer par une authentification à étapes avant de se connecter à un compte.

Les méthodes d'authentification basées sur l'IA, comme reCAPTCHA v3, cherchent à contourner le problème des pirates informatiques. En supprimant les défis interactifs du processus de vérification CAPTCHA, elles empêchent les pirates d'utiliser les données des défis précédemment résolus pour entraîner des bots à décrypter de nouveaux CAPTCHA. C'est pourquoi les experts pensent que les CAPTCHA basés sur l'IA pourraient devenir la norme et remplacer complètement les CAPTCHA basés sur les défis au cours des cinq à dix prochaines années.