CAPTCHA son las siglas en inglés de "prueba de Turing pública completamente automatizada* para diferenciar a los ordenadores de los humanos". Hace referencia a varios métodos de autenticación que validan a los usuarios como humanos, no como bots, mediante la presentación de un reto sencillo para los humanos pero difícil para las máquinas.
Los CAPTCHA evitan que los estafadores y spammers utilicen bots para completar formularios web con fines maliciosos.
Los CAPTCHA tradicionales requerían que los usuarios leyeran y reescribieran correctamente texto distorsionado que no podía ser interpretado por la tecnología de reconocimiento óptico de caracteres (OCR). Las nuevas versiones de la tecnología CAPTCHA utilizan análisis de comportamiento y riesgo basados en IA para autenticar a los usuarios humanos en función de patrones de actividad y no de una única tarea.
Muchos sitios web requieren que los usuarios completen un desafío CAPTCHA antes de iniciar sesión en un perfil de cuenta, enviar un formulario de registro, publicar un comentario o realizar alguna otra acción que los piratas informáticos podrían usar un bot para realizar. Al aceptar el desafío, los usuarios confirman que son humanos y luego se les permite continuar su actividad en el sitio web.
* Un test de Turing, llamado así por su creador Alan Turing, pone a prueba la capacidad de una máquina para exhibir inteligencia humana.
Varios grupos diferentes desarrollaron las primeras formas de tecnología CAPTCHA en paralelo a finales de la década de 1990 y principios de la década de 2000. Cada grupo trabajó para combatir el problema generalizado de los piratas informáticos que utilizan bots para realizar actividades nefastas en Internet. Por ejemplo, los científicos informáticos que trabajaban para el motor de búsqueda AltaVista querían impedir que los bots añadieran direcciones web maliciosas a la base de datos de enlaces de la empresa.
Los investigadores de la empresa informática Sanctum presentaron el primer sistema del estilo CAPTCHA en 1997. Sin embargo, un grupo de investigadores informáticos de la Universidad Carnegie Mellon dirigido por Luis von Ahn y Manuel Blum introdujo por primera vez el término CAPTCHA en 2003. Este equipo se inspiró para trabajar en la tecnología en un ejecutivo de Yahoo que dio una charla sobre los problemas de la empresa con los robots de spam que se inscribían en millones de cuentas de correo electrónico falsas.
Para resolver el problema de Yahoo, von Ahn y Blum crearon un programa informático que:
Como la tecnología OCR de la época tenía dificultades para descifrar un texto tan distorsionado, los bots no podían superar el desafío de CAPTCHA. Si un usuario introduce la cadena de caracteres correcta, se puede suponer de forma fiable que es un humano y se le permite completar el registro de su cuenta o el envío de un formulario web.
Yahoo implementó la tecnología de Carnegie Mellon y exigía que todos los usuarios pasaran una prueba de CAPTCHA antes de registrarse para obtener una dirección de correo electrónico. Esto redujo significativamente la actividad de los spambots, y otras empresas procedieron a adoptar CAPTCHAs para proteger sus formularios web. Sin embargo, con el tiempo, los hackers utilizaron los datos de los desafíos CAPTCHA completados para desarrollar algoritmos capaces de superar las pruebas CAPTCHA de forma fiable. Esto marcó el inicio de una carrera armamentista continua entre los desarrolladores de CAPTCHA y los ciberdelincuentes, que ha impulsado la evolución de la funcionalidad de los CAPTCHA.
reCAPTCHA v1
Lanzado por von Ahn en 2007, reCAPTCHA v1 tenía un doble objetivo: hacer que el desafío CAPTCHA basado en texto fuera más difícil de descifrar para los bots y mejorar la precisión del OCR que se utilizaba en ese momento para digitalizar textos impresos.
reCAPTCHA logró el primer objetivo al aumentar la distorsión del texto que se muestra al usuario y, finalmente, agregar líneas a través del texto.
Consiguió el segundo objetivo sustituyendo una sola imagen de texto distorsionado generada aleatoriamente por dos imágenes de texto distorsionado de palabras escaneadas a partir de textos reales por dos programas OCR diferentes. La primera palabra, o palabra de control, fue una palabra identificada correctamente por ambos programas de OCR. La segunda palabra fue una palabra que ninguno de los dos programas de OCR logró identificar. Si el usuario identificó correctamente la palabra de control, reCAPTCHA asumió que el usuario era humano y le permitió continuar con su tarea, y también asumió que el usuario identificó la segunda palabra correctamente y usó la respuesta para verificar futuros resultados de OCR.
De esta manera, reCAPTCHA mejoró la seguridad antibots y mejoró la precisión de los textos que se digitalizaban en Internet Archive y el New York Times. Irónicamente, con el tiempo también ayudó a mejorar los algoritmos de inteligencia artificial y machine learning hasta el punto de que, en 2014, podían identificar los CAPTCHA de texto más distorsionados el 99,8 % de las veces.
En 2009, Google adquirió reCAPTCHA y comenzó a usarlo para digitalizar textos para Google Books, al tiempo que lo ofrecía como servicio a otras organizaciones. Sin embargo, a medida que la tecnología OCR progresó con la ayuda de reCAPTCHA, también lo hicieron los programas de inteligencia artificial que podían resolver eficazmente los reCAPTCHA basados en texto. En respuesta, Google introdujo los reCAPTCHA de reconocimiento de imágenes en 2012, que reemplazaron el texto distorsionado con imágenes tomadas de Google Street View. Los usuarios demostraron su humanidad identificando objetos del mundo real como farolas y taxis. Además de eludir el OCR avanzado que ahora implementan los bots, estos reCAPTCHA basados en imágenes se consideraron más convenientes para los usuarios de aplicaciones móviles.
Google reCAPTCHA v2: No CAPTCHA reCAPTCHA
En 2014, Google lanzó reCAPTCHA v2, que reemplazó los desafíos basados en texto e imágenes con una simple casilla de verificación que decía "No soy un robot". A medida que los usuarios marcan la casilla, reCAPTCHA v2 analiza las interacciones del usuario con las páginas web, evaluando factores como la velocidad de escritura, las cookies, el historial del dispositivo y la dirección IP para determinar si es probable que el usuario sea humano. La casilla de verificación también forma parte del funcionamiento del CAPTCHA: no CAPTCHA reCAPTCHA rastrea los movimientos del ratón del usuario al hacer clic en la casilla. Los movimientos de un humano tienden a ser más caóticos, mientras que los movimientos de los bots son más precisos. Si no CAPTCHA reCAPTCHA sospecha que un usuario puede ser un bot, le presenta un desafío CAPTCHA basado en una imagen.
reCAPTCHA v3
reCAPTCHA v3, que se estrenó en 2018, elimina la casilla de verificación y amplía el análisis de riesgos impulsado por la IA de no tener CAPTCHA reCAPTCHA. ReCAPTCHA v3 se integra con una página web a través de la API de JavaScript y se ejecuta en segundo plano, calificando el comportamiento de un usuario en una escala de 0,0 (probablemente un bot) a 1,0 (probablemente un humano). Los propietarios de sitios web pueden configurar acciones automatizadas para que se activen en ciertos momentos cuando la puntuación de un usuario sugiera que puede ser un bot. Por ejemplo, los comentarios de blog de los usuarios con puntuaciones bajas pueden enviarse a una cola de moderación cuando hacen clic en "enviar", o se puede pedir a los usuarios con puntuaciones bajas que completen un proceso de autenticación multifactor cuando intentan iniciar sesión en una cuenta.
Los métodos de autenticación basados en IA, como reCAPTCHA v3, buscan eludir el problema de los hackers.. Al eliminar los desafíos interactivos del proceso de verificación de CAPTCHA, evitan que los hackers utilicen los datos de los desafíos resueltos anteriormente para entrenar a los bots para descifrar nuevos CAPTCHA. Por esto, los expertos creen que los CAPTCHA basados en IA pueden convertirse en la norma, reemplazando por completo a los CAPTCHA basados en desafíos en los próximos cinco a diez años.
La tecnología CAPTCHA tiene varios usos comunes como medida de detección y prevención de bots, entre ellos:
Prevención de registros falsos
Al presentar a los usuarios una prueba de CAPTCHA antes de registrarse para obtener una cuenta de correo electrónico, un perfil de redes sociales u otros servicios en línea, las empresas pueden bloquear los bots que utilizan estos servicios para propagar spam o malware o realizar actividades maliciosas. Los primeros en adoptar CAPTCHA fueron empresas como Yahoo, Microsoft y AOL, que querían impedir que los bots se registraran en cuentas de correo electrónico falsas.
Protección contra transacciones sospechosas
Empresas como Ticketmaster han utilizado CAPTCHA para evitar que los bots compren productos limitados, por ejemplo, entradas para conciertos, y los revendan en mercados secundarios.
Protección de la integridad de las encuestas en línea
Los robots pueden poner en peligro las encuestas en línea sin un elemento disuasorio como CAPTCHA. La necesidad de proteger la integridad de los resultados de las encuestas en línea motivó algunos de los primeros experimentos con tecnología similar a CAPTCHA. Por ejemplo, para garantizar la calidad de sus encuestas de opinión en línea durante las elecciones presidenciales de Estados Unidos de 1996, Digital Equipment Corporation pidió a los usuarios que localizaran y hicieran clic en una imagen pixelada de una bandera en la página web antes de emitir su voto.
Detención del spam de comentarios y reseñas de productos
Los estafadores y los ciberdelincuentes suelen utilizar las secciones de comentarios de blogs y artículos para propagar estafas y malware. También pueden participar en el spam de reseñas, en el que publican un gran número de reseñas falsas para aumentar artificialmente la clasificación de un producto en un sitio web de comercio electrónico o motor de búsqueda. Los bots también pueden utilizar secciones de comentarios no protegidas para llevar a cabo campañas de acoso. Estas actividades maliciosas pueden mitigarse pidiendo a los usuarios que completen un CAPTCHA antes de publicar un comentario o una reseña.
Defensa contra ataques de fuerza bruta y de diccionario
En los ataques de fuerza bruta y diccionario, los hackers acceden a una cuenta utilizando bots para adivinar combinaciones de números, letras y caracteres especiales hasta dar con la contraseña correcta. Estos ataques se pueden detener exigiendo a los usuarios que completen un CAPTCHA después de un cierto número de intentos fallidos de inicio de sesión.
Aunque la tecnología CAPTCHA ha demostrado en general su eficacia para detener los robots, no está exenta de desventajas, entre ellas:
Experiencias de usuario incómodas
Los desafíos CAPTCHA añaden un paso adicional a los procesos de registro, inicio de sesión y cumplimentación de formularios que a algunas personas les resulta molesto. Además, a medida que ha aumentado la complejidad de los CAPTCHA para derrotar a los robots más sofisticados, la resolución de los CAPTCHA también se ha vuelto frustrante para los usuarios. En un estudio de 2010, cuando los investigadores de la Universidad de Stanford pidieron a grupos de tres personas que resolvieran los mismos CAPTCHA, los participantes coincidieron unánimemente en la solución del CAPTCHA sólo el 71 % de las veces (enlace externo a ibm.com). El estudio también descubrió que a los hablantes no nativos de inglés les cuesta más resolver los CAPTCHA que a los hablantes nativos, lo que sugiere que los CAPTCHA podrían ser más desafiantes para algunos grupos demográficos que para otros.
Desafíos de accesibilidad
Los CAPTCHA de texto e imagen pueden resultar extremadamente difíciles o imposibles de resolver para los usuarios con discapacidad visual. Esto se ve agravado por el hecho de que los lectores de pantalla no pueden leer la mayoría de los desafíos de CAPTCHA porque estas pruebas están diseñadas para ser ilegibles para las máquinas.
Las formas alternativas de CAPTCHA han intentado abordar este problema, pero tienen sus propias limitaciones. Los CAPTCHA de audio, que requieren que los usuarios descifren un audio confuso, son muy difíciles de resolver. El mencionado estudio de Stanford reveló que los usuarios están de acuerdo unánimemente en las soluciones CAPTCHA de audio solo el 31 % de las veces.
MAPTCHA, un tipo de CAPTCHA que requiere que los usuarios resuelvan problemas matemáticos simples, es altamente vulnerable a ser descifrado por algoritmos.
El uso de CAPTCHA inaccesibles también puede tener repercusiones legales. La enmienda de la Sección 508 a la Ley de Rehabilitación de 1973, introducida en 1998, obliga a los organismos federales estadounidenses y a sus socios del sector privado a hacer accesible la información digital a las personas con discapacidad. Las empresas pueden infringir este requisito si no tienen opciones de CAPTCHA accesibles.
Tasas de conversión reducidas
La experiencia de usuario inconveniente y la inaccesibilidad de los CAPTCHA pueden influir negativamente en las tasas de conversión. En un caso de éxito de 2009 de 50 sitios web, pedir a los usuarios que rellenen un CAPTCHA redujo las conversiones legítimas en un 3,2% (enlace externo a ibm.com). Los CAPTCHA de audio pueden ser especialmente perjudiciales: el estudio de Stanford mencionado anteriormente descubrió que los usuarios dejan de resolver los CAPTCHA basados en el sonido el 50 % de las veces.
La capacidad de la IA de los bots para derrotar a los nuevos CAPTCHA
Los esquemas de CAPTCHA han cambiado muchas veces desde la creación de la tecnología, porque los bots han evolucionado de forma constante para superar cada nuevo desafío de CAPTCHA. La propia estructura de la tecnología CAPTCHA contribuye a este problema, porque los CAPTCHA se basan en problemas de IA sin resolver para frustrar a los bots. Cuando los humanos resuelven los desafíos del CAPTCHA, generan conjuntos de datos que pueden entrenar los algoritmos de machine learning para superar estos problemas de IA que antes eran imposibles. Por ejemplo, en 2016, el investigador informático Jason Polakis utilizó la búsqueda inversa de imágenes de Google para resolver los CAPTCHA basados en imágenes de Google con un 70 %.
Problemas de privacidad
Aunque las nuevas formas de CAPTCHA intentan resolver los problemas de accesibilidad y frenar la carrera armamentística de los bots eliminando por completo los desafíos interactivos, algunos usuarios e investigadores consideran que los CAPTCHA basados en IA son invasivos. La gente ha expresado su preocupación por la forma en la que reCAPTCHA v3 utiliza códigos y cookies para rastrear a los usuarios en varios sitios web. Algunos consideran que no hay suficiente transparencia sobre cómo pueden utilizarse estos datos de seguimiento para fines que van más allá de la verificación.
