여러 그룹이 1990년대 후반과 2000년대 초반에 초기 형태의 CAPTCHA 기술을 동시에 개발했습니다. 각 그룹은 인터넷에서 불법적인 활동을 위해 봇을 사용하는 해커들의 광범위한 문제를 해결하기 위해 노력했습니다. 예를 들어, 검색 엔진 AltaVista에서 일하는 컴퓨터 과학자들은 봇이 회사의 링크 데이터베이스에 악성 웹 주소를 추가하는 것을 막고자 했습니다.

IT 회사인 Sanctum의 연구원들은 1997년에 최초의 CAPTCHA 스타일 시스템을 제출했습니다. 그러나 Luis von Ahn과 Manuel Blum이 이끄는 Carnegie Mellon University의 컴퓨터 과학 연구원 그룹이 2003년에 CAPTCHA라는 용어를 처음 도입했습니다. 이 팀은 수백만 개의 가짜 이메일 계정에 가입하는 스팸봇과 관련된 회사의 문제에 대해 이야기한 Yahoo 임원으로부터 이 기술에 대한 영감을 받았습니다.

Yahoo의 문제를 해결하기 위해 von Ahn과 Blum은 다음을 수행하는 컴퓨터 프로그램을 만들었습니다.

임의의 텍스트 문자열을 생성합니다. 해당 텍스트의 왜곡된 이미지('CAPTCHA 코드'라고 함)를 생성합니다. 사용자에게 이미지를 표시합니다. 사용자에게 양식 필드에 텍스트를 입력한 다음 '로봇이 아닙니다.'라는 문구 옆의 확인란을 클릭하여 항목을 제출하도록 요청합니다.

당시의 OCR 기술은 이렇게 왜곡된 텍스트를 해독하는 데 어려움을 겪었기 때문에 봇은 CAPTCHA 챌린지를 통과할 수 없었습니다. 사용자가 올바른 문자열을 입력하면 사용자가 사람이라고 확실하게 가정할 수 있으며 계정 등록 또는 웹 양식 제출을 완료할 수 있습니다.

Yahoo는 Carnegie Mellon의 기술을 구현하여 모든 사용자가 이메일 주소를 등록하기 전에 CAPTCHA 테스트를 통과하도록 요구했습니다. 이를 통해 스팸봇 활동이 크게 줄어들었고 다른 기업들도 웹 양식을 보호하기 위해 보안 문자를 채택하기 시작했습니다. 그러나 시간이 지남에 따라 해커는 완료된 CAPTCHA 챌린지의 데이터를 사용하여 CAPTCHA 테스트를 안정적으로 통과할 수 있는 알고리즘을 개발했습니다. 이는 CAPTCHA 개발자와 사이버 범죄자 간의 지속적인 경쟁의 시작을 의미했고, 이는 CAPTCHA 기능의 발전을 촉진했습니다.

reCAPTCHA v1

von Ahn이 2007년에 출시한 reCAPTCHA v1은 두 가지 목표를 가지고 있었습니다. 바로 텍스트 기반 CAPTCHA 챌린지를 봇이 해독하기 어렵게 만들고, 당시 인쇄된 텍스트를 디지털화하는 데 사용하던 OCR의 정확도를 개선하는 것이었습니다.

reCAPTCHA는 사용자에게 표시되는 텍스트의 왜곡을 증가시키고 결국 텍스트에 선을 추가함으로써 첫 번째 목표를 달성했습니다.

또한 무작위로 생성된 왜곡된 텍스트의 단일 이미지를 두 개의 다른 OCR 프로그램으로 실제 텍스트에서 스캔한 단어의 왜곡된 텍스트 이미지 두 개로 대체하여 두 번째 목표를 달성했습니다. 첫 번째 단어 또는 제어 단어는 두 OCR 프로그램 모두에서 올바르게 식별된 단어였습니다. 두 번째 단어는 두 OCR 프로그램이 모두 식별하지 못한 단어였습니다. 사용자가 제어 단어를 올바르게 식별한 경우 reCAPTCHA는 사용자가 사람이라고 가정하고 작업을 계속할 수 있도록 허용했으며, 사용자가 두 번째 단어를 올바르게 식별한 것으로 가정하고 향후 OCR 결과를 확인하는 데 응답을 사용했습니다.

이러한 방식으로 reCAPTCHA는 봇 방지 보안을 개선하고 Internet Archive와 New York Times에서 디지털화되는 텍스트의 정확성을 개선했습니다. 아이러니하게도 시간이 지나면서 2014년에는 가장 왜곡된 텍스트 CAPTCHA 99.8% 식별할 수 있을 정도로 인공 지능과 머신 러닝 알고리즘을 개선하는 데도 도움이 되었습니다.

2009년 Google은 reCAPTCHA를 인수하여 Google Books의 텍스트를 디지털화하는 데 사용하기 시작했으며 다른 조직에 서비스로 제공했습니다. 그러나 reCAPTCHA의 도움으로 OCR 기술이 발전함에 따라 텍스트 기반 reCAPTCHA를 효과적으로 해결할 수 있는 인공 지능 프로그램도 발전했습니다. 이에 대응하여 Google은 2012년에 이미지 인식 reCAPTCHA를 도입하여 왜곡된 텍스트를 Google 스트리트 뷰에서 가져온 이미지로 대체했습니다. 사용자는 가로등이나 택시와 같은 실제 물체를 식별하여 인간성을 입증했습니다. 이러한 이미지 기반 reCAPTCHA는 현재 봇이 배포하는 고급 OCR을 우회할 뿐만 아니라 모바일 앱 사용자에게 더 편리한 것으로 간주되었습니다.

Google reCAPTCHA v2: No CAPTCHA reCAPTCHA

2014년 Google은 텍스트 및 이미지 기반 챌린지를 '로봇이 아닙니다.'라는 간단한 확인란으로 대체한 reCAPTCHA v2를 출시했습니다. 사용자가 확인란을 선택하면 reCAPTCHA v2는 사용자와 웹페이지의 상호 작용을 분석하여 입력 속도, 쿠키, 디바이스 기록, IP 주소와 같은 요소를 평가하여 사용자가 사람일 가능성이 높은지 여부를 판단합니다. 이 확인란은 CAPTCHA 작동 방식의 일부이기도 합니다. no CAPTCHA reCAPTCHA는 사용자가 확인란을 클릭할 때 마우스의 움직임을 추적합니다. 사람의 움직임은 더 혼란스러운 경향이 있는 반면, 봇의 움직임은 더 정밀합니다. no CAPTCHA reCAPTCHA는 사용자가 봇일 가능성이 있다고 의심될 경우 이미지 기반 CAPTCHA 챌린지를 표시합니다.

reCAPTCHA v3

2018년에 출시된 reCAPTCHA v3는 확인란을 없애고 no CAPTCHA reCAPTCHA의 AI 기반 위험 분석을 확장했습니다. ReCAPTCHA v3는 JavaScript API를 통해 웹페이지와 통합되고 백그라운드에서 실행되며, 사용자의 행동을 0.0(봇일 가능성)부터 1.0(인간일 가능성)까지의 척도로 채점합니다. 웹사이트 소유자는 사용자의 점수가 봇일 수 있음을 시사하는 특정 순간에 트리거되도록 자동화된 작업을 설정할 수 있습니다. 예를 들어, 점수가 낮은 사용자의 블로그 댓글은 '제출'을 클릭하면 검토 대기열로 보내지거나 점수가 낮은 사용자가 계정에 로그인을 시도할 때 다단계 인증 프로세스를 완료하라는 메시지가 표시될 수 있습니다.

reCAPTCHA v3와 같은 AI 기반 인증 방법은 해커의 문제를 피하고자 합니다. CAPTCHA 인증 프로세스에서 대화형 챌린지를 제거함으로써 해커가 이전에 해결한 챌린지의 데이터를 사용하여 새로운 CAPTCHA를 해독하도록 봇을 학습시키는 것을 방지합니다. 이 때문에 전문가들은 AI 기반 CAPTCHA가 향후 5~10년 내에 챌린지 기반 CAPTCHA를 완전히 대체하는 표준이 될 것이라고 믿고 있습니다.