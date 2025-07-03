우리가 아는 인터넷은 AI 시대에 살아남을 수 있을까요? Cloudflare는 적어도 콘텐츠 제작자 보호에 관해서는 가능하다고 믿습니다. 웹의 20%에 대한 트래픽을 관리하고 보호하도록 돕는 이 거대 기술 기업은 보상이나 허가 없이 사이트를 스크랩하는 AI 크롤러를 차단하는 최초의 인터넷 인프라 제공업체가 될 것이라고 발표했습니다.
The Atlantic, Fortune, TIME, Associated Press와 같은 미디어 대기업과 Pinterest 및 Reddit과 같은 기술 회사에서 환영한 이 움직임은 '크롤링당 지불' 마켓플레이스를 구축하기 위한 첫 번째 단계라고 Cloudflare의 공동 설립자 겸 CEO Matthew Prince는 기고문에서 밝혔습니다.
그는 "Cloudflare는 대다수의 세계 유수의 퍼블리셔 및 AI 기업과 함께 크리에이터에게 콘텐츠 대가를 지불하지 않으면 AI 크롤러를 차단하도록 기본값을 변경하고 있습니다."라며, "이러한 콘텐츠는 AI 엔진을 구동하는 연료이므로 콘텐츠 제작자가 직접 보상을 받는 것이 공정합니다."라고 언급했습니다.
"하지만 이것은 시작에 불과합니다. 다음 단계로는 콘텐츠 크리에이터와 크고 작은 AI 기업이 함께할 수 있는 마켓플레이스를 만들기 위해 노력할 것입니다. 트래픽은 항상 그랬듯이 가치의 척도로서 가치가 떨어지며, 우리는 더 잘할 수 있다고 생각합니다."
Anthropic, OpenAI, Meta, Perplexity가 지원하는 생성형 AI와 AI 검색의 등장으로 웹에는 봇 스크래퍼라는 새로운 유형의 방문자가 생겨나고 있습니다. 이러한 변화는 저널리즘으로 수익을 창출하기 위해 추천 트래픽에 의존하는 뉴스 게시자뿐만 아니라 콘텐츠 제작자와 대규모 기술 플랫폼에도 영향을 미칩니다. 최근에는 Reddit이 Anthropic을 상대로 Anthropic의 봇들이 Reddit의 콘텐츠를 스크래핑한다고 주장하며 소송을 제기했으나, Anthropic은 이를 부인한 사례도 있었습니다.
Cloudflare의 AI 제어, 개인정보 보호 및 미디어 제품 책임자인 Will Allen은 IBM Think와의 인터뷰에서 "기술 기업도 AI 크롤러의 영향을 받습니다."라고 말했습니다. "Pinterest, Quora 및 Reddit은 ProRata AI 및 Hyperscience와 같은 AI 분야의 회사들과 함께 AI 크롤러에 대한 권한 기반 접근 방식을 지지하며 서명한 가장 인기 있는 사용자 생성 콘텐츠 기술 사이트에 속합니다."
봇은 학습뿐만 아니라 생성형 AI 모델을 인터넷에서 공개적으로 사용할 수 있는 콘텐츠와 같은 외부 지식 기반에 연결하는 검색 증강 생성(RAG)에도 사용됩니다. 기술 기업 TollBit가 지난달 발표한 보고서에 따르면, 파트너 사이트에서 관찰된 RAG 봇 트래픽은 49% 로 18%의 2.5배에 가까운 증가율을 보였습니다. Tollbit의 조사 결과, 2025년 1분기에 웹사이트를 크롤링한 상위 12개 봇 중 ChatGPT, Meta 및 Perplexity가 가장 활성화되어 AI 봇의 월 평균 스크랩 중 70% 가량을 차지한 것으로 나타났습니다.
이러한 새로운 트래픽은 서버에 부담을 주고 퍼블리셔 인프라 비용을 증가시킵니다. 4월에 Wikipedia의 비영리 단체인 Wikimedia는 가장 비용이 많이 드는 트래픽의 65%가 봇에서 발생한다고 지적했습니다. 이 조직은 블로그 게시물에서 "우리의 콘텐츠는 무료이지만, 인프라는 비용이 듭니다."라고 밝혔습니다.
데이터를 많이 사용하는 봇은 최근 몇 달 동안 급격히 감소한 검색 엔진 결과 페이지(SERP) 클릭률에도 영향을 미쳤습니다. 마케팅 회사 Ahrefs의 최근 연구에 따르면, 지난 5월 검색 대기업인 Google이 모든 사용자에게 배포한 제품인 AI Overviews가 클릭 수를 34.5% 줄인 것으로 나타났습니다. AI Ovrviews는 작년 3월 이후 116%의 성장률을 보이며 지속적으로 번창하는 가운데, SERP에 노출되는 사이트는 큰 타격을 입었습니다.
"이는 구독, 광고 또는 오늘날 콘텐츠 제작자가 하는 일을 통해 수익을 창출하는 사이트의 방문자들에게 이러한 광고가 노출되지 않는다는 것을 의미합니다."라고 Cloudflare의 Prince는 최근 CNBC와 진행한 인터뷰에서 발표했습니다. "방문자들은 더 이상 구독을 구매하지 않을 것이며, 따라서 콘텐츠 크리에이터가 되기가 훨씬 더 어려워질 것입니다."
하지만 모든 봇이 똑같은 것은 아닙니다. AI 크롤링 봇의 등장과 함께 선의의 봇과 알 수 없는 봇도 증가하고 있습니다.
Miso Technologies 공동 창립자이자 CEO인 Lucky Gunasekara는 Newsweek, The Guardian, USA Today , BBC 등 전 세계 주요 뉴스 및 학계 퍼블리셔의 8,300개 이상의 사이트를 모니터링하는 Project Sentinel을 이끌고 있습니다. 프로젝트를 위해 수집된 결과에 따르면, 7,000개 퍼블리셔의 레이더에 1,700개 이상의 봇이 포착되었다고 Gunasekara는 IBM Think에 전했습니다. 이 수치는 2월 이후 35% 증가한 반면, 대다수의 퍼블리셔는 17개의 봇만 타겟팅합니다.
"우리는 많은 퍼블리셔와 이야기를 나누었는데, 이들은 소규모의 악의적인 행위자에 관해서는 이러한 조치가 과연 효과가 있는지에 대해 의문을 표했습니다"라고 Gunasekara는 인터뷰에서 말했습니다. 그는 모니터링한 규모가 큰 봇 중 주요 AI 회사와 연관이 없는 여러 개의 봇을 발견했습니다. "악의적인 행위자가 봇만으로 구성된 IP 주소 100,000개를 구매했다면 어떻게 해야 할까요?"라고 Gunasekara는 말했습니다.
또한 Allen은 사이트 소유자에게 봇을 악의적인 행위자와 식별할 수 있는 명확한 방법을 원하는 "선의의 크롤러, 봇 및 에이전트 운영자"를 구별합니다. "기술 에코시스템 전반에서 WebAuthn[웹 인증]에 대한 우리의 제안과 지원에 지속적으로 많은 지원과 협업이 이루어지고 있습니다."라고 그는 말했습니다.
"악의적인 행위자는 웹사이트를 대규모로 크롤링하려고 할 때 일반적으로 우리가 추적할 수 있는 도구와 프레임워크를 사용합니다. 우리는 이러한 추적 결과를 얼마나 신뢰해야 하는지 파악하기 위해 초당 평균 5,700만 건 이상의 요청을 처리하는 Cloudflare의 네트워크를 사용합니다."라고 그는 덧붙였습니다. "우리는 많은 신호에 걸쳐 글로벌 집계를 계산하며, 이러한 신호를 기반으로 우리 모델은 회피하는 AI 봇의 트래픽에 일관되고 적절하게 플래그를 지정할 수 있습니다."
콘텐츠 제작자를 대신하여 '협상'을 시도한 회사는 Cloudflare가 처음이 아닙니다. 작년에는 ScalePost 및 TollBit와 같은 기업이 등장하여 퍼블리셔가 AI 기업의 데이터를 모니터링, 판매 또는 수익화할 수 있는 솔루션을 제안했습니다.
하지만 선망의 대상이 되는 Cloudflare의 시장은 이러한 활동의 효과를 더욱 높일 수 있습니다.
"가장 적합한 위치에 있는 그룹은 아마도 Cloudflare일 것입니다."라고 Gunasekara는 말합니다.
"퍼블리셔들이 기업에 맞서는 대대적인 첫 걸음을 내딛는 것이 중요합니다. 다만 문제는 AI 기업이 이를 우회할지 알 수 없다는 겁니다."라고 SEO 전문가이자 Amsive의 부사장인 Lily Ray가 IBM Think와의 인터뷰에서 말했습니다. 많은 콘텐츠 제작자가 기본적 차단의 영향을 반드시 이해하지 못할 수도 있습니다. 개중에는 AI 검색에 노출되고 싶은 제작자도 있을 것입니다. "그 의미를 이해하지 못하는 사이트는 위험에 처할 수 있습니다."라고 Ray는 말했습니다.
Cloudflare는 게시자가 크롤러가 학습, 검색 또는 추론을 위해 콘텐츠에 액세스할 수 있도록 선택할 수 있는 옵션을 제공한다고 밝혔습니다. 기존 고객은 Cloudflare 대시보드에서 클릭 한 번으로 언제든지 AI 크롤러를 차단할 수 있습니다.
"고객은 Cloudflare가 Robots.txt 파일을 생성하고 관리하도록 할 수 있습니다. 이 파일은 크롤러가 적절한 진입점을 생성하여 크롤러가 AI 교육을 위해 사이트에 액세스하지 못하게 합니다."라고 Allen은 설명했습니다. "고객은 사이트에서 광고를 통해 수익을 창출하는 부분에서만 AI 봇을 차단하도록 선택할 수 있습니다."
새로운 AI 연구소가 등장하고 투자가 유입되는 지금, AI 회사와 퍼블리셔 간의 교류를 규제하는 문제는 많은 관심을 받을 수 있습니다. 하지만 인터넷이 등장한 90년대에 '정보중개자' 모델을 연구한 실리콘 밸리 소재의 산타클라라 대학교 로스쿨 법학 교수 Egic Goldman은 인터넷이 새로운 것은 아니라고 말합니다.
그는 IBM Think에 “기술이 다를 수도 있고 발전했을 수도 있지만, 오늘날 우리가 이야기하는 것들은 새로운 것이 아닙니다.”라고 말했습니다.
"이 문제는 수십 년 동안 논의되어 왔으며, 1990년대에는 이 문제에 수십억 달러의 눈먼 돈이 투입되었지만 아직 아무도 정보 중개 모델을 성공적으로 구축하지 못했습니다. 따라서 Cloudflare가 이 모델을 드디어 구현하는 데 성공할 수도 있지만, 과거부터 이 분야의 실적은 그다지 좋지 않습니다."
Goldman은 작년에 이 주제에 관한 논문인 "Generative AI is Doomed"를 발표했습니다. 그에 따르면, 생성형 AI에 대한 일반적인 규제 및 법적 대응은 AI의 이점을 제한하거나 심지어 무효화할 것입니다.
이에 관한 법적 요건은 아직 마련되지 않았으며, 미국과 전 세계의 주요 AI 회사를 대상으로 작가와 퍼블리셔가 시작한 다양한 소송의 결과에 따라 확립되어야 합니다. Goldman은 "현재로서는 저작권이 있는 저작물을 이용하여 생성형 AI 모델을 학습시키는 행위가 침해가 아니라는 것이 기본 원칙으로 보입니다만, 이에 대해 항소할 것입니다."라며, "항소심 판결이 나오기 전까지 이러한 사항은 초기 데이터에 불과합니다."라고 말했습니다.
