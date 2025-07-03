Será que a internet como a conhecemos sobreviverá à era da IA? A Cloudflare acredita que sim, pelo menos no que diz respeito à proteção dos criadores de conteúdo. A gigante da tecnologia, que ajuda a gerenciar e proteger o tráfego de 20% da web, anunciou esta semana que será a primeira provedora de infraestrutura de internet a bloquear rastreadores de IA que extraem dados de sites sem compensação ou permissão.
A iniciativa, que foi bem recebida por gigantes da mídia como The Atlantic, Fortune, TIME e The Associated Press, bem como por empresas de tecnologia como Pinterest e Reddit, é o primeiro passo para a criação de um mercado de "pagamento por rastreamento", escreveu Matthew Prince, cofundador e CEO da Cloudflare.
"A Cloudflare, juntamente com a maioria das principais editoras e empresas de IA do mundo, está mudando a configuração padrão para bloquear rastreadores de IA, a menos que eles paguem aos criadores pelo seu conteúdo", escreveu ele. "Esse conteúdo é o combustível que alimenta os motores da IA e, por isso, é justo que os criadores de conteúdo sejam compensados diretamente por ele."
"Mas isso é só o começo. Em seguida, trabalharemos em um mercado onde criadores de conteúdo e empresas de IA, grandes e pequenas, possam se conectar. O tráfego sempre foi um indicador inadequado de valor. Acreditamos que podemos fazer melhor."
Com o crescimento da IA generativa e da busca impulsionada por IA por empresas como Anthropic, OpenAI, Meta e Perplexity, a web está testemunhando um novo tipo de visitante: bots que coletam dados de forma automatizada. Essa mudança afeta não apenas as editoras de notícias, que dependem do tráfego de referência para monetizar seu jornalismo, mas também os criadores de conteúdo e as grandes plataformas de tecnologia. Em um caso específico, o Reddit entrou recentemente com um processo contra a Anthropic e alega que seus bots estão coletando seu conteúdo, o que a Anthropic nega..
"As empresas de tecnologia também são afetadas pelos rastreadores de IA", disse Will Allen, chefe de Controle de IA, Privacidade e Produtos de Mídia da Cloudflare, em entrevista à IBM Think. "Pinterest, Quora e Reddit são alguns dos sites de tecnologia de conteúdo gerado pelo usuário mais populares que aderiram à nossa abordagem baseada em permissão para rastreadores de IA, juntamente com empresas do setor de IA como ProRata IA e Hyperscience."
Os bots são usados para treinamento, mas também para geração aumentada de recuperação (RAG), que conecta modelos de IA generativa a bases de conhecimento externas, como conteúdos disponíveis publicamente na internet. De acordo com um relatório publicado no mês passado pela empresa de tecnologia TollBit, o tráfego de bot de RAG observado nos sites de seus parceiros cresceu 49%, quase 2,5 vezes a taxa de tráfego de bot de treinamento, que foi de 18%. Dos 12 principais sites de bots rastreadores, a TollBit descobriu que, no primeiro trimestre de 2025, ChatGPT, Meta e Perplexity foram os mais ativos, representando cerca de 70% da média mensal de rastreamentos realizados por bots de IA.
Esse novo tráfego sobrecarrega os servidores e aumenta os custos da infraestrutura dos editores. Em abril, a Wikimedia, organização sem fins lucrativos por trás da Wikipédia, observou que 65% do seu tráfego mais caro vinha de bots.. "Nosso conteúdo é gratuito, nossa infraestrutura não", disse a organização em uma postagem no blog.
Os bots ávidos por dados também afetaram as taxas de cliques na páginas de resultados dos mecanismos de busca (SERP), que sofreram uma queda acentuada nos últimos meses. Vejamos o AI Overviews do Google: um estudo recente da empresa de marketing Ahrefs mostra que o IA Overview, um produto lançado pela gigante das buscas para todos os usuários em maio passado, reduziu os cliques em 34,5%. Embora o IA Overviews continue crescendo – 116% desde março passado – os sites exibidos na SERP sofrem um impacto negativo.
"Isso significa que, se você está ganhando dinheiro com assinaturas, publicidade ou qualquer outra coisa que os criadores de conteúdo estão fazendo hoje, os visitantes não verão esses anúncios", disse Prince da Cloudflare durante uma recente entrevista à CNBC. "Eles não vão mais comprar essas assinaturas. E isso significa que vai ser muito, muito mais difícil para você ser um criador de conteúdo."
Mas nem todos os bots são iguais: com o aumento dos bots de rastreamento de IA, também aumenta o número de bots bem-intencionados – e de bots desconhecidos.
O cofundador e CEO da Miso Technologies, Lucky Gunasekara, lidera o Projeto Sentinel, que monitora mais de 8.300 sites de importantes editoras do mundo todo, tanto de notícias quanto acadêmicas, incluindo Newsweek, The Guardian, USA Today e BBC. Segundo dados coletados para o projeto, existem mais de 1.700 bots no radar de 7.000 editoras, compartilhou Gunasekara com o IBM Think. Esse número cresceu 35% desde fevereiro, enquanto a maioria das editoras tem como alvo apenas 17 bots.
"Conversamos com muitas editoras, e a questão é como saber se isso está funcionando quando se trata de pequenos agentes mal-intencionados", disse ele em entrevista. Entre os maiores bots que ele monitorou, encontrou vários que não podem ser vinculados a nenhuma grande empresa de IA. "O que fazemos quando um agente malicioso compra 100.000 endereços IP de um domínio que nada mais é do que um monte de bots?", perguntou ele.
Allen também distingue os "operadores bem-intencionados de rastreadores, bots e agentes" que querem uma maneira clara de identificar seus bots para os proprietários dos sites dos agentes mal-intencionados. “Nossas propostas e apoio ao WebAuthn [autenticação web] continua recebendo muito apoio e colaboração em todo o ecossistema de tecnologia", disse ele.
“Quando agentes mal-intencionados tentam rastrear sites em escala, geralmente usam ferramentas e estruturas que conseguimos identificar. "Usamos a rede da Cloudflare, com uma média de mais de 57 milhões de solicitações por segundo, para entender até que ponto podemos confiar nessa marca", acrescentou. "Calculamos dados agregados globais a partir de diversos sinais e, com base nesses sinais, nossos modelos conseguem sinalizar de forma consistente e adequada o tráfego proveniente de bots de IA evasivos."
A Cloudflare não é a primeira empresa a tentar "negociar" em nome dos criadores de conteúdo. No último ano, vimos empresas como a ScalePost e a TollBit surgirem e proporem soluções para que os editores monitorem, vendam ou monetizem dados para empresas de IA.
Mas o mercado invejável da Cloudflare pode tornar sua mudança mais impactante.
"Se eu tivesse que descrever um grupo que está mais bem posicionado, seria a Cloudflare", disse Gunasekara.
"É importante que estejamos vendo um dos primeiros grandes passos das editoras se posicionando contra as empresas. O problema é que não sabemos se as empresas de IA conseguirão contornar isso", disse Lily Ray, especialista em SEO e vice-presidente da Amsive, em entrevista à IBM Think. Muitos criadores de conteúdo podem não compreender totalmente o impacto do bloqueio por padrão – afinal, nem todos querem desaparecer das buscas feitas por IA. "É um pouco perigoso para os sites que não entendem as implicações", disse ela.
A Cloudflare afirma que as editoras têm a opção de permitir que os rastreadores acessem seu conteúdo para treinamento, pesquisa ou inferência. Os clientes existentes podem bloquear os rastreadores da IA a qualquer momento com um único clique no dashboard do Cloudflare.
"Os clientes podem permitir que a Cloudflare crie e gerencie um arquivo robots.txt, que cria as entradas apropriadas para informar aos rastreadores que eles não devem acessar o site para treinamento de IA", explicou Allen. "Os clientes podem optar por bloquear os bots de IA apenas nas partes de seus sites que são monetizadas por meio de anúncios."
A questão da regulamentação das trocas entre as empresas de IA e as editoras pode ganhar muita atenção agora que novos laboratórios de IA estão surgindo e os investimentos estão aumentando. Mas isso não é uma novidade, observa Eric Goldman, professor de Direito na Faculdade de Direito da Universidade de Santa Clara, no Vale do Silício, que estudou o modelo de "infomediador" durante a década de noventa, quando a internet foi criada.
"A tecnologia pode ser diferente ou ter evoluído, mas o que estamos discutindo hoje não é novo”, disse ele ao IBM Think.
"Este assunto vem sendo discutido há décadas, e ninguém ainda conseguiu criar um modelo de infomediário eficaz, embora bilhões de dólares de dinheiro fácil tenham sido investidos nesse problema na década de 1990. Portanto, a Cloudflare pode ter descoberto a fórmula do sucesso; eles podem conseguir fazê-lo funcionar, mas o histórico nessa área não é dos melhores."
Goldman publicou "A IA generativa está condenada", um artigo sobre o assunto, no ano passado. Segundo ele, as respostas regulatórias e legais predominantes à IA generativa limitarão ou até mesmo anularão seus benefícios.
O cenário jurídico ainda precisa ser moldado pelos resultados de vários processos judiciais movidos por autores e editoras contra as principais empresas de IA nos EUA e em todo o mundo. "Até o momento, temos motivos para acreditar que a regra geral é que treinar um modelo de IA generativa com obras protegidas por direitos autorais não constitui infração, mas essas questões certamente serão levadas para instâncias de recurso", disse Goldman. "Até começarmos a receber as decisões dos tribunais de recurso, esses são apenas dados preliminares."
