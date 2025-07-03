¿Puede internet tal y como lo conocemos sobrevivir a la era de la IA? Cloudflare cree que puede, al menos cuando se trata de proteger a los creadores de contenido. El gigante tecnológico, que ayuda a gestionar y proteger el tráfico del 20 % de la web, anunció esta semana que será el primer proveedor de infraestructura de Internet en bloquear los rastreadores de IA que rastrean sitios sin compensación ni permiso.
La medida, que fue bien recibida por gigantes mediáticos como The Atlantic, Fortune, TIME y The Associated Press, así como por empresas tecnológicas como Pinterest y Reddit, es el primer paso hacia la construcción de un mercado de "pago por crawl", escribió Matthew Prince, cofundador y CEO de Cloudflare.
“Cloudflare, junto con la mayoría de los principales editores y empresas de IA del mundo, está cambiando la configuración predeterminada para bloquear los rastreadores de IA a menos que paguen a los creadores por su contenido”, escribió. “Ese contenido es el combustible que impulsa los motores de la IA, y por lo tanto es justo que los creadores de contenido reciban una compensación directa por ello”.
“Pero eso es solo el principio. A continuación, trabajaremos en un mercado donde creadores de contenido y empresas de IA, grandes y pequeñas, puedan unirse. El tráfico siempre fue un mal indicador de valor. Creemos que podemos hacerlo mejor”.
Con el auge de la IA generativa y la búsqueda de IA impulsada por Anthropic, OpenAI, Meta y Perplexity, la web está viendo un nuevo tipo de visitante: los bot scrapers Este cambio afecta no solo a los editores de noticias, que dependen del tráfico de referencia para monetizar su periodismo, sino también a los creadores de contenidos y a las grandes plataformas tecnológicas. En un ejemplo, Reddit presentó recientemente una demanda contra Anthropic y afirma que sus bots están extrayendo su contenido, lo cual Anthropic niega.
"Las empresas tecnológicas también se ven afectadas por los rastreadores de IA", dijo Will Allen, director de control de IA, privacidad y productos multimedia de Cloudflare en una entrevista con IBM Think. "Pinterest, Quora y Reddit son algunos de los sitios tecnológicos de contenido generado por los usuarios más populares que se han sumado a nuestro enfoque basado en permisos para los rastreadores de IA, junto con empresas del sector de la IA como ProRata IA e Hyperscience".
Los bots se utilizan para el entrenamiento, pero también para la generación aumentada por recuperación (RAG), que conecta los modelos de IA generativa con bases de conocimiento externas, como el contenido disponible públicamente en Internet. Según un informe publicado el mes pasado por la empresa tecnológica TollBit, el tráfico de bots RAG observado en los sitios de sus socios creció un 49 %, casi 2,5 veces la tasa de tráfico de bots de entrenamiento del 18 %. De los 12 principales sitios web que rastrean los bots, TollBit descubrió que en el primer trimestre de 2025, ChatGPT, Meta y Perplexity fueron los más activos, representando un total de alrededor del 70 % de las extracciones promedio mensuales de los bots de IA.
Este nuevo tráfico afecta a los servidores y aumenta los costes de la infraestructura de los editores. En abril, Wikimedia, la organización sin fines de lucro detrás de Wikipedia, señaló que el 65 % de su tráfico más caro provenía de bots.. "Nuestro contenido es gratuito, nuestra infraestructura no lo es", dijo la organización en una entrada de blog.
Los bots hambrientos de datos también han afectado a las tasas de clics en la página de resultados de los motores de búsqueda, o SERP, que han sufrido un fuerte descenso en los últimos meses. Veamos las descripciones generales de la IA de Google: un estudio reciente de la empresa de marketing Ahrefs muestra que AI Overview, un producto lanzado por el gigante de las búsquedas para todos los usuarios en mayo pasado, redujo los clics en un 34,5 %. Aunque las vistas generales de la IA siguen creciendo (en un 116 % desde el pasado mes de marzo), los sitios que aparecen en los SERP se ven afectados.
"Lo que eso significa es que si estás ganando dinero a través de suscripciones, publicidad, [a través de] cualquiera de las cosas que hacen los creadores de contenido hoy en día, los visitantes no verán esos anuncios", dijo Prince de Cloudflare durante una reciente entrevista en CNBC. “Ya no van a comprar esas suscripciones. Y eso significa que será mucho, mucho más difícil para ti ser un creador de contenido”.
Pero no todos los bots son iguales: con el auge de los bots de rastreo de IA también viene un aumento de los bots bien intencionados, y de los desconocidos.
El cofundador y CEO de Miso Technologies, Lucky Gunasekara, lidera Project Sentinel, que supervisa más de 8.300 sitios de editoriales líderes de todo el mundo en noticias y academia, incluidos Newsweek, The Guardian, USA Today y BBC. Según las cifras recopiladas para el proyecto, hay más de 1700 bots en el radar de 7000 editores, compartió Gunasekara con IBM Think. Esta cifra creció un 35 % desde febrero, mientras que la mayoría de los editores se dirigen solo a 17 bots.
"Hablamos con muchos editores y la duda es cómo sabemos que esto funciona cuando se trata de actores pequeños y malos", dijo en una entrevista. Entre los bots más grandes que monitorizó, encontró varios que no pueden vincularse a una gran empresa de IA. "¿Qué hacemos cuando un mal actor compró 100.000 direcciones IP que son solo un montón de bots?" preguntó.
Allen también distingue a los "operadores bien intencionados de rastreadores, bots y agentes" que quieren una forma clara de identificar sus bots ante los propietarios de sitios de los malos actores. "Nuestras propuestas y soporte para WebAuthn [autenticación web] siguen recibiendo mucho apoyo y colaboración en todo el ecosistema", dijo.
“Cuando los actores maliciosos intentan rastrear sitios web a escala, generalmente utilizan herramientas y marcos que podemos identificar. Utilizamos la red de Cloudflare de más de 57 millones de solicitudes por segundo de promedio para comprender cuánto debemos confiar en la huella digital", agregó. “Calculamos sumas globales a través de muchas señales y, basándose en estas señales, nuestros modelos pueden identificar de manera consistente y adecuada el tráfico proveniente de bots de IA evasivos”.
Cloudflare no es la primera empresa que intenta "negociar" en nombre de los creadores de contenido. En el último año, han surgido empresas como ScalePost y TollBit que han propuesto soluciones para que los editores monitoricen, vendan o moneticen datos para empresas de IA.
Pero el envidiable mercado de Cloudflare podría hacer que su movimiento tenga más impacto.
“Si tuviera que describir el grupo mejor posicionado, sería Cloudflare”, afirmó Gunasekara.
“Es importante que estemos viendo uno de los primeros grandes pasos de los editores enfrentándose a las empresas. Lo complicado es que no sabemos si las empresas de IA lo eludirán", dijo Lily Ray, experta en SEO y vicepresidenta de Amsive, en una entrevista con IBM Think. Es posible que muchos creadores de contenido no comprendan necesariamente el impacto del bloqueo por defecto; al fin y al cabo, no todo el mundo quiere desaparecer de las búsquedas de la IA. "Es un poco peligroso para los sitios que no entienden las implicaciones", dijo.
Cloudflare dice que los editores tienen la opción de permitir que los rastreadores accedan a su contenido para entrenamiento, búsqueda o inferencia. Los clientes actuales pueden bloquear los rastreadores de IA en cualquier momento con un solo clic en su panel de control de Cloudflare.
"Los clientes pueden dejar que Cloudflare cree y gestione un archivo robots.txt, que crea las entradas adecuadas para que los rastreadores sepan que no deben acceder a su sitio para el entrenamiento de IA", explicó Allen. "Los clientes pueden optar por bloquear los bots de IA solo en partes de sus sitios que se monetizan a través de anuncios".
La cuestión de la regulación de los intercambios entre las empresas de IA y los editores podría recibir mucha cobertura ahora que surgen nuevos laboratorios de IA y fluyen las inversiones. Pero no es una novedad, observa Eric Goldman, profesor de Derecho en la Facultad de Derecho de la Universidad de Santa Clara en Silicon Valley, quien estudió el modelo de "infomediación"" durante los años noventa, cuando se creó internet.
"La tecnología puede ser diferente o haber evolucionado, pero de lo que estamos hablando hoy no es nuevo", dijo a IBM Think.
“Esta cuestión se ha discutido durante décadas y nadie ha logrado construir con éxito un modelo de infomediación, aunque en los años 90 se invirtieron miles de millones de dólares de dinero fácil para resolver ese problema. Así que, Cloudflare puede haber descifrado el modelo; es posible que puedan hacerlo funcionar, pero el historial en este campo no es muy bueno".
Goldman publicó “La IA generativa está condenada”, un artículo sobre el tema, el año pasado. Según él, las respuestas regulatorias y legales predominantes a la IA generativa limitarán o incluso anularán sus beneficios.
El panorama legal aún debe moldearse por las consecuencias de diversas demandas presentadas por autores y editores contra grandes empresas de IA en Estados Unidos y en todo el mundo. "Hasta ahora, tenemos razones para creer que la regla por defecto es que entrenar un modelo de IA generativa con obras protegidas por derechos de autor no es una infracción, pero estos problemas van a ser objeto de apelación, todos ellos", dijo Goldman. “Hasta que no tengamos fallos de apelación, estos son solo datos preliminares”.
