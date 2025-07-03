¿Puede Internet tal y como lo conocemos sobrevivir a la era de la IA? Cloudflare cree que puede, al menos cuando se trata de proteger a los creadores de contenido. El gigante tecnológico, que ayuda a gestionar y proteger el tráfico del 20 % de la web, anunció esta semana que será el primer proveedor de infraestructura de Internet en bloquear los rastreadores de IA que raspan sitios sin compensación ni permiso.
La medida, que fue bien recibida por gigantes mediáticos como The Atlantic, Fortune, TIME y The Associated Press, así como por compañías tecnológicas como Pinterest y Reddit, es el primer paso hacia la construcción de un “mercado de pago por crawl”, escribió el director ejecutivo (CEO) y cofundador de Cloudflare Matthew Prince.
“Cloudflare, junto con la mayoría de las principales editoriales y empresas de IA del mundo, está cambiando el valor predeterminado para bloquear los rastreadores de IA a menos que paguen a los creadores por su contenido”, escribió. "Ese contenido es el combustible que impulsa los motores de IA, por lo que es justo que los creadores de contenido sean compensados directamente por ello".
“Pero eso es solo el comienzo.” A continuación, trabajaremos en un mercado donde los creadores de contenido y las empresas de IA, grandes y pequeñas, puedan unirse. El tráfico siempre fue un mal indicador de valor. Creemos que podemos hacerlo mejor.
Con el auge de la IA generativa y la búsqueda de IA impulsada por Anthropic, OpenAI, Meta y Perplexity, la web está viendo un nuevo tipo de visitante: los raspadores de bots. Este cambio afecta no solo a los editores de noticias, que dependen del tráfico de referencia para monetizar su periodismo, sino también a los creadores de contenido y a las grandes plataformas tecnológicas. En un caso, Reddit presentó recientemente una demanda contra Anthropic y afirma que sus bots están extrayendo su contenido, lo cual Anthropic niega.
"Las empresas tecnológicas también se ven afectadas por los rastreadores de IA", dijo Will Allen, director de control de IA, privacidad y productos multimedia de Cloudflare en una entrevista con IBM Think. "Pinterest, Quora y Reddit son algunos de los sitios tecnológicos de contenido generado por los usuarios más populares que se han registrado en apoyo de nuestro enfoque basado en permisos para los rastreadores de IA, junto con empresas en el espacio de IA como ProRata IA e Hyperscience".
Los bots se utilizan para el entrenamiento, pero también para generación aumentada por recuperación (RAG, por sus siglas en inglés), que conecta los modelos de IA generativa a bases de conocimiento externas, como el contenido disponible públicamente en Internet. Según un informe publicado el mes pasado por la empresa de tecnología TollBit, el tráfico de bots de RAG observado en los sitios de sus socios creció un 49 %, casi 2.5 veces la tasa de tráfico de bots de entrenamiento del 18 %. De los 12 principales sitios web de rastreo de bots, TollBit descubrió que en el primer trimestre de 2025, ChatGPT, Meta y Perplexity fueron los más activos, representando un total de alrededor del 70 % de los raspados promedio mensuales de los bots de IA.
Este nuevo tráfico afecta a los servidores y genera crecientes costos en la infraestructura de los editores. En abril, Wikimedia, la organización sin ánimo de lucro detrás de Wikipedia, señaló que el 65% de su tráfico más caro provenía de bots. “Nuestro contenido es gratuito, nuestra infraestructura no”, dijo la organización en una entrada en el blog.
Los bots hambrientos de datos también han afectado las tasas de clics en la página de resultados del motor de búsqueda, o SERP, que han disminuido drásticamente en los últimos meses. Por ejemplo, AI Overviews de Google: un estudio reciente de la empresa de marketing Ahrefs muestra que AI Overview, un producto lanzado por el gigante de las búsquedas para todos los usuarios en mayo pasado, redujo los clics en un 34.5 %. Mientras que las descripciones generales de IA siguen creciendo (en 116% desde el pasado mes de marzo), los sitios que aparecen en la SERP se ven afectados.
"Eso significa que si ganas dinero a través de subscripciones, publicidad, [a través de] cualquiera de las cosas que los creadores de contenido están haciendo hoy en día, los visitantes no van a ver esos anuncios", dijo Prince de Cloudflare durante una reciente entrevista en CNBC. “Ya no van a comprar esas suscripciones. Y eso significa que va a ser mucho, mucho más difícil para ti ser un creador de contenido”.
Boletín de la industria
Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .
Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.
Pero no todos los bots son iguales: con el auge de los bots de rastreo de IA también viene un aumento de bots bien intencionados y desconocidos.
El cofundador y director ejecutivo de Miso Technologies Lucky Gunasekara dirige Project Sentinel, que supervisa más de 8300 sitios web de los principales editores de noticias y académicos de todo el mundo, entre los que se incluyen Newsweek, The Guardian, USA Today y la BBC. Según las cifras recopiladas para el proyecto, hay más de 1700 bots en el radar de 7000 editores, compartió Gunasekara con IBM Think. Esta cifra creció un 35 % desde febrero, mientras que la mayoría de los editores apuntan solo a 17 bots.
“Hablamos con muchos editores, y el signo de interrogación es cómo sabemos que esto está funcionando cuando se trata de actores pequeños y malos”, dijo en una entrevista. Entre los bots más grandes que supervisó, encontró varios que no pueden vincularse a una importante empresa de IA. "¿Qué hacemos cuando un mal actor compró 100 000 direcciones que son solo un montón de bots?" preguntó.
Allen también distingue a los "operadores bien intencionados de rastreadores, bots y agentes" que quieren una forma clara de identificar sus bots ante los propietarios de sitios de los malos actores. “Nuestras propuestas y soporte para WebAuthn [autenticación web] continúan recibiendo mucho apoyo y colaboración en todo el ecosistema tecnológico”, dijo.
“Cuando los actores maliciosos intentan rastrear sitios web a escala, generalmente utilizan herramientas e infraestructura que podemos identificar. Utilizamos la red de Cloudflare de más de 57 millones de solicitudes por segundo en promedio para comprender cuánto debemos confiar en la huella digital”, agregó. “Computamos agregados globales a través de muchas señales y, en base a estas señales, nuestros modelos son capaces de marcar de manera consistente y adecuada el tráfico de bots de IA evasivos”.
Cloudflare no es la primera empresa que intenta "negociar" en nombre de los creadores de contenido. El año pasado surgieron empresas como ScalePost y TollBit y propusieron soluciones para que los editores monitorearan, vendieran o monetizaran datos para empresas de IA.
Pero el envidiable mercado de Cloudflare podría hacer que su movimiento sea más impactante.
“Si tuviera que describir un grupo que está mejor posicionado, sería Cloudflare”, dijo Gunasekara.
“Es importante que estemos viendo uno de los grandes primeros pasos de los editores que se enfrentan a las empresas. Lo complicado es que no sabemos si las empresas de IA lo eludirán”, dijo Lily Ray, experta en SEO y vicepresidenta de Amsive, en una entrevista con IBM Think. Es posible que muchos creadores de contenido no comprendan necesariamente el impacto del bloqueo de forma predeterminada; después de todo, no todos quieren desaparecer de la búsqueda de IA. "Es un poco peligroso para los sitios que no entienden las implicaciones", dijo.
Cloudflare afirma que los editores tienen la opción de permitir que los rastreadores accedan a su contenido con fines de entrenamiento, búsqueda o inferencia. Los clientes actuales pueden bloquear los rastreadores de IA en cualquier momento con un solo clic en su panel de control de Cloudflare.
"Los clientes pueden dejar que Cloudflare cree y gestione un archivo robots.txt, que crea las entradas adecuadas para que los rastreadores sepan que no deben acceder a su sitio para el entrenamiento de IA", explicó Allen. “Los clientes pueden optar por bloquear los bots de IA solo en partes de sus sitios que se monetizan a través de anuncios”.
La cuestión de regular los intercambios entre las empresas de IA y los editores podría recibir mucha cobertura ahora que surgen nuevos laboratorios de IA y fluyen las inversiones. Pero no es una novedad, observa Eric Goldman, profesor de Derecho en la Facultad de Derecho de la Universidad de Santa Clara en Silicon Valley, quien estudió el modelo de "infomedia" durante los años noventa, cuando se creó Internet.
"La tecnología puede ser diferente o haber evolucionado, pero de lo que estamos hablando hoy no es nuevo", dijo a IBM Think.
“Este tema se ha discutido durante décadas, y nadie ha construido con éxito un modelo infomediario, aunque hubo miles de millones de dólares de dinero fácil invertidos en ese problema en la década de 1990. Entonces, Cloudflare puede haber descifrado el modelo; es posible que puedan hacerlo funcionar, pero el historial en este campo no es excelente”.
Goldman publicó “IA generativa está condenada”, un artículo sobre el tema, el año pasado. Según él, las respuestas normativas y legales imperantes a la IA generativa limitarán o incluso anularán sus beneficios.
El escenario legal aún tiene que ser moldeado por los resultados de varias demandas iniciadas por autores y editores contra las principales empresas de IA en los Estados Unidos y en todo el mundo. “Hasta ahora, tenemos razones para creer que la regla predeterminada es que entrenar un modelo de IA generativa en obras protegidas por derechos de autor no es una infracción, pero estos problemas van a ser objeto de apelación, todos”, dijo Goldman. “Hasta que comencemos a obtener sentencias de apelación, son solo puntos de datos tempranos”.
IBM Granite es nuestra familia de modelos de IA abiertos, de alto rendimiento y confiables, diseñados para empresas y optimizados para escalar sus aplicaciones de IA. Explore opciones de lenguaje, código, series de tiempo y medidas de protección.
Descubra cómo el procesamiento de lenguaje natural puede ayudarle a conversar de forma más natural con las computadoras.
Encuestamos a 2000 organizaciones sobre sus iniciativas de IA para descubrir qué funciona, qué no y cómo pueden avanzar.
Explore el sitio web de IBM Developer para acceder a blogs, artículos, boletines y aprender más sobre la IA integrable de IBM.
Diseñe asistentes y agentes de IA escalables con facilidad, automatice tareas repetitivas y simplifique procesos complejos con IBM watsonx Orchestrate.
Acelere el valor de negocio de la inteligencia artificial con una cartera potente y flexible de bibliotecas, servicios y aplicaciones.
Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.
Diseñe asistentes y agentes de IA escalables con facilidad, automatice tareas repetitivas y simplifique procesos complejos con IBM watsonx Orchestrate.