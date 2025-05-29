A principios de 2019, se produjo un cambio sutil pero significativo en el mundo de la inteligencia artificial. OpenAI, un actor clave en este campo, comenzó a alejarse de su anterior énfasis en la investigación abierta. Con el tiempo, el acceso a sus conjuntos de datos se redujo, los detalles sobre sus métodos de entrenamiento se volvieron cada vez más difíciles de encontrar y su trabajo interno se volvió más cerrado. Lo que en ese momento parecía un cambio de rumbo rutinario acabaría marcando un punto de inflexión para la IA, transformando la forma en que se comparte, desarrolla y debate la investigación en todo el mundo.
“Ya no hay visibilidad de sus conjuntos de datos”, dice Karen Hao, una observadora del campo desde hace mucho tiempo y exeditora sénior de Inteligencia Artificial en MIT Tecnología Review, en una entrevista con IBM Think.
El nuevo libro de Hao, Empire of AI, narra el desarrollo de la IA generativa desde dentro, rastreando no solo los motivos económicos y políticos detrás del surgimiento de empresas como OpenAI, sino también las decisiones técnicas silenciosas que redefinieron la ciencia misma. "Ni siquiera OpenAI sabe siempre qué hay en sus conjuntos de entrenamiento. Los datos son demasiado grandes para auditarlos manualmente”.
Esa confesión puede parecer trivial para un observador casual. Pero para los investigadores, la incapacidad de caracterizar o replicar de manera confiable los datos utilizados para entrenar un modelo socava los cimientos mismos de la disciplina. Durante décadas, el machine learning ha dependido de un principio científico simple: la reproducibilidad. Un modelo debe comportarse de la misma manera si se entrena en las mismas condiciones. Pero con los conjuntos de datos masivos y no curados de hoy en día, esas condiciones a menudo son desconocidas.
En la mayoría de las ciencias empíricas, la reproducibilidad es una prueba de rigor. Un experimento de química que no se puede reproducir es sospechoso. Es poco probable que un ensayo médico con entradas imposibles de rastrear supere la revisión de pares. En inteligencia artificial, la reproducibilidad se ha basado tradicionalmente en que los investigadores publiquen no solo las arquitecturas de sus modelos y los parámetros de entrenamiento, sino también los conjuntos de datos exactos utilizados para entrenar esos modelos. Estos conjuntos de datos, ya sean colecciones de imágenes, grabaciones de audio o documentos de texto, forman la base de lo que saben los modelos y cómo generalizan a nuevas entradas.
A principios de la década de 2010, este modelo de apertura era la norma. Tanto los laboratorios académicos como los investigadores corporativos compartieron sus corpus de capacitación, describieron sus pasos de preprocesamiento y ejecutaron puntos de referencia con estándares comunes. Pero para 2020, el escenario había cambiado. A medida que empresas como OpenAI comenzaron a competir de manera más agresiva por la ventaja comercial, la práctica de compartir conjuntos de datos cayó en desgracia.
Este cambio no solo se refería a la propiedad intelectual. Como señala Hao, el gran tamaño de los conjuntos de datos de entrenamiento modernos, que a menudo comprenden cientos de miles de millones de tokens extraídos de Internet, hacía prácticamente imposible documentarlos a fondo. Las empresas comenzaron a utilizar herramientas automatizadas de extracción y filtrado de datos para recopilar sus conjuntos de datos. Sin embargo, estas herramientas no podían detectar problemas sutiles e introducían un nuevo nivel de incertidumbre en el proceso de capacitación.
Un caso revelador fue de investigadores de la Universidad de Stanford, que auditaron el ampliamente empleado conjunto de datos de imágenes LAION-5B. A pesar de ser público, el conjunto de datos contenía miles de instancias de material de abuso sexual infantil verificado o sospechoso. Este descubrimiento se produjo años después de que el conjunto de datos hubiera estado circulando libremente y ya se hubiera utilizado para entrenar generadores de imágenes comerciales. El episodio sirvió como una llamada de atención. Si tanto daño pudiera estar incrustado en un conjunto de datos abierto, ¿qué podría estar oculto en los privados?
"Ya ni siquiera podemos garantizar una división de prueba y entrenamiento", explica Hao, refiriéndose a una práctica metodológica básica en el machine learning.
En una configuración típica de IA, el conjunto de datos se divide en dos partes: una parte se utiliza para entrenar el modelo y la otra para probar su rendimiento. Esto ayuda a medir la precisión del modelo en datos que no ha visto antes. Pero cuando un conjunto de datos es tan grande y opaco que sus contenidos son efectivamente desconocidos, surge el riesgo de que el contenido duplicado aparezca en ambos conjuntos, contaminando la evaluación e inflando las métricas de rendimiento.
El resultado es un campo que depende cada vez más de la fe en lugar de la verificación. "Se ha vuelto más alquímico que científico", dice Hao. "Lanzamos más cómputo y más datos al modelo y esperamos que surja algo".
No todos se apresuraron a escalar. Como lo describe Hao, otro movimiento sutil surgió de investigadores que siguieron un camino diferente. En lugar de buscar bases de datos cada vez más grandes, se centraron en pequeños conjuntos de datos cuidadosamente seleccionados. No era la cantidad de datos que tenían, sino cómo esos datos capturaban los matices del lenguaje, el rango de la experiencia humana y los imperativos de la equidad.
Si bien la industria presionó por más, también se preguntaba qué se estaba pasando por alto en el camino. DeepSpeech de Mozilla, por ejemplo, fue un proyecto de reconocimiento de voz creado a partir de clips de audio donados por los usuarios con pleno consentimiento. Cada clip se revisó manualmente y se etiquetó, con un gran esfuerzo dedicado a refinar el conjunto de datos para garantizar la claridad y la diversidad en términos de voces, acentos y patrones lingüísticos.
De manera similar, el modelo de lenguaje BLOOM, desarrollado por un consorcio de investigación global bajo la guía de Hugging Face, se capacitó en conjuntos de datos públicos recopilados con atención a la diversidad lingüística, geográfica y temática. Se documentaron todas las fuentes. Se invitó a auditorías comunitarias. A diferencia de los modelos fundacionales opacos, BLOOM hizo que su metodología de entrenamiento fuera legible.
Pero tales esfuerzos se han visto cada vez más eclipsados. La lógica predominante de la industria ahora favorece la escala, dice Hao. Los modelos más grandes entrenados con conjuntos de datos más grandes tienden a mostrar propiedades emergentes, como razonamiento complejo o generación de código, incluso sin un ajuste específico para cada tarea. Esto anima a los equipos a abandonar el diseño cuidadoso de los datos en favor de raspar todo lo que puedan.
La mentalidad de escalar primero en OpenAI no fue simplemente una conclusión técnica. Fue el resultado de un sistema de creencias coherente, aunque poco ortodoxo, compartido por su liderazgo, señala Hao. Dijo que Ilya Sutskever, el científico jefe de OpenAI, era un absolutista del aprendizaje profundo. Creía que una red neuronal lo suficientemente grande, si se alimentaba con suficientes datos, eventualmente desarrollaría una inteligencia humana. Por otro lado, Sam Altman, CEO de OpenAI, se acercó a la inteligencia artificial como emprendedor y vio el escalamiento exponencial como el camino más rápido hacia el dominio. Greg Brockman, presidente de OpenAI, fue la mente de ingeniería enfocada en hacer que esa escala sucediera.
La arquitectura que permitió esta doctrina fue el transformador, un tipo de red neuronal introducida por primera vez en 2017. Los transformadores destacan en el modelado de secuencias de datos, como el texto, porque pueden rastrear las relaciones entre palabras a lo largo de grandes distancias en una oración. Y lo que es más importante, se pueden ampliar de manera eficiente. Agregar más capas y más parámetros mejora el rendimiento.
El equipo de investigación de OpenAI se dio cuenta de que si entrenaban transformadores en un conjunto de datos lo suficientemente masivo con suficiente Power, podrían eludir la necesidad de características artesanales, razonamiento simbólico o diseño modular. La inteligencia, en su opinión, surgiría de los datos.
Para entrenar modelos como GPT-4, OpenAI necesitaba no solo ideas, sino también infraestructura. Los modelos de lenguaje de este tamaño requieren clústers de decenas de miles de unidades de procesamiento de gráficos. Diseñadas inicialmente para representar imágenes tridimensionales, las GPU demostraron ser excepcionalmente útiles para las multiplicaciones de matrices en el corazón de las redes neuronales Pero unirlos para que actuaran como un sistema unificado requería una orquestación personalizada de software y hardware.
Los ingenieros de OpenAI desarrollaron técnicas para dividir los modelos en fragmentos, que podrían distribuirse en varios chips y entrenarse en paralelo. Crearon protocolos de puntos de control para preservar las ejecuciones de entrenamiento parciales, reduciendo el riesgo de fallas catastróficas. Crearon protocolos de comunicación personalizados para sincronizar las actualizaciones entre máquinas. Estos no fueron avances glamorosos, pero fueron esenciales.
"Nadie había entrenado antes con 10 000 chips", dice Hao. "Tenían que resolverlo en tiempo real".
Estos avances permitieron ampliar los modelos de forma más rápida y eficiente que la competencia. Pero también contribuyeron a un nuevo tipo de secreto. OpenAI dejó de publicar muchos de los detalles detrás de sus avances. Divulgar demasiado, argumentó la empresa, sería regalar una ventaja competitiva.
Para 2024, la mayoría de las principales empresas tecnológicas se habían puesto al día. IBM, Google, Meta, Amazon, Anthropic y los nuevos participantes, como Mistral, han producido grandes modelos de lenguaje utilizando arquitecturas transformadoras y técnicas de entrenamiento similares. Muchos utilizaron el aprendizaje por refuerzo con retroalimentación humana, un método en el que los humanos califican la calidad de los resultados de un modelo, lo que permite ajustar el modelo para alinearse mejor con las preferencias humanas.
Para quienes no estaban dentro de todo esto, las diferencias entre estos sistemas se hicieron más difíciles de discernir. Los desarrolladores de aplicaciones comenzaron a diseñar interfaces que pudieran funcionar con cualquier modelo en segundo plano, lo que les permitía cambiar de proveedor según fuera necesario. El precio, la latencia y el tiempo de actividad se volvieron más importantes que las diferencias marginales en inteligencia.
"Todos están tratando de ser independientes del modelo ahora", dice Hao. "OpenAI ya no tiene el monopolio de los buenos modelos".
Dado que la escala ya no era un diferenciador, las empresas comenzaron a invertir en un paradigma diferente: la agencia. En inteligencia artificial, la agencia se refiere a la capacidad de un sistema para tomar la iniciativa, persistir en el tiempo y actuar para alcanzar sus objetivos. En lugar de reaccionar ante una instrucción, un agente planifica acciones, supervisa los resultados y ajusta su comportamiento.
Esto requería nuevas capacidades. Los modelos tenían que mantener la memoria en todas las sesiones, integrarse con herramientas de terceros y tomar decisiones sin instrucciones explícitas. El objetivo era mover de un chatbot pasivo a un colaborador activo.
OpenAI se inspiró durante mucho tiempo en la película "Her", en la que un usuario se enamora de un asistente de IA que se adapta perfectamente a sus necesidades. Crear un sistema de este tipo significaba desarrollar no solo inteligencia, sino también presencia. Hao señaló que los equipos internos de OpenAI han perseguido este sueño en todos los dominios de productos e investigación.
“No se puede construir ese tipo de asistente sin darle al modelo memoria, persistencia y autonomía”, dice.
Pero para que los agentes fueran realmente eficaces, OpenAI necesitaba algo más que algoritmos. Necesitaba nuevos tipos de datos y nuevas formas de recopilarlos. Internet, que antes era una fuente abundante de datos de entrenamiento, se saturó de contenido sintético. Muchos de los documentos que ahora están disponibles en línea fueron generados por modelos anteriores.
Esto crea un ciclo de retroalimentación en el que la capacitación en línea se vuelve cada vez menos valiosa. Para romper el ciclo, las empresas están recurriendo a una recopilación de datos más íntima. Hao informó que OpenAI está explorando dispositivos personalizados que podrían capturar el comportamiento del usuario en tiempo real, desde interacciones móviles hasta conversaciones de voz y contexto ambiental.
"Hay demasiado contenido generado por IA en línea", dice Hao. “Si quieres datos de alta calidad, tienes que obtenerlos directamente de las personas”.
La creciente avalancha de contenido generado por IA, dice Hao, plantea preguntas difíciles sobre el consentimiento, la vigilancia y el control. ¿Pueden las personas realmente elegir que no se recopilen sus datos? ¿Y qué opinan sobre los modelos entrenados con sus palabras, imágenes o comportamiento?
Para Hao, la respuesta no radica en el tecnooptimismo o la fatalidad, sino en la transparencia. Ella no suscribe las ideologías dominantes en la IA, a lo que ella llama los "boomers", que creen que la inteligencia artificial salvará a la humanidad, o los "doomers", que temen que nos destruya.
“Estoy en el campo de la responsabilidad”, dice ella. “Estos sistemas reflejan el poder institucional. Necesitamos saber cómo se hacen y quién obtiene beneficio”.
Las empresas deben explicar cómo se prueban sus modelos, qué datos utilizan y cómo dan sentido a los resultados, dice Hao. Deben realizar un seguimiento de los errores y compartir sus hallazgos para que otros puedan observarlos más de cerca.
Sin este tipo de apertura, advierte Hao, la IA corre el riesgo de convertirse en una caja negra patentada, poderosa, pero que no rinde cuentas.
