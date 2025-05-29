A principios de 2019, se produjo un cambio sutil pero significativo en el mundo de la inteligencia artificial. OpenAI, un actor clave en el campo, comenzó a alejarse de su énfasis anterior en la investigación abierta. Con el tiempo, el acceso a sus conjuntos de datos se redujo, los detalles sobre sus métodos de entrenamiento se hicieron cada vez más difíciles de encontrar y su trabajo interno se volvió más cerrado. Lo que en ese momento parecía un cambio rutinario de rumbo marcó un punto de inflexión para la IA, transformando la forma en que la investigación se comparte, desarrolla y debate en todo el mundo.
"Ya no hay visibilidad en sus conjuntos de datos", dice Karen Hao, una observadora veterana del sector y exeditora sénior de IA en MIT Technology Review, en una entrevista con IBM® Think.
El nuevo libro de Hao, Empire of AI, narra el desarrollo de la IA generativa desde dentro, rastreando no solo los motivos económicos y políticos detrás del auge de empresas como OpenAI, sino también las silenciosas decisiones técnicas que redefinieron la propia ciencia. "Incluso OpenAI no siempre sabe lo que hay en sus conjuntos de entrenamiento. Los datos son demasiado grandes para auditarlos manualmente".
Esa admisión puede sonar trivial para un observador casual. Pero para los investigadores, la incapacidad de caracterizar o replicar de forma fiable los datos utilizados para entrenar un modelo socava los cimientos mismos de la disciplina. Durante décadas, el machine learning ha dependido de un simple principio científico: la reproducibilidad. Un modelo debe comportarse de la misma manera si se entrena en las mismas condiciones. Pero con los conjuntos de datos masivos y sin curar de hoy en día, esas condiciones son a menudo incognoscibles.
En la mayoría de las ciencias empíricas, la reproducibilidad es una prueba decisiva del rigor. Un experimento químico que no puede reproducirse es sospechoso. Es poco probable que un ensayo médico con entradas imposibles de rastrear pase la revisión por pares. En inteligencia artificial, la reproducibilidad se ha basado tradicionalmente en que los investigadores publiquen no solo las arquitecturas de sus modelos y los parámetros de entrenamiento, sino también los conjuntos de datos exactos utilizados para entrenar esos modelos. Estos conjuntos de datos, ya sean colecciones de imágenes, grabaciones de audio o documentos de texto, forman la base de lo que saben los modelos y cómo generalizan a nuevas entradas.
A principios de la década de 2010, este modelo de apertura era la norma. Los laboratorios académicos y los investigadores corporativos compartieron sus corpus de formación, describieron sus pasos de preprocesamiento y compararon con estándares comunes utilizando una referencia. Pero en 2020, el panorama había cambiado. A medida que empresas como OpenAI empezaron a competir con mayor agresividad por ventajas comerciales, la práctica de compartir conjuntos de datos perdió popularidad.
Este cambio no tenía que ver solo con la propiedad intelectual. Como señala Hao, el gran tamaño de los conjuntos de datos de entrenamiento modernos, que a menudo comprenden cientos de miles de millones de tokens extraídos de Internet, hacía prácticamente imposible documentarlos a fondo. Las empresas empezaron a confiar en herramientas automatizadas de raspado y filtrado para reunir sus conjuntos de datos. Sin embargo, estas herramientas eran incapaces de detectar problemas sutiles e introducían un nuevo nivel de incertidumbre en el proceso de formación.
Un caso revelador fue el de los investigadores de la Universidad de Stanford, que auditaron el conjunto de datos de imágenes LAION-5B, ampliamente utilizado. A pesar de ser público, el conjunto de datos contenía miles de instancias de material de abuso sexual infantil verificado o sospechoso. Este descubrimiento se produjo años después de que el conjunto de datos circulara libremente y ya se hubiera utilizado para entrenar a generadores de imágenes comerciales. El episodio sirvió como una llamada de atención. Si tanto daño pudiera estar incrustado en un conjunto de datos abierto, ¿qué podría estar oculto en los privados?
"Ya ni siquiera podemos garantizar una división de entrenamiento-prueba", explica Hao, refiriéndose a una práctica metodológica básica en machine learning.
En una configuración típica de IA, el conjunto de datos se divide en dos partes: una parte se utiliza para entrenar el modelo y la otra para probar su rendimiento. Esto ayuda a medir la precisión del modelo en datos que no ha visto antes. Pero cuando un conjunto de datos es tan grande y opaco que su contenido es desconocido, surge el riesgo de que el contenido duplicado aparezca en ambos conjuntos, contaminando la evaluación e inflando las métricas de rendimiento.
El resultado es un campo que depende cada vez más de la fe más que de la verificación. "Se ha vuelto más alquímico que científico", dice Hao. "Arrojamos más computación y más datos al modelo y esperamos que surja algo".
No todo el mundo se apresuró a escalar. Según lo describe Hao, surgió otro movimiento sutil de investigadores que siguieron un camino diferente. En lugar de buscar bases de datos cada vez mayores, persiguieron pequeños conjuntos de datos cuidadosamente seleccionados. No era cuántos datos tenían, sino cómo esos datos capturaban los matices del lenguaje, el rango de la experiencia humana y los imperativos de la equidad.
Mientras la industria presionaba para conseguir más, también se preguntaba qué se estaba pasando por alto en el camino. DeepSpeech de Mozilla, por ejemplo, fue un proyecto de reconocimiento de voz creado a partir de clips de audio donados por los usuarios con pleno consentimiento. Cada clip se revisó manualmente y se etiquetó, con un gran esfuerzo dedicado a refinar el conjunto de datos para asegurar la claridad y la diversidad en términos de voces, acentos y patrones lingüísticos.
De manera similar, el modelo de lenguaje BLOOM, desarrollado por un consorcio de investigación global bajo la guía de Hugging Face, se entrenó en conjuntos de datos públicos recopilados con atención a la diversidad lingüística, geográfica y temática. Cada fuente estaba documentada. Se invitó a realizar auditorías comunitarias. A diferencia de los modelos fundacionales opacos, BLOOM hizo legible su metodología de entrenamiento.
Pero estos esfuerzos se han visto cada vez más eclipsados. La lógica predominante en el sector ahora favorece la escala, dice Hao. Los modelos más grandes entrenados en conjuntos de datos más amplios tienden a mostrar propiedades emergentes, como el razonamiento complejo o la generación de código, incluso sin un ajuste específico de la tarea. Esto anima a los equipos a abandonar el diseño cuidadoso de los datos y a analizar todo lo que puedan.
La mentalidad de escalar primero en OpenAI no fue simplemente una conclusión técnica. Fue el resultado de un sistema de creencias coherente, aunque poco ortodoxo, compartido por sus líderes, señala Hao. Dijo que Ilya Sutskever, el científico jefe de OpenAI, era un absolutista del deep learning. Creía que una red neuronal suficientemente grande, si se alimentaba con suficientes datos, acabaría desarrollando una inteligencia similar a la humana. Por otro lado, Sam Altman, CEO de OpenAI, se acercó a la inteligencia artificial como empresario, viendo el escalado exponencial como el camino más rápido hacia el dominio. Greg Brockman, el presidente de OpenAI, era la mente ingeniera que se centraba en lograr esa escalabilidad.
La arquitectura que permitió esta doctrina fue el transformador, un tipo de red neuronal introducida por primera vez en 2017. Los transformadores destacan en el modelado de secuencias de datos, como el texto, porque pueden rastrear las relaciones entre palabras a lo largo de largas distancias en una frase. Lo que es más importante, se pueden ampliar de manera eficiente. Agregar más capas y más parámetros mejora el rendimiento.
El equipo de investigación de OpenAI se dio cuenta de que si entrenaban transformadores en un conjunto de datos lo suficientemente masivo con suficiente potencia computacional, podrían evitar la necesidad de características artesanales, razonamiento simbólico o diseño modular. La inteligencia, en su opinión, surgiría de los datos.
Para entrenar modelos como GPT-4, OpenAI no solo necesitaba ideas, sino también infraestructura. Los modelos de lenguaje de este tamaño requieren clústeres de decenas de miles de unidades de procesamiento gráfico. Diseñadas inicialmente para renderizar imágenes tridimensionales, las GPU demostraron ser excepcionalmente útiles para las multiplicaciones de matrices en el corazón de las redes neuronales. Pero unirlos para que actuaran como un sistema unificado requería una orquestación personalizada de software y hardware.
Los ingenieros de OpenAI desarrollaron técnicas para dividir los modelos en fragmentos, que podían distribuirse en varios chips y entrenarse en paralelo. Crearon protocolos de puntos de control para preservar las ejecuciones de entrenamiento parciales, reduciendo el riesgo de fallo catastrófico. Construyeron protocolos de comunicación personalizados para sincronizar las actualizaciones entre las máquinas. No se trataba de avances glamurosos, pero eran esenciales.
“Nadie había entrenado antes con 10 000 chips”, afirma Hao. "Tuvieron que resolverlo en tiempo real".
Estos avances permitieron ampliar los modelos con mayor rapidez y eficiencia que la competencia. Pero también contribuyeron a un nuevo tipo de secretismo. OpenAI dejó de publicar muchos de los detalles detrás de sus avances. Revelar demasiado, argumentó la empresa, sería regalar una ventaja competitiva.
Para 2024, la mayoría de las grandes empresas tecnológicas ya se habían puesto al día. IBM, Google, Meta, Amazon, Anthropic y los nuevos participantes, como Mistral, han producido modelos de lenguaje de gran tamaño utilizando arquitecturas de transformadores y técnicas de entrenamiento similares. Muchos utilizaron el aprendizaje reforzado con feedback, un método en el que los humanos valoran la calidad de los outputs de un modelo, lo que permite ajustar el modelo para que se alinee mejor con las preferencias humanas.
Para los forasteros, las diferencias entre estos sistemas se hicieron más difíciles de discernir. Los desarrolladores de aplicaciones comenzaron a diseñar interfaces que podían funcionar con cualquier modelo en segundo plano, lo que les permitía cambiar de proveedor según fuera necesario. El precio, la latencia y el tiempo de actividad pasaron a ser más importantes que las diferencias marginales de inteligencia.
"Todo el mundo está tratando de ser independiente del modelo ahora", dice Hao. "OpenAI ya no tiene el monopolio de los buenos modelos".
Como la escala ya no era un elemento diferenciador, las empresas empezaron a invertir en un paradigma diferente: la agencia. En inteligencia artificial, la agencia se refiere a la capacidad de un sistema para tomar la iniciativa, persistir en el tiempo y actuar en pos de sus objetivos. En lugar de reaccionar a una instrucción, un agente planifica acciones, monitoriza los resultados y ajusta su comportamiento.
Esto requería nuevas capacidades. Los modelos tenían que mantener la memoria a lo largo de las sesiones, integrarse con herramientas de terceros y tomar decisiones sin instrucciones explícitas. El objetivo era pasar de un chatbot pasivo a un colaborador activo.
OpenAI se había inspirado durante mucho tiempo en la película "Her", en la que un usuario se enamora de un asistente de IA que se adapta de manera fluida a sus necesidades. Crear un sistema de este tipo significaba desarrollar no solo la inteligencia, sino también la presencia. Hao señaló que los equipos internos de OpenAI han perseguido este sueño en todos los dominios de productos e investigación.
"No se puede crear ese tipo de asistente sin dotar al modelo de memoria, persistencia y autonomía", afirma.
Pero para que los agentes fueran realmente eficaces, OpenAI necesitaba algo más que algoritmos. Necesitaba nuevos tipos de datos y nuevas formas de recopilarlos. Internet, que antes era una fuente abundante de datos de entrenamiento, se ha saturado de contenido sintético. Muchos de los documentos que ahora están disponibles en línea fueron generados por modelos anteriores.
Esto crea un bucle de feedback en el que la formación en línea se vuelve cada vez menos valiosa. Para romper el ciclo, las empresas están recurriendo a una recopilación de datos más íntima. Hao informó de que OpenAI está explorando dispositivos personalizados que podrían capturar el comportamiento del usuario en tiempo real, desde las interacciones móviles hasta las conversaciones de voz y el contexto ambiental.
"Hay demasiado contenido generado por IA en línea", dice Hao. "Si quiere datos de alta calidad, tiene que obtenerlos directamente de las personas".
La creciente avalancha de contenidos generados por la IA, afirma Hao, plantea cuestiones difíciles sobre el consentimiento, la vigilancia y el control. ¿Pueden las personas realmente elegir que no se recopilen sus datos? ¿Y qué tendrán que decir sobre los modelos entrenados con sus palabras, imágenes o comportamiento?
Para Hao, la respuesta no reside en el optimismo tecnológico ni en el catastrofismo, sino en la transparencia. No suscribe las ideologías dominantes en la IA, lo que ella llama los "boomers", que creen que la inteligencia artificial salvará a la humanidad, o los "doomers" que temen que nos destruya.
"Estoy en el bando de la responsabilidad", dice. "Estos sistemas reflejan el poder institucional. Necesitamos saber cómo se hacen y quién se beneficia”.
Las empresas deben explicar cómo se prueban sus modelos, qué datos utilizan y cómo dan sentido a los resultados, afirma Hao. Deben realizar un seguimiento de los errores y compartir sus hallazgos para que otros puedan examinarlos más de cerca.
Sin este tipo de apertura, advierte Hao, la IA corre el riesgo de convertirse en una caja negra patentada: poderosa, pero irresponsable.
