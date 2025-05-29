No início de 2019, ocorreu uma mudança sutil, porém significativa, no mundo da inteligência artificial. A OpenAI, uma das principais empresas do setor, começou a se afastar. de sua ênfase anterior em pesquisa aberta. Com o tempo, o acesso aos seus conjuntos de dados tornou-se mais restrito, os detalhes sobre seus métodos de treinamento ficaram cada vez mais difíceis de encontrar e seu trabalho interno tornou-se mais fechado. O que na época parecia uma mudança de rumo rotineira acabaria por marcar um ponto de virada para a IA, remodelando a forma como a pesquisa é compartilhada, desenvolvida e debatida em todo o mundo.
"Já não há qualquer visibilidade sobre os conjuntos de dados que eles usam", afirma Karen Hao, que acompanha essa área há muitos anos e é ex-editora sênior de Inteligência Artificial na MIT Technology Review, em entrevista ao IBM Think.
O novo livro de Hao, Empire of AI, narra o desenvolvimento da IA generativa por dentro, traçando não apenas os motivos econômicos e políticos por trás da ascensão de empresas como a OpenAI, mas também as decisões técnicas discretas que redefiniram a própria ciência. "Nem mesmo a OpenAI sempre sabe o que está contido em seus conjuntos de treinamento. Os dados são grandes demais para serem auditados manualmente."
Essa admissão pode parecer trivial para um observador casual. Mas, para os pesquisadores, a incapacidade de caracterizar ou replicar de forma confiável os dados usados para treinar um modelo mina os próprios fundamentos da disciplina. Durante décadas, o aprendizado de máquina dependeu de um princípio científico simples: a reprodutibilidade. Um modelo deve se comportar da mesma maneira se treinado nas mesmas condições. Mas com os enormes conjuntos de dados não selecionados de hoje, essas condições são muitas vezes desconhecidas.
Na maioria das ciências empíricas, a reprodutibilidade é um teste decisivo para o rigor. Um experimento de química que não pode ser reproduzido é suspeito. É improvável que um ensaio clínico com dados de origem não rastreáveis seja aprovado pela avaliação por pares. Na inteligência artificial, a reprodutibilidade tem tradicionalmente dependido da publicação, por parte dos pesquisadores, não apenas das arquiteturas de seus modelos e parâmetros de treinamento, mas também do conjunto exato de dados usado para treinar esses modelos. Esses conjuntos de dados, sejam coleções de imagens, gravações de áudio ou documentos de texto, formam a base do conhecimento dos modelos e de como eles se generalizam para novas entradas.
No início dos anos 2010, esse modelo de abertura era a norma. Tanto laboratórios acadêmicos quanto pesquisadores corporativos compartilharam seus corpora de treinamento, descreveram suas etapas de pré-processamento e realizaram um benchmark em relação aos padrões comuns. Mas, em 2020, o cenário havia mudado. À medida que empresas como a OpenAI começaram a competir de forma mais agressiva por vantagens comerciais, a prática de compartilhar conjuntos de dados caiu em desuso.
Essa mudança não se restringiu apenas à propriedade intelectual. Como Hao destaca, o tamanho gigantesco dos conjuntos de dados de treinamento modernos, que muitas vezes compreendem centenas de bilhões de tokens extraídos da internet, tornou praticamente impossível documentá-los completamente. As empresas começaram a depender de ferramentas automatizadas de extração e filtragem de dados para montar seu conjunto de dados. No entanto, essas ferramentas não conseguiram detectar problemas sutis e introduziram um novo nível de incerteza no processo de treinamento.
Um caso revelador veio de pesquisadores da Universidade de Stanford, que analisaram o amplamente utilizado LAION-5B, um conjunto de dados de imagens. Apesar de ser público, o conjunto de dados continha milhares de casos de material de abuso sexual infantil, tanto verificado quanto suspeito. Essa descoberta ocorreu anos depois que o conjunto de dados já circulava livremente e havia sido usado para treinar geradores de imagens comerciais. O episódio serviu como um alerta. Se tanto dano pode estar presente em um conjunto de dados aberto, o que poderia estar escondido nos conjuntos de dados privados?
"Não podemos mais garantir nem mesmo uma divisão teste-treinamento", explica Hao, referindo-se a uma prática metodológica básica em aprendizado de máquina.
Em uma configuração típica de IA, o conjunto de dados é dividido em duas partes: uma parte é usada para treinar o modelo e a outra para testar seu desempenho. Isso ajuda a medir a precisão do modelo em dados que ele nunca viu antes. Mas quando um conjunto de dados é tão grande e opaco que seu conteúdo é efetivamente desconhecido, surge o risco de que o conteúdo duplicado apareça em ambos os conjuntos, contaminando a avaliação e inflando as métricas de desempenho.
O resultado é um campo cada vez mais dependente da fé do que da verificação. "Tornou-se mais alquimia do que ciência", diz Hao. "Investimos mais poder computacional e mais dados no modelo e esperamos que algo surja."
Nem todos correram para escalar. Conforme Hao descreve, outro movimento sutil surgiu de pesquisadores que seguiram um caminho diferente. Em vez de recorrerem a bases de dados cada vez maiores, optaram por coletar pequenos conjuntos de dados cuidadosamente selecionados. A questão não era a quantidade de dados que eles tinham, mas a forma como esses dados capturavam as nuances da linguagem, a amplitude da experiência humana e os imperativos da justiça.
Enquanto o setor pressionava por mais, também questionava o que estava sendo esquecido ao longo do caminho. O DeepSpeech do Mozilla, por exemplo, foi um projeto de reconhecimento de fala construído com base em trechos de áudio doados por usuários com total consentimento. Cada trecho foi avaliado e etiquetado manualmente, com um esforço considerável dedicado ao refinamento do conjunto de dados para garantir clareza e diversidade em termos de vozes, sotaques e padrões linguísticos.
Da mesma forma, o modelo de linguagem BLOOM, desenvolvido por um consórcio global de pesquisa sob a orientação da Hugging Face, foi treinado em um conjunto de dados públicos coletados com atenção à diversidade linguística, geográfica e temática. Todas as fontes foram documentadas. As auditorias comunitárias foram convidadas. Ao contrário dos modelos de base opacos, o BLOOM tornou sua metodologia de treinamento legível.
Mas esses esforços têm sido cada vez mais ofuscados. A lógica predominante do setor agora favorece a escala, diz Hao. Modelos maiores, treinados em conjuntos de dados maiores, tendem a apresentar propriedades emergentes, como raciocínio complexo ou geração de código, mesmo sem ajustes específicos para a tarefa. Isso incentiva as equipes a abandonar o planejamento cuidadoso dos dados em favor da coleta de tudo o que puderem.
A mentalidade de priorizar a escalabilidade na OpenAI não foi meramente uma conclusão técnica. Foi o resultado de um sistema de crenças coerente, ainda que pouco ortodoxo, compartilhado por sua liderança, destaca Hao. Ela disse que Ilya Sutskever, o cientista-chefe da OpenAI, era um absolutista de deep learning . Ele acreditava que uma rede neural suficientemente grande, se alimentada com dados suficientes, acabaria por desenvolver uma inteligência semelhante à humana. Por outro lado, Sam Altman, CEO da OpenAI, encarou a inteligência artificial como um empreendedor, vendo o crescimento exponencial como o caminho mais rápido para o domínio do mercado. Greg Brockman, presidente da OpenAI, foi a mente de engenharia focada em fazer essa escalabilidade acontecer.
A arquitetura que possibilitou essa doutrina foi o Transformer, um tipo de rede neural introduzida pela primeira vez em 2017. Os Transformers são excelentes na modelagem de sequências de dados, como textos, porque conseguem rastrear relações entre palavras a longas distâncias em uma frase. O mais importante é que eles podem ser escalados com eficiência. Adicionar mais camadas e mais parâmetros melhora o desempenho.
A equipe de pesquisa da OpenAI percebeu que, se treinassem os Transformers em um conjunto de dados suficientemente massivo e com poder computacional suficiente, poderiam evitar a necessidade de funcionalidades criadas manualmente, raciocínio simbólico ou design modular. Na visão deles, a inteligência emergiria dos dados.
Para treinar modelos como o GPT-4, a OpenAI precisava não apenas de ideias, mas também de infraestrutura. Modelos de linguagem desse tamanho exigem um conjunto de dezenas de milhares de unidades de processamento gráfico. Projetadas inicialmente para renderizar imagens tridimensionais, as GPUs provaram ser excepcionalmente úteis para as multiplicações de matrizes que são essenciais para as redes neurais. Mas integrá-los para que funcionassem como um sistema unificado exigiu orquestração personalizada de software e hardware.
Os engenheiros da OpenAI desenvolveram técnicas para particionar modelos em fragmentos, que podem ser distribuídos por vários chips e treinados em paralelo. Eles criaram protocolos de checkpoint para preservar as execuções de treinamento parciais, reduzindo o risco de falhas catastróficas. Eles criaram protocolos de comunicação personalizados para sincronizar as atualizações entre as máquinas. Não foram avanços glamourosos, mas foram essenciais.
"Ninguém havia treinado com 10.000 chips antes", diz Hao. "Eles tiveram que descobrir em tempo real."
Esses avanços possibilitaram a ampliação dos modelos de forma mais rápida e com maior eficiência do que os concorrentes. Mas também contribuíram para um novo tipo de sigilo. A OpenAI deixou de publicar muitos dos detalhes por trás de suas descobertas inovadoras. A empresa argumentou que divulgar informações em excesso significaria abrir mão de uma vantagem competitiva.
Em 2024, a maioria das grandes empresas de tecnologia já havia alcançado esse nível. IBM, Google, Meta, Amazon, Anthropic e empresas mais recentes, como a Mistral, produziram grandes modelos de linguagem usando arquiteturas de transformação e técnicas de treinamento semelhantes. Muitos utilizaram o aprendizado por reforço com feedback humano, um método no qual os humanos avaliam a qualidade da produção de um modelo, permitindo que o modelo seja ajustado para melhor se alinhar às preferências humanas.
Para as pessoas de fora, as diferenças entre esses sistemas se tornaram mais difíceis de discernir. Os desenvolvedores de aplicações começaram a projetar interfaces que pudessem funcionar com qualquer modelo nos bastidores, permitindo que eles trocassem de provedores conforme necessário. Preço, latência e tempo de atividade tornaram-se mais importantes do que as diferenças marginais na inteligência.
"Agora todo mundo está tentando ser agnóstico em relação aos modelos", diz Hao. "A OpenAI não tem mais o monopólio dos bons modelos."
Com a escala deixando de ser um diferencial, as empresas começaram a investir em um paradigma diferente: o da agência. Na inteligência artificial, agência refere-se à capacidade de um sistema de tomar iniciativas, persistir ao longo do tempo e agir em prol de seus objetivos. Em vez de reagir a um prompt, o agente planeja ações, monitora os resultados e ajusta o comportamento.
Isso exigiu novos recursos. Os modelos precisavam manter a memória entre as sessões, integrar-se com ferramentas de terceiros e tomar decisões sem instruções explícitas. O objetivo era passar de um chatbot passivo para um colaborador ativo.
A OpenAI há muito tempo se inspirava no filme "Ela", em que um usuário se apaixona por uma assistente de IA que se adapta sem dificuldades às suas necessidades. Criar um sistema assim significava desenvolver não apenas inteligência, mas também presença. Hao observou que as equipes internas da OpenAI têm perseguido esse sonho em diversas áreas, tanto de produto quanto de pesquisa.
"Não é possível criar esse tipo de assistente sem dar ao modelo memória, persistência e autonomia", afirma ela.
Mas, para tornar os agentes realmente eficazes, a OpenAI precisava de mais do que algoritmos. Era necessário um novo tipo de dados e novas formas de coletá-los. A internet, que antes era uma fonte abundante de dados de treinamento, agora está saturada de conteúdo sintético. Muitos dos documentos atualmente disponíveis online foram gerados por modelos anteriores.
Isso cria um ciclo de feedback em que o treinamento online se torna cada vez menos valioso. Para quebrar esse ciclo, as empresas estão se voltando para uma coleta de dados mais detalhada. Hao relatou que a OpenAI está explorando dispositivos personalizados que podem capturar o comportamento do usuário em tempo real, desde interações com dispositivos móveis até conversas por voz e contexto ambiental.
"Há conteúdo demais gerado por IA na internet", diz Hao. "Se você quer dados de alta qualidade, precisa obtê-los diretamente das pessoas."
Segundo Hao, a crescente quantidade de conteúdo gerado por IA levanta questões difíceis sobre consentimento, vigilância e controle. As pessoas podem realmente escolher não ter seus dados coletados? E que poder de decisão terão sobre os modelos treinados com base em suas palavras, imagens ou comportamento?
Para Hao, a resposta não está no otimismo tecnológico nem em previsões catastróficas, mas na transparência. Ela não se alinha às ideologias dominantes em IA – o que ela chama de "boomers", que acreditam que a inteligência artificial vai salvar a humanidade, nem aos "doomers", que temem que ela vá nos destruir.
"Estou no grupo que defende a responsabilização", diz ela. "Esses sistemas refletem o poder institucional. Precisamos saber como elas são feitas e quem se beneficia."
Segundo Hao, as empresas precisam explicar como seus modelos são testados, quais dados utilizam e como interpretam os resultados. Elas devem manter um registro dos erros e compartilhar suas descobertas para que outros possam analisá-las mais detalhadamente.
Sem esse tipo de abertura, alerta Hao, a IA corre o risco de se tornar uma caixa-preta proprietária – poderosa, mas sem responsabilização.
