Os grandes modelos de linguagem (LLMs) de código aberto são muito valorizados porque eles facilitam a modificação e o uso por qualquer pessoa. Mas os benefícios do código aberto são perdidos se a preparação dos dados necessários para treinar e ajustar os modelos for cara e demorada.
"Toda conversa em IA começa com modelos e, na realidade, termina com dados", diz Petros Zerfos, Cientista Pesquisador Principal de Engenharia de Dados para IA Generativa na IBM Research. Para as empresas, isso muitas vezes significa que as equipes de IA passam mais tempo preparando os dados para os modelos do que nos próprios modelos, explica Zerfos.
A solução? Algumas grandes empresas de tecnologia estão oferecendo ferramentas de preparação de dados de código aberto. Por exemplo, o Data Prep Kit da IBM e o NVIDIA NeMo Curator facilitam o treinamento e o ajuste fino de LLMs para empresas de todos os tamanhos, permitindo que elas obtenham valor das aplicações de IA mais rapidamente e de forma mais econômica.
Enquanto as empresas correm para desenvolver e implementar LLMs e aplicações de IA, um dos maiores gargalos é a preparação de dados. De fato, 79% das equipes de IA empresariais entrevistadas no relatório Explore Data-Centric AI Solutions to Streamline AI Development de 2023 da Gartner disseram que a tarefa estratégica mais comum que realizam é a preparação de dados e geração.
A preparação de dados geralmente ocorre durante dois estágios principais no desenvolvimento de LLMs. No estágio de pré-treinamento, os modelos são treinados com centenas de terabytes de dados para que possam compreender inglês simples e adquirir conhecimento e nuances suficientes em vários domínios. De acordo com Zerfos, o pré-treinamento de modelos a partir do zero requer centenas de pessoas e milhões de dólares, então apenas empresas muito grandes (ou algumas startups bem capitalizadas) têm os recursos para fazer isso.
No segundo estágio de preparação de dados, as equipes de IA usam volumes menores de dados direcionados para ajuste fino dos LLMs, para que possam gerar textos mais precisos e relevantes. Algumas empresas muito grandes com recursos amplos realizam ambas as fases, mas a maioria das empresas se concentra na preparação de dados para ajuste fino os modelos que já foram construídos por outros.
Várias empresas, incluindo a IBM e a NVIDIA, abriram recentemente ferramentas de código aberto para ajudar os desenvolvedores a enfrentar a árdua tarefa de preparação de dados não estruturados. O Data Prep Kit da IBM é uma biblioteca de módulos que um desenvolvedor pode conectar ao pipeline para selecionar dados no estágio de pré-treinamento ou ajuste fino. Os módulos funcionam com documentos de origem que contêm dados não estruturados, como texto (por exemplo, um PDF) e código (HTML), e podem ser usados para anotar, transformar e filtrar os dados.
A equipe da IBM código aberto dessas ferramentas para torná-las acessíveis a empresas de todos os portes, diz Zerfos. "O desenvolvedor não precisa fazer nada de especial, esteja ele executando em um notebook, um servidor ou um cluster", diz ele. "Ele também pode ser executado em qualquer infraestrutura de nuvem."
Desde seu lançamento em maio de 2024, desenvolvedores vêm experimentando o framework Data Prep Kit e seus módulos, que são acessíveis via GitHub. Vários membros da Aliança IA, uma comunidade que inclui empresas de tecnologia de grande e pequeno porte, também começaram a testar como determinados módulos podem otimizar e acelerar o treinamento e o ajuste fino, diz Zerfos.
A NVIDIA, gigante de hardware e software de IA, também disponibilizou código aberto de uma série de módulos de preparação de dados para melhorar a precisão dos modelos de IA generativa. O NVIDIA NeMo Curator processa texto, imagens e dados de vídeo em escala. Ele também fornece pipelines criados previamente para gerar dados sintéticos para personalizar e avaliar sistemas de IA generativa.
Uma das tarefas que o NeMo Curator da NVIDIA promete acelerar é a eliminação de duplicação. Ao baixar dados de grandes fontes de rastreamento da web, como o Common Crawl, é comum o modelo encontrar documentos que são duplicatas exatas uns dos outros e documentos que são quase duplicados.
Usando uma versão futura do NeMo Curator, os desenvolvedores da ferramenta dizem que as organizações poderão concluir essa tarefa de deduplicação 20 vezes mais rápido e cinco vezes mais barato do que atualmente.
Com certeza, o código aberto dessas ferramentas as torna mais amplamente acessíveis. No entanto, as equipes de IA empresarial ainda precisam de um certo nível de habilidade e treinamento para gerar valor a partir dessas ferramentas, alertam especialistas como Mark A. Beyer, um Distinguished VP Analyst da Gartner.
"Simplesmente dar a alguém uma ferramenta sem orientação, metodologias e funções para apoiá-la começa a se transformar em experimentação, diz ele. “Pode levar quatro a cinco vezes mais tempo do que simplesmente aproveitar as ferramentas existentes.”
No entanto, no futuro, Ben Lorica, apresentador do podcast The Data Exchange, vê um grande potencial nas ferramentas de preparação de dados à medida que as empresas aumentam o uso de dados multimodais, mesmo que ainda seja precoce.
"Como suas aplicações dependem de uma quantidade cada vez maior de vídeo e áudio, além de texto, você precisará de algum tipo de ferramenta que permita escalar e usar conjuntos de dados maiores e aproveitar qualquer hardware que você tiver", diz ele. "Especialmente no mundo dos agentes, os dados serão um diferencial. É preciso ter acesso aos dados certos na hora certa”.