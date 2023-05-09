Estamos na fronteira de uma revolução da IA. Ao longo da última década, o deep learning surgiu de uma colisão sísmica entre a disponibilidade de dados e o enorme poder de computação, possibilitando uma série de recursos impressionantes de IA. Mas enfrentamos um desafio paradoxal: a automação é trabalhosa. Parece piada, mas não é, como qualquer pessoa que já tenha tentado resolver problemas de negócios com IA deve saber.
As ferramentas de IA tradicionais, embora poderosas, podem ser caras, demoradas e difíceis de usar. Os dados devem ser coletados, selecionados e rotulados laboriosamente com anotações específicas da tarefa para treinar modelos de IA. A construção de um modelo exige habilidades especializadas e difíceis de encontrar — e cada nova tarefa exige a repetição do processo. Como resultado, as empresas concentraram-se principalmente na automação de tarefas com dados em abundância e alto valor de negócios, deixando todo o resto na mesa. Mas isso está começando a mudar.
O surgimento dos transformadores e dos métodos de aprendizado autossupervisionado nos permitiu acessar vastas quantidades de dados não rotulados, abrindo caminho para grandes modelos pré-treinados, às vezes chamados de "modelos de base ". Esses modelos grandes reduziram o custo e o trabalho envolvidos na automação.
Os modelos de base fornecem uma base poderosa e versátil para uma variedade de aplicações de IA. Podemos usar modelos de base para executar tarefas rapidamente com dados anotados limitados e esforço mínimo; em alguns casos, precisamos apenas descrever a tarefa em questão para persuadir o modelo a resolvê-la.
Mas essas tecnologias poderosas também introduzem novos riscos e desafios para as empresas. Muitos dos modelos atuais são treinados em conjuntos de dados de qualidade e procedência desconhecidas, levando a respostas ofensivas, com viés ou factualmente incorretas. Os maiores modelos são caros, consomem muita energia para treinar e executar e complexos para implementar.
Nós, da IBM, temos desenvolvido uma abordagem que lida com os principais desafios para a utilização de modelos de base para empresas. Hoje, anunciamos o watsonx.ai, O portal de entrada da IBM para as mais recentes ferramentas e tecnologias de IA disponíveis no mercado. Em um testemunho da rapidez com que o campo está se movendo, algumas ferramentas têm apenas algumas semanas de uso e estamos adicionando novas neste momento.
O que está incluído no watsonx.ai (parte da oferta maior do watsonx da IBM anunciada esta semana) é variado e continuará a evoluir, mas nossa promessa geral é a mesma: fornecer produtos de automação seguros e prontos para empresas.
Faz parte do nosso trabalho contínuo na IBM acelerar a jornada dos nossos clientes para extrair valor desse novo paradigma da IA. Aqui, descreverei nosso trabalho para construir um pacote de modelos de base de nível empresarial, treinados pela IBM, incluindo nossa abordagem para arquiteturas de dados e modelos. Descreverei também nosso novo portfólio e ferramentas que permitem que as empresas criem e implementem soluções baseadas em modelos de base usando um amplo catálogo de modelos de código aberto, além do nosso próprio.
A qualidade de dados importa. Um modelo de IA treinado com dados com viés ou tóxicos naturalmente tende a produzir saídas com viés ou tóxicas. Esse problema é agravado na era dos modelos de base, em que os dados usados para treinar modelos normalmente vêm de muitas fontes e são tão abundantes que nenhum ser humano poderia vasculhar razoavelmente todos eles.
Como os dados são o combustível que impulsiona os modelos de base, nós da IBM nos concentramos em selecionar meticulosamente tudo o que entra em nossos modelos. Desenvolvemos ferramentas de IA para filtrar agressivamente nossos dados para eliminar conteúdo de ódio e palavrões, restrições de licenciamento e viés. Quando dados questionáveis são identificados, nós os removemos, treinamos novamente o modelo e repetimos.
A curadoria de dados é uma tarefa que nunca está realmente concluída. Continuamos desenvolvendo e refinando novos métodos para melhorar a qualidade de dados e os controles, a fim de atender a um conjunto de requisitos legais e regulatórios em constante evolução. Desenvolvemos um framework para rastrear os dados brutos que foram limpos, os métodos que foram usados e os modelos que cada ponto de dados tocou.
Continuamos a reunir dados de alta qualidade para ajudar a enfrentar alguns dos desafios de negócios mais urgentes em vários domínios, como finanças, direito, cibersegurança e sustentabilidade. No momento, estamos direcionando mais de 1 terabyte de texto selecionado para treinar nossos modelos de base, ao mesmo tempo que adicionamos código de software selecionado, dados de satélites e dados e logs de eventos de rede de TI.
A IBM Research também está desenvolvendo técnicas para integrar confiança em todo o ciclo de vida do modelo de base, para mitigar viés e melhorar a segurança do modelo. Nosso trabalho nessa área inclui FairIJ, que identifica pontos de dados com viés nos dados usados para ajuste de um modelo, para que possam ser editados. Outros métodos, como a reprogramação justa, permitem atenuar os vieses em um modelo mesmo depois de treinado.
O novo estúdio watsonx.ai da IBM oferece um pacote de modelos de base destinados a fornecer valor empresarial. Eles foram incorporados a uma variedade de produtos IBM que serão disponibilizados aos clientes da IBM nos próximos meses.
Reconhecendo que um tamanho não serve para todos, estamos construindo uma família de modelos de base de linguagem e código de diferentes tamanhos e arquiteturas. Cada família de modelos tem um codinome com temática geológica (Granite, Sandstone, Obsidian e Slate), que reúne inovações de ponta da IBM Research e da comunidade de pesquisa aberta. Cada modelo pode ser personalizado para uma variedade de tarefas empresariais.
Nossos modelos Granite são baseados em uma arquitetura somente de decodificação, semelhante ao GPT, para tarefas generativas. Os modelos Sandstone usam uma arquitetura de codificador-decodificador e são adequados para o ajuste fino em tarefas específicas, intercambiáveis com os populares modelos T5 do Google. Os modelos Obsidian utilizam uma nova arquitetura modular desenvolvida pela IBM Research, proporcionando alta eficiência de inferência e níveis de desempenho em uma variedade de tarefas. Slate refere-se a uma família de modelos de somente codificador (baseados em RoBERTa) que, embora não generativos, são rápidos e eficazes para muitas tarefas de NLP empresariais. Todos os modelos do watsonx.ai são treinados no data lake selecionado e focado em empresas da IBM, em nosso supercomputador de IA nativo da nuvem personalizado, Vela.
Eficiência e sustentabilidade são princípios fundamentais do projeto do watsonx.ai. Na IBM Research, inventamos novas tecnologias para o treinamento eficiente de modelos, incluindo nosso algoritmo "LiGO"IBM Research que recicla modelos pequenos e os "faz crescer" para se tornarem modelos maiores. Esse método pode economizar de 40% a 70% do tempo, do custo e da produção de carbono necessários para treinar um modelo. Para melhorar as velocidades de inferência, estamos aproveitando nosso profundo conhecimento especializado em quantização, ou reduzindo os modelos de aritmética de ponto flutuante de 32 pontos para formatos de bits inteiros muito menores. Reduzir a precisão dos modelos de IA traz enormes benefícios de eficiência sem sacrificar a precisão. Esperamos, em breve, executar esses modelos comprimidos em nosso chip otimizado para IA, o IBM AIU.
A peça final do quebra-cabeça do modelo de base é criar um software fácil de usar para ajustar e implementar modelos. A stack de inferência nativa da nuvem híbrida da IBM, construída sobre o RedHat OpenShift, foi otimizada para o treinamento e disponibilização de modelos de base. As empresas podem aproveitar a flexibilidade do OpenShift para executar modelos de qualquer lugar, inclusive no local.
Criamos um pacote de ferramentas no watsonx.ai que oferece aos clientes uma interface de usuário fácil e bibliotecas amigáveis para desenvolvedores para criar soluções baseadas em modelos de base. Nosso Prompt Lab permite que os usuários executem rapidamente tarefas de IA com apenas alguns exemplos rotulados. O Tuning Studio permite a personalização rápida e robusta do modelo usando seus próprios dados, baseada em técnicas eficientes de ajuste fino de última geração desenvolvidas pela IBM Research.
Além dos modelos da própria IBM, o watsonx.ai oferece acesso contínuo a um amplo catálogo de modelos de código aberto para as empresas experimentarem e iterarem rapidamente. Em uma nova parceria com a Hugging Face, a IBM oferecerá milhares de modelos de base, conjuntos de dados e bibliotecas de código aberto da Hugging Face em watsonx.ai. A Hugging Face, por sua vez, oferecerá todos os modelos e ferramentas proprietários e de acesso aberto da IBM no watsonx.ai.
Para experimentar um novo modelo, basta selecioná-lo no menu suspenso. Saiba mais sobre o estúdio aqui.
Os modelos de base estão mudando o cenário da IA, e o progresso só tem acelerado nos últimos anos. Na IBM, estamos animados em ajudar a traçar as fronteiras desse campo em rápida evolução e transformar a inovação em valor real para a empresa.
