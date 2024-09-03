Nenhuma tecnologia na história da humanidade demonstrou tanto interesse em tão pouco tempo quanto a IA generativa (IA gen). Muitas das principais empresas de tecnologia estão investindo bilhões de dólares no treinamento de grandes modelos de linguagem (LLMs). Mas essa tecnologia pode justificar o investimento? Será que isso pode estar à altura da euforia?
Na primavera de 2023, um bom tempo no espaço de inteligência artificial (IA), o Goldman Sachs divulgou um relatório estimando que o surgimento da IA generativa poderia impulsionar o PIB global em 7% ao ano, totalizando um adicional de mais de US$ 7 trilhões todos os anos.
Como a IA generativa pode alcançar isso? As aplicações dessa tecnologia são inúmeras, mas geralmente podem ser descritas como uma melhoria da eficiência da comunicação entre humanos e máquinas. Essa melhoria levará à automação de tarefas de baixo nível e ao aumento das capacidades humanas, permitindo que os trabalhadores realizem mais com maior proficiência.
Devido à ampla gama de aplicações e à complexidade da IA generativa, muitos relatos na mídia podem levar os leitores a acreditar que a tecnologia é uma cura quase mágica. Na verdade, essa perspectiva caracterizou grande parte da cobertura em torno da IA generativa quando o lançamento do ChatGPT e outras ferramentas integraram a tecnologia em 2022, com alguns analistas prevendo que estávamos à beira de uma revolução que remodelaria o futuro do trabalho.
Nem mesmo dois anos depois, o entusiasmo da mídia em torno da IA generativa esfriou um pouco. Em junho, a Goldman Sachs divulgou outro relatório com uma avaliação mais medida, questionando se os benefícios da IA generativa poderiam justificar o investimento de trilhões de dólares no seu desenvolvimento. O Financial Times, entre outros veículos, publicou um artigo com uma visão igualmente cética. A equipe do boletim informativo IBM Think resumiu e respondeu a algumas dessas incertezas em um post anterior.
Flutuações subsequentes no mercado de ações levaram vários analistas a propagar que a "bolha da IA" estava prestes a estourar e que uma correção de mercado na escala do colapso das "ponto-com" dos anos poderia se seguir.
O ceticismo da mídia em relação à IA generativa pode ser dividido em quatro crises distintas que os desenvolvedores enfrentam:
Esses são obstáculos sérios, mas muitos continuam otimistas de que a solução do último problema (casos de uso) ajudará a resolver os outros 3. A boa notícia é que eles já estão identificando e trabalhando em casos de uso significativos.
"A IA generativa está tendo um impacto significativo e mensurável em nós mesmos e em nossos clientes, mudando fundamentalmente a maneira como trabalhamos", diz o distinto engenheiro da IBM Chris Hay. "Isso está acontecendo em todos os setores e disciplinas, desde a transformação de processos de RH e transformações de marketing até conteúdo de marca, centrais de contato ou desenvolvimento de software." Hay acredita que estamos na fase corretiva que muitas vezes segue um período de entusiasmo desenfreado, e talvez o recente pessimismo da mídia possa ser visto como uma tentativa de equilibrar declarações anteriores que, em retrospectiva, parecem euforia.
“Eu não gostaria de ser esse analista”, diz Hay, referindo-se a um dos prognósitos mais pessimistas recentes sobre o futuro da IA. "Eu não gostaria de ser a pessoa que diz: 'A IA não fará nada de útil nos próximos 10 anos', porque você será citado sobre isso pelo resto da sua vida."
Tais declarações podem se mostrar tão míopes quanto as alegações de que a internet inicial não significaria muito, ou o palpite de 1943 do fundador da IBM, Thomas Watson, de que o mundo não precisaria de mais de cinco computadores. Hay argumenta que parte do problema é que a mídia muitas vezes combina a IA generativa com uma aplicação mais restrita de chatbots impulsionados por LLMs, como o ChatGPT, que pode, de fato, não estar preparado para resolver todos os problemas que as empresas enfrentam.
Se começarmos a nos deparar com gargalos de oferta (seja em dados, computação ou energia), Hay acredita que os engenheiros serão criativos para resolver esses impedimentos.
"Quando você tem algo em abundância, você consome", afirma Hay. "Se você tem centenas de milhares de GPUs disponíveis, você vai usá-las. Mas quando você tem restrições, você se torna mais criativo.
Por exemplo, os dados sintéticos representam uma maneira promissora de lidar com a crise de dados. Esses dados são criados de forma algorítmica para imitar as características dos dados do mundo real e podem servir como alternativa ou complemento a eles. Embora os engenheiros de aprendizado de máquina devam ter cuidado para não usar dados sintéticos de forma excessiva, uma abordagem híbrida pode ajudar a superar a escassez de dados do mundo real em curto prazo. Por exemplo, os recentes modelos PHI-3.5 da Microsoft ou os modelos Hugging Face SMOL foram treinados com quantidades substanciais de dados sintéticos, resultando em modelos pequenos altamente capazes.
Os LLMs de hoje são famintos por energia, mas há poucos motivos para acreditar que os transformadores de corrente sejam a arquitetura final. Modelos baseados em SSM, como o Mistral Codestral Maba, Jamba 1.5 ou Falcon Maba 1.5, estão ganhando popularidade devido aos seus recursos aumentados de duração de contexto. Arquiteturas híbridas que utilizam vários tipos de modelos também estão ganhando força. Além da arquitetura, os engenheiros estão encontrando valor em outros métodos, como a quantização, chips projetados especificamente para inferência e ajuste fino, uma técnica de deep learning que envolve a adaptação de um modelo pré-treinado para caso de uso específicos.
"Eu adoraria ver mais uma comunidade em torno do ajuste fino nos setores, em vez do pré-treinamento", diz Hay. "O pré-treinamento é a parte mais cara do processo. O ajuste fino é muito mais barato e você pode obter muito mais valor com ele."
Hay sugere que, no futuro, poderemos ter mais GPUs do que sabemos o que fazer, porque nossas técnicas se tornaram muito mais eficientes. Recentemente, ele experimentou transformar um notebook pessoal em uma máquina capaz de treinar modelos. Ao reconstruir pipelines de dados mais eficientes e mexer com o armazenamento em lote, ele está descobrindo maneiras de trabalhar dentro das limitações. Ele poderia naturalmente fazer tudo isso em uma GPU H100 Tensor Core cara, mas uma mentalidade de escassez permitiu que ele encontrasse maneiras mais eficientes de alcançar os resultados desejados. A necessidade foi a mãe da invenção.
Os modelos estão ficando menores e mais poderosos.
"Se você olhar para os modelos menores de hoje, eles são treinados com mais tokens do que os modelos maiores do ano passado", diz Hay. "As pessoas estão inserindo mais tokens em modelos menores, e esses modelos estão se tornando mais eficientes e rápidos."
"Quando pensamos em aplicações de IA para resolver problemas reais de negócios, o que descobrimos é que esses modelos especializados estão se tornando mais importantes", diz Brent Smolinksi, Chefe Global de Estratégia de Tecnologia, Dados e IA da IBM. Isso inclui os chamados pequenos modelos de linguagem e modelos não generativos, como modelos de forecasting, que exigem um conjunto de dados mais restrito. Nesse contexto, a qualidade de dados geralmente supera a quantidade. Além disso, esses modelos especializados consomem menos energia e são mais fáceis de controlar.
"Muita pesquisa está sendo dedicada ao desenvolvimento de algoritmos mais eficientes em termos computacionais", acrescenta Smolinksi. Modelos mais eficientes lidam com todas as quatro crises propostas: consomem menos dados, energia e computação e, sendo mais rápidos, abrem novos casos de uso.
"Os LLMs são ótimos porque têm uma interface de conversa muito natural, e quanto mais dados você alimenta, mais natural a conversa parece", diz Smolinksi. "Mas esses LLMs estão, no contexto de domínios ou problemas restritos, sujeitos a alucinações, o que é um problema real. Portanto, nossos clientes muitas vezes optam por modelos de linguagem pequenos e, se a interface não for perfeitamente natural, tudo bem, porque, para certos problemas, ela não precisa ser.
A IA generativa pode não ser uma cura para tudo, mas é uma ferramenta poderosa no cinto. Considere o fluxo de trabalho agêntico, que se refere a uma abordagem de várias etapas para usar LLMs e agentes de IA para realizar tarefas. Esses agentes agem com um grau de independência e recursos de tomada de decisão, interagindo com dados, sistemas e, às vezes, pessoas, para concluir as tarefas atribuídas. Agentes especializados podem ser projetados para lidar com tarefas ou áreas de especialização específicas, trazendo conhecimento e experiência profundos que os LLMs podem não ter. Esses agentes podem utilizar dados mais especializados ou integrar algoritmos e modelos específicos do domínio.
Imagine uma empresa de telecomunicações onde um fluxo de trabalho agêntico orquestrado por um LLM gerencia com eficiência as consultas de suporte ao cliente. Quando um cliente envia uma solicitação, o LLM processa a consulta, categoriza o problema e aciona agentes específicos para lidar com várias tarefas. Por exemplo, um agente recupera os detalhes da conta do cliente e verifica as informações fornecidas, enquanto outro diagnostica o problema, como executar verificações na rede ou examinar discrepâncias de faturamento.
Quando o problema é identificado, um terceiro agente formula uma solução, seja redefinir o equipamento, oferecer um reembolso ou agendar uma visita técnica. Em seguida, o LLM auxilia um agente de comunicação a gerar uma resposta personalizada ao cliente, ajudando a garantir que a mensagem seja clara e consistente com a voz da marca da empresa. Depois de resolver o problema, um ciclo de feedback é iniciado, onde um agente coleta feedback dos clientes para determinar a satisfação. Se o cliente estiver insatisfeito, o LLM avalia o feedback e pode acionar outras ações de acompanhamento, como uma chamada de um agente humano.
Os LLMs, embora versáteis, podem ter dificuldades com tarefas que exigem profunda expertise em domínio ou conhecimento especializado, especialmente quando essas tarefas não entram nos dados de treinamento do LLM. Também são lentos e inadequados para tomar decisões em tempo real em ambientes dinâmicos. Por outro lado, os agentes podem operar de forma autônoma e proativa, em tempo real, usando algoritmos de tomada de decisão mais simples.
Os agentes, ao contrário dos grandes LLMs monolíticos, também podem ser projetados para aprender e se adaptar ao seu ambiente. Elas podem usar o aprendizado por reforço ou ciclos de feedback para melhorar o desempenho ao longo do tempo, ajustando estratégias com base no sucesso ou fracasso de tarefas anteriores. Os próprios fluxos de trabalho agênticos geram novos dados, que podem ser usados para treinamento adicional.
Este cenário destaca como um LLM é uma parte útil da resolução de um problema de negócios, mas não a solução completa. Essa é uma boa notícia, pois o LLM costuma ser a parte mais cara da cadeia de valor.
Smolinksi argumenta que as pessoas muitas vezes vão a extremos quando entusiasmadas com novas tecnologias. Podemos pensar que uma nova tecnologia transformará o mundo e, quando ela não consegue, podemos ficar excessivamente pessimistas.
"Acho que a resposta está em algum lugar no meio do caminho", diz ele, argumentando que a IA precisa fazer parte de uma estratégia mais ampla para resolver problemas de negócios. “Normalmente, nunca é a IA por si só e, mesmo que seja, envolve a utilização de vários tipos de modelos de IA que você aplica em conjunto para resolver um problema. Mas é necessário começar com o problema. Se houver uma aplicação de IA que possa ter um impacto relevante na sua capacidade de tomada de decisão, e que, por sua vez, leve a um impacto financeiro relevante, concentre-se nessas áreas e descubra como aplicar o conjunto certo de tecnologias e IA. Aproveite o toolkit completo, não apenas LLMs, mas toda a gama de ferramentas disponíveis."
Quanto à chamada "crise dos casos de uso", Hay está confiante de que surgirão casos de uso ainda mais convincentes que justificam o custo desses modelos.
"Se você esperar até que a tecnologia esteja perfeita e só entrar no mercado quando tudo se normalizar, essa é uma boa maneira de ser disruptivo", diz ele. “Não tenho certeza se eu arriscaria.”