Grandes modelos de linguagem (LLMs) são modelos de base que usam inteligência artificial (IA), deep learning e conjuntos de dados maciços, incluindo sites, artigos e livros, para gerar texto, traduzir entre idiomas e escrever muitos tipos de conteúdo. Existem dois tipos desses modelos de IA generativa: os grandes modelos de linguagem proprietários e os grandes modelos de linguagem de código aberto.
Neste vídeo, Martin Keen explica brevemente sobre grandes modelos de linguagem, como se relacionam com modelos de base, como funcionam e como podem ser usados para lidar com diversos problemas de negócios.
LLMs proprietários são propriedade de uma empresa e só podem ser usados pelos clientes que compram uma licença. A licença pode restringir como o LLM pode ser usado. Por outro lado, os LLMs de código aberto são gratuitos e estão disponíveis para qualquer pessoa acessar, usar para qualquer finalidade, modificar e distribuir.
O termo "código aberto" refere-se ao código do LLM e à arquitetura subjacente acessíveis ao público, o que significa que os desenvolvedores e pesquisadores são livres para usar, melhorar ou modificar o modelo.
Anteriormente, parecia que quanto maior fosse um LLM, melhor, mas agora as empresas estão percebendo que ele pode ser proibitivamente caro em termos de pesquisa e inovação. Em resposta, um ecossistema de modelos de código aberto começou a se mostrar promissor e desafiar o modelo de negócios LLM.
As empresas que não possuem talentos internos de aprendizado de máquina podem usar LLMs de código aberto, que oferecem transparência e flexibilidade, em sua própria infraestrutura, seja na nuvem ou no local. Isso lhes dá controle total sobre seus dados e significa que as informações confidenciais permanecem em sua rede. Tudo isso reduz o risco de vazamento de dados ou acesso não autorizado.
Um LLM de código aberto oferece transparência em relação a como funciona, sua arquitetura, dados e metodologias de treinamento e como é utilizado. Ser capaz de inspecionar o código e ter visibilidade dos algoritmos permite mais confiança em uma empresa, auxilia em relação às auditorias e ajuda a garantir a conformidade ética e legal. Além disso, otimizar eficientemente um LLM de código aberto pode reduzir a latência e aumentar o desempenho.
Eles geralmente são muito mais baratos a longo prazo do que os LLMs proprietários porque não estão envolvidos taxas de licenciamento. No entanto, o custo de operar um LLM inclui os custos de infraestrutura na nuvem ou no local e, normalmente, envolvem um custo inicial significativo.
LLMs pré-treinados e de código aberto permitem o ajuste fino. As empresas podem adicionar funcionalidades ao LLM que beneficiem seu uso específico, e os LLMs também podem ser treinados em conjuntos de dados específicos. Fazer essas alterações ou especificações em um LLM proprietário envolve trabalhar com um fornecedor e custa tempo e dinheiro.
Enquanto LLMs proprietários significam que uma empresa deve depender de um único provedor, um de código aberto permite que a empresa aproveite as contribuições da comunidade, vários provedores de serviços e possivelmente equipes internas para lidar com atualizações, desenvolvimento, manutenção e suporte. O código aberto permite que as empresas experimentem e usem as contribuições de pessoas com perspectivas variadas. Isso pode resultar em soluções que permitem que as empresas permaneçam na vanguarda da tecnologia. Também oferece às empresas que usam LLMs de código aberto mais controle sobre sua tecnologia e decisões sobre como a usam.
As organizações podem usar modelos de LLMs de código aberto para criar praticamente qualquer projeto útil para seus funcionários ou, quando a licença de código aberto permitir, que podem ser oferecidos como produtos comerciais. Estes incluem:
Os modelos de LLMs de código aberto permitem que você crie um aplicativo com habilidades de geração de linguagem, como escrever e-mails, post de blog ou histórias criativas. Um LLM como o Falcon-40B, oferecido sob uma licença Apache 2.0, pode responder a um prompt com sugestões de texto de alta qualidade que você pode então refinar e polir.
LLMs de código aberto treinados em código e linguagens de programação existentes podem ajudar os desenvolvedores a criar aplicações e encontrar erros e falhas relacionadas à segurança.
Os LLMs de código aberto permitem criar aplicações que oferecem experiências de aprendizado personalizadas, que podem ser adaptadas e receber ajuste fino a estilos de aprendizado específicos.
Uma ferramenta de LLM de código aberto que resume artigos longos, notícias, relatórios de pesquisa e muito mais pode facilitar a extração de dados importantes.
Ela podem entender e responder a perguntas, oferecer sugestões e participar de conversas em linguagem natural.
Os LLMs de código aberto que treinam em conjuntos de dados multilíngues podem fornecer traduções precisas e fluentes em muitos idiomas.
Os LLMs podem analisar o texto para determinar o tom emocional ou de sentimento, o que é valioso no gerenciamento da reputação da marca e na análise do feedback dos clientes.
Os LLMs podem ser valiosos na identificação e filtragem de conteúdo online inadequado ou prejudicial, o que é uma grande ajuda na manutenção de um ambiente online mais seguro.
Uma ampla variedade de tipos de organizações usa LLMs de código aberto. Por exemplo, a IBM e a NASA desenvolveram um LLM de código aberto treinado com dados geoespaciais para ajudar os cientistas e suas organizações a combater a mudança climática.
Editores e jornalistas usam LLMs de código aberto internamente para analisar, identificar e resumir informações sem compartilhar dados proprietários fora da redação.
Algumas organizações de saúde usam LLMs de código aberto para software de saúde, incluindo ferramentas de diagnóstico, otimizações de tratamento e ferramentas para lidar com informações de pacientes, saúde pública e muito mais.
O LLM FinGPT de código aberto foi desenvolvido especificamente para o setor financeiro.
A Open LLM Leaderboard tem como objetivo rastrear, classificar e avaliar LLMs e chatbots de código aberto em diferentes benchmarks.
Embora as saídas dos LLMs pareçam fluentes e confiáveis, podem haver riscos que incluem a oferta de informações com base em alucinações, bem como problemas com viés, consentimento ou segurança. A educação sobre esses riscos é uma resposta para as questões de dados e IA.
Os modelos de IA, especialmente os LLMs, serão uma das tecnologias mais transformadoras da próxima década. Como as novas regulamentações sobre IA impondo diretrizes sobre o uso da IA, é crítico não apenas gerenciar e governar os modelos de IA, mas, igualmente importante, governar os dados inseridos na IA.
Para ajudar as organizações a lidar com essas necessidades e multiplicar o impacto da IA, a IBM oferece o watsonx, nossa plataforma de dados e IA pronta para empresas. Juntos, o watsonx oferece às organizações a capacidade de:
