GPT é uma tecnologia usada na inteligência artificial generativa, possui uma arquitetura baseada em redes neurais e possibilita gerar conteúdo a partir de um comando.
Mais especificamente, os transformadores generativos treinados previamente (GPTs) são uma família de grandes modelos de linguagem (LLMs) baseados em arquitetura de deep learning de transformação.
Esses modelos de base foram desenvolvidos pela OpenAI e alimentam o ChatGPT e outras aplicações de IA generativa capazes de simular resultados criados por humanos.
A empresa de pesquisa de IA OpenAI introduziu o primeiro modelo GPT, denominado GPT-1, em 2018. Desde então, ela lançou vários avanços na linha GPT de modelos de IA. O modelo GPT mais recente é o GPT-4, lançado no início de 2023. Em maio de 2024, a OpenAI anunciou o GPT-4o1 multilíngue e multimodal, capaz de processar inputs de áudio, visuais e de texto em tempo real.
Como modelo de base, o GPT passou por ajustes finos subsequentes e foi adaptado a uma ampla gama de tarefas específicas downstream. Além dos aplicativos baseados em texto, o GPT alimenta aplicativos de inteligência artificial (IA), que geram e analisam imagens por meio de computer vision, escrevem código, processam dados e muito mais. Esses aplicativos se conectam ao GPT por meio de interfaces de programação de aplicativos (APIs), que possibilitam que transmitam e recebam dados.
Os modelos do GPT aceleraram o desenvolvimento da IA generativa graças à sua arquitetura de transformação, um tipo de rede neural introduzido em 2017 no artigo do Google Brain Atenção é tudo o que você precisa2. Modelos de transformação, incluindo o GPT e BERT, impulsionaram muitos desenvolvimentos notáveis em IA generativa desde então, com o chatbot ChatGPT da OpenAI assumindo o centro das atenções.
Além da OpenAI, outras empresas lançaram seus próprios modelos de IA generativa, incluindo o Claude da Anthropic, o Pi da Inflection e o Gemini do Google, anteriormente conhecida como Bard. Enquanto isso, o OpenAI impulsiona o serviço de IA Copilot da Microsoft.
A flexibilidade dos modelos de transformação, como o GPT os torna úteis para uma ampla gama de casos de uso. A capacidade do GPT de oferecer geração de texto semelhante à humana o torna uma escolha comum para:
Os chatbots que utilizam o GPT podem parecer mais humanos do que as opções padrão de atendimento ao cliente automatizado. Por meio de APIs, as organizações podem vincular o GPT a aplicativos de voz para criar assistentes de voz capazes de responder a declarações mais complexas e oferecer serviços de resposta a perguntas conversacionais.
Com prompts eficazes, os modelos do GPT podem gerar conteúdo de texto que varia de uma cópia curta de redes sociais a posts de blogs e e-mails completos. Além disso, os autores podem usar GPTs para delinear ou idealizar conteúdo que eles mesmos escrevem, simplificando os fluxos de trabalho de criação de conteúdo.
O uso do GPT para gerar conteúdo diretamente para publicação pode levar a problemas com propriedade intelectual, um dos principais riscos do uso do GPT.
Os aplicativos baseados em GPT podem traduzir idiomas em tempo real a partir de fontes escritas e de áudio. Em uma demonstração ao vivo 3, o GPT-4o demonstrou a capacidade de traduzir em tempo real por conta própria.
O GPT pode processar e resumir documentos longos, como declarações legais ou relatórios comerciais. Ele também pode reescrever o conteúdo no estilo especificado pelo usuário. Por exemplo, um usuário pode fornecer um relatório trimestral como dados de entrada e, em seguida, solicitar que ele seja resumido em marcadores inteligentes.
O GPT pode processar grandes volumes de dados em insights digeríveis. Por meio de APIs, outros aplicativos podem usar o GPT para criar tabelas, gráficos e outros tipos de visualizações de dados. As organizações que alimentam dados internos no GPT podem se expor a violações de segurança cibernética ou violar regulamentos de proteção de dados.
Os modelos GPT podem aprender linguagens de programação e gerar fragmentos de código. Os usuários geralmente obtêm melhores resultados quando tratam o GPT como um assistente de programação, em vez de pedir que ele crie aplicativos completos a partir do zero. Todo o conteúdo gerado pelo GPT, inclusive código, deve ser revisado antes do uso para garantir a precisão e o uso justo.
Em fevereiro de 2024, a Biblioteca Nacional de Medicina dos EUA divulgou um documento descrevendo os possíveis aplicativos de GPT no setor de saúde. Isso inclui o acesso consistente para pacientes em áreas remotas, bem como opções de atendimento personalizado. No entanto, o documento também aborda uma série de desvantagens, como questões de privacidade e limitações de conhecimento.
Os modelos GPT funcionam pela análise de uma sequência de inputs e aplicando matemática complexa para prever a produção mais provável.
Ele emprega probabilidade para identificar a melhor próxima palavra possível em uma frase com base em todas as palavras anteriores. Como um tipo de Tecnologia de IA de deep learning, os GPTs utilizam processamento de linguagem natural (PLN) para entender as solicitações do usuário e gerar respostas relevantes semelhantes às humanas.
Quando um usuário insere um prompt baseado em texto, o GPT cria a resposta mais provável com base em seus dados de treinamento, que incluem bilhões de fontes de dados de texto disponíveis publicamente, desde obras literárias famosas até código fonte aberto.
A vastidão de seus conjuntos de dados de treinamento é a forma como o GPT é capaz de imitar capacidades de compreensão da linguagem semelhantes às humanas. Modelos de GPT em grande escala aplicam deep learning ao contexto do processo e extraem conhecimento do texto relevante em seus dados de treinamento para prever a resposta ideal.
O poder dos modelos GPT vem de dois aspectos importantes:
Pré-treinamento generativo, que ensina o modelo a detectar padrões em dados não rotulados e, em seguida, aplicar esses padrões a novos inputs.
Uma arquitetura de transformação, que permite que o modelo processe todas as partes de uma sequência de inputs em paralelo.
O pré-treinamento generativo é o processo de treinar um grande modelo de linguagem em dados não rotulados, ensinando o modelo a reconhecer vários dados e aprimorando sua capacidade de criar previsões precisas. Os GPTs geram novos dados aplicando os padrões e a estrutura dos seus dados de pré-treinamento aos inputs do usuário.
O pré-treinamento generativo é uma forma de aprendizado não supervisionado, onde o modelo é alimentado com dados não rotulados e forçado a entendê-los por conta própria. Aprendendo a detectar padrões em conjuntos de dados não rotulados, os modelos de aprendizado de máquina adquirem a capacidade de tirar conclusões semelhantes quando expostos a novos inputs, como um prompt do usuário no ChatGPT.
Os modelos GPT são treinados com bilhões ou até trilhões de parâmetros: variáveis internas que um modelo refina durante o processo de treinamento e que determinam como se comporta. Embora a OpenAI ainda não tenha revelado detalhes precisos sobre o GPT-4, estima-se que o modelo contenha aproximadamente 1,8 trilhão de parâmetros4, um aumento de mais de dez vezes em relação ao GPT-3.5.
Os modelos de transformadores são um tipo de rede neural especializada em processamento de linguagem natural: a identificação da intenção e o significado em um input baseado em texto. Eles podem processar dinamicamente os inputs e se concentrar nas palavras mais importantes, independentemente de onde estejam na frase.
Os modelos GPT não entendem a linguagem da mesma forma que os humanos. Em vez disso, eles processam as palavras em unidades discretas chamadas tokens, sendo que algumas palavras são divididas em vários tokens. Ao avaliar todos os tokens de uma só vez, os transformadores são excelentes para estabelecer dependências de longo alcance: relações entre tokens distantes. O GPT se baseia em sua compreensão das dependências de longo alcance para processar as entradas contextualmente.
Os modelos de transformação processam dados com dois módulos conhecidos como codificadores e decodificadores, enquanto usam mecanismos de autoatenção para estabelecer dependências e relacionamentos.
Os mecanismos de autoatenção são a característica principal dos transformadores, capacitando-os a processar uma sequência inteira de inputs de uma só vez. Os transformadores podem autodirecionar sua “atenção” para os tokens mais importantes na sequência de inputs, não importando onde estejam.
Por outro lado, as redes neurais recorrentes (RNNs) mais antigas e as redes neurais convolucionais (CNNs) avaliam os dados dos inputs de forma sequencial ou hierárquica. A autoatenção permite que os GPTs processem o contexto e respondam em detalhes com uma linguagem semelhante à natural, em vez de apenas adivinhar a próxima palavra em uma frase.
A codificação é o processo de mapear tokens em um espaço vetorial tridimensional virtual. Supõe-se que os tokens codificados nas proximidades no espaço 3D tenham significado mais semelhante. Essa vetorização matemática de uma sequência de inputs é conhecida como incorporação.
Os blocos de codificadores na rede de transformadores atribuem a cada incorporação um peso, o que determina sua importância relativa. Enquanto isso, os codificadores de posição capturam a semântica, permitindo que os modelos do GPT diferenciem entre agrupamentos das mesmas palavras, mas em ordens diferentes — por exemplo, "O ovo veio antes da galinha" em comparação com "A galinha veio antes do ovo".
Os decodificadores preveem a resposta estatisticamente mais provável às incorporações preparadas pelos codificadores. Mecanismos de autoatenção permitem que o decodificador identifique as partes mais importantes da sequência de inputs, enquanto algoritmos avançados determinam a produção com maior probabilidade de estar correta.
Desde o lançamento do GPT em 2018, a OpenAI permaneceu na vanguarda de todas as conversas sobre IA generativa. Além de seu principal produto, o ChatGPT, a empresa também buscou a geração de imagens com o DALL-E, bem como vídeo generativo por meio do Sora.
A OpenAI lança seu primeiro modelo GPT. Seu desempenho foi impressionante para a época, servindo como uma prova de conceito para o que os desenvolvimentos posteriores alcançariam. O GPT-1 conseguiu responder a perguntas de forma humana e responder a solicitações de geração de texto, destacando seus casos de uso futuros em chatbots e criação de conteúdo.
O GPT-1 era comparativamente propenso a alucinações ou confabulações, onde apresentava informações incorretas como se fossem factuais. Suas respostas indicavam que a OpenAI ainda não havia aprimorado a capacidade do GPT de identificar dependências de longo alcance e reunir respostas precisas de formato longo.
O próximo modelo da OpenAI contava com 1,5 bilhão de parâmetros, melhorando seu desempenho. O GPT-2 teve mais sucesso do que seu antecessor quando se tratava de manter a coerência em respostas mais longas, sugerindo que sua detecção de dependências de longo alcance estava muito mais estabelecida.
O GPT-2 foi lançado em etapas, com vários modelos de capacidade limitada disponibilizados antes da versão completa. Em uma declaração5, a OpenAI explicou o lançamento escalonado como necessário para a necessidade de mitigar o possível uso indevido e outras preocupações éticas. A OpenAI citou como o modelo pode ser usado para se passar por outras pessoas online, gerar notícias enganosas e automatizar conteúdo de cyberbullying e phishing.
Embora o CEO da OpenAI, Sam Altman, tenha repetidamente feito apelos públicos para a regulamentação governamental da IA, a empresa também fez lobby privado para tornar a Lei de IA da UE menos restritiva6. A redação final da legislação, aprovada pelo Parlamento Europeu em junho de 2024, parecia estar alinhada com as recomendações da empresa.
Com 175 bilhões de parâmetros (mais de cem vezes o número de seu antecessor), o GPT-3 emergiu como um dos maiores LLMs da época. Os recursos da empresa superavam em muito os dos modelos anteriores de sua linhagem. A versão gratuita do ChatGPT ainda é alimentada pelo GPT-3.5, a versão mais atual do GPT-3.
Embora o desempenho do GPT-3 refletisse sua potência e tamanho adicionais, suas demandas de treinamento também dispararam. Os recursos de computação e energia necessários para treinar LLMs tão grandes geraram preocupação em relação às pegadas de carbono e água7. Em resposta, a OpenAI desenvolveu novos métodos de treinamento que aumentaram a eficiência do processo de treinamento.
A versão atual do GPT é a mais poderosa da OpenAI até agora, superando seus antecessores em qualidade de conteúdo e prevenção de vieses. Ela está por trás da versão premium do ChatGPT, oferecendo aos assinantes maior funcionalidade e desempenho em relação à versão gratuita impulsionada pelo GPT-3.5 do serviço.
No entanto, é também o modelo com uso mais intensivo de recursos da família GPT, com uma estimativa de custos operacionais diários de US$ 700 mil8. Enquanto os LLMs continuam crescendo, continuam os debates sobre custos versus benefícios em potencial. Um relatório emitido pela Goldman Sachs em junho de 20249 concentrou-se nos casos de uso possivelmente limitados da IA generativa em comparação com os custos crescentes de treinamento e manutenção dos modelos.
O GPT-4 Turbo, iteração atual do modelo, tem como data limite de conhecimento abril de 2023. Isso significa que seus dados de treinamento ou base de conhecimento não cobrem nenhum conteúdo online lançado após esse ponto.
Lançado em maio de 2024, o GPT-4o é multilíngue, sendo compatível com conteúdo em vários idiomas além do inglês. Também é multimodal, capaz de processar solicitações de imagens, áudio e vídeos enquanto gera texto, imagens e conteúdo de áudio em resposta. De acordo com a OpenAI, o GPT-4o é 50% mais barato e duas vezes mais rápido10 na geração de texto do que o GPT-4 Turbo.
Embora os GPTs e outros modelos de IA generativa tenham sido amplamente celebrados na mídia, seu uso não é isento de riscos. As organizações e os indivíduos que desejam incorporar os GPTs a seus fluxos de trabalho devem estar cientes dos possíveis riscos, incluindo:
Privacidade e confidencialidade de dados
Violações de propriedade intelectual e conflitos de propriedade
Produção imprecisa
Viés do modelo
Todos os dados inseridos no GPT estão disponíveis para uso no processamento de outras consultas e podem ser usados pela OpenAI para treinar outros modelos. Isso não apenas representa um risco de segurança para os dados confidenciais, mas também coloca as organizações em risco de violar as obrigações contratuais e legais de proteção de dados.
A OpenAI treina seus modelos em materiais protegidos por direitos autorais. Embora a empresa defenda essa escolha como uso justo, ela foi submetida a ações legais, incluindo uma ação judicial do The New York Times11 apresentada em dezembro de 2023. A produção gerada por IA pode conter conteúdo protegido por direitos autorais e sua utilização pode violar restrições de direitos autorais se não for examinada e editada por seres humanos com antecedência.
A OpenAI também foi alvo de críticas quando uma de suas vozes do ChatGPT foi supostamente baseada na voz da atriz Scarlett Johansson12, que estrelou como a voz de uma IA futurista no filme Her de 2013. Desde então, a OpenAI deixou de usar essa voz específica em seus produtos.
Não é garantido que o conteúdo gerado pelo GPT seja correto. Os modelos de IA generativa estão sujeitos a alucinações alucinações ou confabulações de IA em que seus algoritmos detectam padrões em dados que não existem. As confabulações fazem os modelos produzirem conteúdo impreciso que é apresentado ao usuário como se fosse um fato confiável. Essa tendência em relação ao ChatGPT foi explorada com detalhes em um artigo de 2024 de Hicks e outros13.
O viés do modelo é uma divergência entre as previsões de um modelo com base em seus dados de treinamento e o que acontece no mundo real. O GPT é treinado com base em enormes quantidades de dados da internet e, como esse conteúdo é criado por pessoas, pode conter visões preconceituosas, algumas vezes intencionais, outras não. Conforme a IA se integra ao policiamento, à saúde e a outras áreas da vida cotidiana, os vieses da IA podem gerar consequências no mundo real.
Conheça o IBM® Granite, nossa família de modelos abertos de IA de alto desempenho, confiáveis e personalizados para a empresa e otimizados para escalar suas aplicações de IA. Explore as opções de linguagem, código, séries temporais e proteções.
Saiba como selecionar o modelo de base de IA mais adequado para seu caso de uso.
Mergulhe nos artigos, blogs e tutoriais do IBM Developer para aprofundar seu conhecimento sobre LLMs.
Saiba como incentivar sempre as equipes a melhorar o desempenho do modelo e superar a concorrência utilizando as técnicas e infraestrutura mais recentes de IA.
Explore o valor de modelos de base de nível empresarial que proporcionam confiança, desempenho e benefícios econômicos para todos os setores.
Saiba como incorporar IA generativa, aprendizado de máquina e modelos de base em suas operações de negócios para melhorar o desempenho.
Leia sobre as duas mil organizações que pesquisamos sobre suas iniciativas de IA para saber o que está funcionando, o que não está e como você pode se destacar.
Explore a biblioteca de modelos de base da IBM no portfólio do watsonx para escalar a IA generativa com confiança na sua empresa.
Use a IA a serviço da sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.
Reinvente os fluxos de trabalho e as operações críticas adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor comercial.
1 Hello GPT-4o, OpenAI, 13 de maio de 2024
2 Attention Is All You Need, Vaswani et al, 12 de junho de 2017
3 Demonstração ao vivo da tradução em tempo real do GPT-4o, OpenAI, 13 de maio de 2024
4 GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE, Patel & Wong, 10 de julho de 2023
5 Better language models and their implications, OpenAI, 14 de fevereiro de 2019
6 Exclusive: OpenAI Lobbied the E.U. to Water Down AI Regulation, Perrigo, 20 de junho de 2023
7 A Computer Scientist Breaks Down Generative AI's Hefty Carbon Footprint, Saenko and others, 25 de maio de 2023
8 Microsoft Readies AI Chip as Machine Learning Costs Surge, Gardizy & Ma, 18 de abril de 2023
9 GenAI: Too Much Spend, Too Little Benefit?, Nathan, Grimberg & Rhodes, 25 de junho de 2024
10 OpenAI Platform, OpenAI
11 Case 1:23-cv-11195, Barron et al, 27 de dezembro de 2023
12 Scarlett Johansson says a ChatGPT voice is ‘eerily similar’ to hers and OpenAI is halting its use, Grantham-Philips, 21 de maio de 2024
13 ChatGPT is bullshit, Hicks and others, 8 de junho 2024