A inferência de inteligência artificial (inference IA) é a capacidade que modelos de IA treinados têm de reconhecer padrões e extrair conclusões de informações que não viram antes.
A inferência de IA é crítica para o avanço das tecnologias de IA e sustenta suas aplicações mais empolgantes, como a IA generativa, o recurso que alimenta a aplicação popular ChatGPT. Os modelos de IA dependem da inferência de IA para imitar a maneira como as pessoas pensam, raciocinam e respondem a prompts.
A inferência de IA começa treinando um modelo de IA em um grande conjunto de dados com algoritmos de tomada de decisões. Os modelos de IA consistem em algoritmos de tomada de decisões treinados em redes neurais—grandes modelos de linguagem (LLMs) construídos como um cérebro humano. Por exemplo, um modelo de IA projetado para reconhecimento facial pode ser treinado em milhões de imagens de rostos humanos. Eventualmente, ele aprende a identificar com precisão características como cor dos olhos, formato do nariz e cor do cabelo, e pode usá-las para reconhecer um indivíduo em uma imagem.
Embora intimamente relacionados, a inferência de IA e o aprendizado de máquina (ML) são duas etapas diferentes no ciclo de vida do modelo de IA.
Se os modelos de IA não forem treinados em um conjunto de dados robusto apropriado para sua aplicação, eles simplesmente não serão eficazes. Dada a natureza sensível da tecnologia e o quão minuciosamente ela é examinada na imprensa1, as empresas precisam ser cautelosas. Mas com aplicações que abrangem setores e oferecem o potencial de transformação digital e inovação escalável, seus benefícios são muitos:
Embora a inferência de IA tenha muitos benefícios, sendo uma tecnologia jovem e em rápido crescimento, ela também apresenta desafios. Aqui estão alguns dos problemas enfrentados pelo setor que as empresas que consideram investir em IA devem considerar:
A inferência de IA é um processo complexo que envolve o treinamento de um modelo de IA em conjuntos de dados apropriados até que ele possa inferir respostas precisas. Esse é um processo altamente intensivo em termos de computação, que exige hardware e software especializados. Antes de examinar o processo de treinamento de modelos de IA para inferência de IA, vamos explorar alguns dos hardwares especializados que permitem isso:
A unidade central de processamento (CPU) é o principal componente funcional de um computador. No treinamento e inferência de IA, a CPU executa o sistema operacional e ajuda a gerenciar os recursos computacionais necessários para fins de treinamento.
Unidades de processamento gráfico (GPUs), ou circuitos eletrônicos construídos para computação gráfica de alto desempenho e processamento de imagens, são usadas em vários dispositivos, incluindo placas de vídeo, placas-mãe e telefones celulares. No entanto, devido aos seus recursos de processamento paralelo, também estão sendo cada vez mais usadas no treinamento de modelos de IA. Um método é conectar muitas GPUs a um único sistema de IA para aumentar o poder de processamento desse sistema.
Matrizes de portas programáveis em campo (FPGAs) são aceleradores de IA altamente personalizáveis que dependem de conhecimento especializado para serem reprogramados para uma finalidade específica. Ao contrário de outros aceleradores de IA, as FPGAs têm um design exclusivo que se adapta a uma função específica, muitas vezes relacionada ao processamento de dados em tempo real, o que é crítico para a inferência de IA. As FPGAs são reprogramáveis em um nível de hardware, permitindo um nível mais elevado de personalização.
ASICs são aceleradores de IA projetados com um propósito ou carga de trabalho específica em mente, como o deep learning no caso do acelerador ASICs WSE-3 produzido pela Cerebras. Os ASICs ajudam os cientistas de dados a acelerar os recursos de inferência de IA e a reduzir o custo. Ao contrário das FPGAs, os ASICs não podem ser reprogramados, mas como são construídos com um propósito único, eles geralmente superam outros aceleradores de uso mais geral. Um exemplo disso é a Unidade de Processamento de Tensor (TPU) do Google, desenvolvida para aprendizado de máquina de redes neurais usando o software TensorFlow do Google.
As empresas interessadas em investir em aplicações de IA como parte de sua jornada de transformação digital devem se informar sobre os benefícios e desafios da inferência de IA. Para aquelas que investigaram minuciosamente suas várias aplicações e estão prontas para colocá-las em uso, aqui estão cinco etapas para estabelecer uma inferência de IA eficaz:
Preparar os dados é crítico para a criação de modelos e aplicações de IA eficazes. As empresas podem criar conjuntos de dados para os modelos de IA serem treinados no uso de dados de dentro ou de fora da organização. Para obter resultados ideais, é comum usar uma combinação de ambos. Outra parte importante da coleta de dados na qual sua IA treinará é a limpeza de dados — a remoção de quaisquer entradas duplicadas e a resolução de quaisquer problemas de formatação.
Depois que um conjunto de dados tiver sido montado, a próxima etapa é a seleção do modelo de IA certo para sua aplicação. Os modelos vêm em uma grande variedade, de simples a complexos, com os mais complexos capazes de acomodar mais entradas e inferir em um nível mais sutil do que os menos complexos. Durante essa etapa, é importante ter clareza sobre as suas necessidades, pois treinar modelos mais complexos pode exigir mais tempo, dinheiro e outros recursos do que treinar modelos mais simples.
Para obter os resultados desejados de uma aplicação de IA, as empresas geralmente precisam passar por muitas rodadas rigorosas de treinamento em IA. Conforme os modelos são treinados, a precisão de suas inferências ficará mais nítida, e a quantidade de recursos de computação necessários para alcançar essas inferências, como potência de computação e latência, diminuirá. Conforme o modelo amadurece, ele passa para uma nova fase na qual pode começar a fazer inferências sobre novos dados a partir dos dados aprendidos. Essa é uma etapa empolgante porque você poderá ver seu modelo começar a operar da maneira para a qual foi projetado.
Antes que seu modelo seja considerado operacional, é importante que você verifique e monitore suas saídas em busca de quaisquer imprecisões, vieses ou problemas de privacidade de dados. O pós-processamento, como essa fase é às vezes chamada, é onde você cria um processo passo a passo para garantir a precisão de seu modelo. A fase de pós-processamento é o momento de criar uma metodologia que garantirá que sua IA forneça as respostas que você deseja e funcione da maneira pretendida.
Após monitoramento e pós-processamento rigorosos, seu modelo de IA estará pronto para ser implementado para uso comercial. Essa última etapa inclui a implementação da arquitetura e dos sistemas de dados que permitirão que seu modelo de IA funcione, bem como a criação de quaisquer procedimentos de gestão de mudanças para educar os stakeholders sobre como usar sua aplicação de IA em suas funções diárias.
Dependendo do tipo de aplicação de IA de que a empresa necessita, existem diferentes tipos de inferência de IA que ela pode escolher. Se uma empresa está procurando criar um modelo de IA para ser usado com uma aplicação de Internet das coisas (IoT), a inferência de streaming (com seus recursos de medição) provavelmente é a escolha mais adequada. No entanto, se um modelo de IA for projetado para interagir com seres humanos, a inferência online (com seus recursos de LLM) seria uma opção mais adequada. Aqui estão os três tipos de inferência de IA e as características que os tornam únicos.
A inferência dinâmica, também conhecida como inferência online, é o tipo mais rápido de inferência de IA e é usada nas aplicações de IA de LLMs mais populares, como o ChatGPT da OpenAI. A inferência dinâmica gera resultados e previsões no instante em que é solicitada e, depois disso, exige baixa latência e acesso rápido aos dados para funcionar. Outra característica da inferência dinâmica é que as saídas podem chegar tão rapidamente que não há tempo para analisá-los antes de chegarem ao usuário final. Isso faz com que algumas empresas adicionem uma camada de monitoramento entre a saída e o usuário final para garantir o controle de qualidade.
A inferência em lote gera previsões de IA offline usando grandes lotes de dados. Com uma abordagem de inferência em lote, os dados coletados anteriormente são aplicados a algoritmos de ML. Embora não seja ideal para situações em que as saídas são necessárias em alguns segundos ou menos, a inferência em lote é uma boa opção para previsões de IA que são atualizadas regularmente ao longo do dia ou ao longo de uma semana, como dashboards de vendas ou marketing ou avaliações de risco.
A inferência de streaming usa um pipeline de dados, geralmente fornecido por meio de medições regulares de sensores, e os alimenta em um algoritmo que usa os dados para fazer cálculos e previsões continuamente. As aplicações de IoT, como a IA usada para monitorar uma usina de energia ou o tráfego em uma cidade por meio de sensores conectados à internet, dependem da inferência de streaming para tomar suas decisões.
Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.
Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.
Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.
Aprenda conceitos fundamentais e desenvolva suas habilidades com laboratórios práticos, cursos, projetos guiados, avaliações e muito mais.
Saiba como incorporar com confiança a IA generativa e o aprendizado de máquina em sua empresa.
Quer ter mais retorno sobre seus investimentos em IA? Saiba como o dimensionamento da IA generativa em áreas importantes promove mudanças, ajudando suas melhores mentes a criar e oferecer soluções novas e inovadoras.
Saiba como selecionar o modelo de base de IA mais adequado para seu caso de uso.
1 “Why Companies Are Vastly Underprepared For The Risks Posed By AI”, Forbes, 15 de junho de 2023
2 “Onshoring Semiconductor Production: National Security Versus Economic Efficiency”, Council on Foreign Relations, abril de 2024
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com, openliberty.io