Publicado: 18 de junho de 2024
Colaboradores: Mesh Flinders, Ian Smalley
A inferência de inteligência artificial (IA) é a capacidade que os modelos de IA treinados têm de reconhecer padrões e extrair conclusões de informações que não foram vistas antes.
A inferência de IA é fundamental para o avanço das tecnologias de IA e é a base de suas aplicações mais interessantes, como a IA generativa, o recurso que alimenta a popular aplicação ChatGPT. Os modelos de IA dependem da inferência de IA para imitar a maneira como as pessoas pensam, raciocinam e respondem aos prompts.
A inferência de IA começa treinando um modelo de IA em um grande conjunto de dados com algoritmos de tomada de decisão. Os modelos de IA consistem em algoritmos de tomada de decisão treinados em neural networks—grandes modelos de linguagem (LLMs) construídos como um cérebro humano. Por exemplo, um modelo de IA projetado para reconhecimento facial pode ser treinado com milhões de imagens do rosto humano. Eventualmente, ele aprende a identificar com precisão características como cor dos olhos, formato do nariz e cor do cabelo, e pode então usá-las para reconhecer um indivíduo em uma imagem.
Embora intimamente relacionados, a inferência de IA e o aprendizado de máquina (ML) são duas etapas diferentes no ciclo de vida do modelo de IA.
Embora a maioria das organizações tenha clareza sobre os resultados que esperam da IA gerativa, o que não é tão bem compreendido é a maneira de alcançar esses resultados. Escolher o modelo errado pode afetar gravemente sua empresa.
Se os modelos de IA não forem treinados em um conjunto de dados robusto apropriado para sua aplicação, eles simplesmente não serão eficazes. Dada a natureza sensível da tecnologia e o quão minuciosamente ela é examinada na imprensa1, as empresas precisam ser cautelosas. Mas com aplicações que abrangem setores e oferecem o potencial de transformação digital e inovação escalável, seus benefícios são muitos:
Embora a inferência de IA tenha muitos benefícios, sendo uma tecnologia jovem e em rápido crescimento, ela também apresenta desafios. Aqui estão alguns dos problemas enfrentados pelo setor que as empresas que consideram investir em IA devem considerar:
A inferência de IA é um processo complexo que envolve o treinamento de um modelo de IA em conjuntos de dados apropriados até que ele possa inferir respostas precisas. Esse é um processo altamente intensivo em termos de computação, que exige hardware e software especializados. Antes de examinar o processo de treinamento de modelos de IA para inferência de IA, vamos explorar alguns dos hardwares especializados que permitem isso:
A unidade central de processamento (CPU) é o principal componente funcional de um computador. No treinamento e inferência de IA, a CPU executa o sistema operacional e ajuda a gerenciar os recursos computacionais necessários para fins de treinamento.
Unidades de processamento gráfico (GPUs), ou circuitos eletrônicos construídos para computação gráfica de alto desempenho e processamento de imagens, são usados em vários dispositivos, incluindo placas de vídeo, placas-mãe e telefones celulares. No entanto, devido aos seus recursos de processamento paralelo, eles também estão sendo cada vez mais usados no treinamento de modelos de IA. Um método é conectar muitas GPUs a um único sistema de IA para aumentar o poder de processamento desse sistema.
Matrizes de portas programáveis em campo (FPGAs) são aceleradores de IA altamente personalizáveis que dependem de conhecimento especializado para serem reprogramados para uma finalidade específica. Ao contrário de outros aceleradores de IA, os FPGAs têm um design exclusivo que se adapta a uma função específica, muitas vezes relacionada ao processamento de dados em tempo real, o que é fundamental para a inferência de IA. Os FPGAs são reprogramáveis em um nível de hardware, permitindo um nível mais elevado de personalização.
ASICs são aceleradores de IA projetados com um propósito ou carga de trabalho específica em mente, como o deep learning no caso do acelerador ASICs WSE-3 produzido pela Cerebras. Os ASICs ajudam os cientistas de dados a acelerar os recursos de inferência de IA e a reduzir o custo. Ao contrário dos FPGAs, os ASICs não podem ser reprogramados, mas como são construídos com uma finalidade singular, eles normalmente superam outros aceleradores de uso geral. Um exemplo disso é a Unidade de Processamento de Tensor (TPU) do Google, desenvolvida para aprendizado de máquina de Neural Networks usando o software TensorFlow do próprio Google.
As empresas interessadas em investir em aplicações de IA como parte de sua jornada de transformação digital devem se informar sobre os benefícios e desafios da inferência de IA. Para aqueles que investigaram minuciosamente suas várias aplicações e estão prontos para colocá-las em uso, aqui estão cinco etapas para estabelecer uma inferência de IA eficaz:
Preparar os dados é fundamental para a criação de modelos e aplicações de IA eficazes. As empresas podem criar conjuntos de dados para os modelos de IA treinarem no uso de dados de dentro ou de fora da organização. Para obter resultados ideais, é comum usar uma combinação de ambos. Outra parte importante da coleta de dados na qual sua IA treinará é a limpeza dos dados— a remoção de quaisquer entradas duplicadas e a resolução de quaisquer problemas de formatação.
Depois que um conjunto de dados tiver sido montado, o próximo passo é a seleção do modelo de IA certo para sua aplicação. Os modelos vêm em uma variedade de simples a complexos, com os mais complexos capazes de acomodar mais inputs e inferir em um nível mais sutil do que os menos complexos. Durante essa etapa, é importante ter clareza sobre as suas necessidades, pois treinar modelos mais complexos pode exigir mais tempo, dinheiro e outros recursos do que treinar modelos mais simples.
Para obter os resultados desejados de uma aplicação de IA, as empresas geralmente precisam passar por muitas rodadas rigorosas de treinamento em IA. Conforme os modelos são treinados, a precisão de suas inferências ficará mais nítida e a quantidade de recursos de computação necessários para alcançar essas inferências, como potência de computação e latência, diminuirá. Conforme o modelo amadurece, ele passa para uma nova fase na qual pode começar a fazer inferências sobre novos dados a partir dos dados aprendidos. Essa é uma etapa empolgante porque você poderá ver seu modelo começar a operar da maneira para a qual foi projetado.
Antes que seu modelo seja considerado operacional, é importante que você verifique e monitore seus resultados em busca de quaisquer imprecisões, vieses ou problemas de privacidade de dados. O pós-processamento, como essa fase é às vezes chamada, é onde você cria um processo passo a passo para garantir a precisão do seu modelo. A fase de pós-processamento é o momento de criar uma metodologia que garantirá que sua IA forneça as respostas que você deseja e funcione da maneira pretendida.
Após monitoramento e pós-processamento rigorosos, seu modelo de IA está pronto para ser implementado para uso comercial. Esta última etapa inclui a implementação da arquitetura e dos sistemas de dados que permitirão que seu modelo de IA funcione, bem como a criação de quaisquer procedimentos de gerenciamento de alterações para educar as partes interessadas sobre como usar sua aplicação IA em suas funções diárias.
Dependendo do tipo de aplicação de IA que a empresa precisa, existem diferentes tipos de inferência de IA que eles podem escolher. Se uma empresa está procurando criar um modelo de IA para ser usado com uma aplicação de Internet das Coisas (IoT) , a inferência de fluxo (com seus recursos de medição) provavelmente é a escolha mais adequada. No entanto, se um modelo de IA for projetado para interagir com humanos, a inferência online (com seus recursos de LLM) seria uma opção mais adequada. Aqui estão os três tipos de inferência de IA e as características que os tornam únicos.
A inferência dinâmica, também conhecida como inferência online, é o tipo mais rápido de inferência de IA e é usada nas aplicações de IA de LLM mais populares, como o ChatGPT da OpenAI. A inferência dinâmica gera resultados e previsões no instante em que é solicitada e, após, exige baixa latência e acesso rápido aos dados para funcionar. Outra característica da inferência dinâmica é que os resultados podem chegar tão rapidamente que não há tempo para analisá-los antes de chegarem ao usuário final. Isso faz com que algumas empresas adicionem uma camada de monitoramento entre o resultado e o usuário final para garantir o controle de qualidade.
A inferência em lote gera previsões de IA offline usando grandes lotes de dados. Com uma abordagem de inferência em lote, os dados coletados anteriormente são aplicados a algoritmos de ML. Embora não seja ideal para situações em que os resultados são necessários em alguns segundos ou menos, a inferência em lote é uma boa opção para previsões de IA que são atualizadas regularmente ao longo do dia ou ao longo de uma semana, como dashboards de vendas ou marketing ou avaliações de risco.
A inferência de streaming usa um pipeline de dados, geralmente fornecido por meio de medições regulares de sensores, e os alimenta em um algoritmo que usa os dados para fazer cálculos e previsões continuamente. As aplicações de IoT, como a IA usada para monitorar uma usina de energia ou o tráfego em uma cidade por meio de sensores conectados à Internet, dependem da inferência de streaming para tomar suas decisões.
A IA no IBM Z usa aprendizado de máquina para converter dados de cada transação em insights em tempo real.
IBM watsonx.ai O AI Studio faz parte da plataforma de IA e dados IBM watsonx, reunindo novos recursos de IA generativa (IA gen) com tecnologia de modelos de base e aprendizado de máquina (ML) tradicional em um estúdio poderoso que abrange todo o ciclo de vida da IA.
Com uma estratégia híbrida por design, você pode acelerar o impacto da IA em toda a sua empresa.
O IBM Consulting está trabalhando com clientes e parceiros globais para cocriar o que vem por aí na área de IA. Nossa equipe global diversificada, composta por mais de 20 mil especialistas em IA, pode ajudar você a projetar e escalar soluções de IA inovadoras e automação rapidamente e com confiança em seu negócio.
O uso da IA generativa no negócio está em alta, e é fácil ver por quê.
Explore mais sobre a tecnologia transformadora de IA que já está ajudando as empresas a enfrentar os desafios de negócios.
Converse com um modelo solo para ter a experiência de trabalhar com a IA gerativa no watsonx.ai.
Inteligência artificial, ou IA, é uma tecnologia que permite que computadores e máquinas simulem a capacidade de resolução de problemas e a inteligência humana.
O aprendizado de máquina (ML) é um ramo da inteligência artificial (IA) e da ciência da computação que se concentra no uso de dados e algoritmos para permitir que a IA imite o modo como os humanos aprendem, melhorando gradualmente sua precisão.
Um modelo de IA é um programa que foi treinado em um conjunto de dados para reconhecer determinados padrões ou tomar determinadas decisões sem intervenção humana adicional.
Todos os links levam para fora do site ibm.com
1 “Why Companies Are Vastly Underprepared For The Risks Posed By AI”, Forbes, 15 de junho de 2023
2 “Onshoring Semiconductor Production: National Security Versus Economic Efficiency”, Council on Foreign Relations, abril de 2024