Início Think Tópicos Inferência de IA O que é inferência de IA?
Explore a solução de inferência de IA da IBM Inscreva-se para receber atualizações sobre a IA
Ilustração em estilo plano/linha, fundo azul com pictogramas de monitor de computador.

Publicado: 18 de junho de 2024
Colaboradores: Mesh Flinders, Ian Smalley

O que é inferência de IA?

A inferência de inteligência artificial (IA) é a capacidade que os modelos de IA treinados têm de reconhecer padrões e extrair conclusões de informações que não foram vistas antes.

A inferência de IA é fundamental para o avanço das tecnologias de IA e é a base de suas aplicações mais interessantes, como a IA generativa, o recurso que alimenta a popular aplicação ChatGPT. Os modelos de IA dependem da inferência de IA para imitar a maneira como as pessoas pensam, raciocinam e respondem aos prompts.

A inferência de IA começa treinando um modelo de IA em um grande conjunto de dados com algoritmos de tomada de decisão. Os modelos de IA consistem em algoritmos de tomada de decisão treinados em neural networksgrandes modelos de linguagem (LLMs) construídos como um cérebro humano. Por exemplo, um modelo de IA projetado para reconhecimento facial pode ser treinado com milhões de imagens do rosto humano. Eventualmente, ele aprende a identificar com precisão características como cor dos olhos, formato do nariz e cor do cabelo, e pode então usá-las para reconhecer um indivíduo em uma imagem.

A diferença entre a inferência de IA e o aprendizado de máquina

Embora intimamente relacionados, a inferência de IA e o aprendizado de máquina (ML) são duas etapas diferentes no ciclo de vida do modelo de IA.

  • O aprendizado de máquina é o processo de usar dados e algoritmos de treinamento, por meio do processo de aprendizado supervisionado, para permitir que a IA imite a maneira como os humanos aprendem, melhorando gradualmente sua precisão.
  • A inferência de IA é o processo de aplicar o que o modelo de IA aprendeu por meio de ML para decidir, prever ou concluir a partir dos dados.
Como escolher os modelos de base de IA corretos

Embora a maioria das organizações tenha clareza sobre os resultados que esperam da IA gerativa, o que não é tão bem compreendido é a maneira de alcançar esses resultados. Escolher o modelo errado pode afetar gravemente sua empresa.

Benefícios da inferência de IA

Se os modelos de IA não forem treinados em um conjunto de dados robusto apropriado para sua aplicação, eles simplesmente não serão eficazes. Dada a natureza sensível da tecnologia e o quão minuciosamente ela é examinada na imprensa1, as empresas precisam ser cautelosas. Mas com aplicações que abrangem setores e oferecem o potencial de transformação digital e inovação escalável, seus benefícios são muitos:

  • Resultados precisos e exatos: os modelos de IA estão se tornando mais precisos e exatos à medida que a tecnologia avança. Por exemplo, os LLMs mais novos podem escolher palavras, frases e gramática de forma a imitar o tom de um determinado autor. No espaço de arte e vídeo, eles podem fazer o mesmo, selecionando cores e estilos para transmitir uma disposição, um tom ou um estilo artístico específico.
  • Controle de qualidade aprimorado: uma das expansões mais novas e potencialmente mais empolgantes da IA está no campo de monitoramento e inspeções de sistemas. Modelos de IA treinados em conjuntos de dados que variam da qualidade da água aos padrões climáticos estão sendo usados para monitorar a saúde dos equipamentos industriais no campo.
  • Aprendizado robótico: robôs e robótica com recursos de inferência de IA estão sendo implementados em várias tarefas para agregar valor comercial. Talvez a aplicação mais popular do aprendizado robótico sejam os carros sem motorista. A inferência de IA é amplamente usada por empresas de carros sem motorista, como Tesla, Waymo e Cruz, para ensinar neural networks a reconhecer e obedecer às regras de trânsito.
  • Aprendizado sem direção: a inferência de IA treina com dados sem ser programada, reduzindo o input humano e os recursos necessários para funcionar de forma eficaz. Por exemplo, um modelo de IA treinado com imagens de ambientes agrícolas pode ser usado para ajudar os agricultores a identificar e mitigar plantas daninhas e culturas não saudáveis.
  • Orientação informada e tomada de decisão: uma das aplicações mais interessantes da inferência de IA é a capacidade da IA de entender nuances e complexidade e oferecer conselhos com base nos conjuntos de dados em que é aprendida. Por exemplo, modelos de IA treinados em princípios financeiros podem oferecer conselhos sólidos de investimento e identificar atividades potencialmente fraudulentas. Da mesma forma, a IA pode eliminar o potencial de erro humano de procedimentos arriscados, como o diagnóstico de uma doença ou a pilotagem de uma aeronave.
  • Recursos de edge computing: a inferência de IA e o edge computing oferecem todos os benefícios da IA em tempo real, sem a necessidade de migrar dados para um data center para processá-los. O potencial da inferência de IA no edge tem amplas repercussões, desde o gerenciamento e monitoramento dos níveis de estoque em um depósito até as reações de velocidade de milissegundos necessárias para a operação segura de um veículo autônomo.
Desafios da inferência da IA

Embora a inferência de IA tenha muitos benefícios, sendo uma tecnologia jovem e em rápido crescimento, ela também apresenta desafios. Aqui estão alguns dos problemas enfrentados pelo setor que as empresas que consideram investir em IA devem considerar:

  • Conformidade: a tarefa de regular as aplicações de IA e a inferência de IA é árdua e muda constantemente. Um exemplo disso é a área de soberania de dados, o conceito de que os dados estão sujeitos às leis do país ou região onde foram gerados. As empresas globais que coletam, armazenam e processam dados para fins de IA em mais de um território acham difícil manter a conformidade com as leis em vários territórios e, ao mesmo tempo, inovar de maneiras que beneficiem seus negócios.
  • Qualidade: no treinamento de modelos de IA, a qualidade dos dados nos quais os modelos são treinados é fundamental para seu sucesso. Assim como os humanos aprendem com um professor ruim, um modelo de IA treinado em um conjunto de dados ruim terá um desempenho ruim. Os conjuntos de dados precisam ser rotulados claramente e ser hiper-relevantes para a habilidade que o modelo de IA está tentando aprender. Um dos principais desafios da IA (e especialmente a precisão da inferência da IA) é a seleção do modelo certo para treinar.
  • Complexidade: assim como com a qualidade dos dados, a complexidade dos dados também pode causar problemas com os modelos de IA. Ao usar a analogia de um aluno humano novamente, quanto mais simples for a coisa para a qual a IA está sendo treinada, mais fácil será aprender. Os modelos de IA que lidam com problemas simples, como um chatbot de atendimento ao cliente ou um agente de viagens virtual, são relativamente fáceis de treinar em comparação com modelos projetados para problemas mais complexos, como imagens médicas ou consultoria financeira.
  • Aprimoramento: por mais emocionante que possa ser imaginar as possibilidades de um campo novo e em rápido crescimento como a IA, o conhecimento necessário para criar aplicações de IA funcionais e inferências precisas de IA exige tempo e recursos. Até que o pipeline de talentos acompanhe o ritmo da inovação, os especialistas nesse campo permanecem em alta demanda e são caros para contratar.
  • Dependência de Taiwan: 60% dos semicondutores do mundo e 90% de seus chips avançados (incluindo os aceleradores de IA necessários para a inferência de IA) são fabricados na ilha de Taiwan.2 Além disso, a maior empresa de hardware e software de IA do mundo, a Nvidia, depende quase exclusivamente de uma única empresa, a Taiwan Semiconductor Manufacturing Corporation (TSMC), para seus aceleradores de IA. Desastres naturais ou outros incidentes imprevistos podem ameaçar a fabricação e a distribuição dos chips necessários para alimentar a inferência de IA e suas diversas aplicações.
Componentes críticos para inferência de IA

A inferência de IA é um processo complexo que envolve o treinamento de um modelo de IA em conjuntos de dados apropriados até que ele possa inferir respostas precisas. Esse é um processo altamente intensivo em termos de computação, que exige hardware e software especializados. Antes de examinar o processo de treinamento de modelos de IA para inferência de IA, vamos explorar alguns dos hardwares especializados que permitem isso:

Unidade central de processamento

unidade central de processamento (CPU) é o principal componente funcional de um computador. No treinamento e inferência de IA, a CPU executa o sistema operacional e ajuda a gerenciar os recursos computacionais necessários para fins de treinamento.

Unidade de processamento gráfico

Unidades de processamento gráfico (GPUs), ou circuitos eletrônicos construídos para computação gráfica de alto desempenho e processamento de imagens, são usados em vários dispositivos, incluindo placas de vídeo, placas-mãe e telefones celulares. No entanto, devido aos seus recursos de processamento paralelo, eles também estão sendo cada vez mais usados no treinamento de modelos de IA. Um método é conectar muitas GPUs a um único sistema de IA para aumentar o poder de processamento desse sistema.

Matrizes de portas programáveis em campo

Matrizes de portas programáveis em campo (FPGAs) são aceleradores de IA altamente personalizáveis que dependem de conhecimento especializado para serem reprogramados para uma finalidade específica. Ao contrário de outros aceleradores de IA, os FPGAs têm um design exclusivo que se adapta a uma função específica, muitas vezes relacionada ao processamento de dados em tempo real, o que é fundamental para a inferência de IA. Os FPGAs são reprogramáveis em um nível de hardware, permitindo um nível mais elevado de personalização.

Circuitos integrados específicos de aplicações

ASICs são aceleradores de IA projetados com um propósito ou carga de trabalho específica em mente, como o deep learning no caso do acelerador ASICs WSE-3 produzido pela Cerebras. Os ASICs ajudam os cientistas de dados a acelerar os recursos de inferência de IA e a reduzir o custo. Ao contrário dos FPGAs, os ASICs não podem ser reprogramados, mas como são construídos com uma finalidade singular, eles normalmente superam outros aceleradores de uso geral. Um exemplo disso é a Unidade de Processamento de Tensor (TPU) do Google, desenvolvida para aprendizado de máquina de Neural Networks usando o software TensorFlow do próprio Google.

Como funciona a inferência de IA

As empresas interessadas em investir em aplicações de IA como parte de sua jornada de transformação digital devem se informar sobre os benefícios e desafios da inferência de IA. Para aqueles que investigaram minuciosamente suas várias aplicações e estão prontos para colocá-las em uso, aqui estão cinco etapas para estabelecer uma inferência de IA eficaz:

Preparar dados

Preparar os dados é fundamental para a criação de modelos e aplicações de IA eficazes. As empresas podem criar conjuntos de dados para os modelos de IA treinarem no uso de dados de dentro ou de fora da organização. Para obter resultados ideais, é comum usar uma combinação de ambos. Outra parte importante da coleta de dados na qual sua IA treinará é a limpeza dos dados— a remoção de quaisquer entradas duplicadas e a resolução de quaisquer problemas de formatação.

Escolher um modelo de treinamento

Depois que um conjunto de dados tiver sido montado, o próximo passo é a seleção do modelo de IA certo para sua aplicação. Os modelos vêm em uma variedade de simples a complexos, com os mais complexos capazes de acomodar mais inputs e inferir em um nível mais sutil do que os menos complexos. Durante essa etapa, é importante ter clareza sobre as suas necessidades, pois treinar modelos mais complexos pode exigir mais tempo, dinheiro e outros recursos do que treinar modelos mais simples.

Treine seu modelo

Para obter os resultados desejados de uma aplicação de IA, as empresas geralmente precisam passar por muitas rodadas rigorosas de treinamento em IA. Conforme os modelos são treinados, a precisão de suas inferências ficará mais nítida e a quantidade de recursos de computação necessários para alcançar essas inferências, como potência de computação e latência, diminuirá. Conforme o modelo amadurece, ele passa para uma nova fase na qual pode começar a fazer inferências sobre novos dados a partir dos dados aprendidos. Essa é uma etapa empolgante porque você poderá ver seu modelo começar a operar da maneira para a qual foi projetado.

Monitorar resultados

Antes que seu modelo seja considerado operacional, é importante que você verifique e monitore seus resultados em busca de quaisquer imprecisões, vieses ou problemas de privacidade de dados. O pós-processamento, como essa fase é às vezes chamada, é onde você cria um processo passo a passo para garantir a precisão do seu modelo. A fase de pós-processamento é o momento de criar uma metodologia que garantirá que sua IA forneça as respostas que você deseja e funcione da maneira pretendida.

Implementação

Após monitoramento e pós-processamento rigorosos, seu modelo de IA está pronto para ser implementado para uso comercial. Esta última etapa inclui a implementação da arquitetura e dos sistemas de dados que permitirão que seu modelo de IA funcione, bem como a criação de quaisquer procedimentos de gerenciamento de alterações para educar as partes interessadas sobre como usar sua aplicação IA em suas funções diárias.

Tipos de inferência de IA

Dependendo do tipo de aplicação de IA que a empresa precisa, existem diferentes tipos de inferência de IA que eles podem escolher. Se uma empresa está procurando criar um modelo de IA para ser usado com uma aplicação de Internet das Coisas (IoT) , a inferência de fluxo (com seus recursos de medição) provavelmente é a escolha mais adequada. No entanto, se um modelo de IA for projetado para interagir com humanos, a inferência online (com seus recursos de LLM) seria uma opção mais adequada. Aqui estão os três tipos de inferência de IA e as características que os tornam únicos.

 

1. Inferência dinâmica

A inferência dinâmica, também conhecida como inferência online, é o tipo mais rápido de inferência de IA e é usada nas aplicações de IA de LLM mais populares, como o ChatGPT da OpenAI. A inferência dinâmica gera resultados e previsões no instante em que é solicitada e, após, exige baixa latência e acesso rápido aos dados para funcionar. Outra característica da inferência dinâmica é que os resultados podem chegar tão rapidamente que não há tempo para analisá-los antes de chegarem ao usuário final. Isso faz com que algumas empresas adicionem uma camada de monitoramento entre o resultado e o usuário final para garantir o controle de qualidade.

2. Inferência em lote

A inferência em lote gera previsões de IA offline usando grandes lotes de dados. Com uma abordagem de inferência em lote, os dados coletados anteriormente são aplicados a algoritmos de ML. Embora não seja ideal para situações em que os resultados são necessários em alguns segundos ou menos, a inferência em lote é uma boa opção para previsões de IA que são atualizadas regularmente ao longo do dia ou ao longo de uma semana, como dashboards de vendas ou marketing ou avaliações de risco.

3. Inferência de streaming

A inferência de streaming usa um pipeline de dados, geralmente fornecido por meio de medições regulares de sensores, e os alimenta em um algoritmo que usa os dados para fazer cálculos e previsões continuamente. As aplicações de IoT, como a IA usada para monitorar uma usina de energia ou o tráfego em uma cidade por meio de sensores conectados à Internet, dependem da inferência de streaming para tomar suas decisões.

Soluções relacionadas
IA no IBM Z

A IA no IBM Z usa aprendizado de máquina para converter dados de cada transação em insights em tempo real.  

Conheça a IA no IBM Z

watsonx.ai

IBM watsonx.ai O AI Studio faz parte da plataforma de IA e dados IBM watsonx, reunindo novos recursos de IA generativa (IA gen) com tecnologia de modelos de base e aprendizado de máquina (ML) tradicional em um estúdio poderoso que abrange todo o ciclo de vida da IA.

Explore o watsonx.ai

Soluções de infraestrutura de IA

Com uma estratégia híbrida por design, você pode acelerar o impacto da IA em toda a sua empresa.

Explore nossas soluções de infraestrutura de IA
Serviços de consultoria de IA

O IBM Consulting está trabalhando com clientes e parceiros globais para cocriar o que vem por aí na área de IA. Nossa equipe global diversificada, composta por mais de 20 mil especialistas em IA, pode ajudar você a projetar e escalar soluções de IA inovadoras e automação rapidamente e com confiança em seu negócio. ​

Explore os serviços de consultoria em IA

Recursos Além do hype: criando valor comercial com a IA generativa

O uso da IA generativa no negócio está em alta, e é fácil ver por quê.

Coloque a IA para trabalhar com o IBM Z

Explore mais sobre a tecnologia transformadora de IA que já está ajudando as empresas a enfrentar os desafios de negócios.

Explore a demonstração do watsonx.ai

Converse com um modelo solo para ter a experiência de trabalhar com a IA gerativa no watsonx.ai.

O que é inteligência artificial (IA)?

Inteligência artificial, ou IA, é uma tecnologia que permite que computadores e máquinas simulem a capacidade de resolução de problemas e a inteligência humana.

O que é machine learning (ML)?

O aprendizado de máquina (ML) é um ramo da inteligência artificial (IA) e da ciência da computação que se concentra no uso de dados e algoritmos para permitir que a IA imite o modo como os humanos aprendem, melhorando gradualmente sua precisão.

O que é um modelo de IA?

Um modelo de IA é um programa que foi treinado em um conjunto de dados para reconhecer determinados padrões ou tomar determinadas decisões sem intervenção humana adicional.

Dê o próximo passo

Treine, valide, ajuste e implemente IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de próxima geração para construtores de IA. Crie aplicações de IA em menos tempo com menos dados.

Explore o watsonx.ai Agende uma demonstração em tempo real
Notas de rodapé

Todos os links levam para fora do site ibm.com

“Why Companies Are Vastly Underprepared For The Risks Posed By AI”, Forbes, 15 de junho de 2023

“Onshoring Semiconductor Production: National Security Versus Economic Efficiency”, Council on Foreign Relations, abril de 2024