A IA multimodal refere-se à utilização de múltiplas modalidades ao trabalhar com aprendizagem automática com diferentes tipos de dados. As modalidades podem incluir texto, imagens, áudio, vídeo e outras formas de entradas sensoriais.
Ao contrário dos modelos tradicionais de IA, que normalmente são projetados para lidar com um único tipo de dados, a IA multimodal combina e analisa diferentes formas de entrada de dados para obter uma compreensão mais abrangente e gerar resultados mais robustos.
Por exemplo, um modelo multimodal pode receber uma foto de uma paisagem como entrada e gerar um resumo escrito das características desse lugar. Ou pode receber um resumo por escrito de uma paisagem e gerar uma imagem com base nessa descrição. Essa capacidade de trabalhar em várias modalidades confere a esses modelos recursos poderosos.
A OpenAI lançou o ChatGPT em novembro de 2022, que rapidamente colocou a IA generativa no mapa. O ChatGPT era uma IA unimodal, projetado para receber entradas de texto e gerar saídas de texto usando processamento de linguagem natural (NLP).
A IA multimodal torna a IA generativa mais robusta e útil, ao permitir vários tipos de entradas e saídas. O Dall-e, por exemplo, foi a implementação multimodal inicial do modelo GPT da Open IA, mas o GPT-4o também introduziu recursos multimodais no ChatGPT.
Os modelos de IA multimodal podem combinar informações de várias fontes de dados e de várias mídias para fornecer uma compreensão mais abrangente e diferenciada dos dados. Isso permite que a IA tome decisões mais bem informadas e gere resultados mais precisos.
Ao aproveitar diferentes modalidades, os sistemas de IA multimodais podem obter maior precisão e robustez em tarefas como reconhecimento de imagem, tradução de idiomas e reconhecimento de fala. A integração de diferentes tipos de dados ajuda a capturar mais contexto e reduzir ambiguidades. Os sistemas de IA multimodal são mais resilientes a ruídos e dados ausentes. Se uma modalidade não for confiável ou indisponível, o sistema poderá contar com outras modalidades para manter o desempenho.
A IA multimodal aprimora a interação ser humano-computador, permitindo interfaces mais naturais e intuitivas para melhores experiências do usuário. Por exemplo, os assistentes virtuais podem entender e responder a comandos de voz e sinais visuais, tornando as interações mais suaves e eficientes.
Imagine um chatbot que possa falar com você sobre seus óculos e fazer recomendações de tamanho com base em uma foto que você compartilha com ele, ou um aplicativo de identificação de aves que reconheça imagens de uma ave em particular e confirme sua identificação "ouvindo" um clipe de áudio de seu canto. A IA que opera em múltiplas dimensões sensoriais pode oferecer aos usuários resultados mais significativos e mais formas de interagir com os dados.
A inteligência artificial é um campo em rápida evolução, no qual os mais recentes avanços no treinamento de algoritmos de desenvolvimento de modelos de base estão sendo aplicados à pesquisa multimodal. Essa disciplina teve inovações multimodais anteriores, como reconhecimento de fala audiovisual e indexação de conteúdo multimídia, que se desenvolveram antes que os avanços no deep learning e na ciência de dados abrissem o caminho para a IA generativa.
Atualmente, os profissionais usam IA multimodal em todos os tipos de casos de uso, desde a análise de imagens médicas na área da saúde até o uso de visão computacional junto com outros inputs de sensores em veículos autônomos impulsionados por IA.
Um artigo de 2022 da Carnegie Mellon descreve três características da IA multimodal: heterogeneidade, conexões e interações.1A heterogeneidade refere-se às diversas qualidades, estruturas e representações das modalidades. Uma descrição de texto de um evento será fundamentalmente diferente em qualidade, estrutura e representação de uma fotografia do mesmo evento.
As conexões referem-se às informações complementares compartilhadas entre diferentes modalidades. Essas conexões podem ser refletidas em similaridades estatísticas ou em correspondência semântica. Por último, as interações referem-se a como diferentes modalidades interagem quando são reunidas.
O principal desafio de engenharia para a IA multimodal está na integração e processamento eficazes de diversos tipos de dados para criar modelos que possam aproveitar os pontos fortes de cada modalidade e, ao mesmo tempo, superar suas limitações individuais. Os autores do artigo também propuseram vários desafios: representação, alinhamento, raciocínio, geração, transferência e quantificação.
A representação refere-se a como representar e resumir dados multimodais para refletir a heterogeneidade e as interconexões entre as modalidades. Os profissionais usam redes neurais especializadas (por exemplo, CNNs para imagens, transformadores para texto) para extrair características e empregam espaços de incorporação conjuntos ou mecanismos de atenção para o aprendizado das representações.
O alinhamento visa identificar conexões e interações entre elementos. Por exemplo, os engenheiros usam técnicas para alinhamento temporal em dados de vídeo e áudio, alinhamento espacial para imagens e texto.
O raciocínio visa compor o conhecimento a partir de evidências multimodais, geralmente por meio de múltiplas etapas inferenciais.
A geração envolve aprender um processo generativo para produzir modalidades brutas que refletem interações intermodais, estrutura e coerência.
A transferência visa transferir conhecimento entre modalidades. Técnicas avançadas de aprendizagem por transferência e espaços de incorporação compartilhados permitem que o conhecimento seja transferido entre modalidades.
A quantificação envolve estudos empíricos e teóricos para entender o aprendizado multimodal e avaliar melhor seu desempenho em modelos multimodais.
Os modelos multimodais adicionam uma camada de complexidade aos grandes modelos de linguagem (LLMs), que são baseados em transformadores, eles próprios desenvolvidos em uma arquitetura de codificador-decodificador com um mecanismo de atenção para processar dados com eficiência.
A IA multimodal usa técnicas de fusão de dados para integrar diferentes modalidades. Essa fusão pode ser descrita como precoce (quando as modalidades são codificadas no modelo para criar um espaço de representação comum), intermediária (quando as modalidades são combinadas em diferentes estágios de pré-processamento) e tardia (quando vários modelos processam diferentes modalidades e combinam as saídas).
A IA multimodal é um campo em rápida evolução, com várias tendências importantes moldando seu desenvolvimento e sua aplicação. Veja aqui algumas das principais tendências:
O GPT-4 V(ision) da OpenAI, o Gemini do Google e outros modelos unificados são projetados para lidar com texto, imagens e outros tipos de dados em uma única arquitetura. Esses modelos podem entender e gerar conteúdo multimodal sem dificuldades.
Mecanismos avançados de atenção e transformadores estão sendo usados para alinhar e fundir melhor os dados de diferentes formatos, levando a resultados mais coerentes e contextualmente precisos.
Aplicações em direção autônoma e realidade aumentada, por exemplo, exigem que a IA processe e integre dados de vários sensores (câmeras, LIDAR e mais) em tempo real para tomar decisões instantâneas.
Os pesquisadores estão gerando dados sintéticos que combinam várias modalidades (por exemplo, descrições de texto com imagens correspondentes) para aumentar os conjuntos de dados de treinamento e melhorar o desempenho dos modelos.
Iniciativas como o Hugging Face e Google AI estão fornecendo ferramentas de IA de código aberto, promovendo um ambiente colaborativo para pesquisadores e desenvolvedores avançarem no campo.
Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.
Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.
Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.
1 https://arxiv.org/abs/2209.03430, 7 de setembro de 2022.
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com, openliberty.io