A representação refere-se a como representar e resumir dados multimodais para refletir a heterogeneidade e as interconexões entre as modalidades. Os profissionais usam redes neurais especializadas (por exemplo, CNNs para imagens, transformadores para texto) para extrair características e empregam espaços de incorporação conjuntos ou mecanismos de atenção para o aprendizado das representações.

A quantificação envolve estudos empíricos e teóricos para entender o aprendizado multimodal e avaliar melhor seu desempenho em modelos multimodais.

Os modelos multimodais adicionam uma camada de complexidade aos grandes modelos de linguagem (LLMs), que são baseados em transformadores, eles próprios construídos em uma arquitetura de codificador-decodificador com um mecanismo de atenção para processar dados com eficiência. A IA multimodal usa técnicas de fusão de dados para integrar diferentes modalidades. Essa fusão pode ser descrita como precoce (quando as modalidades são codificadas no modelo para criar um espaço de representação comum), intermediária (quando as modalidades são combinadas em diferentes estágios de pré-processamento) e tardia (quando vários modelos processam diferentes modalidades e combinam as saídas).