L'intelligenza artificiale è un campo in rapida evoluzione in cui i progressi più recenti nella formazione di algoritmi per costruire foundation model vengono applicati alla ricerca multimodale. Questa disciplina ha visto precedenti innovazioni multimodali come il riconoscimento vocale audiovisivo e l'indicizzazione dei contenuti multimediali, sviluppate prima che i progressi nel deep learning e nella data science aprissero la strada alla gen AI.

Oggi, i professionisti utilizzano l'AI multimodale in tutti i tipi di casi d'uso, dall'analisi delle immagini mediche in ambito sanitario all'utilizzo della computer vision, oltre ad altri input sensoriali nei veicoli autonomi alimentati dall'AI.

Un articolo del 2022 di Carnegie Mellon descrive tre caratteristiche dell'AI multimodale: eterogeneità, connessioni e interazioni.1 Con eterogeneità ci si riferisce alle diverse qualità, strutture e rappresentazioni delle modalità. Una descrizione testuale di un evento sarà fondamentalmente diversa per qualità, struttura e rappresentazione rispetto a una fotografia dello stesso evento.

Le connessioni si riferiscono alle informazioni complementari condivise tra le diverse modalità, e possono riflettersi in somiglianze statistiche o in corrispondenze semantiche. Infine, le interazioni si riferiscono al modo in cui le diverse modalità interagiscono quando vengono accorpate.

La sfida ingegneristica principale per l'AI multimodale sta nell'integrare ed elaborare in modo efficace diversi tipi di dati per creare modelli in grado di sfruttare i punti di forza di ciascuna modalità, superandone i limiti individuali. Gli autori dell'articolo pongono anche diverse sfide: rappresentazione, allineamento, ragionamento, generazione, trasferimento e quantificazione.