Turings Vorhersagen über denkende Maschinen in den 1950er Jahren legten den philosophischen Grundstein für spätere Entwicklungen in der künstlichen Intelligenz (KI). Pioniere der neuronalen Netzwerke wie Hinton und LeCun in den 80er und 2000er Jahren ebneten den Weg für generative Modelle. Der Deep-Learning-Boom der 2010er Jahre wiederum führte zu großen Fortschritten bei der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP), der Bild- und Texterzeugung und der medizinischen Diagnostik durch Bildsegmentierung und erweiterte die KI-Fähigkeiten. Diese Fortschritte kulminieren in der multimodalen KI, die scheinbar alles kann. Aber so wie frühere Fortschritte zu multimodaler KI geführt haben, was könnte sich aus der multimodalen KI ergeben?