我们中的许多人都熟悉单模态 AI 应用。ChatGPT 就是一款广受欢迎的单模态 AI 工具。像 ChatGPT 这样的聊天机器人利用自然语言处理 (NLP) 技术来理解用户问题并实时自动生成回复。这些单模态大型语言模型 (LLM) 可应用的输入类型仅限于文本。

多模态人工智能 (AI) 依赖于构建在神经网络之上的机器学习模型。这些神经网络能够运用复杂的深度学习技术，处理并整合来自多种数据类型的信息。这些由生成式 AI 模型（有时称为 gen AI 模型）生成的不同模态可包括文本、图像、视频和音频输入。

多模态 AI 系统有许多实际的用例，涵盖了从医疗保健领域的医学影像诊断，到利用计算机视觉技术，再到翻译应用中的语音识别等多个方面。这些 AI 科技进步能够优化各个领域。多模态架构的主要优势在于其能够处理不同类型数据的能力。