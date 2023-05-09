我们处于 AI 革命的最前沿。在过去十年里，数据的可用性与强大计算能力的碰撞催生了深度学习，从而实现了众多令人瞩目的 AI 功能。然而，我们面临着一个矛盾的挑战：自动化本身却高度依赖人力。这听起来像个玩笑，但事实并非如此——任何尝试使用 AI 解决业务问题的人都深有体会。
传统的 AI 工具虽然功能强大，但往往价格高昂、耗时费力且使用不便。数据必须经过费力的收集和整理，并用特定任务的注释进行标注，才能用于训练 AI 模型。构建模型需要稀缺且专业的技能，而且每遇到一项新任务都必须重复这一流程。因此，企业主要将精力放在那些数据丰富且具有高业务价值的任务自动化上，其他任务往往被忽视。但这种情况正在开始改变。
转换器模型和自监督学习方法的出现使我们能够利用海量未标注数据，为大型预训练模型（有时称为“基础模型”）铺平了道路。这些大型模型降低了实现自动化所需的成本与人力投入。
基础模型为多种 AI 应用程序提供了强大而灵活的支撑。我们可以利用基础模型在有限标注数据和最小工作量的情况下快速完成任务；在某些情境下，仅需描述当前任务，就能引导模型去解决问题。
然而，这些强大的技术也为企业带来了新的风险与挑战。当今许多模型是在数据质量和来源不明的数据集上训练的，这可能导致它们产生冒犯性、有偏见或事实错误的回应。最大的模型造价高昂，训练与运行耗费大量能源，且部署过程复杂。
IBM 一直致力于开发一套方法，专门应对企业在使用基础模型时遇到的核心挑战。今天，我们推出了 watsonx.ai，这是 IBM 为企业打造的门户，通向当今市场上最新的 AI 工具与技术。为了彰显该领域发展的迅速，有些工具仅上线数周，而在我撰写本文时，我们仍在不断新增工具。
watsonx.ai 是 IBM 本周发布的 watsonx 大型产品系列的一部分，内容丰富多样，并将不断演进，但我们的核心承诺始终如一：提供安全、企业级、可直接应用的自动化产品。
这是 IBM 持续努力的一部分，旨在加速客户在这一 AI 新范式下获取价值的过程。在此，我将介绍我们如何构建一套企业级 IBM 训练的基础模型，包括我们在数据管理与模型架构上的方法。我还将概述我们的新产品组合和工具，它们使企业能够在使用我们自有模型的同时，利用丰富的开源模型库，构建并部署基于基础模型的解决方案。
数据质量至关重要。若 AI 模型以带偏见或有害的数据进行训练，其输出自然也会带有偏见或有害信息。在基础模型时代，这一问题尤为突出，因为训练模型所用的数据往往来源广泛、数量庞大，以至于无人能够全面审查。
数据是驱动基础模型的“燃料”，因此 IBM 一直致力于精心挑选和整理模型所用的每一份数据。我们开发了 AI 工具，用于严格筛选数据中的仇恨与亵渎内容、许可限制以及偏见。当发现不良数据时，我们会将其删除，重新训练模型，然后重复此过程。
数据管理是一项永无止境的工作。我们持续开发和优化新方法，以提升数据质量与管控能力，确保符合不断变化的法律和监管要求。我们建立了一套端到端框架，用于追踪已清理的原始数据、所采用的方法，以及每个数据点所应用过的模型。
我们持续收集高质量数据，以应对金融、法律、网络安全和可持续发展等多个领域的紧迫业务挑战。目前，我们计划使用超过 1 TB 的精编文本来训练基础模型，并同时加入整理后的软件代码、卫星数据以及 IT 网络事件数据和日志。
IBM 研究院亦在研发相关技术，旨在将可信性融入基础模型的全生命周期，以减轻模型偏见并提升模型安全性。我们在该领域的研究成果包括 FairIJ 技术，该技术可识别用于模型调优的数据中的偏见数据点，以便对其进行剔除处理。此外，诸如公平性重编程等其他方法，即便在模型训练完成后，仍能帮助我们有效减轻其中的偏见。
IBM 最新推出的 watsonx.ai 工作室提供了一整套基础模型，专注于为企业创造实际价值。这些模型已被整合进多款 IBM 产品，并将在未来数月内向客户推出。
意识到“单一方案并不适合所有场景”，我们正在打造一系列不同规模和架构的语言及代码基础模型。每个模型系列均以地质主题命名——Granite、Sandstone、Obsidian 和 Slate——汇集了 IBM Research 与开放研究社区的前沿创新成果。每个模型均可针对多种企业任务进行定制化应用。
我们的 Granite 模型基于仅解码器、类似 GPT 的架构，用于生成式任务。Sandstone 模型采用编码器-解码器架构，非常适合针对特定任务进行微调，可与 Google 广受欢迎的 T5 模型互换使用。Obsidian 模型利用 IBM Research 开发的新模块化架构，提供高推理效率和各种任务的性能水平。Slate 是一系列仅编码器模型（基于 RoBERTa），这些模型虽然不是生成式的，但对于许多企业 NLP 任务来说非常快速有效。所有 watsonx.ai 模型均在 IBM 精心构建的企业级数据湖上训练，并运行于我们定制的云原生 AI 超级计算机 Vela 上。
效率与可持续性是 watsonx.ai 设计的核心原则。在 IBM Research，我们研发了多项高效模型训练技术，其中包括 “LiGO” 算法，它能回收小型模型并将其扩展为大型模型。这种方法可在训练模型时节省 40% 至 70% 的时间、成本及碳排放。为提升推理速度，我们借助在量化方面的深厚经验，将模型从 32 位浮点压缩至更小的整数位格式。降低 AI 模型精度可在不牺牲准确性的前提下显著提升效率。我们希望很快能在 AI 优化芯片 IBM AIU 上运行这些压缩模型。
基础模型的最后一环是开发便捷的软件，以便对模型进行调优和部署。IBM 基于 RedHat OpenShift 构建的混合云原生推理堆栈，已针对基础模型的训练与部署进行了优化。企业可借助 OpenShift 的灵活性，在任何环境中运行模型，包括本地部署。
我们在 watsonx.ai 中打造了一整套工具，为客户提供友好的界面及便捷的开发库，助力构建基于基础模型的解决方案。Prompt Lab 让用户仅凭少量带标签示例即可快速完成 AI 任务。Tuning Studio 借助 IBM Research 开发的先进高效微调技术，利用用户自身数据实现快速且稳健的模型定制。
除了 IBM 自有模型外，watsonx.ai 还为企业提供丰富的开源模型目录，实现无缝访问，便于企业进行实验与快速迭代。在与 Hugging Face 的最新合作中，IBM 将通过 watsonx.ai 提供数千个 Hugging Face 开源基础模型、数据集和库。Hugging Face 则会在 watsonx.ai 上提供 IBM 所有专有及开放访问的模型与工具。
要试用新模型，只需从下拉菜单中选择即可。您可以点击此处了解有关工作室的更多信息。
基础模型正在重塑 AI 生态，近年来的进展更是日益加速。我们 IBM 很高兴助力探索这一快速发展的前沿领域，并将创新成果转化为实际的企业价值。