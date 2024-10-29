黑匣 AI 是一种其内部工作原理对于用户来说是个谜的 AI 系统。用户可以看到系统的输入和输出，但他们看不到 AI 工具内部发生了什么来产生这些输出。
考虑一个评估求职者简历的黑匣模型。用户可以看到输入，即他们输入到 AI 模型中的简历。用户可以看到输出，即模型为这些简历返回的评估。但用户并不确切知道模型如何得出结论，比如模型考虑了哪些因素、如何权衡这些因素等等。
如今许多最先进的机器学习模型，包括 OpenAI 的 ChatGPT 和 Meta 的 Llama 等大型语言模型，都是黑匣 AI。这些人工智能模型通过复杂的深度学习过程在海量数据集上进行训练，即使是其创造者也不完全了解它们的工作原理。
这些复杂的黑匣可以产生令人印象深刻的结果，但缺乏透明度有时会让人难以相信它们的输出。如果用户不知道幕后发生了什么，他们就无法轻松验证模型的输出。此外，黑匣模型的不透明性可能会隐藏网络安全漏洞、偏见、侵犯隐私等问题。
为了应对这些挑战，AI 研究人员正在努力开发可解释 AI 工具，以平衡先进模型的性能与对 AI 结果透明度的需求。
黑匣 AI 模型的出现有两个原因：要么是开发人员故意将它们设计成黑匣，要么是它们在训练过程中变成了黑匣。
一些 AI 开发人员和程序员在向公众发布 AI 工具之前会掩盖其内部工作原理。这种策略通常旨在保护知识产权。系统的创造者知道它的工作原理，但他们将源代码和决策过程保密。出于这个原因，许多传统的、基于规则的 AI 算法都是黑匣。
然而，许多最先进的技术，包括生成式 AI工具，都是所谓的“有机黑匣”。这些工具的创造者并没有故意掩盖它们的操作。相反，支持这些模型的深度学习系统非常复杂，以至于即使是创造者自己也不完全清楚它们内部发生了什么。
深度学习算法是一种使用多层神经网络的机器学习算法。传统的机器学习模型可能使用一层或两层的网络，而深度学习模型可以有数百甚至数千层。每一层都包含多个神经元，这些神经元是模仿人脑功能而设计的代码组合。
深度神经网络几乎不需要人工干预就可以处理和分析原始的非结构化大数据集。它们可以接收大量数据，识别模式，从这些模式中学习，并利用所学内容生成新的输出，如图像、视频和文本。
这种无需监督的大规模学习能力使 AI 系统能够完成诸如高级语言处理、原创内容创作等看似接近人类智能的任务。
然而，这些深度神经网络本质上是不透明的。用户（包括 AI 开发人员）可以看到输入层和输出层（也称为“可见层”）发生的情况。他们可以看到输入的数据以及输出的预测、分类或其他内容。但他们不知道这之间的所有网络层，即所谓的“隐藏层”，会发生什么。
AI 开发人员大致了解数据如何在网络的每一层流动，并且大致了解模型如何处理他们所采集的数据。但他们并不了解所有细节。例如，他们可能不知道某种神经元组合激活意味着什么，或者模型究竟如何找到并组合 矢量嵌入来响应提示。
即使共享底层代码的开源 AI 模型，最终仍是黑匣， 因为用户仍然无法解释模型激活时每一层内发生的情况。
当今最先进的 AI 和 ML 模型非常强大，但这种强大的代价是可解释性降低。
生成式 AI 模型依赖复杂的神经网络来响应自然语言命令、解决新问题和创造原创内容，但很难解释这些网络内部发生了什么。更简单、基于规则的 AI 模型更容易解释，但它们通常没有生成式 AI 模型那么强大或灵活。
因此，组织不能仅仅通过使用更易解释的传统 AI 工具来解决黑匣问题。传统的 AI 模型可以执行许多功能，但有些事情只有高级 AI 模型才能做到。
虽然使用黑匣机器学习模型可能有实际原因，但缺乏透明度可能会阻碍从这些先进模型中获得全部价值。
具体来说，黑匣 AI 带来了以下挑战：
用户不知道黑匣模型是如何做出决策的——它权衡了哪些因素，得出了哪些相关性。即使模型的输出结果看似准确，但如果不清楚导致这些输出结果的过程，就很难进行验证。
在用户不知情的情况下，黑匣模型可能会因为错误的原因得出正确的结论。这种现象有时被称为“聪明的汉斯效应”，得名于一匹据称能通过跺脚来数数和做简单算术的马。实际上，汉斯是在从主人的肢体语言中察觉到微妙的线索，以判断何时停止跺脚。
当模型应用于医疗保健等领域时，“聪明的汉斯效应”可能会产生严重后果。例如，已知一些基于肺部 X 光片训练出的 COVID-19 AI 诊断模型，虽然在训练数据上达到了很高的准确率，但在实际应用中表现欠佳。
这种性能差距通常是因为模型在学习识别 COVID 时依赖了无关的因素。一个实验模型根据 X 光片上的注释而不是 X 光片本身来“诊断” COVID。这是因为在模型的训练数据中，医生们会为同行重点标出相关特征，COVID 阳性 X 光片往往带有更多标注。1
如果黑匣模型做出错误的决策，或者持续产生不准确或有害的输出，调整模型以纠正这种行为可能会很困难。如果不知道模型内部到底发生了什么，用户就无法准确地找出问题出在哪里。
这一问题给自动驾驶汽车领域带来了重大挑战，因为开发人员需要训练复杂的 AI 系统来做出实时驾驶决策。如果自动驾驶车辆做出错误的决策，后果可能是致命的。但由于这些车辆背后的模型非常复杂，理解它们为何做出糟糕的决策以及如何纠正这些决策可能会很困难。
为了解决这个问题，许多自动驾驶车辆开发人员为他们的 AI 配备了更易解释的系统，如雷达和激光雷达传感器。虽然这些系统并不能解释 AI 本身，但它们为开发人员提供了关于导致 AI 模型做出糟糕决策的环境和情境的洞察分析。2
由于组织无法看到黑匣模型中发生的一切，他们可能会错过潜藏其中的漏洞。生成式 AI 模型也容易受到提示注入和数据投毒攻击，这些攻击可以在用户不知情的情况下秘密改变模型的行为。如果用户无法看到模型的内部流程，他们就不会知道这些流程何时被篡改。
黑匣模型可能容易受到偏见的影响。如果任何 AI 工具在其训练数据或设计中存在偏见，都可能复制人类的偏见。对于黑匣模型来说，确定偏见的存在及其原因尤其困难。
偏见可能导致次优的、有害的甚至非法的结果。例如，如果训练数据偏向于男性，那么为筛选求职者而训练的AI 模型就能学会过滤掉有才华的女性求职者。
某些刑事司法系统使用复杂的 AI 模型来评估一个人再次犯罪的风险。这些模型通常对公众来说是黑匣，他们可能不知道模型到底考虑了哪些因素。如果算法不透明，就很难信任它的预测结果，或者在结果错误时提出申诉。3
《欧盟 AI 法案》和《加州消费者隐私法案》(CCPA) 等法规对组织如何在 AI 驱动的决策工具中使用敏感个人数据做出了规定。对于黑匣模型，组织很难知道自己是否合规，也很难在审计时证明自己合规。
白匣 AI，也称为可解释 AI (XAI) 或透明盒 AI，与黑匣 AI 正好相反。它是一个内部运作透明的AI系统。用户了解AI如何接收数据、处理数据并得出结论。
白匣 AI 模型使信任和验证结果变得更加容易，也可以调整模型以纠正错误和调整性能。但并不是每个 AI 都能轻易变成白匣。
传统的 AI 模型通常可以通过共享其源代码变得透明，但复杂的机器学习模型会通过深度学习算法开发自己的参数。仅仅能够访问这些模型的架构并不总是能够完全解释它们在做什么。
尽管如此，人们正在努力使先进的 AI 模型更易于解释。例如，Anthropic 的研究人员正在将自动编码器（一种神经网络）应用于该公司的 Claude 3 Sonnet LLM，以了解哪些神经元组合对应哪些概念。到目前为止，研究人员已经识别出代表金门大桥和神经科学领域的组合。4
OpenAI 最近的 o1 模型分享了它到达输出所采取的步骤信息，这有助于说明它是如何得出答案的。然而，这不是直接查看模型内部，而是模型对其自身活动的解释。该模型的大部分操作，包括原始的思维链，仍然隐藏着。5
其他研究人员已经开发出相关技术，帮助解释模型如何得出特定结论。例如，与模型无关的局部可解释性解释 (LIME) 是一个过程，它使用一个单独的机器学习模型来分析黑匣的输入和输出之间的关系，目的是识别可能影响模型输出的特征。
这些以结论为重点的技术通常设计用于结构清晰的输入和输出模型。例如，LIME 可以帮助解释预测和分类，但对于具有深度神经网络的开放式 AI 系统，它提供的见解较少。
组织可以在可能的情况下选择透明模型，但一些工作流需要复杂的黑匣 AI 工具。也就是说，有一些方法可以使黑匣模型更值得信赖，并减轻其中一些风险。
与将模型架构保密的闭源 AI 工具相比，开源模型可以让用户更透明地了解其开发和操作。
开源的生成式 AI 模型最终可能由于其复杂的神经网络而成为黑匣，但它可以比闭源代码模型为用户提供更多的洞察分析。
AI 安全流程和工具可以帮助识别和修复 AI 模型、应用程序和相关数据集中的漏洞，而 IT 和安全团队可能无法自行发现这些漏洞。
AI 安全工具还可以深入了解每个 AI 部署的数据、模型和应用程序使用情况，以及访问 AI 的应用程序。
负责任的 AI 框架为组织提供了一套原则和实践，使 AI 更加值得信赖。
例如，IBM 的 AI 信任支柱包括可解释性、公平性、稳健性、透明度和隐私。在需要黑匣模型的地方，遵循框架可以帮助组织以更透明的方式使用这些模型。
