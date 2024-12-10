今年秋季，领英推出了首款面向招聘人员的 AI 智能体：招聘助手。这款由 OpenAI 的 GPT 技术驱动的新产品，能够自动化处理一系列通常耗费招聘人员大量时间的任务，例如撰写职位描述、搜寻候选人以及处理外联沟通。凭借领英的海量用户数据，该工具更看重技能，而非传统上依据地理位置或毕业院校等因素筛选候选人的过滤方式。
招聘助手是进入广阔多元的招聘领域 AI 产品的最新成员：微软、Indeed、谷歌、IBM 等众多公司均已推出相关工具。市场对此存在需求：近期一项 IBM 调查发现，人力资源与人才获取需求占 AI 用例的 19%。与许多同业者类似，领英也意识到其新工具可能存在的偏见，并表示将努力减轻这些偏见。但仅靠这些就足够了吗？
“[人力资源助手] 是个好创意，但我们需要透明度，需要了解该工具是基于职位描述中的哪些技能或关键词进行推断，”《算法：AI 如何决定招聘、监控、晋升与解雇，以及我们为何需要立即反击》一书的作者、记者 Hilke Schellmann 指出。“我们已经目睹过太多这类技术的失误案例。”
随着 AI 驱动招聘工具使用量的增长，美国各州及城市立法机构开始关注这一问题。纽约市目前要求企业披露 AI 招聘系统的性能表现并进行偏见审计。 加利福尼亚州的新法律禁止基于交叉身份特征的歧视（尽管未具体提及 AI）。随着这些工具应用的扩展，美国劳工部也已制定框架以帮助企业推动包容性招聘。
华盛顿大学信息学院的博士研究生 Kyra Wilson 致力于研究 AI 招聘工具可能在不同职业与社会群体中造成的歧视。近期她主导了一项研究，分析了 554 份简历与 571 份职位描述，并通过修改姓名来呈现不同性别与种族特征。“我们想探究这些工具是否会不公正地使某些候选人处于劣势，”Wilson 说。
研究团队测试了来自 Salesforce、Contextual AI 和 Mistral AI 的三款开源 LLM。他们的发现令人震惊：即使在控制经验与学历等资质条件后，这些模型仍有 85% 的情况下对具有白人特征姓名的候选人存在显著偏向，而仅有 11% 的情况偏向具有女性特征姓名的候选人。研究还发现这些模型不仅复制了现存的社会偏见，更衍生出新的歧视模式。
“我们使用的模型未经过任何领域特定数据集的微调，因此观察到总体社会偏好白人和男性的偏见，也开始出现在通常与这些群体无关的 职位中，”Wilson 指出。“大规模使用这些模型可能会以负面方式改变社会就业格局。”
与交叉性（此研究中特指种族与性别的重叠）相关的偏见同样在结果中显现，黑人男性在高达 100% 的案例中处于不利地位。“交叉性是我们研究的重要部分，因为它更真实地反映了人们在现实生活中遭受歧视的方式，”Wilson 解释道。“人们并非孤立地感知 性别与种族等特征，因此孤立研究这些特性未必能完整呈现这些系统对社会的真实影响。”
尽管 Wilson 的研究仅考察了通过姓名标识的身份特征，她强调在现实世界中，人们可能通过所获奖项、居住地乃至简历用词等多种方式传递身份信息。所有这些因素都可能影响 AI 的评估结果，而由于其中很多信息也与甄别优秀候选人相关，审查过程中无法像处理姓名那样轻易剔除这些重要数据。
“进一步探究这些因素如何传递交叉身份特征，及其是否在 AI 评估中发挥作用，将是研究者和模型开发者的重要课题，”Wilson 总结道。
数据终究是构建这些 AI 模型的基础。据 IBM 高级研究科学家 Moninder Singh 指出，大多数偏见——无论是隐性的还是显性的，历史的还是社会的——都是在数据层面被引入的。要减轻各类 AI 工具的偏见，最有效的方法是在 LLM 训练阶段（若适用则包括后续微调阶段）及早处理这些问题。
Singh 解释道，对于大多数构建基于 AI 工具（例如招聘人员使用的工具）的组织而言，在基础层解决偏见问题往往并不可行。很少有企业拥有训练自有 LLM 的资源，因此它们通常依赖 OpenAI 的 GPT 或谷歌的 PaLM 等预训练模型，并针对具体用例进行微调。然而 Singh 表示，这种微调的作用有限。实践中，减轻偏见通常发生在数据层面，公司需要根据其特定数据集定制 LLM，而这些数据集又受限于其可获得的数据范围。
“即便采用了最佳实践，并针对招聘等特定任务使用海量相关数据进行微调，当系统应用于现实场景时，偏见仍会出现，”Singh 指出。
Singh 说明，在输出层面，企业可以实施一系列策略来实时检测并减轻偏见。例如，AI 招聘工具可能生成候选人入围名单，公司可依据纽约市新法规的要求评估这些推荐结果的公平性。如果检测到偏见——例如某个群体持续排名靠后——开发者可以通过优化训练数据或采用后处理技术重新调整推荐权重来修正模型。
后处理方法也可用于调整评分或排名以提升公平性，同时不会对系统整体性能产生负面影响，Singh 解释道。诸如 IBM 的 AI Fairness 360（一款用于偏见检测与缓解的开源工具包）等工具，正提供一套专门的技术来实现这一目标。IBM 也正通过如 Granite Guardian 3.0 等模型进行偏见检测工作，该模型经过微调，专门用于识别 AI 生成内容中的偏见风险。
这些模型可用于评估输出结果（如简历排名），其方式是：为决策生成解释，并检查这些解释中是否出现偏见指标。同样地，IBM 的 watsonx.governance 工具包能够对部署在 watsonx 平台上的生成式模型（包括偏见检测）进行治理。而 IBM 的 SocialStigmaQA 基准测试，则用于检测 LLM 中与特定污名相关的偏见——这类偏见在传统偏见测试中常被忽视，但在招聘等敏感应用中（如涉及心理健康或药物使用的相关判断）可能至关重要。
“值得注意的是，尽管基于 AI 的系统（例如招聘工具）的开发者已尽最大努力消除偏见，但它仍不可能处理每个最终用户面临的特定情况，尤其是当最终用户自身也未足够谨慎，以致于在该层面放大或引入偏见时，”Singh 强调。“招聘工具的最终用户同样必须在每个环节都引入多样性考量。”
