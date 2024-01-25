有句经典格言道：所有模型都是错误的。这在统计学、科学和 AI 领域皆成真理。缺乏领域专业知识构建的模型可能导致错误输出。

如今，由极小规模同质化群体决定生成式 AI 模型的训练数据来源，这些数据源严重过度代表英语语境。“对于全球超过 6000 种语言中的大多数而言，现有文本数据不足以训练大规模基础模型”（引自《论基础模型的机遇与风险》，Bommasani 等学者，2022 年）。

更值得关注的是，模型本身也源于有限的架构：“几乎所有顶尖 NLP 模型都是基于少数基础模型（如 BERT、RoBERTa、BART、T5 等）的改良版本。虽然这种同质化能产生极强的杠杆效应（基础模型的任何改进都能立即惠及整个自然语言处理领域），但同时也构成隐患：所有AI系统都可能继承少数基础模型存在的相同偏见问题（Bommasani 等学者）”

为使生成式 AI 能更好地反映其所服务的多元群体，模型必须纳入更广泛的人类数据多样性。

模型准确性评估与偏差评估密不可分。我们必须审视：模型的构建目标是什么？其优化究竟服务于哪些群体？以内容推荐算法和搜索引擎算法为例——究竟是谁从中获益最多？利益相关者往往持有截然不同的诉求与目标。算法与模型需要设定贝叶斯误差的基准目标或替代指标：即模型必须超越的最低误差界限。这一基准通常以人为参照，例如具备领域专业知识的主题专家。