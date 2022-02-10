作为 IBM Consulting 的数据科学家，我有幸参与了多个项目，满足 IBM 客户的各种需求。在 IBM 工作期间，我见证了技术应用于各种我最初认为不可能实现的用例，这就是为什么我很高兴能主导实施人工智能，应对我们今天面临的最隐蔽的社会问题之一——种族不公。
随着 2020 年“黑人的命也是命”运动开始遍及全美和全球，我立刻思考自己为客户解决问题的能力能否应用于重大的社会议题。正是基于这个想法，我决定寻找机会加入争取种族平等的斗争，并发现了一个 IBM 内部社区，该社区正在开发一些项目，准备通过“为种族正义而编程” (Call for Code for Racial Justice) 活动发布。
IBM 内部孵化的项目众多，但我发现自己特别被其中一个旨在识别隐性和显性偏见的项目所吸引。这个项目就是 TakeTwo，并在一年多前成为了对外发布的七个开源项目之一。TakeTwo 项目利用自然语言理解技术，帮助检测并消除书面内容中的种族偏见——无论是明显的还是隐性的。使用 TakeTwo 检测可能被视为带有种族偏见的短语和词汇，可以帮助内容创作者在写作时主动地减少潜在的偏见。它使内容创作者能够在发布之前，通过一个在线文本编辑器检查自己创建的内容。可以将其想象成一个用于发现潜在种族主义语言的“语法检查器”。TakeTwo 旨在利用由可信来源（如“包容性命名倡议”组织）汇编的包容性术语目录。
TakeTwo 不仅让我能够运用自己的专业知识来改进这个项目，还为我提供了一个机会，向内审视自己可能持有但先前未察觉的一些隐性种族偏见。参与 TakeTwo 项目，是投身于一项对世界有重要意义的事业的好方法，同时也提供了一次自我反思的机会。
查看解决方案行动：
在处理 TakeTwo 项目时，一个事实变得格外清晰：尽管该解决方案旨在通过收集和评估海量数据来检测偏见，但必须认识到数据本身也可能存在隐性偏见。通过利用人工智能和 Python、FastAPI、JavaScript 及 CouchDB 等开源技术，TakeTwo 解决方案能够持续评估其摄入的数据，并更好地检测其中何时存在偏见。例如，在美国可以接受的某个词语或短语，在日本可能并不适用——因此我们需要尽力认识到这一点，并使我们的解决方案相应运作。作为一名对数据科学充满热情的人，我亲身了解到，我们的模型质量完全取决于我们输入的数据。鉴于此，我从这个项目中学到的一点是，我们需要更好的数据集来帮助我们训练支撑这些系统的机器学习 (ML) 模型。Kaggle 数据集对我们来说是一个很好的起点，但如果我们希望扩展该项目以应对任何地方存在的种族主义，我们就需要更多样化的数据。
与此相关的是，此类项目所需的技能远不止数据科学。特别是对于这个项目，利用语言学专家的帮助至关重要，他们能够帮助界定语言中存在的一些文化细微差别，这些是像 TakeTwo 这样的系统需要编码处理或忽略的。只有通过跨学科合作，我们才能找到可行的解决方案。