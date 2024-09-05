总部位于加利福尼亚州的 Smarter Balanced 评价联盟是一个由成员领导的公共组织，为从事 K-12 和高等教育行业的教育工作者提供评估系统。该组织成立于 2010 年，与州教育机构合作开发创新且符合标准的考试评估系统。Smarter Balanced 为教育工作者提供工具、课程和资源，包括形成性评估、阶段性评估和总结性评估，从而帮助教育工作者发现学习机会并加强学生的学习。
Smarter Balanced 致力于在不断变化的教育环境中不断发展和创新。通过合作 IBM Consulting®，Smarter Balanced 旨在探索在教育评估中使用人工智能 (AI) 的原则性方法。该合作于 2024 年初宣布，目前仍在进行中。
传统的 K-12 学生技能评估方法，包括标准化考试和结构化测验，因各种与公平性相关的理由而受到批评。如果以负责任的方式实施，AI 具有变革性的潜力，可以提供个性化的学习和评估体验，从而提高包括边缘群体在内的各种学生群体评估过程的公平性。因此，核心挑战在于定义学校环境中负责任的 AI 实施和治理是什么样的。
作为第一步，Smarter Balanced 和 IBM Consulting 组建了一个多学科咨询小组，其中包括教育测量、人工智能、AI 伦理和政策方面的专家以及教育工作者。该小组的目标是制定指导原则，将准确性和公平性融入 AI 在教育测量和学习资源中的应用。该咨询小组的一些考量因素概述如下。
使用设计思维框架有助于组织制定以人为本的技术实施方法。设计思维遵循三个以人为本的原则：关注用户成果、不断创新和赋能多元化团队。该框架有助于确保利益相关者在战略上保持一致，并能及时响应组织的功能性和非功能性治理要求。设计思维使开发人员和利益相关者能够深入了解用户需求，构思创新解决方案并迭代进行原型设计。
这种方法对于在开发过程的早期识别和评估风险，以及推动创建值得信赖和有效的 AI 模型具有不可估量的价值。通过不断与领域专家和其他利益相关者组成的不同社区进行互动，并结合他们的反馈，设计思维有助于构建技术可靠、对社会负责且以人为本的 AI 解决方案。
针对 Smarter Balanced 项目，各团队联合成立了一个智库，其中包括来自不同领域的专家和思想领袖。该小组由教育评估和法律领域的专家、神经多样性人士、学生、行动不便者以及其他人士组成。
智库成员、Mark Cuban 基金会 AI 训练营项目架构师 Charlotte Dungan 表示：“Smarter Balanced AI 智库致力于确保 AI 是值得信赖和负责任的，并确保我们的 AI 能够提升学生的学习体验。”
该智库的目标不是简单地以“一劳永逸”的方式将其成员的专业知识、观点和生活经验融入治理框架，而是以迭代的方式进行。这种方法反映了 IBM AI 伦理的一项关键原则：AI 的目的是增强人类智能，而不是取而代之。融合了不同利益相关者的持续输入、评估和审查的系统可以更好地建立信任并推动公平的结果，最终创造一个更具包容性和更有效的教育环境。
这些系统对于在小学环境中创建公平有效的教育评估至关重要。多元化的团队能够带来各种各样的观点、体验和文化洞察分析，这对于开发能够代表所有学生的 AI 模型至关重要。这种包容性有助于最大限度地减少偏见，并构建不会无意中加剧不平等或忽视不同人口群体独特需求的 AI 系统。这反映了 IBM AI 伦理的另一项关键原则：多元化在 AI 领域的重要性不是观点，而是数学。
Smarter Balanced 和 IBM Consulting 作为一个团队开展的首批工作之一是确定我们希望看到 AI 模型反映的人类价值观。这并不是一个新的伦理问题，因此我们制定了一套价值观和定义，它们与 IBM 的 AI 支柱或值得信赖的 AI 的基本属性相匹配：
在任何组织中落实这些价值观都是一项挑战。在评估学生技能组合的组织中，标准甚至更高。但 AI 的潜在优势使这项工作变得值得：“借助生成式 AI，我们有机会更好地吸引学生，通过及时、可行的反馈准确评估他们，并培养 21 世纪技能，这些技能可以通过 AI 工具得到主动强化，包括创造力、批判性思维、沟通策略、社交情感学习和成长型思维，”Dungan 说道。后续步骤正在进行中，旨在探索和定义指导 AI 在评估儿童和青少年学习者方面的应用的价值观。
各团队正在努力解决的问题包括：
为此，我们采用了名为“效果层级”的设计思维框架，该框架和其他几个框架由 IBM Design for AI 捐赠给开源社区 Design Ethically。效果层级框架要求利益相关者考虑其产品或体验的主要、二级和三级效果。
在此用例中，AI 增强型测试评估系统的主要（预期）效果是提供了一个更公平、更具代表性和更有效的工具，从而改善整个教育系统的学习成果。
二级效果可能包括提高效率和收集相关数据，以帮助更好地将资源分配到最需要的地方。
三级效果可能是已知的，但并非有意为之。在此阶段，利益相关者必须探索潜在的意外危害可能呈现的形态。
各团队确定了五类潜在的高级别危害：
差异影响评估最初应用于法律案件，可帮助组织识别潜在的偏见。这些评估探讨了看似中立的政策和做法如何可能对来自受保护阶层的个人产生不成比例的影响，例如那些容易受到基于种族、宗教、性别和其他特征的歧视的人。此类评估在制定与招聘、贷款和医疗相关的政策方面已被证明非常有效。在我们的教育用例中，我们试图考虑那些可能因自身情况而在评估中遭遇不公平结果的学生群体。
最容易受到潜在伤害的群体包括：
作为一个团队，我们下一阶段的实践将运用更多设计思维框架（例如道德黑客）来探索如何减轻这些危害。我们还将详细说明组织使用 AI 进行学生评估的最低要求。
这不仅仅是 IBM 和 Smarter Balanced 之间的话题，而是更广泛的讨论。我们公开发布流程，是因为我们认为那些尝试将 AI 应用于新领域的人应该考虑其模型可能产生的意外影响。我们希望帮助确保为教育而构建的 AI 模型不仅满足少数人的需求，而且满足整个社会及其所有多元群体的需求。
“我们认为这是使用原则性方法发展以学生为中心的价值观的机会，这将有助于教育评估界采用值得信赖的 AI。通过详细介绍该计划所采用的流程，我们希望帮助正在考虑人工智能驱动型教育评估的组织就负责任的 AI 在教育评估方面的应用进行更好、更细致的讨论。”
- Smarter Balanced 项目副执行官 Rochelle Michel。
借助 IBM watsonx.governance 随时随地治理生成式 AI 模型，并在云端或本地进行部署。
了解人工智能治理如何能帮助增强员工对 AI 的信心、加速采用和创新并提高客户信任。
借助 IBM Consulting，为《欧盟 AI 法案》做好准备并制定负责任的人工智能治理方法。