术语表

本词汇表提供了 watsonx.ai 和 watsonx.governance的术语和定义。

本词汇表中使用了以下交叉引用:

  • 请参阅为您指示非首选术语的首选术语或者缩写的完整拼写形式。
  • 另见引用相关或相对的词汇。

a|b | c | d | e|f | g|h|i|j | k|l|m|n | o | p | r|s|t | u|v|w|z

A

加速键

在高性能计算中,一种专门的电路,用于从 CPU 中获取部分计算负载,提高系统的效率。 例如,在深度学习中,通常使用 GPU 加速计算将部分计算工作负载卸载到 GPU ,而主应用程序在 CPU 上运行。 另请参阅 图形处理单元 (graphics processing unit)

可计帐性

期望组织或个人根据其角色和适用的监管框架,确保其设计,开发,操作或部署的 AI 系统在其整个生命周期中正常运行。 这包括确定谁应对 AI 错误负责,这可能需要法律专家逐个确定责任。

激活函数

定义神经单元输出的函数,给定一组来自其他神经元的传入激活

主动学习

一种用于机器学习的模型,其中系统仅在需要时请求更多标记的数据。

活动元数据

根据机器学习过程的分析自动更新的元数据。 例如,概要分析和数据质量分析会自动更新数据资产的元数据。

作用中執行時期

运行环境的实例,为运行代码的资产提供计算资源。

客服

与环境交互以学习最佳操作或决策的算法或程序,通常使用强化学习来实现特定目标。

代理 AI

生成 AI 流,可将提示分解为多个任务,将任务分配给相应的 AI 代理程序,并在无需人工干预的情况下合成答案。

人工智能

请参阅 人工智能 (artificial intelligence)

AI 加速器

专门的硅硬件,旨在高效地执行与 AI 相关的任务,如深度学习,机器学习和神经网络,以实现更快,更节能的计算。 它可以是核心中的专用单元,多模块芯片上的单独的芯片或单独的卡。

AI 伦理

一个多学科领域,研究如何优化 AI 的有益影响,同时降低风险和不利结果。 AI 道德问题的示例包括数据责任和隐私,公平性,可解释性,稳健性,透明度,环境可持续性,包容性,道德机构,价值一致性,问责制,信任和技术滥用。

AI 治理

组织通过其公司指令,管理员工,流程和系统,在整个 AI 生命周期中指导,评估,监控和采取纠正行动,以保证 AI 系统按照组织的意图,按照其利益相关方的期望以及相关法规的要求运行。

AI 安全

该研究领域旨在确保人工智能系统以有益于人类且不会在不经意间造成伤害的方式运行,解决诸如可靠性,公平性,透明度以及 AI 系统与人类价值观的一致性等问题。

AI 服务

可部署的代码单元,包含生成式人工智能用例的逻辑,并为应用程序的推理提供端点。

AI 系统

请参阅 人工智能系统 (artificial intelligence system)

个算法

应用于数据以确定解决分析问题的最佳方法的公式。

分析

对数据进行研究的学科,以便在数据中找到有意义的模式,并根据这些模式得出结论。

适当的信任

在 AI 系统中,对其准确性,可靠性和可信性进行校准的信任程度。

人工智能 (AI)

以模型形式获取,处理,创建和应用知识以做出预测,建议或决策的能力。

人工智能系统 (AI system)

一种系统,可进行影响物理或虚拟环境的预测,建议或决策,其输出或行为不一定由其开发者或用户预先确定。 AI 系统通常使用大量结构化或非结构化数据进行训练,并且可能设计为具有不同程度的自主性或无自主性,以实现人类定义的目标。

资产

包含有关数据,其他有价值信息或使用数据的代码的信息的项。 另请参阅 数据资产 (data asset)

注意机制

深度学习模型中的一种机制,用于确定生成输出时模型所关注的输入部分。

AutoAI 實驗

这是一个自动训练过程,它考虑一系列训练定义和参数,以创建一组已排名的管道作为模型候选者。

B

批量部署

一种部署模型的方法,用于处理来自存储区中的文件,数据连接或已连接数据的输入数据,然后将输出写入所选目标。

偏差

故意或不故意设计的 AI 系统中的系统错误,可能产生不公平的决策。 在 AI 系统以及用于对其进行训练和测试的数据中都可能存在偏差。 AI 偏见可能由于文化期望,技术限制或意外部署上下文而在 AI 系统中出现。 另请参阅 公平性 (fairness)

偏差检测

在 AI 模型基于特定属性交付不公平结果时计算要检测的度量值公平性的过程。

偏差缓解

通过整理训练数据和应用公平性技术,减少 AI 模型中的偏差。

二元分类

具有两个类的分类模型。 预测是两个类之一的二元选择。

C

分类模型

预测模型,用于预测不同类别中的数据。 分类可以是具有两个数据类的二进制分类,也可以是具有多个 2 类别的多类分类。

資料清理

确保数据集中的所有值都一致且被正确记录下来。

CNN

请参阅 卷积神经网络 (convolutional 神经网络)

认知强制功能

一种在决策时刻应用的干预,用于破坏启发式推理并使一个人参与分析思维; 示例包括核对表,诊断超时或要求一个人排除替代方法。

计算语言学

跨学科领域,探索对自然语言进行计算建模的方法。

计算资源

由环境模板定义的用于在工具中运行资产的硬件和软件资源。

混淆矩阵

一种性能度量,用于确定模型的正和负预测结果与正和负实际结果之间的准确性。

已连接的数据资产 (connected data asset)

这是指向通过与外部数据源的连接来访问的数据的指针。

已连接的文件夹资产

一个指向 IBM Cloud Object Storage 中的文件夹的指针。

连接

连接到数据库所需要的信息。 所需的实际信息因 DBMS 和连接方法而异。

連線資產

这是包含使您能够连接到数据源的信息的资产。

约束

  • 在数据库中,表之间的关系。
  • 在 Decision Optimization中,必须由问题的解满足的条件。

持续学习

这是指自动完成下列任务:监控模型性能、使用新数据重新训练以及重新部署以确保预测质量。

卷积神经网络 (convolutional 神经网络, CNN)

计算机视觉任务中常用的一类神经网络,使用卷积层来处理图像数据。

核心 ML 部署 (Core ML deployment)

这是指以核心 ML 格式下载部署,以用于 iOS 应用程序的过程。

正文

用于训练机器学习模型的源文档的集合。

CPLEX 模型

要由 CPLEX 引擎求解的 Decision Optimization 模型。

CPO 模型

要由 Decision Optimization CP Optimizer (CPO) 引擎求解的约束规划模型。

交叉验证

一种在没有暂挂检验样本的情况下检验模型的泛化程度的方法。 交叉验证将训练数据划分为多个子集,然后构建相同数量的模型,每个子集依次保留。 其中每个模型都在坚持样本上进行测试,而这些坚持样本上的模型的平均准确性用于在应用于新数据时估计模型的准确性。

组织

选择、收集、保留和维护与特定主题相关的内容。 管理可建立和维护数据并使数据增值;它将数据转换为可信的信息和知识。

D

数据资产

指向数据(例如,已上载的文件)的资产。 连接和所连接的数据资产也被视为数据资产。 另请参阅 资产 (asset)

数据插补

将数据集中的缺失值替换为估算值或显式值。

数据湖

在平面体系结构中以任何格式存储原始数据的大规模数据存储库。 数据湖包含结构化和非结构化数据以及二进制数据,用于处理和分析。

数据湖

统一的数据存储和处理架构,将数据湖的灵活性与数据仓库的结构化查询和性能优化相结合,支持针对 AI 和分析应用程序进行可扩展且高效的数据分析。

数据挖掘

从数据源收集关键业务信息,并将该信息与潜在的关联、模式和趋势关联起来的过程。 另请参阅 预测性分析 (predictive analytics)

Data Refinery 流程

一组步骤,用于清理和塑造数据以生成新的数据资产。

数据科学

分析和可视化结构和非结构化数据以发现洞察和知识。

数据集

这是数据集合,通常采用行(记录)和列(字段)的形式,包含在文件或数据库表中。

数据源

用于读取数据 (例如数据库) 的存储库,队列或订阅源。

数据表

这是数据集合,通常采用行(记录)和列(字段)的形式,包含在表中。

数据仓库

从各种来源收集的大型集中式数据存储库,用于报告和数据分析。 它主要存储结构化和半结构化数据,使企业能够做出明智的决策。

DDL 数

请参阅 分布式深度学习 (distributed deep learning)

决策边界

将空间中的数据点划分为不同的组或分类。

仅解码器模型

通过从输入序列推断逐字生成输出文本的模型。 仅解码器模型用于诸如生成文本和回答问题之类的任务。

深度学习

一种使用多层互连节点的计算模型,这些节点被组织成分层层,通过一系列计算来变换输入数据 (第一层) 以产生输出 (最终层)。 深度学习受到人类大脑结构和功能的启发。 另请参阅 分布式深度学习 (distributed deep learning)

深度神经网络

具有多个隐藏层的神经网络,允许更复杂的数据表示。

深度推理

一类机器学习,系统从数据中产生洞察力,以支持感知和分类之外的认知任务,如常识、情况变化、规划和决策。

部署

可供使用的模型或应用程序包。

部署空间

部署模型和管理部署的工作空间。

确定性

描述当计算系统的输出完全由其输入确定时,计算系统的一个特征。

判别 AI

一种算法类,专注于查找用于分隔数据中不同类的边界。

分布式深度学习 (distributed deep learning , DDL)

一种利用分布式计算方法的深度学习培训方法。 在 DDL 环境中,计算工作负载分布在中央处理单元和图形处理单元之间。 另请参阅 深度学习 (deep learning)

DOcplex

用于对 Decision Optimization 问题进行建模和求解的 Python API。

E

嵌入

作为实值数字向量的信息单元 (如单词或句子) 的数字表示。 学习了嵌入,高维数据的低维表示。 另请参阅 encodingrepresentation

出现

基础模型的属性,其中模型显示未显式训练的行为。

紧急行为

未明确构建的基础模型所表现出的行为。

编码器-解码器模型

用于理解输入文本和基于输入文本生成输出文本的模型。 编码器-解码器模型用于诸如摘要或转换之类的任务。

仅编码器模型

通过将输入序列转换为称为嵌入的具象向量来理解句子级别的输入文本的模型。 仅编码器模型用于诸如对客户反馈进行分类和从大型文档中提取信息之类的任务。

编码

作为一组数字的信息单元 (例如,字符或单词) 的表示。 另请参阅 嵌入 (嵌入式)位置编码 (位置编码)

端点 URL

这是用于标识资源(例如,服务和对象)的网络目标地址。 例如,当用户将有效内容数据发送到部署时,端点 URL 用来标识模型或函数部署的位置。

环境

用于运行作业的计算资源。

環境執行時期

运行资产的环境模板实例。

环境模板

指定硬件和软件资源以将环境运行时实例化的定义。

外源特征

可影响预测模型但无法影响回报的功能。 例如,温度可以影响预测的冰淇淋销售,但冰淇淋销售不能影响温度。

试验

这是一个模型训练过程,它考虑一系列训练定义和参数以确定最准确的模型配置。

可解释性

  • 人类用户跟踪、审计和理解使用 AI 系统的应用程序中所做预测的能力。
  • AI 系统提供洞察的能力,人类可以使用这些洞察来了解系统预测的原因。

F

公平性

在 AI 系统中,公平对待个人或群体。 选择 AI 系统的特定公平概念取决于其使用环境。 另请参阅 偏差 (bias)

功能

数据集中项的属性或特征,例如,电子表格中的列。 在某些情况下,将特征设计为数据集中其他特征的组合。

特征工程

从原始数据中选择,转换和创建新功能的过程,以提高机器学习模型的性能和预测能力。

功能组

特定数据资产的一组列以及用于机器学习的元数据。

功能选择

确定最能支持机器学习模型中准确预测或评分的数据列。

功能部件存储

集中式存储库或系统,用于管理和组织功能部件,提供在机器学习管道和应用程序之间存储,检索和共享功能部件数据的可扩展且高效的方法。

特性轉換

在 AutoAI 中,管道创建的一个阶段,此阶段会应用算法来变换和优化训练数据,以获得模型类型的最佳结果。

小镜头提示

一种提示技术,其中向模型提供了少量示例以演示如何完成任务。

微调

通过执行其他训练来调整预先训练的模型以执行特定任务的过程。 微调可能涉及 (1) 更新模型的现有参数 (称为完全微调) ,或者 (2) 更新模型的现有参数子集,或者向模型添加新参数并对其进行训练,同时冻结模型的现有参数 (称为参数高效微调)。

定义一组步骤以处理数据或训练模型的节点集合。

基础模型

可以适应广泛的下游任务的 AI 模型。 基础模型通常是大规模生成模型,使用自我监督对未标记的数据进行训练。 作为大规模模型,基础模型可以包含数十亿个参数。

G

甘特图

项目时间线和持续时间的图形表示法,其中调度数据将显示为时间刻度的水平条。

生成式 AI

请参阅 生成 AI (generative AI)

生成 AI (gen AI)

一类 AI 算法,可以生成各种类型的内容,包括文本,源代码,图像,音频和合成数据。

生成可变性

生成模型的特征,用于生成不同的输出,即使模型的输入保持不变。 另请参阅 概率 (probabilistic)

GPU

请参阅 图形处理单元 (graphics processing unit)

图形构建器

通过可视化编码创建流程资产的工具。 画布是一个区域,用于放置可连接以创建流程的对象或节点。

图形处理单元 (GPU)

一种专用处理器,旨在快速操作和改变内存,以加速在用于输出到显示器的帧缓冲区中创建图像。 由于其并行处理能力, GPU 在机器学习中被大量使用。 另请参阅 加速器 (accelerator)

接地

提供包含信息的大语言模型,以提高结果的准确性。

H

幻觉

基础模型的回复中包含离题、重复、错误或捏造的内容。 当提示模型生成文本时,可能会发生涉及编造详细信息的幻觉,但模型没有足够的相关文本来生成包含正确详细信息的结果。

HAP 检测 (HAP 检测)

  • 在用户提交的提示和 AI 模型生成的响应中检测和过滤仇恨,虐待和脏话的能力。

HAP 检测器 (HAP 检测器)

  • 句子分类器可从基础模型输出和输入中删除潜在的有害内容,如仇恨言论、辱骂和亵渎。

暂挂集

这是一组有意从训练集和验证集中保留的标记数据,用于对最终模型在不可见数据上的性能进行不偏不倚的评估。

同质化

机器学习研究的趋势是,少数深度神经网络架构 (如变压器) 在各种各样的任务中取得了最先进的结果。

HPO

请参阅 超参数优化 (hyperparameter optimization)

人的监督

人类参与审查 AI 系统做出的决策,从而实现人类自主和负责任的决策。

超參數

在机器学习中,指的是在训练之前设置其值的参数,以提高模型准确性。

超参数优化 (hyperparameter optimization, HPO)

这是指将超参数值设置为可提供最准确模型的设置的过程。

I

图像

包含一组库的软件包。

增量学习

使用持续更新的数据来训练模型的过程,而不会忘记从先前任务中获取的数据。 此方法用于使用来自大型训练数据源的批量数据来训练模型。

推理

通过经过训练的 AI 模型运行实时数据以进行预测或求解任务的过程。

提取

  • 不断向数据库中添加大量的实时数据。
  • 将数据提供给系统以创建知识库。

洞察

准确或深刻地理解事物。 洞察是使用认知分析得出的,可提供客户行为和态度的最新快照和预测。

智能 AI

能够理解,学习,适应和实施知识的人工智能系统,展示决策,解决问题和理解复杂概念等能力,就像人类智能一样。

意向

客户对聊天机器人的输入所表达的目的或目标,例如回答问题或处理帐单支付。

J

作业

可单独执行的工作单元。

K

知识库

请参阅 语料库

L

标签

在受监督的 learning.Labels 可以派生自数据,但通常由人工标签或注释者应用。

标签数据

分配了标签以添加上下文或含义的原始数据,以便可用于训练机器学习模型。 例如,数字值可以标记为邮政编码或年龄,以提供模型输入和输出的上下文。

大语言模型 (large language model , LLM)

具有大量参数的语言模型,对大量文本进行训练。

潜伏空间

嵌入数据实例的 n 维数学空间。 二维潜空间将数据作为点嵌入到 2D 平面中 (另请参阅: 具象空间)。 另请参阅 具象空间 (具象空间)

LLM

请参阅 大语言模型 (large language model)

M

机器学习 (machine learning, ML)

人工智能 (AI) 和计算机科学的一个分支,专注于使用数据和算法来模仿人类学习的方式,逐渐提高 AI 模型的准确性。

机器学习框架 (machine learning framework)

用于训练和部署模型的库和运行时。

机器学习模型 (machine learning model)

一种基于一组数据训练的 AI 模型,用于开发可用于分析和学习新数据的算法。

心理模型

个人对系统工作方式及其操作如何影响系统结果的理解。 当这些期望与系统的实际能力不匹配时,就会导致沮丧,放弃或误用。

不一致

AI 系统优化以实现的目标或行为与其人类用户或设计人员的真实 (通常是复杂的) 目标之间的差异

ML(机器学习)

请参阅 Machine Learning

MLOps

  • 一种将机器学习模型从开发到生产的方法。
  • 数据科学家与运营专业人员之间协作的实践,帮助管理生产机器学习 (或深度学习) 生命周期。 MLOps 旨在提高自动化水平,提高生产 ML 的质量,同时关注业务和法规要求。 它涉及模型开发,培训,验证,部署,监视和管理,并使用 CI/CD 等方法。

模型

  • 在机器学习环境中,这是一组函数和算法,已针对数据集进行训练和测试,以提供预测或决策。
  • 在 Decision Optimization 中,可通过 CPLEX 优化引擎使用不同数据集进行求解的问题的数学公式。

ModelOps

一种用于管理 AI 模型完整生命周期的方法,包括训练、部署、评分、评估、重新训练和更新。

受监视组

受监视的数据类,用于确定预测模型的结果是否与参考组的结果显着不同。 通常根据包括种族,性别或年龄在内的特征对群体进行监测。

多类分类模型

具有两个以上类的分类任务。 例如,如果二元分类模型预测 "是" 或 "否" 值,那么多类模型预测 "是" , "否" , "可能" 或 "不适用"。

多模态模型

一种生成 AI 模型,可以处理多种类型的数据,例如文本,图像和音频,并在它们之间进行转换。 例如,多模态模型可以采用文本输入并生成图像输出。

多变量时间序列

包含两个或多个更改变量的时间序列试验。 例如,一个时间序列模型预测三个客户的用电量。

N

自然语言处理 (natural language processing, NLP)

人工智能和语言学的一个领域,研究自然语言的处理和操作过程中固有的问题,旨在提高计算机理解人类语言的能力。

自然语言处理库

为语法分析提供基本自然语言处理功能的库,以及为各种文本处理任务提供现成的预训练模型。

神经网络

一种数学模型,它使用能够模拟脑细胞的抽象版本的复杂数学方案来预测案例或者将案例分类。 通过向神经网络提供大量观察到的案例(一次提供一个案例)并使它反复更新自身,直到它学习该任务为止,这样来训练神经网络。

NLP

请参阅 自然语言处理 (natural language processing)

节点

在 SPSS Modeler 流中,数据操作的图形表示。

笔记本

一个交互式文档,它包含可执行代码、该代码的描述性文本以及运行的任何代码的结果。

Notebook 内核

笔记本编辑器中执行代码并返回计算结果的部分。

O

对象存储器

一种数据存储方法,通常在云中使用此方法,其中,数据以离散单元或对象的形式存储在不使用文件层次结构,而是将所有对象存储在同一级别的存储池或存储库中。

单样本学习

一种深度学习模型,它基于以下前提: 大多数人类学习是在仅收到一个或两个示例时进行的。 此模型类似于无监督学习。

一枪提示

一种提示技术,其中向模型提供了单个示例以演示如何完成任务。

線上部署

通过 API 端点作为 Web Service 访问模型或 Python 代码部署以实时在线生成预测的方法。

本体

某个相关领域中可能存在的对象、概念和其他实体及其之间关系的一种明确正式的表示。

操作资产 (operational asset)

在工具或作业中运行代码的资产。

优化

在尊重所施加的约束和限制的同时,为精确定义的问题找到最合适的解决方案的过程。 例如,确定如何分配资源或如何从大量替代方法中找到最佳元素或组合。

优化编程语言

用于以 CPLEX 优化引擎(例如,IBM CPLEX)可求解的格式表示优化问题的模型构成的建模语言。

优化度量

用于度量模型性能的度量。 例如,准确性是用于度量二元分类模型性能的典型度量。

统筹

创建端到端流程的过程,该流程可以训练,运行,部署,测试和评估机器学习模型,并使用自动化来协调系统,通常使用微服务。

过度依赖

用户接受 AI 模型提出的不正确建议。 另请参阅 依赖不依赖

P

参数

  • 模型内部的可配置部分,其值是从数据中估计或学习的。 参数是在训练过程中调整的模型的各个方面,以帮助模型准确预测输出。 模型的性能和预测能力在很大程度上取决于这些参数的值。
  • 0.0 到 1.0 之间的实值权重,指示神经网络中两个神经元之间的连接强度。

有效内容

传递到部署以返回分数,预测或解决方案的数据。

有效内容日志记录

捕获有效内容数据和部署输出以监视业务应用程序中 AI 的持续运行状况。

管道

  • 在Watson Pipelines 中,资产从创建到部署的端到端流程。
  • 在 "AutoAI,中,有一个候选模型。

管線排行榜

在 "AutoAI,中,有一个表格,显示自动生成的候选模型列表,作为管道,根据指定的标准进行排序。

策略

代理程序遵循的策略或规则,用于根据当前状态确定下一个操作。

位置编码

包含位置信息的有序数据序列的编码,例如包含每个词在句子中的位置的句子中的词的编码。 另请参阅 编码 (encoding)

预测性分析

与预测将来的可能性和趋势有关的业务流程和一组相关技术。 预测性分析将概率,统计,机器学习和人工智能等多种学科应用于业务问题,以找到针对特定情境的最佳行动。 另请参阅 数据挖掘 (data Mining)

预训练模型

先前在大型数据集上训练以完成特定任务的 AI 模型。 将使用预先训练的模型,而不是从头开始构建模型。

预训练

在针对特定任务进行微调之前,在大型数据集上训练机器学习模型的过程。

隐私条约

保证有关个人的信息不受未经授权的访问和不当使用的保护。

概率

受制于随机性的特征; 非确定性。 如果输入相同,概率模型不会生成相同的输出。 另请参阅 生成可变性 (generative variability)

项目

用于处理数据和其他资产的合作工作空间。

提示

  • 数据,如文本或图像,用于准备、指导或调节基础模型的输出。
  • 操作的一个组件,指示在过渡到输出屏幕之前某个字段需要用户输入。

提示工程

设计自然语言的过程会提示语言模型执行特定任务。

提示

向基础模型提供输入以诱导其产生输出的过程。

提示调优

一种高效,低成本的方法,用于使预先训练的模型适应新任务,而无需重新训练模型或更新其权重。 提示调整涉及学习附加到模型提示的少量新参数,同时冻结模型的现有参数。

修剪

简化,缩小或修剪决策树或神经网络的过程。 这是通过移除不太重要的节点或层,降低复杂性以防止过度拟合并改进模型泛化,同时保持其预测能力来完成的。

Python

用于数据科学和 AI 的编程语言。

Python 函数

包含 Python 代码的函数,用于支持生产中的模型。

Q

量化

一种压缩基础模型权重的方法,可加快推理速度并减少 GPU 内存需求。

R

R

在数据科学和 AI 中使用的可扩展脚本语言,提供各种分析,统计和图形功能和技术。

RAG

请参阅 检索扩充生成 (retriemented generation)

随机种子

用于初始化伪随机数字生成器的数字。 随机种子支持依赖随机数生成的进程的可重现性。

引用组

标识为最有可能在预测模型中收到肯定结果的组。 可以将结果与受监视组进行比较,以查找结果中的潜在偏差。

精簡

这是指清理数据和定制数据。

回归模型

将因变量与一个或多个自变量关联的模型。

强化学习

一种机器学习技术,在该技术中,代理程序学习在环境中进行顺序决策以最大化奖励信号。 在试用和错误学习的启发下,代理程序与环境进行交互,接收反馈,并调整其操作以实现最佳策略。

关于人类反馈的强化学习 (RLHF)

一种将语言学习模型的响应与提示中给出的指令对齐的方法。 RLHF 需要人工注释者对模型中的多个输出进行排序。 然后使用这些排名来训练使用强化学习的奖励模型。 然后使用奖励模型来微调大语言模型的输出。

信任

在 AI 系统中,用户接受由 AI 模型提出的建议或由 AI 模型产生的输出。 另请参阅 过度依赖,即 过度依赖

表示

信息单元的编码,通常作为实值数字的向量。 另请参阅 嵌入 (嵌入式)

表示空间

嵌入数据实例的 n 维数学空间。 二维潜在空间将数据作为点嵌入到 2D 平面中 (另请参阅: 潜在空间)。 另请参阅 潜在空间 (潜在空间)

重新排名

一种人工智能生成过程,用于对一组文档段落进行排序,从最有可能到最不可能回答指定查询。

检索增强生成 (RAG)

一种技术,其中使用来自外部源的知识扩充大型语言模型以生成文本。 在检索步骤中,从用户的查询中识别来自外部源的相关文档。 在生成步骤中,这些文档的部分包含在 LLM 提示中,以生成基于检索到的文档的响应。

奖励

用于引导代理程序 (通常是强化学习代理程序) 的信号,用于提供关于决策优善性的反馈

RLHF

请参阅 有关人员反馈的强化学习

執行時期環境

用于运行工具或作业 (例如 Notebook) 的预定义或定制硬件和软件配置。

S

评分

  • 在机器学习中,这是指测量预测结果的置信度的过程。
  • 这是指计算传入身份的属性与现有实体的属性之间匹配程度的过程。

脚本

包含 Python 或 R 脚本的文件,用于支持生产中的模型。

自我关注

一种关注机制,它使用来自输入数据本身的信息来确定在生成输出时要关注的输入部分。

自我监督学习

一种机器学习训练方法,在该方法中,模型通过屏蔽输入序列中的标记,然后尝试预测这些标记,从而从未标记的数据中学习。 一个例子是 "我喜欢 ________ 芽"。

观点分析

检查文本中表达的情绪或情感,例如确定影评是正面还是负面。

形状

这是指通过过滤、排序和移除列来定制数据;连接表;执行诸如计算、数据分组和分层等操作。

小数据

可供人类访问和理解的数据。 另请参阅 结构化数据 (structured data)

SQL 回送

在 SPSS Modeler 中,这是指通过 SQL 代码直接在数据库中执行许多数据准备和挖掘操作的过程。

结构化数据

位于记录或文件内固定字段中的数据。 例如,关系数据库和电子表格都属于结构化数据。 另请参阅 非结构化数据 (unstructured data)小数据 (small data)

结构信息

存储在结构化资源中的项,例如搜索引擎索引,数据库或知识库。

监督学习

一种机器学习训练方法,其中在标记数据集上训练模型以对新数据进行预测。

T

升高

生成模型中的一个参数,用于指定生成过程中的变化量。 温度越高,模型输出的可变性就越大。

文字分類

自动识别文本并将其分类为指定类别的模型。

文本抽取

一种将高度结构化的信息转换成更简单文本格式的生成式人工智能方法,可用作大型语言模型的输入。

时间系列

变量在周期性时间点的一组值。

时间序列模型

跟踪和预测一段时间内的数据的模型。

标记

文本中的含义或分析的离散单位,例如词或子词。

标记化

在自然语言处理中使用的过程,用于将一串文本拆分为更小的单元,例如单词或子词。

经过训练的模型

使用实际数据训练的模型,可随时进行部署,以在提供新数据时预测结果。

训练

模型构建的初始阶段,涉及到源数据的子集。 该模型通过示例从已知数据中学习。 然后可以针对更多已经知道结果的不同子集来测试模型。

训练数据

用于训练机器学习模型的数据集合。

训练集

一组带标签的数据,用于通过将机器学习模型公开到示例及其相应的标签来训练该模型,从而使该模型能够学习模式并进行预测。

迁移学习

一种机器学习策略,其中将经过训练的模型应用于全新的问题。

变换器

一种神经网络体系结构,使用位置编码和自关注机制来预测令牌序列中的下一个令牌。

幻灯片

与利益相关方共享有关如何设计和开发 AI 系统的适当信息。 这些信息的示例包括收集哪些数据,如何使用和存储这些数据,以及谁可以访问这些数据; 以及测试结果的准确性,鲁棒性和偏差。

信任校准

基于其准确性,可靠性和可信性等因素评估和调整个人对 AI 系统的信任的过程。

图灵测试

由艾伦-图灵 (英语 :Alan Turing) 于 1950 年提出,是对机器表现出相当于或无法与人类的智能行为的能力的测试。

U

依赖不足

用户拒绝 AI 模型提出的正确建议。 另请参阅 过度依赖依赖

单变量时间序列

仅包含一个更改变量的时间序列试验。 例如,预测温度的时间序列模型具有单个温度预测列。

非结构化的数据

以非结构化格式而不是固定字段存储的任何数据。 例如,字处理文档中的数据就是非结构化数据。 另请参阅 结构化数据 (structured data)

非结构化信息

未包含在固定位置 (例如,自然语言文本文档) 中的数据。

无监督学习

  • 一种深度学习模型,它允许使用未标记的原始数据来训练系统,几乎不需要人工参与。
  • 一种机器学习训练方法,其中模型未提供带标签的数据,并且必须自行在数据中找到模式或结构。

V

验证集合

一组单独的标记数据,用于在训练过程中评估机器学习模型的性能和泛化能力,帮助进行超参数调整和模型选择。

向量

一维有序数字列表,例如 [1 , 2 , 5] 或 [0.7, 0.2, -1.0]。

向量数据库

请参阅 向量存储 (vector store)

向量索引

用于从向量存储中检索文档的向量化嵌入的索引。

向量存储

用于存储文档的矢量化嵌入的存储库。

语言描述器

在生成性 AI 中,用于在调整和推断期间格式化数据的模板。

虚拟代理

预先训练的聊天机器人,可处理自然语言以响应和完成简单的业务事务,或将更复杂的请求传递给具有主题专业知识的人员。

可视化

使用图形、图表、散点图、表、地图或者任何其他可视化表示形式来表示数据。

W

重量

在网络层中变换输入数据的节点的系数。 权重是 AI 模型通过训练学习的参数,用于调整其值以减少模型预测中的错误。

Z

零快照提示

一种提示技术,在此提示技术中,模型完成任务时未提供特定示例。