神经网络是一种机器学习程序或模型,它以类似于人脑的方式做出决策,通过使用模仿生物神经元协同工作方式的过程来识别现象、权衡利弊并得出结论。
每个神经网络都由多个节点层或人工神经元组成 – 一个输入层、一个或多个隐藏层和一个输出层。每个节点都与其他节点相连,具有一个关联的权重和阈值。如果任何单个节点的输出高于指定的阈值,那么该节点将被激活,并将数据发送到网络的下一层。否则,不会将数据传递到网络的下一层。
神经网络依靠训练数据来学习并随着时间的推移提高其准确性。一旦对其准确性进行微调,它们就会成为计算机科学和人工智能领域的强大工具,可高速进行数据分类和聚类。与人类专家的人工识别相比,人工智能进行语音识别或图像识别只需几分钟,而人工识别则需要几小时。神经网络最著名的例子之一就是 Google 的搜索算法。
神经网络有时被称为人工神经网络 (ANN) 或模拟神经网络 (SNN)。它们是机器学习的一个子集,是深度学习模型的核心。
将每个单独的节点视为其自己的线性回归模型,由输入数据、权重、偏置(或阈值)和输出组成。公式如下所示:
∑wixi + 偏置 = w1x1 + w2x2 + w3x3 + bias
如果 Σw1x1 + b>= 0,则输出 = f(x) = 1;如果 Σw1x1 + b < 0,则输出为 0
一旦确定了输入层,就会分配权重。这些权重有助于确定任何给定变量的重要性,与其他输入相比,较大的权重对输出的贡献更大。然后将所有输入乘以各自的权重,再求和。之后,输出通过激活函数传递,该函数决定着输出。如果该输出值超过给定阈值,将“触发”(或激活)节点,并将数据传递到网络中的下一层。结果是一个节点的输出成为下一个节点的输入。这种将数据从一层传递到下一层的过程将该神经网络定义为前馈网络。
让我们用二进制数值来分析一下单个节点可能是什么样子。我们可以把这个概念应用到一个更具体的例子中,比如你是否应该去冲浪(是:1,否:0)。去还是不去的决定是我们的预期结果,或者 y-hat。假设有三个因素影响着你的决策:
那么,我们假设以下情况,给出以下输入:
现在,我们需要分配一些权重来确定各项的重要性。权重越大表示特定变量对决策或结果越重要。
最后,我们还将假设阈值为 3,这将转换为偏置值 –3。有了各项输入后,我们可以开始将值代入公式以获得所需的输出。
Y-hat = (1*5) + (0*2) + (1*4) – 3 = 6
如果我们使用本节开头的激活函数,就可以确定该节点的输出为 1,因为 6 大于 0。在这种情况下,你会去冲浪;但如果我们调整权重或阈值,就可以从模型中获得不同的结果。当我们观察一个决策时,就像上面的例子一样,我们可以看到神经网络如何根据先前决策或层的输出做出越来越复杂的决策。
在上面的例子中,我们使用感知器来说明其中的一些数学原理,但神经网络利用了 sigmoid 神经元,它们的特点是值在 0 到 1 之间。由于神经网络的行为类似于决策树,数据从一个节点级联到另一个节点,使得 x 值在 0 到 1 之间可减少单个变量的任何给定变化对任何给定节点的输出的影响,从而减少对神经网络输出的影响。
当我们开始考虑神经网络的更多实际用例时,例如图像识别或分类,我们将利用监督学习或标记数据集来训练算法。当我们训练模型时,我们需要使用成本(或损失)函数来评估其准确性。这通常也称为均方误差 (MSE)。在下面的等式中,
𝐶𝑜𝑠𝑡 𝐹𝑢𝑛𝑐𝑡𝑖𝑜𝑛= 𝑀𝑆𝐸=1/2𝑚 ∑129_(𝑖=1)^𝑚▒(𝑦 ̂^((𝑖) )−𝑦^((𝑖) ) )^2
最终,我们的目标是使成本函数最小化,以确保任何给定观测数据的拟合正确性。随着模型调整其权重和偏置,它使用成本函数和强化学习来达到收敛点或局部最小值。算法调整权重的过程是通过梯度下降,让模型确定减少误差(或最小化成本函数)的方向。对于每个训练示例,模型的参数都会进行调整,以逐渐收敛到最小值。
请参阅这篇 IBM Developer 文章,深入了解神经网络中涉及的定量概念。
大多数深度神经网络都是前馈网络,这意味着它们仅沿一个方向从输入流向输出。但是,你也可以通过反向传播来训练模型,也就是说,从输出到输入反方向移动。通过反向传播,我们可以计算并确定与每个神经元相关的误差,从而对模型参数进行适当的调整和拟合。
神经网络可分为不同类型,不同的神经网络用于不同目的。尽管这不是一个全面的类型列表,但以下列出的神经网络类型代表了最常见的应用案例。
感知器是最古老的神经网络,由 Frank Rosenblatt 在 1958 年创建。
前馈神经网络或多层感知器 (MLP) 是本文的主要研究对象。它们由一个输入层、一个或多个隐藏层和一个输出层组成。虽然这些神经网络通常也被称为 MLP,但重要的是,要注意它们实际上由 sigmoid 神经元而不是感知器组成,因为大多数现实世界的问题都是非线性的。数据通常被输入到这些模型中进行训练,它们是计算机视觉、自然语言处理和其他神经网络的基础。
卷积神经网络 (CNN) 与前馈网络类似,但它们通常用于图像识别、模式识别和/或计算机视觉。这些网络利用线性代数,尤其是矩阵乘法的原理来识别图像中的模式。
循环神经网络 (RNN) 可通过其反馈循环来识别。这些学习算法主要用于使用时间序列数据对未来结果进行预测,例如股票市场预测或销售预测。
在日常对话中,“深度学习”和“神经网络”这两个术语往往会交替使用,这可能会造成混淆。因此,值得注意的是,深度学习中的“深度”仅指神经网络中层的深度。一个由超过三层(包括输入层和输出层)构成的神经网络可以被视为一个深度学习算法。只有两层或三层的神经网络只是一个基本的神经网络。
要深入了解神经网络与其他形式的人工智能(如机器学习)之间的差异,请阅读博客文章“人工智能、机器学习、深度学习、神经网络:有什么区别?”
神经网络的历史比大多数人想象的要长。虽然“会思考的机器”的概念可以追溯到古希腊时期,但我们将重点关注带来神经网络认知演进的关键事件,多年来,神经网络的热度也是时消时涨:
1943 年:Warren S. McCulloch 和 Walter Pitts 发表了“神经活动中内在思想的逻辑演算”(ibm.com 外部链接)。这项研究试图了解人脑如何通过连接的脑细胞或神经元形成复杂的模式。这项工作产生的一个主要思想是将具有二进制阈值的神经元与布尔逻辑(即 0/1 或真/假语句)进行比较。
1958 年:Frank Rosenblatt 因开发感知器而受到赞誉,这记录在他的以下研究论文中:“感知器:大脑中信息存储和组织的概率模型”(ibm.com 外部链接)。他将 McCulloch 和 Pitt 的工作向前推进了一步,在等式中引入了权重。利用 IBM 704,Rosenblatt 让计算机学会了如何区分左侧标记的卡片和右侧标记的卡片。
1974 年:虽然许多研究人员都为反向传播的概念做出了贡献,但 Paul Werbos 作为美国第一人,首次在其博士论文(ibm.com 外部链接)中提到了反向传播在神经网络中的应用。
1989 年:Yann LeCun 发表了一篇论文(ibm.com 外部链接),阐述了如何在反向传播中使用约束并将其集成到神经网络架构中来训练算法。这项研究成功地利用神经网络来识别美国邮政总局提供的手写邮政编码数字。
深入了解神经网络、其基本功能以及构建神经网络的基础知识。
IBM Granite 是我们开放式、性能优异、值得信赖的 AI 模型系列,专门为企业量身定制,并经过优化,可以帮助您扩展 AI 应用程序。深入了解语言、代码、时间序列和护栏选项。
我们对 2,000 家组织进行了调查,旨在了解他们的 AI 计划,以发现哪些方法有效、哪些方法无效,以及如何才能取得领先。
了解如何自信地将生成式 AI 和机器学习融入您的业务中。
了解如何为您的用例选择最合适的 AI 基础模型。
了解 CEOs 如何在生成式 AI 所能创造的价值与其所需的投资和带来的风险之间取得平衡。
想要从 AI 投资中获得更好的回报吗?了解如何通过帮助您最优秀的人才构建和提供创新的新解决方案,在关键领域扩展生成式人工智能来推动变革。