神经网络
人工智能
黑蓝背景
神经网络

神经网络可反映人脑的行为,支持计算机程序识别模式,解决人工智能、机器学习和深度学习领域中的常见问题。

特色产品

Watson Studio

Watson Machine Learning Accelerator

下载人工智能电子书

什么是神经网络?

神经网络,也称为人工神经网络 (ANN) 或模拟神经网络 (SNN),是机器学习的一个子集,也是深度学习算法的核心。 其名称和结构均受到人脑的启发,可模仿生物神经元相互传递信号的方式。

人工神经网络 (ANN) 由节点层组成,包含一个输入层、一个或多个隐藏层和一个输出层。 每个节点也称为一个人工神经元,它们连接到另一个节点,具有相关的权重和阈值。 如果任何单个节点的输出高于指定的阈值,那么该节点将被激活,并将数据发送到网络的下一层。 否则,不会将数据传递到网络的下一层。

神经网络依靠训练数据来学习和随时间推移提高自身精度。 然而,这些学习算法经过精度调优后,就会成为计算机科学和人工智能领域中的强大工具,可支持我们快速进行数据分类和分组。 语音识别或图像识别方面的任务可能仅需几分钟即可完成,而由人类专家手动识别可能需要数小时时间。 最著名的神经网络之一是 Google 的搜索算法。

相关链接

线性回归

预测性分析


神经网络如何工作?

将各单独节点当成自己的线性回归模型,其中组合了输入数据、权重、偏差(或阈值)和输出。 该公式与以下类似:

∑wixi + bias = w1x1 + w2x2 + w3x3 + bias

output = f(x) = 1 if ∑w1x1 + b>= 0; 0 if ∑w1x1 + b < 0

确定输入层后,即可分配权重。 这些权重可帮助确定任何指定变量的重要性,权重较大的输入相对于其他输入来说,对输出的影响更加显著。 之后,将所有输入乘以各自的权重,然后相加。 接着,将通过激活函数传递输出,该函数决定了输出。 如果输出超过给定阈值,则“触发”(或激活)节点,并将数据传递到网络中的下一层。 这样,一个节点的输出就变成了下一个节点的输入。 将数据从一层传递至下一层的这一过程可将此神经网络定义为前馈网络。

我们利用二进制值来解析单个节点的外观。 我们可以将此概念应用于更加实际的示例,例如您是否应该去冲浪(是:1,否:0)。 去还是不去的决策便是我们的预测结果,或者说是预测的 y 值。 我们假设有三个因素影响您的决策:

  1. 海浪好不好? (是:1,否:0)
  2. 需要排队吗? (是:1,否:0)
  3. 最近是否有鲨鱼攻击? (是:0,否:1)

然后,我们假设以下内容作为输入:

  • X1 = 1,因为海浪在翻涌
  • X2 = 0,因为人群已散去
  • X3 = 1,因为最近没有鲨鱼攻击

现在,我们需要分配一些权重来确定重要性。 较大的权重表示特定变量对决策或结果较为重要。

  • W1 = 5,因为不经常出现较大的涌浪
  • W2 = 2,因为您已经习惯了人群
  • W3 = 4,因为对鲨鱼感到恐惧

最后,我们还假设一个阈值 3,这将转换为偏差值 -3。 所有输入到位后,我们可以开始将值插入公式以得出期望输出。

Y-hat = (1*5) + (0*2) + (1*4) – 3 = 6

如果我们从本节开始使用激活函数,那么可以确定此节点的输出为 1,因为 6 大于 0。 在此实例中,您会去冲浪;但如果我们调整权重或阈值,可以从模型中得出不同的结果。 当我们观察一个决策时,比如在上述示例中,我们可以看到,神经网络制定日益复杂的决策的方式取决于之前决策或之前层的输出。

在上述示例中,我们使用感知器来说明一些数学运算,但神经网络利用 sigmoid 神经元,该神经元的取值为 0 和 1。 由于神经网络的行为类似于决策树,将数据从一个节点级联到另一个,因此 x 值取 0 和 1 将减少单个变量的任何指定更改对任何指定节点输出的影响,并因此减少对神经网络输出的影响。

我们开始思考神经网络的更实际用例时,比如图像识别或分类,我们将利用监督学习或标记的数据集来训练算法。 我们训练模型时,会想要通过成本(或损失)函数来评估其精度。 这通常也称为均方误差 (MSE)。 在以下方程中,

  • i 代表样本的索引,
  • y-hat 是预测结果,
  • y 是实际值,而
  • m 是样本数。

= =1/2 ∑129_(=1)^▒( ̂^(() )−^(() ) )^2

最终,目标是最大程度减小成本函数,确保任何制定观察的正确拟合。 由于模型会调整其权重和偏差,因此它将使用成本函数和强化学习来达到收敛点或局部最小值。 算法调整其权重的过程采用了梯度下降方法,允许模型确定减少错误(或最小化成本函数)所采取的方向。 在每个训练示例中,模型参数都会进行调整,以逐步收敛至最小值。  

阅读此篇 IBM 开发人员文章,其中较为深入地解释了神经网络中涉及的定量概念

最深度的神经网络是前馈,意味着它们仅流入一个方向,即从输入到输出。 但是,您也可以通过反向传播训练模型;也就是说,从输出到输入反向移动。 反向传播让我们能够计算和归因与每个神经元关联的错误,并相应地调整和拟合模型的参数。


神经网络的类型

神经网络可分类为不同的类型,分别用于不同的目的。 尽管此类型列表并不全面,但以下代表了最常见的神经网络类型,您可能会遇到其常见用例:

感知器是最古老的神经网络,由 Frank Rosenblatt 于 1958 年创建。

我们在本文中主要讨论的是前馈神经网络,或称多层感知器 (MLP)。 该网络由输入层、一个或多个隐藏层和输出层组成。 虽然这些神经网络通常也称为 MLP,但值得注意的是,它们实际上由 sigmoid 神经元组成,而非感知器,因为大多数现实问题都是非线性的。 通常将数据馈送到这些模型进行训练,这些数据便是计算机视觉处理、自然语言处理和其他神经网络的基础。

卷积神经网络 (CNN) 类似于前馈网络,但它们通常用于图像识别、模式识别和/或计算机视觉处理。 这些网络利用线性代数中的原理,尤其是矩阵乘法,来识别图像中的模式。

循环神经网络 (RNN) 由其反馈回路识别。 利用时间序列数据作出有关未来结果的预测时主要使用这些学习算法,比如股市预测或销量预测。

 


神经网络与深度学习

深度学习和神经网络在会话中往往可以互换使用,这可能会造成混淆。 因此,值得注意的是,深度学习中的“深度”只是指神经网络中层的深度。 由三层以上组成的神经网络(包含输入和输出)可视为深度学习算法。 只有两层或三层的神经网络只是基本神经网络。

为详细了解神经网络和其他人工智能形式之间的差异, 比如机器学习,请读取博客帖子“AI vs. Machine Learning vs. Deep Learning vs. Neural Networks: What’s the Difference?


神经网络的历史

神经网络的历史比大多数人想的要长。 “会思考的机器”这一想法可以追溯到古希腊,但我们将重点讨论推进神经网络相关思考不断演进的主要事件,且多年来其热度时消时涨:

1943 年: Warren S. McCulloch 和 Walter Pitts 发表了“A logical calculus of the ideas immanent in nervous activity (PDF, 1 MB)(链接位于 ibm.com 外部)”,本研究旨在了解人脑如何通过互相连接的脑细胞或神经元形成复杂模式。 本文中的主要想法之一是将带二进制阈值的神经元与布尔逻辑(即,0/1 或 true/false 语句)进行对比。   

1958 年:Frank Rosenblatt 开发出感知器,这一创新记录在其以下研究论文中:“The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain” (PDF, 1.6 MB)(链接位于ibm.com 外部)。 他通过在方程中引入权重,进一步推进了 McCulloch 和 Pitt 的工作。 Rosenblatt 能够利用 IBM 704,让计算机学会如何区分左侧带标记的卡片和右侧带标记的卡片。

1974 年:尽管由众多研究人员提到了反向传播的想法,但 Paul Werbos 在其博士论文 (PDF, 8.1 MB)(链接在 ibm.com 外部)中提出了反向传播在神经网络中的应用,这在美国是第一次。

1989 年:Yann LeCun 发布了一篇论文 (PDF, 5.7 MB)(链接位于 ibm.com 外部),讲述了如何通过将反向传播中的约束及其集成运用于神经网络架构,以训练算法。 本研究成功利用神经网络识别出美国邮政总局提供的手写邮政编码。


神经网络和 IBM Cloud

几十年来,IBM 已成为人工智能技术和神经网络开发的先驱,而 IBM Watson 的开发和演进更添一臂之力。 如何企业寻求通过经验证的 AI 分层采用和实施方法,将高级语言处理和深度学习技术运用于系统,那么 Watson 现在是一个可靠的解决方案。

Watson 使用 Apache 非结构化信息管理架构 (UIMA) 框架和 IBM 的 DeepQA 软件,为应用程序提供强大的深度学习功能。 使用类似 IBM Watson Studio 的工具,您的企业可将开源 AI 项目无缝引入生产,同时在任何云中部署和运行模型。

关于深度学习技术入门的更多信息,请探索 IBM Watson Studio  和深度学习服务

注册一个 IBMid 并创建您的 IBM Cloud 账户。

相关解决方案

深度学习解决方案

设计复杂神经网络。 在 IBM Watson Studio 中部署优化学习模型的大规模实验


IBM Watson Studio

在任何云中构建和扩展可信 AI。 针对 ModelOps 实现 AI 生命周期自动化。


IBM Cloud 解决方案

混合云以及 开放。 永续。 助力您实现数字化转型的平台和合作伙伴。