卷积神经网络
黑蓝背景
卷积神经网络

了解卷积神经网络如何使用三维数据,执行图像分类和对象识别任务。


什么是卷积神经网络?

神经网络反复执行。学习 Hub文章。神经网络是机器学习的子集,它们是深度学习算法的核心。 它们由节点层构成,包含一个输入层、一个或多个隐藏层和一个输出层。 每个节点都与另一个节点相连,具有一个关联的权重和阈值。 如果任何单个节点的输出高于指定的阈值,那么该节点将被激活,并将数据发送到网络的下一层。 否则,不会将数据传递到网络的下一层。

虽然我们在那篇文章中主要关注前馈网络,但还有各种不同类型的神经网络,用于不同的用例和数据类型。 例如,循环神经网络通常用于自然语言处理和语音识别,而卷积神经网络(ConvNet 或 CNN)则更常用于分类和计算机视觉任务。 在 CNN 出现之前,人们通常使用耗时的人工特征抽取方法来识别图像中的对象。 现在,卷积神经网络提供更加可扩展的方法,用于图像分类和对象识别任务,利用线性代数原理,特别是矩阵乘法,识别图像内的图案。 也就是说,它们在计算方面可能要求很高,需要图形处理单元 (GPU) 来训练模型。 


卷积神经网络如何工作?

卷积神经网络与其他神经网络的不同之处在于,它们在图像、语音或音频信号输入方面表现出超级的性能。 它们具有三个主要类型的层,分别是:

  • 卷积层
  • 池化层
  • 全连接(FC)层

卷积层是卷积网络的第一层。 虽然卷积层可以后跟另外的卷积层或池化层,但全连接层肯定是最后一层。 随着层次的递进,CNN 的复杂性也逐步增加,能够识别图像中更复杂的部分。 靠前的层关注于简单的特征,比如颜色和边缘。 随着图像数据沿着 CNN 的层级逐渐推进,它开始识别对象中更大的元素或形状,直到最终识别出期望的对象。

卷积层

卷积层是 CNN 的核心构建块,负责执行大部分计算。 它需要几个组件,包括输入数据、过滤器和特征图。 假设输入是彩色图像,由三维的像素矩阵组成。 这意味着,输入具有三个维度:高度、宽度和深度,对应于图像中的 RGB。 我们还有一个特征检测器,也称为内核或过滤器,它在图像的各个感受野中移动,检查是否存在特征。 这个过程称为卷积。

特征检测器是个二维权重数组,表示部分图像。 虽然它们的大小可能各不相同,但过滤器大小通常为 3×3 的矩阵;这也决定了感受野的大小。 将过滤器应用于图像的某个区域,计算输入像素和过滤器的点乘积。 然后将此点乘积提供给输出数组 接下来,过滤器移动一个步幅,重复这个过程,直到内核扫描了整个图像。 来自输入和过滤器的一系列点乘积的最终输出称为特征图、激活图或卷积特征。

在每次卷积运算之后,CNN 对特征图应用修正线性单元(RELU)转换,为模型引入非线性特性。

如前所述,初始卷积层可以后跟另一个卷积层。 如果是这种情况,CNN 的结构就变成一个分层结构,因为后面的层可以看到前面层的感受野中的像素。  例如,假设我们尝试确定图像中是否包含自行车。 可将自行车视为各种零件的总和。 它由车架、车把、车轮、踏板等组成。 自行车的每个零件构成神经网络中一个较低层次的模式,而零件的组合则表示一个较高层次的模式,从而在 CNN 中形成特征层次结构。

池化层

池化层也称为下采样,执行降维操作,旨在减少输入中参数的数量。 与卷积层类似,池化运算让过滤器扫描整个输入,但区别在于,这个过滤器没有权重。 内核对感受野中的值应用汇总函数,填充输出数组。 有两种主要的池化类型:

  • 最大池化:当过滤器在输入中移动时,它选择具有最大值的像素,将其发送给输出数组。 顺便说一句,与平均池化相比,这种方法更常使用。
  • 平均池化:当过滤器在输入中移动时,它计算感受野中的平均值,将其发送给输出数组。

虽然池化层中会丢失大量信息,但它还是给 CNN 带来的许多优点。 该层有助于降低复杂性,提高效率,并限制过度拟合的风险。 

全连接层

全连接层的名称恰如其分地描述了它的含义。 如前所述,输入图像的像素值并不直接连接到部分连接层的输出层。 而在完全连接层中,输出层中的每个节点都直接连接到上一层中的一个节点。

该层根据通过先前层及其不同的过滤器提取的特征,执行分类任务。 虽然卷积层和池化层一般使用 ReLu 函数,但完全连接层通常利用 softmax 激活函数,对输入进行适当分类,产生 0 到 1 之间的概率。


卷积神经网络的类型

Kunihiko Fukushima 和 Yann LeCun 分别在 1980 年 (PDF, 1.1 MB)(链接位于 IBM 外部)和 1989 年 (PDF, 5.5 MB)(链接位于 IBM 外部)发表论文,奠定了卷积神经网络研究的基础。 Yann LeCun 更有名,他成功应用反向传播来训练神经网络,以识别一系列手写邮政编码中的图案。 在整个 1990 年代,他领导自己的团队继续开展研究,最终发布“LeNet-5”(PDF, 933 KB) (链接位于 IBM 外部),将先前研究中的相同原理应用于文档识别。 自那之后,随着 MNIST 和 CIFAR-10 等新数据集的推出,以及 ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 等竞争产品的出现,各种不同的 CNN 架构不断涌现。 其他一些架构包括:

  • AlexNet (PDF, 1.4 MB)(链接位于 IBM 外部)
  • VGGNet (PDF, 195 KB)(链接位于 IBM 外部)
  • GoogLeNet (PDF, 1.3 MB)(链接位于 IBM 外部)
  • ResNet (PDF, 800 KB)(链接位于 IBM 外部)
  • ZFNet

但 LeNet-5 被公认为经典 CNN 架构。


卷积神经网络与计算机视觉

卷积神经网络有力地推动了影像识别和计算机视觉任务。 计算机视觉是人工智能 (AI) 的一个领域,是指让计算机和系统能够从数字图像、视频和其他视觉输入中获取有意义的信息,并根据这些输入采取行动。 这种提供建议的能力将其与图像识别任务区分开来。 目前可以看到的计算机视觉的一些常见应用领域包括:

  • 营销:社交媒体平台可以提示谁可能出现在已发布在个人档案中的照片上,从而更轻松地在相册中标记朋友。 
  • 医疗保健:计算机视觉已纳入放射学技术,帮助医生在医学影像中更有效地识别肿瘤。
  • 零售:视觉搜索已纳入一些电子商务平台,帮助品牌企业建议用于补充现有衣橱的商品。   
  • 汽车:虽然无人驾驶汽车时代还未完全到来,但底层技术已开始在汽车中应用,通过车道线检测等功能,提高驾驶员和乘客的行车安全性。

卷积神经网络与 IBM

几十年来,IBM 已成为人工智能技术和神经网络开发的先驱,而 IBM Watson 的开发和演进更添一臂之力。 如果企业希望使用经过验证的分层 AI 采用和实施方法,将高级视觉识别和深度学习技术运用于系统,那么 Watson 现在是值得信任的解决方案。

IBM 的 Watson Visual Recognition 可轻松地从贵组织的图像中提取数以千计的标签,检测特定的现成内容。 您还可以构建定制模型,检测应用中图像内的特定内容。 有关如何使用机器学习快速准确地标记、分类和搜索视觉内容的更多信息,请探索 IBM Watson Visual Recognition。

注册一个 IBMid 并创建您的 IBM Cloud 账户。

相关解决方案

IBM SPSS Neural Networks

IBM SPSS Neural Networks 可以帮助您发现复杂关系并从数据中获取更大的价值。