什么是神经网络?

作者

Fangfang Lee

Developer Advocate

IBM

什么是神经网络?

神经网络作为一种机器学习模型,通过将简易的"神经元"分层堆叠,从数据中学习模式识别的权重与偏置,从而建立输入到输出的映射关系。

神经网络已成为现代机器学习人工智能 (AI) 领域最具影响力的算法。它们支撑着计算机视觉自然语言处理 (NLP)语音识别 等领域的突破性进展,并广泛应用于从预测分析到人脸识别的众多实际场景。尽管当今的深度神经网络已能驱动如转换器卷积神经网络 (CNN) 等复杂系统,其起源可追溯至线性回归等简易模型,以及人类大脑如何消化、处理和决定所获信息的生物机制。

神经网络如何工作?

从宏观视角看,神经网络的设计灵感源自人脑中通过电信号传递信息的生物神经元结构。1943 年,Warren McCulloch 和 Walter Pitts 首次提出神经元的数学模型,证明了简单计算单元能够执行函数运算。随后在 1958 年,Frank Rosenblatt 提出了专门用于模式识别任务的感知器算法。感知器可视为现代神经网络的历史雏形,本质上是一种具有约束输出机制的线性模型。在后续章节中,我们将深入探讨神经网络如何借鉴人脑的决策与模式识别机制。 

我们可通过垃圾邮件检测实例直观理解神经网络工作原理。将电子邮件输入网络,并使用“奖品”、“金钱”、“亲爱的”或“赢取”等词语或短语作为输入。络底层神经元负责分析每个信号特征的重要性,而更高层的神经元则将这些信息整合为能够捕捉上下文语境和语气特征的高级线索。最后一层会会计算该邮件属于垃圾邮件的概率值,如果概率足够高,该电子邮件就会被标记。从本质上讲,网络学习如何将原始特征转换为有意义的模式,并利用这些模式进行预测。

这一过程由权重和偏差两个基本概念驱动。权重如同调节旋钮,控制各输入特征对决策的影响强度,例如“奖品”一词的权重大于日常用语“你好”的权利。偏差作为内置基准值,可调整决策阈值,使得神经元在输入信号较弱时仍能激活。这些模型参数共同决定了每个神经元对整体计算的贡献程度。通过训练过程中的参数调整,网络逐渐学会做出准确的预测,在本例中,即预测电子邮件是否为垃圾邮件。

在数学上,神经网络学习函数   f(X)  的方式是将输入   X=(x1,x2,x3...)  映射到预测响应   Y. 神经网络与传统机器学习算法的根本区别在于其分层结构特性以及执行非线性变换的能力。 

神经网络由以下部分组成:

  • 输入层:承载原始特征 (X1,X2,X3,..) .

  • 隐藏层:由人工神经元(或节点)组成,将输入转化为新特征表示。在数学上,隐藏层表示为输入特征乘以相关权重和添加偏置,从一层传播到下一层,最终到达最终输出层。这是输入和输出之间发生线性转换的地方。 

  • 输出层:在隐藏层中执行线性转换后,添加非线性激活函数(tanh、 sigmoid、 ReLU )生成最终预测(例如用于回归的数值或用于分类的概率分布)。 
具有三个隐藏层的神经网络示意图:输入层、多个隐藏层、输出层 具有三个隐藏层的标准前馈神经网络。

神经网络训练

就像其他机器学习算法一样,神经网络需要严格的训练才能在测试中表现良好。训练神经网络时,单个神经元计算流程为: 

 z=i=1nwixi+b

 a=σ(z)

其中:

  •  xi  = 输入特征,
  •  wi  = 权重,
  •  b  = 偏差,
  •  z  = 加权和(线性转换),
  •  σ  = 激活函数(非线性转换),
  •  a  = 输出,

 σ 代表输出层激活函数,用于将线性组合转换为符合函数决策的输出形式。基于此架构,输入特征X被转换为输出Y,构建出具备预测能力的机器学习模型。  

神经网络的核心优势源于其从数据中自动学习合适权重与偏差的能力。该过程通过对比网络预测值  Y^ 真实标签  Y 并使用损失函数来衡量误差实现。例如在分类任务中,损失函数衡量预测概率与正确答案的偏离程度。

为了最大限度地减少这种损失,网络采用一种称为反向传播算法的算法。神经网络训练分为四个步骤:

  • 前向传播: 输入数据在网络中正向流动,通过线性组合计算,经由非线性激活函数处理,最终生成输出预测结果。

  • 误差计算: 损失函数衡量预测与事实之间的差异。

  • 反向传播(反向传播算法):误差信号沿网络层级反向传播。在每个神经元上,算法通过微积分链式法则精确计算各权重与偏差对总误差的贡献比例。

  • 权重更新:使用 梯度下降等优化方法,沿误差减小的方向对权重和偏置进行微调。
梯度下降图:x 轴为“权重值”,y 轴为“损失值”,左上角标注“起始点”,底部注明“收敛点,即损失函数最小化位置”

该过程在训练数据集上循环执行多次。每次传播都有助于网络“调整”其内部参数,使预测结果持续逼近正确答案。随着时间的推移,网络会收敛到一组权重和偏差,最大限度地减少误差且具备良好泛化能力。反向传播与梯度下降共同构成了神经网络运作的核心引擎。它们使具备数百万(甚至数十亿)参数的网络能够从海量数据集中学习有意义模式。 

然而,尽管从业者努力训练高性能模型,神经网络仍面临与其他机器学习模型相似的挑战,其中最显著的是过拟合问题。当神经网络变得过于复杂,参数过多时,模型就会过度拟合训练数据,导致预测效果不佳。过拟合是所有神经网络的共性问题,密切关注偏差-方差权衡是构建高性能神经网络模型的关键。 

现代神经网络架构(例如转换器和编码器-解码器模型)遵循相同的核心原理(学习权重和偏差、堆叠层、非线性激活、基于反向传播的端到端训练)。它们的主要区别在于各层之间输入信号的混合方式。变换器在全连接基础上引入注意力机制,形成数据依赖的加权表示组合,并结合残差连接、归一化与位置编码等技术,在相同基础上构建更丰富的连接模式。

神经网络的类型

尽管多层感知机构成基础,神经网络已发展出适应不同领域的专用架构:

  • 卷积神经网络(CNN 或 convnets):专为图像等网格化数据设计。CNN 在图像识别、计算机视觉及人脸识别方面表现出色,这要归功于可检测空间层次特征的卷积滤波器。 

  • 循环神经网络 (RNN):包含反馈,允许信息跨时间步长持续存在。特别适用于语音识别、时间序列预测等序列数据处理任务。 

  • 转换器:一种现代架构,它取代了 RNN 来处理许多序列任务。转换器利用注意力机制捕捉自然语言处理中的依赖关系,驱动诸如 GPT 等尖端模型的发展。 

  •  这些架构变体彰显了神经网络的强大适应性。无论架构如何变化,所有网络都建立在相同基石之上:人工神经元、非线性激活与优化算法。
Mixture of Experts | 12 月 12 日,第 85 集

解码 AI:每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。

神经网络应用

神经网络是当今许多 AI 系统的基础。神经网络的一些重要应用包括:

  • 计算机视觉:CNN 广泛应用于图像识别、医疗影像分析及自动驾驶系统。 

  • 自然语言处理:转换器用于机器翻译、聊天机器人和摘要。 

  • 语音识别:RNN 与深度网络赋能语音转写及智能助手系统。

  • 预测与时序分析:涵盖需求预测、金融建模与气象预报等领域。

  • 强化学习:神经网络作为函数逼近器应用于游戏智能体(如DeepMind 围棋程序 AlphaGo)。 

  • 模式识别:涵盖欺诈检测、异常识别与文档分类等场景。 

这些应用持续推动医疗、金融、机器人、娱乐等领域的现实创新。

为什么神经网络很重要 

神经网络直接从数据中学习有效的内部表示,捕获传统模型难以捕捉的非线性结构。只要具备足够容量、合理目标函数及防过拟合正则化,它们就能从小型基准测试扩展至计算机视觉、自然语言处理、语音识别、预测分析等生产系统,显著提升精度与稳健性。 
 
现代深度学习扩展了这些基础。CNN 专门提取图像空间特征;RNN 对序列中的时间依赖关系进行建模; 转换器借助残差连接、规范化和 GPU 上的高效并行性,以注意力机制替代循环结构。 

尽管架构存在差异,基于大数据的反向传播端到端训练仍是核心方法。 Y=f(X;σ) 其学习机制通过将数据依赖型转换与非线性激活函数复合实现。生成式 AI 基于相同原理进行大规模扩展。大型语言模型、扩散模型、VAEGAN 通过学习数据分布规律,实现文本、图像、音频及代码的合成生成。 

从多层感知器到最先进的发生器,主要是结构、数据和计算方面的飞跃。训练要求及主流网络类型,构成了从经典神经网络通往现代生成式系统的实践桥梁,也明晰了这些模型成为现代 AI 核心的关键原因。

相关解决方案
IBM watsonx.ai

使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。

了解 watsonx.ai
人工智能 (AI) 解决方案

借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。

深入了解 AI 解决方案
AI 咨询与服务

通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。

深入了解人工智能服务
采取后续步骤

一站式访问跨越 AI 开发生命周期的功能。利用用户友好型界面、工作流并访问行业标准 API 和 SDK,生成功能强大的 AI 解决方案。

深入了解 watsonx.ai 预约实时演示