什么是计算机视觉？

作者

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

什么是计算机视觉？

计算机视觉是人工智能 (AI) 的一个子领域，它使机器能够处理、分析和解释图像和视频等视觉输入。它使用机器学习来帮助计算机和其他系统从视觉数据中获得有意义的信息。

计算机视觉可被视为三大过程之间的交互，这三者相互协作、相互启发，分别是识别、重建和重组。图像识别是指识别数字图像或视频中的动作、物体、人物、地点和文字。重建得出了这些实体的三维特征，而重组则推断出实体之间的关系。¹

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明。

计算机视觉是如何工作的

在计算机视觉中，放射影像用于肺炎诊断是一个常见的应用案例。放射科医生必须仔细解读胸部 X 光片，而这一过程由于肺炎症状的细微特征及其与其他肺部疾病的相似性，往往容易出错且耗时较长。²计算机视觉系统可以提供帮助。

计算机视觉任务有多种模型和方法，但以下假设示例说明了一种常见的工作流：

数据收集
预处理
模型选择
模型训练

数据收集

第一步是收集必要的视觉数据。医院会产生大量的胸部 X 光片，这些 X 光片可以用来训练计算机视觉算法。由于目标是让算法判断一张 X 光影像是否显示出肺炎，医院需要收集一个包含胸部 X 光扫描的数据集，并为每张影像进行正确的标记或标注，将其归类为正常或患有肺炎。

对于其他用例，图像和视频可能来自摄像头和传感器等来源。COCO、ImageNet 和 Open Images 等数据集提供了大量带标注的图像。

预处理

AI 模型的性能取决于用于训练的数据质量，因此高质量的数据对计算机视觉至关重要。预处理可帮助提高数据质量，实现的方法是数据清洗和增强功能（如调整亮度或对比度以锐化图像，以及调整大小和平滑处理）。

数据集还必须足够大和足够多样化，以使计算机视觉算法产生准确的结果。合成数据生成和数据增强可以帮助扩大数据集的规模和多样性。例如，医院可以使用几何变换来增强数据，例如将胸部 X 光影像向左或向右旋转，或将影像上下翻转。

模型选择

选择合适的机器学习模型对于优化效率和性能至关重要。卷积神经网络 (CNN) 仍然是图像处理任务的主要深度学习模型，而循环神经网络 (RNN) 则特别适合处理视频帧等序列数据。

然而，人工智能的进步正在推动向 Transformer 模型的转变。例如，视觉转换器 (ViT) 将基于 Transformer 的语言模型的元素应用于计算机视觉。ViT 将图像处理成图块并将它们视为序列，类似于语言转换器中的词元。然后，视觉转换器在这些图像块上实现自注意力机制，以创建输入图像的基于 Transformer 的表示。在图像分类等计算机视觉任务上，ViT 通常可匹配或超过 CNN 的性能。³

模型训练

一旦选择了模型，就会进行模型训练。训练阶段包括在特定于计算机视觉任务的训练数据上运行模型，将性能与真实值进行比较，并优化参数以随时间提升性能。

CNN 由三种类型的层组成：卷积层、池化层和全连接层。卷积层是进行特征提取的地方。特征提取涉及从原始图像数据中识别并捕获关键的视觉属性，例如颜色、边缘、形状和纹理。对于患有肺炎的 X 光影像，需要提取的特征包括：不对称的肺轮廓、表示炎症或液体存在的亮区（与暗的充满空气的区域相对）、模糊或不透明的肺区域，以及粗糙或斑驳的纹理。⁴特征提取使算法能够识别视觉数据中的重要关系和模式。

X 射线图像被视为像素值矩阵。另一个权重矩阵（控制给定输入特征对模型输出影响程度的参数），称为滤波器或卷积核，会应用到 X 光影像的某一区域，并计算输入像素值之间的点积。滤波器在图像上移动或“卷积”以提取特征，整个过程称为卷积。一系列点积运算的最终输出称为激活图或特征图。每个滤波器都会被调节以响应特定的模式，例如边缘、形状或纹理，从而使卷积神经网络 (CNN) 能够同时学习多个视觉特征。

特征图会被输入到池化层，以进一步减小图的尺寸并压缩其维度。另一个滤波器会遍历整个输入，在特征图的一组单元格内取最大值或平均值。这样可以保留最关键的特征，使模型能够将注意力集中在这些特征上。

在图像上移动以提取特征、降低维度并生成分类的过程称为前向传播。在前向传播之后，模型会应用损失函数来计算其误差，即预测分类与真实分类之间的差异。

为了最小化损失函数，会使用反向传播。反向传播是一次向后传递的过程，用于计算损失函数相对于每个权重的梯度。然后，应用梯度下降技术来更新模型权重并优化模型。

最后，全连接层根据前几层及其不同滤波器提取的特征执行分类任务。随后，CNN 生成输出，即每个类别的概率（在此情况下为正常与肺炎）。对于胸部 X 光影像分类任务，该输出将指示影像为正常，或者如果概率超过预设阈值，则判定影像为肺炎阳性。

Mixture of Experts | 12 月 12 日，第 85 集

解码 AI：每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见，带来最新的 AI 资讯与深度解析。

观看 Mixture of Experts 所有剧集

计算机视觉任务

计算机视觉算法可以针对各种任务进行训练，其中一些任务包括：

图像识别
图像分类
物体检测
图像分割
对象跟踪
场景理解
面部识别
姿态估计
光学字符识别
图像生成
视觉检查

图像识别

图像识别是计算机视觉中最广泛的形式。它包括对数字图像中的人物、地点、物体及其他实体的识别，并作为图像分类、对象检测和图像分割等任务的基础。

图像分类

图像分类是计算机视觉的核心任务之一，用于将图像归类到预定义的组或类别中。它会为图像或图像中的对象预测最合适的标签。前面所示的利用胸部 X 光进行肺炎诊断的场景，就是图像分类的一个例子。

对象检测

对象检测旨在查明对象在数字图像中的位置。它融合了两种学习技术：对象定位和图像分类。

对象定位通过在图像中特定对象周围绘制边界框来识别其位置。然后，图像分类会区分对象所属的类别。例如，在道路交通录像中，计算机视觉应用可以利用对象检测不仅对车辆进行分类，还能确定它们在道路上的位置。

用于对象检测的常见 CNN 架构包括 R-CNN（基于区域的卷积神经网络）和 YOLO（只看一次）。R-CNN 实现了两阶段检测，首先确定包含对象的区域，然后将这些区域输入到独立的网络中进行分类和更精确的定位。同时，YOLO 通过在单一网络传递中融合定位和分类来进行单阶段检测，使其足够快速以实现实时对象检测。

视频的对象检测通常采用基于 Transformer 的模型和循环神经网络 (RNN)，尤其是长短期记忆结构。

图像分割

图像分割是对象检测的一种更精确、像素级的版本。它将数字图像划分为称为图像分割的离散像素组，然后根据类别或实例对像素进行标记。

虽然对象检测可以对图像中的多个元素进行分类并大致估算每个元素的宽度和高度，但图像分割则能够识别精确的边界或形状。这使得图像分割在描绘边界框重叠的紧密对象时非常有价值。

图像分割可以进一步细分为三种任务类型：

语义分割是最简单的类型，它为每个像素分配一个语义类别，即该像素可能属于的特定类别。
实例分割预测图像中每个独立对象实例的精确像素级边界。
全景分割通过确定所有像素的语义分类并区分图像中的每个对象实例，将语义分割和实例分割结合起来。

例如，在城市街道的图像中，语义分割可能会将一辆停在另一辆汽车前面的汽车视为一个长汽车片段，而实例分割则会分离并确定每辆车的形状。

对象跟踪

对象跟踪会在视频或图像序列中追踪对象的移动轨迹。它在每一帧中定位并区分对象，并在移动过程中保持对象的连续性。

场景理解

场景理解比对象识别更进一步，能够捕捉更高级的视觉信息。在识别图像中的对象后，深度学习模型会预测它们之间的关系，例如动作、事件和交互。

图神经网络 (GNN) 可用于表示图像中对象之间的空间关系。在交通视频示例中，计算机视觉系统可以推断出出租车在汽车前方行驶、汽车停在出租车左侧，或汽车正在右转。

视觉语言模型 (VLM) 也可以帮助理解场景。将大语言模型 (LLM) 与视觉转换器配对，可以识别和分类图像中的对象，并提供上下文描述，例如对象相对于其他视觉元素的位置。

面部识别

面部识别将图像识别技术应用于面部特征。它捕捉面部的几何特征，并识别关键模式，例如眼睛间距、额头到下巴的距离、鼻子的轮廓以及嘴唇的形状。

面部识别可以实时识别个体，也可以识别照片或视频中的人物。一个常见的例子是通过面部识别进行生物识别认证以解锁智能手机。

姿态估计

姿态估计用于测量不同身体部位的空间位置，以识别手势并跟踪身体动作。例如，姿态估计可以帮助标记玩家在虚拟现实游戏中手臂和手的姿态方向。一个更贴近现实的例子是 NASA 的计算机视觉软件，它为国际空间站上的机械臂操作员提供实时姿态估计，以便精确抓取目标。⁵

光学字符识别

光学字符识别 (OCR)，也称为文本识别，它从图像、扫描的文档和其他来源提取文本并将其转换为机器可读的格式。因此，它有助于实现手写文本和纸质记录数字化的自动化。

OCR（光学字符识别）工作流程包括以下步骤：

图像采集将图像或数字文档转换为黑白版本，其中亮区标记为背景，暗区标记为待识别的字符。
预处理通过消除无关像素并引入纠偏操作，可修正扫描过程中产生的图像倾斜问题。
文本识别可查找字母、数字或符号，每次识别一个字符。然后，它通过模式识别来识别字符，将字符的字体、比例和形状与模板相匹配。

CNN 和基于 Transformer 的模型能够进行更智能的字符识别，提取字符中的曲线、线条交点、环形结构以及角线数量等特征。这些算法还能智能识别单词，区分单词而不是字符，以加快处理速度。

图像生成

图像生成使用生成式 AI 模型来生成图像。以下是一些常用于图像生成的生成式模型：

扩散模型通过学会对逐渐扩散了随机噪声、直至无法识别的训练数据样本进行去噪或重构，从而生成新颖图像。
生成式对抗网络 (GAN) 由两个神经网络组成：一个生成器用于创建图像，另一个判别器作为对手，用于区分人工生成的图像和真实图像。这两个网络都经过迭代训练，判别器的反馈会改进生成器的输出，直到判别器不再能够区分人工图像和真实图像。
变分自编码器 (VAE) 是一种深度学习模型，可根据训练图像生成各种变体。编码器将输入图像压缩到低维空间，捕获输入图像中包含的有意义信息。然后，解码器根据压缩后的表示重建新图像。

VLM 还能够根据给定的文本描述生成图像。

视觉检查

视觉检查可自动识别缺陷。通过对象检测，计算机视觉系统检查图像或视频以发现错误和缺陷。图像分割也可以用于更精确地定位缺陷。

利用计算机视觉的视觉检测设备可以帮助企业更快速、更安全地进行检查，并提高一致性和准确性，无论是检查出桥梁难以触及部位的腐蚀，还是发现组装电子产品中的故障连接器。

计算机视觉应用

作为一个成熟的 AI 领域，计算机视觉经历了多次进步，催生出一系列广泛的用例。以下是计算机视觉的一些实际应用：

农业物联网

摄像头、无人机和卫星拍摄农作物及农田的高分辨率图像。然后，计算机视觉技术分析这些图像，以帮助评估植物健康状况，并定位害虫和杂草，从而实现更有针对性的除草剂使用。

自动驾驶汽车

在汽车行业，无人驾驶汽车通过结合相机、激光雷达、雷达和传感器来构建其环境的三维模型。然后，他们应用对象检测、图像分割和场景理解来进行安全导航，避开行人和其他车辆等障碍物，并精确检测车道、交通信号灯和交通标志等道路特征。

医疗保健

医学成像是计算机视觉的一个关键应用领域。例如，对象检测功能可自动执行图像分析，定位和识别 X 光、CT、MRI 和超声波扫描中的潜在疾病标志。此外，实例分割可以划分器官、组织和肿瘤的具体边界，有助于更准确的诊断，从而为治疗方案和患者护理的决策提供更可靠的信息。

制造业物联网

计算机视觉系统有助于库存管理，通过扫描物品来确定库存数量。它们还可以助力质量控制，实时识别缺陷。与依靠人工视觉的检查员相比，这些系统分析产品图像，能够更快速、更准确地识别缺陷或不一致之处。

零售和电子商务

例如，亚马逊的 Just Walk Out 技术在小型零售和餐饮门店中使用计算机视觉来追踪顾客选购的商品，并实现自动结账体验。顾客可以拿着他们的商品离开，而无需在支付柜台排队。⁶

在线商店还可以将增强现实与面部识别和姿态估计相结合，用于虚拟试穿体验，让顾客在购买前预览服装、眼镜或化妆品在自己身上的效果。

机器人

与自动驾驶汽车一样，机器人使用摄像头、激光雷达和传感器来绘制周围环境的地图。然后，它们应用计算机视觉算法来完成任务，例如协助外科医生进行复杂手术、在仓库中导航以运输货物、挑选仅成熟的农产品，以及在装配线上放置物品。

太空探索

对象检测技术能协助航天器在着陆过程中定位并规避危险物，而探测车也可借助同种能力在复杂地形中自主导航。⁷图像分类技术可用于对小行星、流星乃至太空碎片进行归类，对象追踪技术则能持续监测这些天体的运行轨迹。

计算机视觉工具

许多工具可用于构建计算机视觉应用程序，并有助于简化开发过程。一些常用的工具包括：

Keras
OpenCV
Scikit-image
TensorFlow
Torchvision

Keras

Keras 是一种深度学习应用程序接口 (API)，可在 PyTorch 和 TensorFlow 等其他人工智能框架之上运行。它为各种计算机视觉任务提供了数十个教程和示例，包括图像和视频分类、图像分割、对象检测和 OCR。

OpenCV

OpenCV 是使用最广泛的计算机视觉库之一。这个开源库拥有 2,500 多种计算机视觉算法，包含图像处理、对象检测、视频分析等模块。该程序采用 C++ 编写，同时为 Java 和 Python 等编程语言提供了封装接口。

Scikit-image

Scikit-image 是一个基于 Python 的开源图像处理算法库。它支持预处理、特征提取、对象检测与图像分割等多种任务。它的简单易用性使它成为初学者的理想选择。

TensorFlow

TensorFlow 是 Google 开发的开源机器学习平台。尽管 TensorFlow 服务于更通用的深度学习应用，但它也提供了计算机视觉专用数据集、预处理工具，以及用于图像与视频分类、图像分割和对象检测的函数。

Torchvision

torchvision 库是 PyTorch 生态系统的一部分。包含常用的图像变换、数据集及其他实用功能。该软件包还提供了图像和视频分类、对象检测以及语义和实例分割的模型。

计算机视觉简史

计算机视觉是 AI 最早的学科之一。几十年来，计算机科学研究人员一直在开发让机器理解视觉数据的方法。

实验始于 20 世纪 50 年代至 60 年代，当时神经生理学家向猫展示一系列图像，同时记录神经活动。他们发现，动物首先对线条做出反应，从而得出结论，图像处理是从简单的形状开始的，比如边。⁸

大约在同一时期，首台计算机图像扫描技术问世，使计算机具备了数字化采集图像的能力。⁹当计算机实现了将二维图像转化为三维形态的能力时，又一个里程碑就此达成。¹⁰

1982年，神经科学家 David Marr 提出视觉系统以层级结构运作，并开创了使机器能够检测角点、曲线、边及类似基础形状的算法。¹¹同一时期，计算机科学家 Kunihiko Fukushima 开发出能识别模式的结构单元网络，将其命名为“认知机”，该网络在神经网络中包含了卷积层结构。¹²

到 2000 年，研究的重点已经转向图像分类和对象识别。¹³ 2009 年，ImageNet 数据集被引入，包含数百万张用于训练计算机视觉的标记图像。¹⁴ 2012 年，多伦多大学的一个团队创建了 AlexNet CNN，它在 ImageNet 数据集上进行训练，显著降低了图像识别的错误率，为当今的计算机视觉模型铺平了道路。¹⁵

解锁生成式 AI + 机器学习的强大功能

了解如何自信地将生成式 AI 和机器学习融入您的业务中。

资源

提升您的机器学习专业知识

学习基本概念并通过亲手实验、课程、指导项目、试用等方式培养您的机器学习技能。

解锁生成式 AI + 机器学习的强大功能

了解如何自信地将生成式 AI 和机器学习融入您的业务中。

机器学习解析

IBM 的 Techsplainers 系列从核心概念到实际用例，为您解析机器学习的关键要点。清晰简短的节目助您快速掌握基础。

让 AI 充分发挥作用：利用生成式 AI 提高投资回报率

想要从 AI 投资中获得更好的回报吗？了解如何通过帮助您最优秀的人才构建和提供创新的新解决方案，在关键领域扩展生成式人工智能来推动变革。

如何选择合适的 AI 基础模型

了解如何为您的用例选择最合适的 AI 基础模型。

深入了解 IBM Granite

IBM Granite 是我们开放式、性能优异、值得信赖的 AI 模型系列，专门为企业量身定制，并经过优化，可扩展您的 AI 应用。深入了解语言、代码、时间序列和护栏选项。

树立信任，从容自信在 AI 新时代蓬勃发展

深入了解强大 AI 战略的 3 个关键要素：创造竞争优势、在整个企业中扩展 AI 以及推进值得信赖的 AI。

脚注

1.The three R’s of computer vision: Recognition, reconstruction and reorganization, Pattern Recognition Letters, 8 February 2016
2. Efficient pneumonia detection using Vision Transformers on chest X-rays, Scientific Reports, 30 January 2024
3. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, arXiv, 3 June 2021
4. NGBoost Classifier Using Deep Features for Pneumonia Chest X-Ray Classification, Applied Sciences, 8 September 2025
5. Computer Vision Lends Precision to Robotic Grappling, NASA Technology Transfer Program, Accessed 11 September 2025
6. Amazon Just Walk Out, AWS, Accessed 11 September 2025
7. The Computer Vision Laboratory, NASA JPL Robotics, Accessed 11 September 2025
8. From Cats to the Cortex: Unravelling the Hierarchical Processing System of Vision and Brain Plasticity, Cureus, 2 September 2024
9. Your Engineering Heritage: Scanners and Computer Image Processing, IEEE-USA InSight, 8 February 2016
10. A Simple World: The Blocks World, Foundations of Computer Vision, 2024
11. Marr’s Computational Theory of Vision, Foundations of Computer Vision, 2024
12. Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position, Biological Cybernetics, 1980
13. Computer Vision, Foundations of Computer Vision, 2024
14. ImageNet: A large-scale hierarchical image database, IEEE Conference on Computer Vision and Pattern Recognition, 2009
15. CHM Releases AlexNet Source Code, Computer History Museum, 20 March 2025

什么是计算机视觉？

什么是计算机视觉？

专家为您带来最新的 AI 趋势

谢谢！您已订阅。

计算机视觉是如何工作的

数据收集

预处理

模型选择

模型训练

解码 AI：每周新闻摘要

计算机视觉任务

图像识别

图像分类

对象检测

图像分割

对象跟踪

场景理解

面部识别

姿态估计

光学字符识别

图像生成

视觉检查

计算机视觉应用

农业物联网

自动驾驶汽车

医疗保健

制造业物联网

零售和电子商务

机器人

太空探索

计算机视觉工具

Keras

OpenCV

Scikit-image

TensorFlow

Torchvision

计算机视觉简史

资源

脚注