编辑时间	历史版本	内容长度	图片数	目录数	修改原因
2022-10-22 11:29	历史版本2	19559	3	15	修正错误

计算机视觉

计算机视觉(Computer Vision)是指研究使机器具有“看”的能力的一门技术。狭义地讲，计算机视觉就是通过分析摄像机获取的图像来达到对物体形成表达的科学和技术。与图像理解，视频分析、模式识别有密切的联系，但都有所区别。

计算机视觉

发展历程

计算机视觉经历了以下四个主要发展历程：

1、马尔视觉计算理论1982年马尔视觉计算理论(参见视觉计算理论)的提出，标志着计算机视觉成为了一门独立的学科。马尔视觉计算理论包含两个主要观点：首先，马尔认为人类视觉的主要功能是复原三维场景的可见几何表面，即三维重建问题。其次，马尔认为这种从二维图像到三维几何结构的复原过程是可以通过计算完成的，并提出了从图像初始略图(sketch)→物体2.5维描述→物体3维描述一套完整的计算理论和方法。

2、主动视觉，目的视觉针对马尔理论在具体应用中遇到的困难。以Y.Aloimonos,R.Bajcsy等为代表的学者在20世纪80年代末90年代初提出了“目的视觉”、“主动视觉”、“定性视觉”等理论，这些理论的共同特点是认为，马尔理论从下到上的三维重建过程由于缺乏目的性，缺乏高层知识反馈，从而导致三维重建框架不可行。重建算法不鲁棒，他们强调视觉算法高层知识反馈的必要性和重要性，以及视觉主体与环境交互的重要性，这些理论尽管从原理上来说更加符合人类视觉过程。但由于“利用什么样的高层知识”，“如何利用高层知识”，“视觉主体如何与环境进行有效交互”等这些核心问题目前人们还知之甚少。在近期内估计还很难建立有效的计算模型，所以这些理论自从1994年在CV-GIP:Image Understanding上组织关于主动视觉的大辩论后，至今仍没有显著性进展。

3、分层重建理论(stratified reconstruction)以O.Faugeras和R.Hartley等提出的分层重建理论是20世纪90年代计算机视觉领域最活跃的研究内容。分层重建的基本思想是指从图像到三维欧几里得空间的重建过程中，先从图像空间得到射影空间下的重建(11个未知数)，然后将射影空间下重建的结果提升到仿射空间(3未知数)，最后将仿射空间下重建的结果提升到欧几里得空间(5个未知数)，这种分层重建方法由于每一步重建过程中涉及的未知变量少。几何意义明确，所以算法的鲁棒性得到了有效提高。

4、基于学习的视觉物体识别是计算机视觉的重要研究内容，随着基于图像的物体表达(View Based Representation)的提出和机器学习的进展，基于学习的视觉是近年来计算机视觉的研究热点。所谓基于学习的视觉，就是指利用机器学习的手段来对图像物体进行识别的方法。包括对物体的识别和分类(object identification and categorization)。

视觉原理

计算机视觉就是用各种成象系统代替视觉器官作为输入敏感手段，由计算机来代替大脑完成处理和解释。计算机视觉的最终研究目标就是使计算机能象人那样通过视觉观察和理解世界，具有自主适应环境的能力。要经过长期的努力才能达到的目标。因此，在实现最终目标以前，人们努力的中期目标是建立一种视觉系统，这个系统能依据视觉敏感和反馈的某种程度的智能完成一定的任务。例如，计算机视觉的一个重要应用领域就是自主车辆的视觉导航，还没有条件实现象人那样能识别和理解任何环境，完成自主导航的系统。因此，人们努力的研究目标是实现在高速公路上具有道路跟踪能力，可避免与前方车辆碰撞的视觉辅助驾驶系统。这里要指出的一点是在计算机视觉系统中计算机起代替人脑的作用，但并不意味着计算机必须按人类视觉的方法完成视觉信息的处理。计算机视觉可以而且应该根据计算机系统的特点来进行视觉信息的处理。但是，人类视觉系统是迄今为止，人们所知道的功能最强大和完善的视觉系统。如在以下的章节中会看到的那样，对人类视觉处理机制的研究将给计算机视觉的研究提供启发和指导。因此，用计算机信息处理的方法研究人类视觉的机理，建立人类视觉的计算理论，也是一个非常重要和信人感兴趣的研究领域。这方面的研究被称为计算视觉（Computational Vision）。计算机视觉可被认为是计算机视觉中的一个研究领域。

发展现状

计算机视觉领域的突出特点是其多样性与不完善性。这一领域的先驱可追溯到更早的时候，但是直到20世纪70年代后期，当计算机的性能提高到足以处理诸如图像这样的大规模数据时，计算机视觉才得到了正式的关注和发展。然而这些发展往往起源于其他不同领域的需要，因而何谓“计算机视觉问题”始终没有得到正式定义，很自然地，“计算机视觉问题”应当被如何解决也没有成型的公式。

尽管如此，人们已开始掌握部分解决具体计算机视觉任务的方法，可惜这些方法通常都仅适用于一群狭隘的目标（如：脸孔、指纹、文字等），因而无法被广泛地应用于不同场合。

对这些方法的应用通常作为某些解决复杂问题的大规模系统的一个组成部分（例如医学图像的处理，工业制造中的质量控制与测量）。在计算机视觉的大多数实际应用当中，计算机被预设为解决特定的任务，然而基于机器学习的方法正日渐普及，一旦机器学习的研究进一步发展，未来“泛用型”的电脑视觉应用或许可以成真。

人工智能所研究的一个主要问题是：如何让系统具备“计划”和“决策能力”？从而使之完成特定的技术动作（例如：移动一个机器人通过某种特定环境）。这一问题便与计算机视觉问题息息相关。在这里，计算机视觉系统作为一个感知器，为决策提供信息。另外一些研究方向包括模式识别和机器学习（这也隶属于人工智能领域，但与计算机视觉有着重要联系），也由此，计算机视觉时常被看作人工智能与计算机科学的一个分支。

物理是与计算机视觉有着重要联系的另一领域。

计算机视觉关注的目标在于充分理解电磁波——主要是可见光与红外线部分——遇到物体表面被反射所形成的图像，而这一过程便是基于光学物理和固态物理，一些尖端的图像感知系统甚至会应用到量子力学理论，来解析影像所表示的真实世界。同时，物理学中的很多测量难题也可以通过计算机视觉得到解决，例如流体运动。也由此，计算机视觉同样可以被看作是物理学的拓展。

另一个具有重要意义的领域是神经生物学，尤其是其中生物视觉系统的部分。

在整个20世纪中，人类对各种动物的眼睛、神经元、以及与视觉刺激相关的脑部组织都进行了广泛研究，这些研究得出了一些有关“天然的”视觉系统如何运作的描述（尽管仍略嫌粗略），这也形成了计算机视觉中的一个子领域——人们试图建立人工系统，使之在不同的复杂程度上模拟生物的视觉运作。同时计算机视觉领域中，一些基于机器学习的方法也有参考部分生物机制。

计算机视觉的另一个相关领域是信号处理。很多有关单元变量信号的处理方法，尤其是对时变信号的处理，都可以很自然的被扩展为计算机视觉中对二元变量信号或者多元变量信号的处理方法。但由于图像数据的特有属性，很多计算机视觉中发展起来的方法，在单元信号的处理方法中却找不到对应版本。这类方法的一个主要特征，便是他们的非线性以及图像信息的多维性，以上二点作为计算机视觉的一部分，在信号处理学中形成了一个特殊的研究方向。

除了上面提到的领域，很多研究课题同样可被当作纯粹的数学问题。例如，计算机视觉中的很多问题，其理论基础便是统计学，最优化理论以及几何学。

如何使既有方法通过各种软硬件实现，或说如何对这些方法加以修改，而使之获得合理的执行速度而又不损失足够精度，是现今电脑视觉领域的主要课题。

应用范围

人类正在进入信息时代，计算机将越来越广泛地进入几乎所有领域。一方面是更多未经计算机专业训练的人也需要应用计算机，而另一方面是计算机的功能越来越强，使用方法越来越复杂。这就使人在进行交谈和通讯时的灵活性与在使用计算机时所要求的严格和死板之间产生了尖锐的矛盾。人可通过视觉和听觉，语言与外界交换信息，并且可用不同的方式表示相同的含义，而计算机却要求严格按照各种程序语言来编写程序，只有这样计算机才能运行。为使更多的人能使用复杂的计算机，必须改变过去的那种让人来适应计算机，来死记硬背计算机的使用规则的情况。而是反过来让计算机来适应人的习惯和要求，以人所习惯的方式与人进行信息交换，也就是让计算机具有视觉、听觉和说话等能力。这时计算机必须具有逻辑推理和决策的能力。具有上述能力的计算机就是智能计算机。

智能计算机不但使计算机更便于为人们所使用，同时如果用这样的计算机来控制各种自动化装置特别是智能机器人，就可以使这些自动化系统和智能机器人具有适应环境，和自主作出决策的能力。这就可以在各种场合取代人的繁重工作，或代替人到各种危险和恶劣环境中完成任务。

应用范围从任务，比如工业机器视觉系统，比方说，检查瓶子上的生产线加速通过，研究为人工智能和计算机或机器人，可以理解他们周围的世界。计算机视觉和机器视觉领域有显著的重叠。计算机视觉涉及的被用于许多领域自动化图像分析的核心技术。机器视觉通常指的是结合自动图像分析与其他方法和技术，以提供自动检测和机器人指导在工业应用中的一个过程。在许多计算机视觉应用中，计算机被预编程，以解决特定的任务，但基于学习的方法现在正变得越来越普遍。计算机视觉应用的实例包括用于系统：

（1）控制过程，比如，一个工业机器人；

（2）导航，例如，通过自主汽车或移动机器人；

（3）检测的事件，如，对视频监控和人数统计；

（4）组织信息，例如，对于图像和图像序列的索引数据库；

（5）造型对象或环境，如，医学图像分析系统或地形模型；

（6）相互作用，例如，当输入到一个装置，用于计算机人的交互；

（7）自动检测，例如，在制造业的应用程序。

其中最突出的应用领域是医疗计算机视觉和医学图像处理。这个区域的特征的信息从图像数据中提取用于使患者的医疗诊断的目的。通常，图像数据是在形式显微镜图像，X射线图像，血管造影图像，超声图像和断层图像。的信息，可以从这样的图像数据中提取的一个例子是检测的肿瘤，动脉粥样硬化或其他恶性变化。它也可以是器官的尺寸，血流量等。这种应用领域还支持通过提供新的信息，医学研究的测量例如，对脑的结构，或约医学治疗的质量。计算机视觉在医疗领域的应用还包括增强是由人类的解释，例如超声图像或X射线图像，以降低噪声的影响的图像。

计算机视觉呈现

第二个应用程序区域中的计算机视觉是在工业，有时也被称为机器视觉，在那里信息被提取为支撑的制造工序的目的。一个例子是质量控制，其中的信息或最终产品被以找到缺陷自动检测。另一个例子是，被拾取的位置和细节取向测量由机器人臂。机器视觉也被大量用于农业的过程，从散装材料，这个过程被称为去除不想要的东西，食物的光学分拣。

军事上的应用很可能是计算机视觉最大的地区之一。最明显的例子是探测敌方士兵或车辆和导弹制导。更先进的系统为导弹制导发送导弹的区域，而不是一个特定的目标，并且当导弹到达基于本地获取的图像数据的区域的目标做出选择。现代军事概念，如“战场感知”，意味着各种传感器，包括图像传感器，提供了丰富的有关作战的场景，可用于支持战略决策的信息。在这种情况下，数据的自动处理，用于减少复杂性和融合来自多个传感器的信息，以提高可靠性。

一个较新的应用领域是自主车，其中包括潜水，陆上车辆（带轮子，轿车或卡车的小机器人），高空作业车和无人机（UAV）。自主化水平，从完全独立的（无人）的车辆范围为汽车，其中基于计算机视觉的系统支持驱动程序或在不同情况下的试验。完全自主的汽车通常使用计算机视觉进行导航时，即知道它在哪里，或用于生产的环境（地图SLAM）和用于检测障碍物。它也可以被用于检测特定任务的特定事件，例如，一个UAV寻找森林火灾。支承系统的例子是障碍物警报系统中的汽车，以及用于飞行器的自主着陆系统。数家汽车制造商已经证明了系统的汽车自动驾驶，但该技术还没有达到一定的水平，就可以投放市场。有军事自主车型，从先进的导弹，无人机的侦察任务或导弹的制导充足的例子。太空探索已经正在使用计算机视觉，自主车比如，美国宇航局的火星探测漫游者和欧洲航天局的ExoMars火星漫游者。

其他应用领域包括：

（1）支持视觉特效制作的电影和广播，例如，摄像头跟踪（运动匹配）。

（2）监视。

结构系统

计算机视觉系统的结构形式很大程度上依赖于其具体应用方向。有些是独立工作的，用于解决具体的测量或检测问题；也有些作为某个大型复杂系统的组成部分出现，比如和机械控制系统，数据库系统，人机接口设备协同工作。计算机视觉系统的具体实现方法同时也由其功能决定——是预先固定的抑或是在运行过程中自动学习调整。尽管如此，有些功能却几乎是每个计算机系统都需要具备的。

图像获取

一幅数字图像是由一个或多个图像感知器产生，这里的感知器可以是各种光敏摄像机，包括遥感设备，X射线断层摄影仪，雷达，超声波接收器等。取决于不同的感知器，产生的图片可以是普通的二维图像，三维图组或者一个图像序列。图片的像素值往往对应于光在一个或多个光谱段上的强度（灰度图或彩色图），但也可以是相关的各种物理数据，如声波，电磁波或核磁共振的深度，吸收度或反射度。

预处理

在对图像实施具体的计算机视觉方法来提取某种特定的信息前，一种或一些预处理往往被采用来使图像满足后继方法的要求。例如：

二次取样保证图像坐标的正确；

平滑去噪来滤除感知器引入的设备噪声；

提高对比度来保证实现相关信息可以被检测到；

调整尺度空间使图像结构适合局部应用。

特征提取

从图像中提取各种复杂度的特征。例如：

线，边缘提取；

局部化的特征点检测如边角检测，斑点检测；

更复杂的特征可能与图像中的纹理形状或运动有关。

检测分割

在图像处理过程中，有时会需要对图像进行分割来提取有价值的用于后继处理的部分，例如

筛选特征点；

分割一或多幅图片中含有特定目标的部分。

高级处理

到了这一步，数据往往具有很小的数量，例如图像中经先前处理被认为含有目标物体的部分。这时的处理包括：

验证得到的数据是否符合前提要求；

估测特定系数，比如目标的姿态，体积；

对目标进行分类。

高级处理有理解图像内容的含义，是计算机视觉中的高阶处理，主要是在图像分割的基础上再经行对分割出的图像块进行理解，例如进行识别等操作。

常见问题

几乎在每个计算机视觉技术的具体应用都要解决一系列相同的问题，这些经典的问题包括以下几点。

识别

一个计算机视觉，图像处理和机器视觉所共有的经典问题便是判定一组图像数据中是否包含某个特定的物体，图像特征或运动状态。这一问题通常可以通过机器自动解决，但是到目前为止，还没有某个单一的方法能够广泛的对各种情况进行判定：在任意环境中识别任意物体。现有技术能够也只能够很好地解决特定目标的识别，比如简单几何图形识别，人脸识别，印刷或手写文件识别或者车辆识别。而且这些识别需要在特定的环境中，具有指定的光照，背景和目标姿态要求。

广义的识别在不同的场合又演化成了几个略有差异的概念：

识别（狭义的）：对一个或多个经过预先定义或学习的物体或物类进行辨识，通常在辨识过程中还要提供他们的二维位置或三维姿态。

鉴别：识别辨认单一物体本身。例如：某一人脸的识别，某一指纹的识别。

监测：从图像中发现特定的情况内容。例如：医学中对细胞或组织不正常技能的发现，交通监视仪器对过往车辆的发现。监测往往是通过简单的图象处理发现图像中的特殊区域，为后继更复杂的操作提供起点。

识别的几个具体应用方向：

基于内容的图像提取：在巨大的图像集合中寻找包含指定内容的所有图片。被指定的内容可以是多种形式，比如一个红色的大致是圆形的图案，或者一辆自行车。在这里对后一种内容的寻找显然要比前一种更复杂，因为前一种描述的是一个低级直观的视觉特征，而后者则涉及一个抽象概念（也可以说是高级的视觉特征），即‘自行车’，显然的一点就是自行车的外观并不是固定的。

姿态评估：对某一物体相对于摄像机的位置或者方向的评估。例如：对机器臂姿态和位置的评估。

光学字符识别对图像中的印刷或手写文字进行识别鉴别，通常的输出是将之转化成易于编辑的文档形式。

运动

基于序列图像的对物体运动的监测包含多种类型，诸如：

自体运动：监测摄像机的三维刚性运动。

图像跟踪：跟踪运动的物体。

场景重建

给定一个场景的二或多幅图像或者一段录像，场景重建寻求为该场景建立一个计算机模型/三维模型。最简单的情况便是生成一组三维空间中的点。更复杂的情况下会建立起完整的三维表面模型。

图像恢复

图像恢复的目标在于移除图像中的噪声，例如仪器噪声，模糊等。