基于单目摄像机的三维重建技术研究文献综述

 2022-11-22 05:11

1.课题研究背景与意义

1.1.1计算机视觉

人类通过视觉识别文字、图片和周围的环境;利用听觉识别与理解语言。视觉是人类智能的重要组成部分。据统计,人类约有80%的信息是通过视觉途径获取的[1]。随着科学技术的快速发展,计算机视觉(Computer Vision,CV)的应用越来越受到广泛的重视。计算机视觉的目标是要使机器人或计算机通过对二维图像的处理达到对三维景物和环境的认知,从而具有和人类相当的视觉处理能力,最终像人一样通过视觉观察和理解世界,具有自主适应环境的能力[2]。计算机视觉是对静止图像或者视频中的数据进行一定的处理,转化成另一种表达方式,以达到某种特定的需求。输入的数据可以包含一些已知信息,例如“摄像机是固定架设的”或者“系统是在对人脸进行重建识别”,输出结果就可能出现为“迎面驶来的是一辆汽车”或者“这张图片中的人脸是张三”。[3]~[4]

因为人类具有十分发达的视觉系统,所以并不觉得在一幅图像中识别出一辆汽车或者某个人是十分困难的事情,人只要凭直觉就可以轻松的完成。人类的视觉系统会根据任务识别出信息的重要部分,并进行分析,而其他次要信息就会被自动忽略,快速的完成任务。大脑同时可以应用从出生以来所得到的信息,这也是计算机所远远不及的。在计算机视觉系统中,计算机所接收到的只是来自图片或者视频的一个数据矩阵,没有人类多年积累的信息,没有模式识别系统。例如在一幅图像之中,我们看到图像中有一个人,可是计算机接受到的只是一个数值矩阵,而且该矩阵中还有大量的干扰信息和噪声成分,因此它得到的信息是极其少的。然而计算机视觉的任务就是要从这极其少的信息中重建并识别出这个人,可以想象这是多么困难的事情[3]

作为一门学科,计算机视觉开始于上个世纪六十年代,但是在八十年代进入高速发展阶段,到目前为止才形成了比较完善的视觉系统理论。从整个计算机视觉发展的时期来看,可以划分成两个主要时期。第一个时期是八十年代 Marr 教授提出的视觉系统框架[5],它是从信息处理的角度出发,综合了图像处理,信号处理,应用数学,统计学,神经生理学和认知科学等各个方面的内容而形成的。视觉信息从最初的二维原始信息到最终的对三维物体或环境的表达经历了三个阶段的处理[6],即“基元图”,不完全三维重建以及完整的三维重建。

计算机视觉发展的第二个时期就是多视图几何,它把复杂的数学(例如射影几何,欧式几何,仿射几何等)引入到计算机视觉中来,多视图几何还采用了自标定方法,将摄像机标定的限制降至最低,摄像机的拍摄过程越来越趋于简单、灵活,数据采集设备也趋于低成本化。在最近十多年时间里,多视图几何得到了迅猛发展,正在成为计算机视觉发展的主流方向[7]

1.1.2三维重建技术

物体或者环境的三维重建多年以来一直是计算机视觉的研究重点和热点之一。三维重建的目标是将二维的投影图像转化为三维的立体结构'。目前用摄像机等一些仪器记录下来的现实场景或者物体一般都是二维的,而我们日常所处的环境是三维的,仅仅保留二维信息已经不能满足我们日常生活和生产的巨大需求,物体的三维模型可视化变得越来越重要。高度仿真的三维重建技术正逐渐使用于各种可视化和模拟场景中。举例来说,在日益发达的交通系统中,随着汽车数量的增多和速度的提升,交通事故的发生次数也越来越频繁,如果要在车水马龙的公路上现场处理事故、长时间完好的保留事故现场,明显不符合实际也没有必要。但是如果只是保留现场的二维图片又会丢弃大量有用的信息,影响事故的处理速度。这时就可以应用三维重建技术,根据现场保留下来的多角度二维图像,逼真的再现事故现场的三维场景,为交通事故的处理提供有力的佐证,大大提高交警部门的办事效率。三维重建技术还可以广泛应用于飞机的模拟驾驶,游戏和场景中的虚拟物体演示,建筑物的虚拟建模,工厂的零件检测,虚拟超市中商品的展示等虚拟现实场景。相信在不远的将来,随着科学技术的发展和日益增长的需求,三维重建技术必将得到进一步的关注和完善[8]

基于图像的三维重建可以归结为:从图像特征点提取与匹配得到图像匹配点对集,通过计算本质矩阵及其奇异值分解得到摄像机外参数,再从摄像机标定得到摄像机内参数,通过求得的外参数和内参数就可以得到摄像机投影矩阵。根据透视投影的关系和最小二乘法,我们便可以由摄像机投影矩阵和匹配点对集将物体在空间坐标系的三维坐标恢复出来,进而重建出物体的三维模型。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。