计算机双目立体视觉
㈠ 跪求计算机立体视觉方面的英文文档及翻译啊
1楼 汉文的《立体视觉》行吗。
人感受三维场景的方式有很多种,用眼看、手摸、脚步丈量等。绝大部分的三维信息是由眼睛获取,再经大脑处理后,得到立体感觉,简称立体视觉。
人有两只眼睛,都能独自获取外界的三维信息。景物在单个眼中形成倒立的缩小实像,大脑用经验处理后,得到正立的景象。将倒立景象转为正立景象是人用幼小的手触摸近物和用蹒跚的脚步丈量大地的感受,再由亲身的感受纠正眼睛的错觉。两眼既有各自的视线范围,也有共同的视线范围,对于共同的视线范围,大脑取主眼睛的图像。人的两眼睛有主、次之分。
目标在眼中的成像视角越大,分辨率就相应提高,立体感受也越强。在近处,大脑取两眼的注视角度来判断距离,再根据景物的颜色来区分目标的形状。对远处的目标,大脑根据成像比例、参照物、注视角度等因素来估算距离。远处目标距离是立体的,形状可是平面的。目标越近立体感越强,中距目标的形状感觉是浮雕,远距目标的形状是准平面的。人对目标物的立体感有强弱之分,目标成像视角越小立体感越差。
目前有很多人认为只有双目才能产生立体视觉,单眼也有立体视觉感。双目立体视觉误导了不少人。立体视觉与人眼睛的数量没关系。
㈡ 立体视觉的二、计算机
一般而言,立体视觉的研究有如下三类方法:
(1) 直接利用测距器(如激光测距仪)获得程距(range data)信息,建立三维描述的方法;
(2) 仅利用一幅图象所提供的信息推断三维形状的方法;
(3) 利用不同视点上的,也许是不同时间拍摄的,两幅或更多幅图象提供的信息重构三维结构的方法。
第一类方法,也就是程距法 (range data method),根据已知的深度图,用数值逼近的方法重建表面信息,根据模型建立场景中的物体描述,实现图象理解功能。这是一种主动方式的立体视觉方法,其深度图是由测距器(range finders)获得的,如结构光(structured light)、激光测距器(laser range finders) 等其他主动传感技术 (active sensing techniques)。这类方法适用于严格控制下的环境(tightlycontrolled domains),如工业自动化的应用方面。
第二类方法,依据光学成象的透视原理及统计假设,根据场景中灰度变化导出物体轮廓及表面,由影到形(shape from shading),从而推断场景中的物体。线条图的理解就是这样的一个典型问题,曾经引起了普遍的重视而成为计算机视觉研究领域的一个焦点,由此产生了各种各样的线条标注法。这种方法的结果是定性的,不能确定位置等定量信息,该方法由于受到单一图象所能提供信息的局限性,存在难以克服的困难。
第三类方法,利用多幅图象来恢复三维信息的方法,它是被动方式的。根据图象获取方式的区别又可以划分成普通立体视觉和通常所称的光流(optical flow)两大类。普通立体视觉研究的是由两摄像机同时拍摄下的两幅图象,而光流法中研究的是单个摄像机沿任一轨道运动时顺序拍下的两幅或更多幅图象。前者可以看作后者的一个特例,它们具有相同的几何构形,研究方法具有共同点。双目立体视觉是它的一个特例。 立体视觉的研究由如下几部分组成:
(1) 图象获取 (image acquisition),
用作立体视觉研究的图象的获取方法是多种多样的,在时间、视点、方向上有很大的变动范围,直接受所应用领域的影响。立体视觉的研究主要集中在三个应用领域中,即自动测绘中的航空图片的解释,自主车的导引及避障,人类立体视觉的功能模拟。不同的应用领域涉及不同类的景物,就场景特征的区别来分,可以划分成两大类,一类是含有文明特征(cultural features)的景物,如建筑、道路等; 另一类是含有自然特征的景物和表面(natural objects and surfaces), 如山、水、平原及树木等。不同类的景物的图象处理方法大不相同,各有其特殊性。
总之,与图象获取相关的主要因素可归纳如下:
(a) 场景领域 (scene domain),
(b) 计时 (timing),
(c) 时间(照明和阴影)(time of day (lighting and presence ofshadows)),
(d) 成像形态(包括特殊的遮盖)(photometry (including special coverage)),
(e) 分辨率 (resolution),
(f) 视野 (FIELD OF VIEW),
(g) 摄像机的相对位置 (relative camera positioning).
场景的复杂程度受如下因素的影响:
(a) 遮掩 (occlusion),
(b) 人工物体(直的边界,平的表面) (man-made objects (straight edge, flat surfaces)),
(c) 均匀的纹理区域 (smoothlytextured areas),
(d) 含有重复结构的区域 (areas containing repetitive structure)。
(2) 摄像机模型 (camera modeling),
摄像机模型就是对立体摄像机组的重要的几何与物理特征的表示形式,它作为一个计算模型,根据对应点的视差信息,用于计算对应点所代表的空间点的位置。摄像机模型除了提供图象上对应点空间与实际场景空间之间的映射关系外,还可以用于约束寻找对应点时的搜索空间,从而降低匹配算法的复杂性,减小误匹配率。
(3) 特征抽取 (feature acquisition),
几乎是同一灰度的没有特征的区域是难以找到可靠匹配的,因而,绝大部分计算机视觉中的工作都包括某种形式的特征抽取过程,而且特征抽取的具体形式与匹配策略紧密相关。在立体视觉的研究中,特征抽取过程就是提取匹配基元的过程。
(4) 图象匹配 (image matching),
图象匹配是立体视觉系统的核心,是建立图象间的对应从而计算视差的过程,是极为重要的。
(5) 深度计算 (distance(depth) determination),
立体视觉的关键在于图象匹配,一旦精确的对应点建立起来,距离的计算相对而言只是一个简单的三角计算而已。然而,深度计算过程也遇到了显著的困难,尤其是当对应点具有某种程度的非精确性或不可靠性时。粗略地说,距离计算的误差与匹配的偏差成正比,而与摄像机组的基线长成反比。加大基线长可以减少误差,但是这又增大了视差范围和待匹配特征间的差别,从而使匹配问题复杂化了。为了解决这一问题出现了各种匹配策略,如由粗到精策略,松驰法等。
在很多情况下,匹配精度通常是一个象素。但是,实际上区域相关法和特征匹配法都可以获得更好的精度。区域相关法要达到半个象素的精度需要对相关面进行内插。尽管有些特征抽取方法可以得到比一个象素精度更好的特征,但这直接依赖于所使用的算子类型,不存在普遍可用的方法。
另一种提高精度的方法是采用一个象素精度的算法,但是利用多幅图象的匹配,通过多组匹配的统计平均结果获得较高精度的估计。每组匹配结果对于最后深度估计的贡献可以根据该匹配结果的可靠性或精度加权处理。
总之,提高深度计算精度的途径有三条,各自涉及了一些附加的计算量:
(a) 半象素精度估计 (subpixel estimation),
(b) 加长基线长 (increased stereo baseline),
(c) 几幅图的统计平均 (statistical averaging over several views)。
(6) 内插 (interpolation).
在立体视觉的应用领域中,一般都需要一个稠密的深度图。基于特征匹配的算法得到的仅是一个稀疏而且分布并不均匀的深度图。在这种意义下,基于区域相关匹配的算法更适合于获得稠密的深度图,但是该方法在那些几乎没有信息(灰度均匀)的区域上的匹配往往不可靠。因此,两类方法都离不开某种意义的内插过程。最为直接的将稀疏深度图内插成稠密的深度图的方法是将稀疏深度图看作为连续深度图的一个采样,用一般的内插方法(如样条逼近)来近似该连续深度图。当稀疏深度图足以反映深度的重要变化时,该方法可能是合适的。如起伏地貌的航空立体照片的处理中用这种方式的内插也许是比较合适的。但是这种方法在许多应用领域中,尤其是在有遮掩边界的图象的领域中,就不适用了。
Grimson 指出可匹配特征的遗漏程度反映了待内插表面变化程度的相应限度,在这种基础上,他提出了一个内插过程[2]。换一角度来看,根据单幅图象的“由影到形”的技术,用已经匹配上的特征来建立轮廓条件和光滑的交接表面可以确保内插的有效性。这些方法结合起来,可以使内插过程达到合乎要求的目标。内插的另一种途径是在已有的几何模型与稀疏深度图之间建立映射关系,这是模型匹配过程。一般而言,要进行模型匹配,预先应将稀疏深度图进行聚类,形成若干子集,各自相应于一种特殊结构。然后找每一类的最佳对应模型,该模型为这种特殊结构(物体)提供参数和内插函数。如 Gennery用这种方法来发现立体对图片中的椭园结构,Moravec 用于为自主车探测地面。
㈢ 学习计算机视觉需要哪些知识储备
学习计算机视觉需要具备的知识储备有:
1、图像处理的知识。图像处理大致包括的内容:光学成像基础、颜色、滤波器、局部图像特征、图像纹理、图像配等。
2、立体视觉的知识。立体视觉大致包括的内容:相机几何模型、双目视觉、从运动中恢复物体结构、三维重建技术等。
3、人工智能的知识。人工智能大致包括的内容:场景理解与分析、模式识别、图像搜索、数据挖掘、深度学习等。
4、与计算机视觉相关的学科还有:机器视觉、数字图像处理、医学成像、摄影测量、传感器等。
㈣ 在计算机视觉中为什么要标定摄像机参数
相机标定抄的目的是:求解相袭机内参数和外参数。
你说的镜头畸变属于相机内参数。所求出的畸变参数跟你选择的镜头模型有关。
除了消除畸变之外,标定还可以求解出其他多个内外参数。
具体求解什么参数?要看你用相机做啥了。用到什么参数你就求解什么参数就好了。不一定内外参数全都需要。也许只是校正镜头畸变。
看不出来不代表没有。iphone的镜头模型应该用高阶畸变模型来进行标定。如果在应用中对精度有较高要求,建议还是进行相机标定。
AR中相机标定主要是求相机外参数,也就是确定相机的方位,即求出旋转矩阵和平移矢量。
㈤ 双目视觉原理进行表面形貌测量需要经历哪些主要步骤每个步骤的主要任务是什么
1. 什么是视觉
视觉是一个古老的研究课题,同时又是人类观察世界、认知世界的重要功能和手段。人类从外界获得的信息约有75%来自视觉系统,用机器模拟人类的视觉功能是人们多年的梦想。视觉神经生理学,视觉心里学,特别是计算机技术、数字图像处理、计算机图形学、人工智能等学科的发展,为利用计算机实现模拟人类的视觉成为可能。在现代工业自动化生产过程中,计算机视觉正成为一种提高生产效率和检验产品质量的关键技术之一,如机器零件的自动检测、智能机器人控制、生产线的自动监控等;在国防和航天等领域,计算机视觉也具有较重要的意义,如运动目标的自动跟踪与识别、自主车导航及空间机器人的视觉控制等。
人类视觉过程可以看作是一个从感觉到知觉的复杂过程,从狭义上来说视觉的最终目的是要对场景作出对观察者有意义的解释和描述;从广义上说,是根据周围的环境和观察者的意愿,在解释和描述的基础上做出行为规划或行为决策。计算机视觉研究的目的使计算机具有通过二维图像信息来认知三维环境信息的能力,这种能力不仅使机器能感知三维环境中物体的几何信息(如形状、位置、姿态运动等),而且能进一步对它们进行描述、存储、识别与理解,计算机视觉己经发展起一套独立的计算理论与算法。
2. 什么是计算机双目立体视觉
双目立体视觉(Binocular Stereo Vision)是机器视觉的一种重要形式,它是基于视差原理并利用成像设备从不同的位置获取被测物体的两幅图像,通过计算图像对应点间的位置偏差,来获取物体三维几何信息的方法。融合两只眼睛获得的图像并观察它们之间的差别,使我们可以获得明显的深度感,建立特征间的对应关系,将同一空间物理点在不同图像中的映像点对应起来,这个差别,我们称作视差(Disparity)图像。
双目立体视觉测量方法具有效率高、精度合适、系统结构简单、成本低等优点,非常适合于制造现场的在线、非接触产品检测和质量控制。对运动物体(包括动物和人体形体)测量中,由于图像获取是在瞬间完成的,因此立体视觉方法是一种更有效的测量方法。双目立体视觉系统是计算机视觉的关键技术之一,获取空间三维场景的距离信息也是计算机视觉研究中最基础的内容。
双目立体视觉的开创性工作始于上世纪的60年代中期。美国MIT的Roberts通过从数字图像中提取立方体、楔形体和棱柱体等简单规则多面体的三维结构,并对物体的形状和空间关系进行描述,把过去的简单二维图像分析推广到了复杂的三维场景,标志着立体视觉技术的诞生。随着研究的深入,研究的范围从边缘、角点等特征的提取,线条、平面、曲面等几何要素的分析,直到对图像明暗、纹理、运动和成像几何等进行分析,并建立起各种数据结构和推理规则。特别是上世纪80年代初,Marr首次将图像处理、心理物理学、神经生理学和临床精神病学的研究成果从信息处理的角度进行概括,创立了视觉计算理论框架。这一基本理论对立体视觉技术的发展产生了极大的推动作用,在这一领域已形成了从图像的获取到最终的三维场景可视表面重构的完整体系,使得立体视觉已成为计算机视觉中一个非常重要的分支。
3、总结
经过几十年来的发展,立体视觉在机器人视觉、航空测绘、反求工程、军事运用、医学成像和工业检测等领域中的运用越来越广。
以视觉系统为基础的三维非接触式高速测量是一个重要的研究方向,双目立体视觉方法是其中一种最常用的方法。为了能够将这些技术应用在实际的无人机项目中,需要尽可能提高算法的效率与精度。(俊鹰无人机)
㈥ vr和ar是什么意思区别是什么
VR:
虚拟现实(Virtual Reality,简称VR,又译作灵境、幻真)是近年来出现的高新技术,也称灵境技术或人工环境。虚拟现实是利用电脑模拟产生一个三维空间的虚拟世界,提供使用者关于视觉、听觉、触觉等感官的模拟,让使用者如同身历其境一般,可以及时、没有限制地观察三度空间内的事物。
AR:
增强现实(Augmented Reality,简称AR),也被称之为混合现实。它通过电脑技术,将虚拟的信息应用到真实世界,真实的环境和虚拟的物体实时地叠加到了同一个画面或空间同时存在。
VR和AR的区别:
简单来说,虚拟现实(VR),看到的场景和人物全是假的,是把你的意识代入一个虚拟的世界。增强现实(AR),看到的场景和人物一部分是真一部分是假,是把虚拟的信息带入到现实世界中。
㈦ 学习计算机视觉需要哪些知识储备
可以先学来图像处理的知识,再学立体视自觉的知识,最后学习人工智能的知识。
图像处理大致包括的内容:光学成像基础、颜色、滤波器、局部图像特征、图像纹理、图像配等。
立体视觉大致包括的内容:相机几何模型、双目视觉、从运动中恢复物体结构、三维重建技术等。
人工智能大致包括的内容:场景理解与分析、模式识别、图像搜索、数据挖掘、深度学习等。
与计算机视觉相关的学科还有:机器视觉、数字图像处理、医学成像、摄影测量、传感器等。
希望能帮到您!
㈧ 计算机中,单目视觉是什么意思
可以获得三维信息的视觉方法有许多,典型的有双目或多目立体视觉,基于模回型的单目视觉答。
单目视觉是指仅利用一台摄像机完成定位工作。因其仅需一台视觉传感器,所以该方法的优点是结构简单、相机标定也简单,同时还避免了立体视觉中的视场小,立体匹配困难的不足。其前提条件是必须已知物体的几何模型。
在计算机视觉研究领域,如何在单目视觉的条件下,完成位置与姿态的求解已成为一个重要的研究方向。
㈨ 从事计算机视觉需要做什么准备
可以先学图像处理的知识,再学立体视觉的知识,最后学习人工智能的知识。
图像内处理大致包括容的内容:光学成像基础、颜色、滤波器、局部图像特征、图像纹理、图像配瞎唯镇等。
立体视觉大致包括的内容:相机几何模型、双目视觉、从运动中恢复物体结构、三维重建技术等。
人工智能大致包括的内磨粗容:场景理解与分析、模式识别、图像搜索、数据挖掘、深度学习等。
与计算机视觉相关的学科还有:机器山歼视觉、数字图像处理、医学成像、摄影测量、传感器等。
希望能帮到您!
㈩ 什么是平行式双目视觉系统
CT扫描中的汇聚式双目立体视觉系统参数研究-《中国体视学与图像...
CT扫描中的汇聚式双目立体视觉系统参数研究,常铭;李亮;陈志强;-中国体视学与图像分析2011年第01期杂志在线阅读、文章下载。<正>CT图像诊断技术已经成为临床医学...
mall.cnki.net/magazine/Article/ZTSX2... 2012-7-23 - 网络快照
平行双目视觉系统在康复理疗自动识别系统中的应用 李海军 徐凤生 ...
本文在研究双目视觉和国内外康复系统发展现状的基础上,提出将计算机双目视觉技术应用于人体康复理疗自动识别系统,研究基于计算机双目视觉技术的人体康复过程自动识别系统...
wzhz.cqvip.com/hzpinglaoshi/qk/84623... 2012-6-7 - 网络快照
平行双目视觉系统的三维重建研究 3D Reconstruction Based on ...
随着图像处理,模式识别的快速发展,人们对双目视觉系统和三维创建越来越重视。本文研究和设计一套双目视觉系统目的是获得生动的立体图像。从二维图像恢复到三维图像实现...
lib.cqvip.com/qk/95830A/200706/24782... 2012-11-24 - 网络快照
建议你 自己继续 网络 上述问题自己查 就懂了 祝你网络顺利 顺利你的 网络