找回密码
 立即注册
查看: 304|回复: 0

计算机视觉图像系统与人工智能混合增强现实技术简介

[复制链接]
发表于 2022-8-31 19:29 | 显示全部楼层 |阅读模式
新全球化智库2021-03-03 01:14
CV计算机视觉图像系统与Ai+XR(VR/AR/MR)混合增强现实技术
新全球化智库智数中国研究院 编辑
一、CV计算机视觉图像
图像处理
表现在常用的软件就是photoshop、美图秀秀之类的,另外有通过图片大概测量距离之类的软件。功能上是对2D的图,进行处理,生成新的2D图。算法一般有噪声处理、增强(对比度、亮度)、边缘处理、纹理分析、图像分割(依据灰度、纹理、颜色等特征)、变换(2d图动起来像3d效果)、几何形态(面积、大小、形状等)、匹配(识别与匹配对应)、色彩分析(色度、色密度、光谱等)、立体测量。ps:2D->2D,或数据提取。
计算机视觉
常见如kinect、立体(双目、多目)视觉、目标识别、面部识别等。拿立体视觉来说,过程中包含的功能:图像获取、标定、立体匹配(识别)、三维重建。通过算法处理2D的图,提取有用信息,再通过算法运算成3D空间的信息(如方位),其中大量运用了识别、跟踪、匹配。ps:2D->3D,连接图像处理和计算机图形的过程。
计算机图形
常见如opengl、ogre、osg、unity3d、ue、3dmax、maya。目的是如何将3D的场景展示出来,表现为桌面3D、VR(虚拟现实,virtual reality)中视觉部分。不论是桌面3D还是VR的眼镜,都是将3D转成了2D展示在显示屏上。再重构成3D 视觉的方法就是虚拟现实中的视觉处理。在计算机图形处理中,包括图元处理、窗口截切、视口变化、3维几何变化、光照算法、阴影算法、纹理等。通过计算机的算法构建虚拟的世界,然后通过硬件(gpu)展示在屏幕上。虽然ue、unity3d、3dmax、maya可见的即为3d的场景,但是并不是“生来如此”。ps:3d->2d。
计算机视觉专业核心课程
系统设计、移动通信系统、概率理论、运营策略、电路分析、离散数学、计算机网络基础、网络安全、操作系统、网络与分布式计算、微积分、算法与编程、计算机系统
计算机视觉专业学术准备
须具有良好的逻辑推理能力和缜密的思维,有较好的数学基础以及沟通和团队合作能力。对于想申请该方向研究生课程来说,高等数学、离散数学的基础以及编程、算法、数据库的应用是最重要的升学基础。
计算机视觉专业常见职业
信息管理员、网络工程师、互联网技术经理、安全工程师
所学专业、工作涉及到了模式识别、人工智能、虚拟现实、计算机图形、图像处理、计算机视觉。专业知识、领域,都比较交叉,比较杂。以个人粗鄙的想法,抛去模式识别与人工智能两个复杂的领域,简单认识下剩下的几个领域。
图像处理,表现在常用的软件就是photoshop、美图秀秀之类的,另外有通过图片大概测量距离之类的软件。功能上是对2D的图,进行处理,生成新的2D图。算法一般有噪声处理、增强(对比度、亮度)、边缘处理、纹理分析、图像分割(依据灰度、纹理、颜色等特征)、变换(2d图动起来像3d效果)、几何形态(面积、大小、形状等)、匹配(识别与匹配对应)、色彩分析(色度、色密度、光谱等)、立体测量。ps:2D->2D,或数据提取。
计算机视觉,常见如kinect、立体(双目、多目)视觉、目标识别、面部识别等。拿立体视觉来说,过程中包含的功能:图像获取、标定、立体匹配(识别)、三维重建。通过算法处理2D的图,提取有用信息,再通过算法运算成3D空间的信息(如方位),其中大量运用了识别、跟踪、匹配。ps:2D->3D,连接图像处理和计算机图形的过程。
计算机图形,常见如opengl、ogre、osg、unity3d、ue、3dmax、maya。目的是如何将3D的场景展示出来,表现为桌面3D、VR(虚拟现实,virtual reality)中视觉部分。不论是桌面3D还是VR的眼镜,都是将3D转成了2D展示在显示屏上。再重构成3D 视觉的方法就是虚拟现实中的视觉处理。在计算机图形处理中,包括图元处理、窗口截切、视口变化、3维几何变化、光照算法、阴影算法、纹理等。通过计算机的算法构建虚拟的世界,然后通过硬件(gpu)展示在屏幕上。虽然ue、unity3d、3dmax、maya可见的即为3d的场景,但是并不是“生来如此”。ps:3d->2d。
虚拟现实,与计算机图形是包含关系。虚拟现实即做一个虚拟的“现实”出来,除了图形学做的视觉方面展示,还有将图形渲染出的效果再呈现为3D放到人眼中(vr眼镜);除了视觉,还有听觉、触觉(力反馈)、嗅觉等。虚拟现实中最有意思的,最难的也是交互。将现实中的你,放入虚拟现实中,这其中又用到了计算机视觉、各种识别,作为输入,其次还有穿戴设备等输入设备,通过这些输入设备将识别出的“你”,放入虚拟现实中。输出则是vr眼镜,如htc、HoloLens、各种一体机、ocluse。
好了,这几个介绍了,可能越看越晕乎。。。
举个例子,这个例子几乎包含了这些所有的领域。现在的3D科幻大片的拍摄,各种n牛x特效、各种震撼场面。拍摄过程,一般用绿色背景,演员也一般用着穿戴设备或者贴着mark,这些是用的计算机视觉,将拍摄的图像转成3D场景。后期特效则用到了图像处理、图形处理,将演员演出的数据(表情数据、骨骼数据)转成科幻人(怪物、绿巨人、外星人)等,加上些虚拟的爆炸(算法生成)、建筑物崩塌等效果。最后,再将这些3D效果的视频展示在屏幕上,通过3d眼镜再把3D效果放到观众的眼中。是不是很有意思。
二、2020中国计算机视觉人才调研报告:算法岗年薪三十多万,超六成企业急需AI产品经理



最近,德勤携手极市计算机视觉开发者平台、中国图象图形学学会联合发布《2020年度中国计算机视觉人才调研报告》,通过把握计算机视觉人才脉搏,报告发现以下核心观点和主要成果:
一、七成以上CV人才集中在区域经济发达、相关产业聚集、高校资源丰富的一线与新一线城市,整体人才分布集中度高;目标检测作为CV领域的基础研究任务,是近年来中国CV产业落地过程中应用最广泛的技术之一,也是CV人才最集中研究的细分领域;CV人才在「后疫情」时代仍拥有较高收入水平;除人工智能和互联网行业外,电商、金融、企业服务、教育、文娱内容等领域也拥有大量CV人才。
二、企业偏好多元化专业背景人才,以促进CV与更多学科深度交叉融合。CV人才在未来还需软硬兼修,一方面加强新技术实用化的硬实力,另一方面积极提升解决问题的软技能;企业已经意识到在CV的落地场景中,单纯依靠模型优化并不能解决所有问题。因此,除算法岗外,超六成企业表现出对AI产品经理的强烈需求。
三、人才培养上存在现实与期望的落差,这也是计算机视觉作为一门理论研究与工程实践高度融合的学科在发展进程中的挑战。在调研中,高校和企业对于建立联合实验室以及科研项目合作表示出强烈的意愿,这有望成为CV领域人才培养的重要方式。
报道 | 机器之能
在诸多人工智能技术方向中,计算机视觉(Computer Vision)是中国市场规模最大的应用方向,占整体中国人工智能市场应用的34.9%,广泛应用在智慧城市与新基建、安防、金融、医疗健康、电商与实体零售、无人驾驶等场景。
然而,CV人才供需比例当前仅为0.09,处在极度稀缺状态。我国计算机视觉人才的严重不足可能由于研究起步晚和产业化积累不足,导致人才培养速度没有跟上产业发展需求。
为了更好地解决「人才荒」问题,极市平台、中国图象图形学学会、德勤共同发起 2020 年度中国计算机视觉人才调研活动,深度调研人工智能领域最受关注的计算机视觉方向研发人员,包括但不限于高校师生、算法研究者、企业算法工程师等群体,洞悉「后疫情」时代下CV人才现状,了解中国企业与社会对CV人才的诉求,加速中国计算机视觉人才的培养与发展。

CV人才现状
计算机视觉人才主要分布在哪些城市与行业?他们重点关注哪些研究领域?开发习惯如何?报告从中国计算机视觉人才所在城市、专业背景、研究领域、开发习惯、薪资情况、行业分布等维度,全面展现人才当前学习与工作的现状。
1、七成以上CV人才集中在区域经济发达、相关产业聚集、高校资源丰富的一线与新一线城市,整体人才分布集中度高。
除北上广深外,南京、武汉、杭州、成都作为新一线城市的代表,也拥有大量本领域人才;这前八名城市拥有的计算机视觉人才总和超过全国的 50%。
同时,本领域人才的分布与各地经济水平呈现密切相关性:根据我国各地统计局数据,南京、武汉、杭州、成都的 GDP 分别排在 2020 年我国城市 GDP 排行榜的第十名、第九名、第八名与第七名。
编辑



2、目标检测作为CV领域的基础研究任务,是近年来中国CV产业落地过程中应用最广泛的技术之一,也是CV人才最集中研究的细分领域。
在学术背景方面,50%左右的计算机视觉人才来自于计算机科学与技术专业。由于计算机视觉技术的发展涉及多种交叉学科,本次调研中也有超过 40%的计算机视觉人才来自电子与通信工程、电气工程与自动化、数学等非计算机专业。
值得关注的是,人工智能专业在 2018 年被正式纳入我国本科专业名单,至今已有超过 200 所高校开设了相关专业并启动招生;在本次调研中,有 6.81%的人才正是来自于新开设的人工智能专业,并且已经开始或即将进入计算机视觉方向的学习与研究。
在细分领域方面,现阶段,计算机视觉人才的研究领域集中在目标检测,图像分割,文本理解和目标跟踪几个方向。同时,随着技术的不断深入,计算机视觉技术整体研究领域呈现出多元化的特点:抠图 Matting、医学影像处理识别、图像增强、图像修复与超分辨、3D 视觉、遥感与航拍影像处理识别也是本领域人才关注的方向。
在计算机视觉中文学术论文的统计中,目标检测作为计算机视觉领域的基础研究任务,相关论文成果数量和增长速度明显高出其他研究领域,在过去五年(2015-2019)目标检测相关论文数量增长了超 200%。同时,目标检测也是近年来中国计算机视觉产业落地过程中应用最广泛的技术之一,大量实际场景数据也为该任务的研究提供了有力支撑。
在开发习惯方面,中国计算机视觉人才最常用 Pytorch 和 TensorFlow。由于人工智能领域的高速发展,不少软件、架构、硬件方向的研发人员也逐步转向计算机视觉算法岗位;Pytorch 的易学易用使得其成为了大部分在职人员转岗时的首选框架。此外,近几年国内深度学习算法框架逐步上线,有 6.49%的在职人员已经在工作中进行应用这类框架。





3、CV人才在「后疫情」时代仍拥有较高收入水平,其中算法岗的平均薪资伴随工作年限的增长增幅不断加大。
计算机视觉算法研究员在2020 年度平均薪资(年薪)为 328,977 元,算法工程师为 348,507 元,研发工程师(指计算机视觉领域企业/项目中,非算法类研发岗位,如系统架构师、软件工程师)为 294,271 元,AI 产品经理(指计算机视觉领域企业/项目中的产品经理)为 274,265 元;四类岗位的平均年薪差距在 7.5 万元以内。由此可见,在 2020 年疫情影响下,计算机视觉领域人才的薪资收入仍处于较高水平,且本领域各岗位的优秀人才均能获得丰厚的报酬。
在中高收入(年薪大于 40 万)人数占比方面,算法岗人数占比则远高于其他岗位:算法研究员中的中高收入人数占比为 29.54%,算法工程师岗位为 32.84%,研发工程师岗位为 14.58%,AI 产品经理岗位为 11.77%。
在高收入(年薪大于 80 万)人数占比方面,算法研究员岗位占比最高,为 4.55%,这由于该岗位进入门槛最高,不少企业或研究院要求候选人在计算机视觉领域顶级会议(CVPR、ICCV、ECCV 等)和期刊(IEEE-TPAMI、IJCV等)或机器学习领域的顶级会议(NIPS、ICML 等)上发表过论文。
此外,结合工作年限来看,工作经验 5 年以内的算法岗人才(包含算法研究员与算法工程师)与研发工程师的平均年薪相差不大。但是,工作经验 5-10 年的算法岗人才平均年薪比同等经验的研发工程师高出 14 万元;对于 10 年工作经验以上的人才,两类岗位年薪差距为 12 万。



4、随着计算机视觉技术的广泛落地,垂直行业在CV领域深度耕耘,打造了行业专属的CV应用。除人工智能和互联网行业外,电商、金融、企业服务、教育、文娱内容等领域也拥有大量CV人才。



人工智能和互联网企业计算机视觉人才最多,也有大量计算机视觉人才分布在电商、金融、企业服务、教育、文娱内容等领域,这主要由于计算机视觉技术在部分行业的发展中承担着越来越重要的角色。
如电商领域,商品以图搜图已经成为综合电商、垂直电商的标配;虚拟试妆功能则进一步丰富了美妆类产品线上营销的方式。在金融领域,部分机构在人工智能技术应用上选择「内外结合」的形式,即采购外部成熟算法模块或基础平台,交由内部算法工程团队或产品研发团队进行模型优化与二次开发,以提高对用户数据安全的保护及对业务场景的适用性。在教育行业,计算机视觉技术与自然语言处理、语音识别技术的深度结合,使得视频教学、智能阅卷等功能日趋完善,智能化水平成为教育类企业/机构的核心竞争力。
当技术成熟度达到产业要求时,不少垂直行业,尤其是行业中的头部企业,选择了在组织内部搭建计算机视觉团队,打造行业专属的计算视视觉算法产品或相关功能。

CV人才个人发展期望
计算机视觉人才对于个人未来的发展有何期望?他们将如何选择未来发展的城市、行业、岗位?对于薪资和研究领域有何诉求?
1、九成计算机视觉人才选择国内一线城市为未来意向发展城市。
尽管一线城市就业面临落户、房价、竞争等多重压力,北京、上海、深圳对于计算机视觉人才的吸引力仍然巨大。受疫情影响,大部分的中国计算机视觉人才都选择了未来在国内发展,而选择港澳台及海外城市为发展意向的计算机视觉人才只有0.27%。2、人才选择未来意向发展城市主要看重薪资水平、就业机会及人才引进政策。同时,当地高新企业聚集程度、地理因素(环境、气候等)、家庭因素与房价等也是人才选择城市时的重点考虑内容。
中国计算机视觉人才选择未来意向发展城市的考虑因素
3、人工智能企业、研究院、互联网企业、高校、政府机构最受95后学生群体的求职青睐。
调研中有80%的学生群体介于21-25岁,人工智能企业(48.84%)、研究院(43.87%)、互联网企业(42.82%)是学习计算机视觉的学生群体毕业后排行前三的意向工作单位,进入本领域核心企业或从事科研工作成为计算机视觉学生群体的主流就业方向。与此同时,他们会选择诸如算法工程师、高校研究员、算法研究员和研发工程师等直接与计算机视觉专业技术对口的岗位。



中国计算机视觉在校学生就业行业选择情况
4、在职人员希望研究更多新兴技术领域或产业应用热门领域。
目标检测、图像分割、文本理解、目标跟踪仍为计算机视觉人才未来研究的重点方向,同时医学影像处理识别的研究兴趣排名由第 7 位上升到第 5 位,这可能与新冠疫情后医疗领域计算机视觉相关需求骤增有关。
对比在职人员现阶段的研究领域,可以看到,即使在过往没有研究过相关课题,不少计算机视觉人才也表现出对未来研究 3D 技术、行人检测与重识别、图像生成(GAN)、动作识别的兴趣,相关技术领域有望在新的一年迎来突破。



5、学生群体毕业后就业期望年薪普遍不低于 18 万,在职人员全部期望年薪在 20 万以上。
本科学历学生中,83%希望毕业后年薪不低于 18 万,56%希望年薪不低于 24 万;硕士研究生学生中,88%希望毕业后年薪不低于 18 万,64%希望年薪不低于 24 万;博士研究生学生中,86%希望年薪不低于 24 万,68%希望年薪不低于 30 万,54%希望年薪不低于 36 万,12%希望年薪不低于 60 万。



3 年以上计算机视觉的在职工作经验人员全部希望年薪不低于 30 万。对于 1-3 年工作经验的人员,72%希望年薪不低于 30 万;对于3-5 年工作经验的人员,67%希望年薪不低于 40 万;对于 5-10 年工作经验的人员,76%希望年薪不低于 40 万;
对于 10 年以上工作经验的人员,79%希望年薪不低于 40 万,49%希望年薪不低于 50 万。值得注意的是,大部分在职计算机视觉人才希望自己的年薪不低于本领域同等工作经验人才的平均薪资。




企业与社会对人才的诉求
社会与产业对计算机视觉技术需求强烈、投入庞大,对本领域人才更是提出了全方位的要求。这一部分将阐释企业、社会对计算机视觉人才学历、专业、技能等方面的具体诉求,同时说明企业对计算机视觉领域非算法岗位的需求情况。
1、企业所涉项目百花齐放,对人才要求复合度极高。
计算机视觉在应用场景方面,需要与交通、安防、制造、医疗、零售、汽车、金融、传媒等领域的行业知识相结合;技术领域上,需要与云计算、人机交 互、智能硬件、机器人、自然语言处理、大数据、传感器等多种技术融合。在此背景下,企业对计算机视觉人才要求颇多。



以面向制造业的工业机器人项目为例,计算机视觉人才首先需要理解制造企业的工艺流程,找准计算机视觉算法的切入点;之后在生产线上,前端需要结合光学摄像机、传感器等设备对图像数据精准采集,保证算法可以有效进行识别,后端需要将识别结果与机械臂进行联动;整个过程中还需要网络工程、系统架构相关知识的支持。
由此说明,企业对计算机视觉人才提出的不仅仅是算法模型设计能力要求,还涉及如何深度理解具体业务场景、如何快速学习新技术并有机融合,这些都是考验计算机视觉人才的难题。正因如此,尽管我国计算机视觉人才群体已经达到 20 万人,但真正能够满足产业社会要求、达到目标水平的人才仍然稀缺。
2、九成以上企业要求学历为硕士以上,偏好多元化专业背景人才。
九成的受访企业对于计算机视觉人才有学历背景上的要求。64.29%的企业要求计算机视觉人才至少为硕士研究生学历,28.57%的企业准入门槛要求为博士研究生学历。
而六成左右的企业对于计算机视觉人才的专业背景有具体要求,其中 47.06%的企业要求计算机视觉人才拥有计算机科学与技术专业背景。
与此同时,电子与通信工程、软件工程、数学、信息计算科学和自动化也是企业用人部门偏好的专业背景。



深度访谈中,部分人工智能企业负责人则表示,计算机视觉技术在实际场景落地过程中会遇到大量的、各类型、多领域技术问题,不管任何专业背景的人才,在工作中都需要随时学习新的知识与技能,因此只要掌握基本计算机视觉技术能力或拥有相关项目经验,人才的专业背景并没有那么重要。在未来,计算机视觉与多学科更深度地交叉融合情况下,企业对计算机视觉人才的专业背景要求可能会更多元化。
3、最香「算法工程师岗」:实践比理论更重要,有算法的实际产品化及视频分析经验的人才更受欢迎
针对计算机视觉人才求职意向最大的算法工程师岗位,本次调研重点了解了企业对该岗位的专业技能和能力要求。企业对计算机视觉算法工程师新技术实用化、算法实现能力方面的硬性技能最为重视;同时,熟悉深度学习框架和熟悉使用常用视觉计算开源库也是企业要求算法工程师具备的基本技术要求。
调研结果中还发现,对于算法工程师岗位,有算法的实际产品化及视频分析经验的人才比发表过本领域优秀论文的人才更受企业欢迎,这主要由于算法工程师岗位是以技术应用落地为导向的岗位,在企业项目或产品任务中,其工程实践能力可能比理论研究能力更重要。



4、除算法工程师外,AI 产品经理成为企业急需岗位;CV与AI产业催生诸如AI算法测试工程师、AI售前解决方案工程师等技术人才需求。
本次调研中,除算法岗外,有超六成的企业表现出了对于 AI 产品经理的强烈需求,这甚至高过企业对研发工程师的需求。
AI 产品经理对于企业来说,不仅需要具备互联网或 IT 企业中产品经理的基础能力,如产品设 计工具使用技能、产品规划/设计/推进的能力、用户需求分析能力等,还需要对计算机视觉技术有充足的知识储备,懂得技术的边界,知道如何通过产品设计使得计算机视觉算法可以发挥最大优势。
以面向制造业的工业机器人项目举例,AI 产品经理需要同时具备软件、算法、架构、硬件、网络相关知识,才能设计出一套完整流畅的产品流程,其中任何一个环节处理不当都可能导致产品无法上线:如产品中的光学摄像机有成像问题,那么计算机视觉算法再精准都没有丝毫实用价值。



计算机视觉技术和人工智能相关产业的发展催生了大量专属于本领域的技术人才需求,如 AI 算法测试工程师、AI 售前解决方案工程师等。相较于传统 IT 企业的测试工程师,AI 算法测试工程师需要理解计算机视觉算法的识别逻辑和影响算法精度与性能的因素,搭建算法评价体系甚至配合研发工程师开发算法测试工具。这些本领域专属的技术人才也成为不少企业竞相抢夺的对象。

CV人才培养与发展
企业与社会对计算机视觉人才提出了多维度的要求,计算机视觉人才自 身对未来广阔的发展空间也充满期待。究竟人才、企业、高校在计算机视觉领域还会面临哪些发展瓶颈?目前国内高校计算机视觉课程开设情况、校企合作情况、政府政策情况又是如何的?
1、人才、高校、企业在计算机视觉领域的发展瓶颈:在校学生专业技能/知识储备不足;在职人员岗位和工作方向不符合预期;高校科研经费不足、校企合作困难;企业招聘难。



2、六成受访院校开设了计算机视觉通识课程,但在细分领域暂时无法满足学生研究兴趣。
调研显示,有 57.69%的院校开设了计算机视觉相关课程,其中 51%为计算机视觉通识课程,且一般只开设了 1-2 门课程。在细分领域上,目标检测、图像分割、图像增强相关课程开设比例相对较高,这也与当下我国计算机视觉教研人员和学生主要研究方向相符合。但在目标跟踪、文本理解、抠图 Matting 等学生未来希望深造的领域,当前院校所开设的相关课程数量暂时无法匹配学生的学习需求。
然而,短期内在高校开设细分领域的课程仍有不小的挑战:一方面,计算机视觉细分领域广泛,学生兴趣较为分散,细分领域课程可能无法满足全部学生需要;另一方面,由于本领域技术迭代速度极快,且部分领域的学习需要多样化产业实际案例的支持,课程开设难度较大。
3、七成以上高校开展校企合作培养人才,各地出台人才扶持政策。
根据本次调研数据显示,75%以上的高校及 72%以上的企业有过校企合作经历,主要合作方向集中在科研项目合作、学习实习/就业合作和联合实验室方面,部分高校与企业有进行过商业项目方面的合作,而双方在课程建设方面合作最少。
从双方未来合作意向上看,高校和企业均计划加深科研项目合作,对 于联合实验室建设也表现出了强烈的意愿,这有助于加快构建深度“产学研”一体化的进程,形成计算机视觉人才培养的新形式和新方法。
与此同时,近年来,国家和地方政府已经出台了众多扶持人工智能、计算机视觉产业人才和企业发展的相关政策,并将人工智能产业人才和企业的引进作为推动人工智能产业发展的重要战略部署。
虽然过去五年,我国计算机视觉人才数量已经由 2 万提升至 20 万,但满足上述要求的人才仍然稀缺。面对产业需求和人才缺口之间的差距,计算机视觉在读/在职人才、高校、企业、社会组织、政府应携手合作。
机器之能面向正在进行数字化转型及智能化升级的各领域产业方,为他们提供高质量信息、研究洞见、数据库、技术供应商调研及对接等服务,帮助他们更好的理解并应用技术。产业方对以上服务有任何需求,都可联系我们。
原标题:《2020中国计算机视觉人才调研报告:算法岗年薪三十多万,超六成企业急需AI产品经理》 来源:湃客 机器之心 2021-02-24 10:11
三、XR(AR/VR/MR)三者之间的联系和区别

XR是VR,AR和MR这三个词的总称。这三个词目前在互联网上非常红,但它们究竟是什么意义?它们之间的异同点是什么?它们之间的关系是怎样的?在互联网上已经有N个版本,众说纷纭,加上一些公司不断抛出新概念,大家已经被弄得相当糊涂了,今天就来捋一捋他们之间的脉络。
(一)首先看看这三个概念的定义和要素
1、VR,Virtual Reality,虚拟现实
是一种通过计算机模拟真实感的图像,声音和其他感觉,从而复制出一个真实或者假想的场景,并且让人觉得身处这个场景之中,还能够与这个场景发生交互。
VR要素
沉浸感,一种让人身处虚拟场景内的感觉,依靠遮挡真实场景的光线,提供尽可能大的视角,具有真实感的画面,三维,立体甚至光场的视觉,环绕声场和其他感官的刺激实现。
交互性,用户可以和虚拟场景中的内容发生实时交互,对用户行为具有真实感的响应,可以有视觉上,力觉上,听觉上和其他感官上的回馈,依靠传感器,软件运算,执行机构等系统实现。
假想性,可以根据设计者的想象设计出各种各样的虚拟场景,内容来源于现实而高于现实,可以在一定程度上违反物理定律,超现实的虚拟场景,依靠人为想象,软件设计,特效等途径实现。
2、AR,Augmented Reality,增强现实
是一种直接或间接地观察真实场景,但其内容通过计算机生成的组成部分被增强,计算机生成的组成部分包括图像,声音,视频或其他类型的信息。
AR要素
现场感,通过直接(镜片透视)或间接(摄像头拍摄,实时播放)观察真实世界,处于什么现场就显示什么现场。
增强性,对现场显示的内容增加额外信息,包括图像,声音,视频或其他信息。
相关性,计算机必须对现场进行认知,增加的内容和现场具有相关性,包括位置相关,内容相关,时间相关等等。
3、MR,Mixed Reality,混合现实
一种将真实场景和虚拟场景非常自然地融合在一起,它们之间可以发生具有真实感地实时交互,让人们难以区分哪部分是真实的,哪部分是虚拟的。
MR要素
现场感,真实场景和来自现场,通过镜片透视或摄像头方式取得,和AR一致。
混合性,真实场景和虚拟场景自然地合在一起,发生真实感地交互,包括遮挡,碰撞等。
逼真性,虚拟场景的显示效果接近真实场景,不容易辨别。


图1 VR,AR和MR的形象化描述
根据以上定义,再分析一下VR,AR和MR之间的异同点和关系。
(二)虚拟现实
虚拟现实与计算机图形是包含关系。虚拟现实即做一个虚拟的“现实”出来,除了图形学做的视觉方面展示,还有将图形渲染出的效果再呈现为3D放到人眼中(vr眼镜);除了视觉,还有听觉、触觉(力反馈)、嗅觉等。虚拟现实中最有意思的,最难的也是交互。将现实中的你,放入虚拟现实中,这其中又用到了计算机视觉、各种识别,作为输入,其次还有穿戴设备等输入设备,通过这些输入设备将识别出的“你”,放入虚拟现实中。输出则是vr眼镜,如htc、HoloLens、各种一体机、ocluse。
举个例子,这个例子几乎包含了这些所有的领域。现在的3D科幻大片的拍摄,各种n牛x特效、各种震撼场面。拍摄过程,一般用绿色背景,演员也一般用着穿戴设备或者贴着mark,这些是用的计算机视觉,将拍摄的图像转成3D场景。后期特效则用到了图像处理、图形处理,将演员演出的数据(表情数据、骨骼数据)转成科幻人(怪物、绿巨人、外星人)等,加上些虚拟的爆炸(算法生成)、建筑物崩塌等效果。最后,再将这些3D效果的视频展示在屏幕上,通过3d眼镜再把3D效果放到观众的眼中。是不是很有意思。
(三)AR(Augmented Reality)

AR(Augmented Reality), 一种实时地计算摄影机影像的位置及角度并加上相应图像的技术,换句通俗易懂的话来解释,AR 就是在屏幕上把虚拟世界套在现实世界并进行互动。AR 技术背后相关的三大类八项技术
AR 背后的技术究竟是什么?还需要攻克哪些技术?
1、交互
与传统智能设备触摸式操作方式不同,AR 技术是要呈现一种现实之外的景象。
所以在 AR 设备之上,几乎没有物理操作按钮,因此想要得到更好的 增强现实体验,交互是重中之重。
当前的交互技术包括手势操控、语音识别、体感操控等。
语音识别
目前的语音识别助手包括微软 Cortana、Google Now、苹果 Siri、亚马逊 Echo 等。
但目前识别率不高,只能作为 AR 设备的辅助操作工具,还达不到 AR 交互需求。
手势操控
目前,微软 hololens 利用手势进行交互。
戴上 HoloLens 眼镜后,可通过手指在空中点选、拖动、拉伸来控制虚拟物体、功能菜单界面。
体感技术
目前科技巨头普遍注重体感技术研究。英特尔? 实感? 技术便是其中一种。
据英特尔官方透露,该项技术 RGB 分辨率为 1080P,深度分辨率达到 VGA,功能上囊括了手势识别、3D 脸部识别、3D 增强现实、语音识别、 unity 工具集、物体追踪、表情侦测、背景移除、浏览器支持等。
2、显示
除了交互技术之外,显示技术也非常重要。
动态数字光场显示技术
代表厂商:Magic Leap
光场显示技术是什么?
其全称为数字光场显示 (Dynamic Digitized Lightfield Signal) 技术。
通俗点讲,Magic Leap 的显示技术可以称为四维光场显示技术。
与传统的二维显示相比,四维光场显示最大的特点在于可以呈现不同深度的图像,用户观察近景或远景时,都可以看到真实的聚焦和失焦效果。
举一个简单的例子。
我们站在窗前,可以从窗前向外欣赏景色,也可以在窗子左右观看窗外其他角度的景色。而我们试想,将窗子换成一台显示屏呢?我们只可以看到显示屏里正面的景色,却看不到来自左右角度的景色,而光场技术恰恰是能够实现这一设想的。
全息投影技术(hologram)
全息投影技术是 1947 年英国匈牙利裔物理学家丹尼斯·盖伯发明的。目前微软 Hololens 和 Magic Leap 都运用了这项技术。全息投影是一种显示技术,需要媒介,而且得实时进行,并且可以与人交互。目前 Musion、AV Concepts 和 Hologramica 等公司已开始利用数位媒体技术,创造出拟真的一比一大小 3D 投射影像。
3、定位
交互、显示之外,定位也在 AR/ VR 领域至关重要。
图像识别技术
图像识别是计算机对图像进行处理、分析和理解, 以识别各种不同模式的目标和对像的技术。
图像识别技术用以判断物体所处的位置以及 3D 坐标等信息。
不同于其他领域技术的 3D 定位,增强现实(AR)领域的物体位置,必须结合观测者的相对位置、三维立体坐标等信息进行定位。
如何利用叠加呈像算法,将相关信息叠加显示在视网膜上目前仍为技术难点。
4、SLAM 技术
SLAM 全称为 simultaneous localization and mapping,即时定位与地图构建技术。
目前应用领域:人工智能(无人驾驶、AR 等)。
SLAM 技术解决的是设备实时定位问题。只要是需要虚拟信息叠加到真实场景中的应用,都离不开实时定位。
据浙大博士刘浩敏介绍,SLAM 无需事先布置场景或采用昂贵的设备,不用摆放 marker,能够随时扩展 AR 使用场景,并且可以保证局部的定位精度,使虚拟物体在用户看来能摆在现实场景之中。
现阶段基于 SLAM 技术开发的代表性产品有微软 Hololens,谷歌 Project Tango。
5、LBS 基站定位 (Location Based Service)
LBS 是基于位置的服务,通过电信、移动运营商的无线电通讯网络 (如 GSM 网、CDMA 网) 或外部定位方式 (如 GPS) 获取移动终端用户的位置信息 (地理坐标,或大地坐标),在 GIS(Geographic Information System,地理信息系统)平台的支持下,为用户提供相应服务的一种增值业务。
目前 AR+LBS 定位技术在手机 AR 游戏应用中较为常见,《Pokemon Go》则引领了 AR 游戏的热潮。
(四)分析VR和AR的异同点和关系
VR首先强调的是沉浸感,完整的虚拟现实体验,由于虚拟场景可以人为设计,也不要求现场感,而真实场景的画面往往是会破坏VR沉浸感的,因此VR需要隔绝外界光线,从产品的设计上也是尽可能让虚拟场景占满整个视野,避免真实场景画面进入眼睛,自然光线进入眼睛中在VR产品中被称为漏光,是不良指标。
良好的VR体验要让体验者忘记身处的现实,进入VR场景就像进入梦境一般,我们可以把VR体验比喻成“白日梦”(Google的VR平台名字正好也叫DayDream,白日梦)。“做梦”和用户身处的现实环境并没有太大关系,这也是VR的最高境界。交互性是VR非常重要的方面,用户可以和整个虚拟场景交互,让用户感觉身处一个具有完整体验的世界之中,没有交互性的VR会退化到球幕电影。
AR首先强调的是现场感,AR展现的内容必须和现场息息相关,没有现场也就谈不上增强了,所以AR要尽可能将真实现场的画面占满用户的整个视野,要让用户很自然地观察真实现场,削弱自然光线的设计往往导致不良体验(室外,光线太强的情况除外)。
AR需要通过光线透射设计或者用广角摄像头拍摄现场,并实时显示出来。光显示现场肯定是不够的,要不就退化成普通眼镜或者普通视频监控了,AR必须对场景进行实时理解,理解包含对场景的三维结构和内容,比如知道地面的位置,墙壁的位置,空间的尺寸,哪里是通道,哪里会碰撞等等,对场景中的内容能够正确识别,比如哪些是汽车,哪些是人,哪些是建筑等等。对场景理解后就可对其进行增强了,增强的方面可以非常多,比如把墙壁的颜色换掉,在地面上显示导航箭头,在物品旁边显示名字等等。没有对场景理解的AR是伪AR,比如在视频上随意贴些文字,标签,这些信息的具体内容和显示位置并不会跟随现实场景发生相关性的变化,都是人工事先设定好的。
通过上面的分析,VR和AR的相同点是都需要使用计算机图形图像(CG,Computer Graphics)技术绘制虚拟图像,其中VR对图像的逼真度要求更高,而且VR中的图像全部由计算机绘制,因此对计算机的图像绘制性能要求高,往往需要配置高性能的GPU,而AR中大部分图像是通过镜片透射或摄像头拍摄的,计算机绘制的图像占比较少,而且是以信息性为主的,对图像逼真度要求较低,因此对图形绘制性能要求不高。但AR需要对场景进行理解,理解场景不是简单的事,需要用非常复杂的算法,并且需要实时运行,这样AR对CPU的运算性能要求非常高。
VR和AR不同点是,VR要尽可能多地隔绝现实,AR要尽可能多地引入现实,两者在这方面的要求截然相反,VR设备会使用海绵等材料将眼睛和屏幕封闭起来,让外面的光线进不来,而AR设备会选用透光率高的镜片,广角的摄像头等部件,将外面的光线尽量请进来。VR对GPU的要求高,而对CPU的要求相对较低,AR对CPU的要求高,而对GPU的要求相对较低。
综上所述,VR和AR是平行的关系,虽然VR和AR中有相同的部分,但也有截然不同的部分,而且截然不同的部分才是区分VR和AR的重点,因此他们之间无法互相包含,VR不是AR的子集,AR也不是VR的子集。
(五)分析MR和AR的异同点和关系
MR也强调现场感,MR里看到内容也和现场息息相关,首先是现场的画面占满用户的视野,然后通过对现场的三维结构和内容的理解,将计算机生成的,逼真的虚拟图像融合进去,MR要求的是三维融合,不能仅仅将虚拟图像覆盖在真实图像上,虚拟图像中的物体具有三维坐标,具有景深(物体有远近感),虚拟物体和真实场景中物体需要能够相互遮挡,具有真实空间感,真实的光照感,MR需要用户难以分辨看到物品是真实场景中的还是计算机虚拟出来的,如果用户难以分辨真假,就通过了图像智能领域的图灵测试,这是MR的魅力所在,也是技术难度最高的地方。
MR和AR都是强调现场感,都是对现场具有增强作用,因此从基础上来说,MR和AR是一致的,MR和AR都要求尽可能将现场的画面融合进来,而且都需要对现场进行实时理解,然后将计算机生成的虚拟图像相关性地融合进去,因此对现场增强是MR和AR的相同点。
MR强调虚拟图像的真实性,需要和真实场景进行像素级交叉和遮挡,要求虚拟场景具有真实的光照,和真实场景自然混合在一起,而AR更加强调虚拟图像的信息性,需要在正确的位置出现,给用户增加信息量,但其和真实场景的遮挡和光照不做强调,这是MR和AR的不同点。
MR和AR都是对现实的增强,因此他们有最大的共同点,AR对虚拟图像的真实感不做严格要求,但越真实越好,而MR对虚拟图像具有严格的真实感要求,因此AR的定义比MR更加宽泛,MR比AR更加严格,因此MR和AR是被包含关系,MR是AR的子集(高真实感的AR)。
因此VR,AR和MR如图2所示。


图2 VR,AR和MR的关系
(六)其他家的MR
另外,互联网上还出现了另外几个MR,容易和本文中提到的MR混淆,它们是:
MR,Mediated Reality,介导现实,一种人们不仅仅是是通过肉眼,而是通过设备感知的现实,对现实的内容发生了一些改变,包括增加,减少了信息,是一种更加宽泛的概念。
基本上,介导现实囊括了所有非完全通过肉眼观察世界的情况,包括通过屏幕看到的虚拟世界,所看到的画面或其他感觉相比肉眼看真实世界有所改变(从这个定义来看,人们戴上近视眼镜观察真实场景也属于介导现实的范畴) 。因此介导现实包含了前面提到的VR,AR和MR,如图3所示。


如图3所如图3所示示
另外英特尔提出的MR是Merged Reality的缩写,和Mixed Reality意义有所不同,在下面一节单独分析。
再有,要绘制虚拟图像,就需要采用计算机图形图像技术(CG,Computer Graphics),计算机屏幕是栅格的,一个栅格就是一个像素,该像素一般由RGB三个子像素组成,通过三原色混色原理形成彩色,一个像素同一时刻只能显示一种颜色,一个屏幕上有千千万万个像素,像素的数量称为屏幕的分辨率,一定的长度上的像素数量称为像素密度(比如PPI代表1英寸长度上的像素数量),分辨率越高,则图像的细节越多(信息量越大),像素密度越高,则图像越细腻(越不容易看出图像是由一个个像素组成的)。计算机图形图像技术就是一门怎样在栅格屏幕上显示出图像的技术,包括二维图像,三维图像,也包括文字(文字也要变成栅格图像才能在屏幕上显示)。VR,AR和MR里显示的虚拟图像就是栅格图像,离不开计算机图形图像技术的支持,因此VR,AR和MR是CG的具体应用,应该包含在CG内。



CG属于计算机技术(Computer Technology),因此CG包含在计算机技术内。
而介导现实可以使用计算机技术也可以不使用计算机技术(比如纯光学技术),因此介导现实并不完全包含在计算机技术内。
综上所述,VR,AR,Mixed Reality和Mediated Reality,还有CG,Computer Technology的关系如图5所示:


图5 VR,AR,Mixed Reality,CG,Computer Technology关系图
1、关于英特尔的MR
英特尔近期发布的Project Alloy称为Merged Reality,缩写也是MR,Alloy设备从外观看更加接近VR,是一个封闭结构的头盔,屏幕中的内容都是计算机绘制的,但英特尔为什么不称其为VR呢,英特尔的理由如下:该头盔具有感知真实现场的功能,虽然真实现场的画面没有直接在头盔中显示,但是它会对计算机绘制的画面实时产生影响,比如它可以感知用户位置的变化,如果用户戴着Alloy头盔向前走一步,设备可以准确地感知到这个距离变化并立刻反映在虚拟画面中(比如让虚拟画面向后退一步)。可能有人会说,那HTC VIVE和Oculus Rift也能做到啊!英特尔的解释是它们需要借助外部设备才能做到(HTC VIVE要借助外部激光定位设备,Oculus Rift借助外部红外摄像头),而Alloy完全不依赖外部设备,Alloy上面有“眼睛”通过“观察”真实场景推算自身的位置和角度,使用的方法是SLAM算法,而这个正是AR设备的功能。另外Alloy还可以实时识别用户的手势,并和虚拟世界交互,而且Alloy还能实现用户之间交互,这个交互并不完全通过网络,而是有一个真实的用户接近Alloy时,Alloy能够感知出来,并立刻反映在虚拟画面中(比如虚拟画面里出现了一个人)。从而实现了虚拟世界和真实世界的融合(至少戴着Alloy头盔不会撞到真实世界的墙壁了)。所以英特尔称之为Merged Reality,该MR和混合现实的定义又有所不同。从技术实现上分析的话,英特尔的Merged Reality同时使用了VR技术和AR技术,所以英特尔称Merged Realiy=VR+AR。


图6 Alloy头盔
不过从功能上来说,Alloy是VR的增强版,主要还是VR体验,只不过使用了一些AR的技术,让VR体验更优秀,所以用VR+来定义更加贴切一些。
2、关于微软的MR
自从Hololens问世以来,大家一直称之为AR设备,但是微软CEO在今年6月份的微软开发者峰会上说,Hololens不是AR设备,而是MR(Mixed Reality)设备,猜想的理由是大家称Google Glass为AR眼镜,而Hololens显然比Google Glass强多了,说是AR设备的话就拉低到Google Glass的水平了,微软不太愿意。
既然称为MR设备,Hololens肯定有比Google Glass强的地方,微软的解释是Google Glass只能将虚拟场景和真实场景简单叠加显示,虚拟和真实并没有很好地融合,Hololens则可以让虚拟和真实融合起来,比如Hololens中显示的画面可以贴到真实场景中的墙上,用户转动头部时,画面并不会随着转动,而是保持贴在墙上的感觉,用户会感觉到画面是在墙上的而不是在眼镜上的,但Google Glass中画面就会一直跟随眼镜,用户只会感觉到画面是在眼镜上的。另外,Hololens还可以让用户和虚拟场景互动,对用户的手势实时识别,用户的手是能够触碰到虚拟物体的,比如用户的手可以击中虚拟的球。
其实,按照AR的定义,如果完全实现AR功能的话,已经是非常酷了,AR并不是简单地将虚拟画面叠加到真实场景中,而必须对真实场景进行认知,包括三维结构和内容,这样计算机绘制虚拟画面才能很好对现实进行“增强”,比如要在道路上显示一个导航箭头,如果没有正确识别道路的位置,这个箭头是不可能画得好的,无法和道路很自然地贴合起来。
纵观Google Glass的两代产品,其实现的功能其实还不能算是AR,Google Glass是一个穿戴式移动设备,包含摄像头,显示屏,处理器和电池,用户使用Google Glass基本上是看看屏幕上显示的天气,时间,资讯等内容,和眼镜外面的真实场景并无太大关联,另外Google Glass一个重磅功能声控拍照和浏览照片,该功能也只能说是一台戴在眼睛上微型相机,并非AR设备。


图7 Google Glass
但Google Glass是以AR眼镜的口径切入市场的,虽然Google Glass并很好地实现AR功能,但市场上都称Google Glass为AR设备,大家也就把AR的概念降级到Google Glass的水平了。其实Hololens更像是AR设备,而且Hololens现身后,市场上的大部分专业人员也是这么认为的,后来可能是市场定位的原因,加上Magic Leap的火爆(Magic Leap称自己的设备为MR设备),使微软不甘于成为已经被Google Glass降级的AR设备,所以有了后来微软改口一说。



所以根据以上的分析,Hololens还是偏向AR的,但比AR多了交互功能,所以用AR+来定义更加贴切一些。
考虑到VR+和AR+后,整个关系如图9所示:

图9 总体关系图
虽然VR,AR(MR)在定义上有严格地区分,但在产品上其实是可以融合的,具体的产品可以既包含VR的功能也包含AR的功能,可以在这两个功能之间切换,或者在不同的软件下实现VR或AR的功能,比如普通的智能手机,安装AR软件后可以实现AR功能,放入Cardboard运行VR软件时又实现了VR功能。
VR,AR(MR)各有各的应用场合,各有各的存在空间,再强大的AR设备也无法替代VR功能,因此同时兼容VR和AR功能的设备很可能会成为下一个开发热点,也许那种设备会被称为XR设备吧。
四、计算机视觉是人工智能与虚拟现实的基础性技术

LDV视觉峰会(LDV Vision Summit)近日在纽约召开,与会者深入讨论计算机视觉(Computer Vision)在3D成像、VR、深度学习等领域的应用。可视化网络(Visual Web)数字化营销平台GumGum公司CTO Ken Weiner参加了今年峰会,并建议投资人、工程师、设计师以及广告创意人员应该关注计算机视觉:
1.计算机视觉是Internet of Eyes。
无处不在的视觉记录与大数据实时分析相结合,可以让物联网更加智能。
2.计算机视觉不仅仅是“看”。
计算机识别图像是通过像素才能“看”到图像,因此计算机视觉可以将地理位置、传感数据、超生数据等各种数据转换成视觉文件,比如计算机可以通过热成像技术看到“气体”和“热”,而这些是人眼看不到的。
3.人工智能依赖计算机视觉。
深度神经网络的技术发展很快,但是这些算法都依赖计算机图像识别的大规模数据集训练,如果没有足够多的数据集训练,算法模型将毫无作为。
4.VR/AR需要计算机视觉。
如果VR/AR需要更高质量的交互渲染效果,必须依赖计算机视觉的能力提升。只有计算机视觉技术的进步,才能让VR/AR真正普及。
5.CV在其他领域的应用。
除了人工智能和VR领域以外,其他领域比如机器人、无人机、无人驾驶汽车等所做的一切事情都依赖计算机视觉技术的图像识别。比如生产线机器人使用图像识别技术去检查芯片成品是否存在缺陷。
五、计算机视觉与机器视觉有什么区别?

人工智能是一个涵盖几种特定技术的总称。本文我们将探索机器视觉(MV)和计算机视觉(CV)。它们都涉及到视觉输入,因此了解这些重叠技术的优势,局限性和最佳用例场景非常重要。
研究人员早在20世纪50年代就开始开发计算机视觉技术,从简单的二维成像开始,用于统计模式识别。直到1978年,当麻省理工学院人工智能实验室的研究人员开发出一种自下而上的方法,从2D计算机创建的“草图”中推断3D模型时,计算机视觉的实际应用变得显而易见。从那时起,图像识别技术通过一般用例分为不同的类别。
计算机视觉和机器视觉都使用图像捕获和分析来执行人眼无法比拟的速度和准确度的任务。考虑到这一点,通过它们的共性来描述这些密切相关的技术可能更有成效,通过它们的具体用例而不是它们的差异来区分它们。
计算机视觉和机器视觉系统共享大部分相同的组件和要求:
一种包含图像传感器和镜头的成像装置
可以使用图像捕获板或帧抓取器(在一些使用现代接口的数码相机中,不需要帧抓取器)
适用于应用的照明
通过计算机或内部系统处理图像的软件,如许多“智能”相机



那么实际的区别是什么?计算机视觉是指图像捕获和处理的自动化,重点是图像分析。换句话说,计算机视觉的目标不仅仅是看,而且还要根据观察结果处理并提供有用的结果。机器视觉是指在工业环境中使用计算机视觉,使其成为计算机视觉的子类别。
计算机视觉在行动
2019年,计算机视觉在许多行业中发挥着越来越大的作用。在数字营销领域,公司开始使用图像识别技术来推动更好的广告投放和业务成果。由于计算机视觉技术的准确性和效率不断提高,营销人员现在可以绕过传统的人口统计研究,并快速准确地梳理数百万的在线图像。然后,他们可以在适当的背景下进行有针对性的营销,而人们只需要花费一小部分时间来获得相同的结果。
机器视觉和智能工厂
能够直观地识别产品缺陷和流程效率低下等问题的能力对于制造商限制成本和提高客户满意度至关重要。自90年代以来,机器视觉系统已安装在全球数千家工厂中,用于自动化许多基本的质量保证和效率功能。凭借增强的数据共享功能和由创新云技术提供的更高精度,机器视觉驱动系统在制造业中的使用已开始加速。制造商意识到机器视觉系统是实现质量,成本和速度目标的重要投资。
生产线上的机器视觉
检测缺陷并快速减轻这些缺陷的原因是任何制造过程的重要方面。朗锐智科转向机器视觉解决方案,以主动解决缺陷的发生和根本原因。通过在生产线上安装摄像头并培训机器学习模型来识别定义好产品与不良产品的复杂变量,可以实时识别缺陷并确定缺陷发生在制造过程中的哪个位置如此主动可以采取措施。
为视觉技术注释机器学习模型
为了实现计算机或机器视觉目标,首先需要培训使您的视觉系统“智能化”的机器学习模型。并且为了使机器学习模型准确,需要大量注释数据,特定于解决方案'重建。有免费的公共使用数据集可用于测试算法或执行简单任务,但要使大多数实际项目成功,需要专门的数据集来确保它们包含正确的元数据。例如,在自动驾驶车辆内实施计算机视觉模型需要大量的图像标注来标记人,交通信号,汽车和其他物体。任何低于总精度的东西都将成为自动驾驶汽车的一个巨大问题。
具有不同用例的相关技术
虽然计算机视觉和机器视觉之间的界限已经模糊,但两者最好用其用例来定义。计算机视觉传统上用于自动化图像处理,机器视觉是计算机视觉在实际界面中的应用,例如工厂生产线。
定制机器视觉服务
现代视觉系统旨在提供改善的图像质量,是图像恢复,图像编码和图像解释的理想选择。每当工业应用需要识别,指导或测量时,机器视觉是一种广泛使用的选择。
六、计算机视觉产业链全局

作为计算机科学的分支,如今计算机视觉(Computer Vision,简称CV)已成为人工智能重要研究领域和发展方向,逐渐形成完整的产业链。
顾名思义,计算机视觉就是让计算机能够像人一样“看见”,获得对客观世界的感知、识别和理解的能力。
其背后还包含机器学习、深度学习等相关算法,从而让计算机掌握人脸识别、图像识别、图像分割、图像重构、图像生成、目标检测等技能,在一些特定的危险场景和重复性的生产作业中替代人,以节省人力,并提升效率。
与此同时,另一个热门概念——机器视觉(Machine Vision,简称MV)也越来越受到关注。甚至,有人将其与计算机视觉画上等号。
事实上,从两者概念的差异来看,就能读懂计算机视觉产业链的全局。
计算机视觉:硬件+计算
无论是计算机视觉,还是机器视觉,都是要从图像或图像序列中获取对世界的描述。
计算机视觉,基于计算机,即让计算机模仿人的视觉功能,并关注从感知到认知,再到理解的过程,自然就离不开计算。
机器视觉,围绕机器设备,即让机器代替人眼来实现检测和判断,侧重于相机、摄像设备等基础硬件的选择,强调的是精度和图像分析能力。
然而,随着人工智能技术的不断深入和应用,对计算机视觉和机器视觉都带来了巨大的影响,两者的边界正在逐渐消失,形成了计算和硬件相融合的全新发展趋势。
此外,从领域划分来看,计算机视觉侧重在学术,机器视觉则面向工业、工程方面。因此,现在机器视觉主要指工业制造领域的视觉应用,是计算机视觉的重要应用场景之一。
理清了计算机视觉与机器视觉的差异之后,就能清晰地发现,计算机视觉由基础硬件和计算单元两大板块组成。其中,基础硬件包括光源、镜头、工业相机、图像采集卡、图像处理单元、视觉处理软件等软硬件,负责图像采集和处理等相关工作。而计算单元包含技术、应用和基础三个层面,是整个计算机视觉的核心。
技术层包括各类算法,而基础层分为硬件和计算平台,也就是整个解决方案的基础设施,承载了所有算法和应用。应用层就是应用场景,主要有安防、泛金融、手机、零售、自动驾驶、医疗影像、工业制造、广告营销八大应用场景,并对应各自领域的厂商。其中的工业制造就是机器视觉在工业领域的应用。
国外:硬件至上
在研究机构Science Examiner推出的《2017年-2024年全球计算机视觉市场行为分析和预测》中,将英伟达、英特尔、高通、苹果、谷歌等列为了全球计算机视觉市场的主要参与者。Science Examiner认为在这一市场中,芯片开发者和硬件组建开发者的作用力要远大于单纯的技术研发者。
此外,Science Examiner还提出,算法能力本身很容易达成趋同,并且会因此变得越来越廉价,未来的行业创新关键在于硬件算力提升,和软硬件的定制式创新,而主要的盈利点也很可能出现在硬件上。
而从英伟达、英特尔、高通等科技巨头近年来的发展路径来看,芯片对计算机视觉的发展起到了巨大的推动作用,确实验证了以上的观点。但这一“硬件至上”的观点,也让美国在学术上慢了一拍。
近年来,美国在学术上遭遇全球各国的挑战,尤其是中国。以人脸识别为例,据美国国家标准与技术研究院(NIST)的2018年全球人脸识别算法测试结果显示,排名前11名的企业,只有两家来自美国,剩下全部来自中国、俄罗斯和立陶宛,其中中国企业还包揽了前五名。
而在ICCV、CVPR和ECCV三大国际顶级计算机视觉会议上,中国企业和科研机构屡屡获得出色成绩,论文入围数量不断攀升。由此可见,中国企业在计算机视觉领域所取得了亮眼战绩,很可能与美国对算法的忽视有关。
即便是全球科技实力最强的美国姑且如此,其他欧美国家亦然。
国内:应用为王
与美国市场巨头当道不同的是,国内计算机视觉产业正呈现出欣欣向荣的态势。
应用场景一直是推动中国人工智能发展的重要因素,而计算机视觉依旧走向了“应用为王”这条道路。
其中,在国内巨大的市场需求的推动下,近年来安防一举成为计算机视觉最重要的应用场景。同时,依托于国内互联网发展所积累的海量数据和相对宽松的政策,不仅带动了一大批安防初创企业的成长,也互联网和ICT企业跨界其中,更让一些传统安防厂商重新获得新的发展契机。
除此之外,泛金融(支付)、手机(含互联网娱乐)、零售(商品识别)、自动驾驶(无人机、机器人)、医疗影像、工业制造(机器视觉)、广告营销等应用场景也已成为计算机视觉落地的绝佳“试验田”,获得极佳的发展机遇。
纵观目前国内计算机视觉产业链格局,已形成三大阵营共存的态势。
第一大阵营:商汤、旷视、依图、云从“CV四小龙”为首的初创企业。凭借先进的算法,这些初创企业从安防起步,逐步向更多领域拓展。其中,为其他企业赋能的To B业务将会成为全新的增长点。
第二大阵营:海康威视、大华股份、宇视科技为代表的传统安防巨头。在保持原有优势的同时,这些企业还积极引入或自研相关算法,以提升竞争力,并向更广阔的领域迈进。
第三大阵营:BAT、华为等互联网、ICT领域的巨头。其结合所积累的数据资源和经验,涉足安防,泛金融、手机、零售、自动驾驶、医疗影像等多个领域,并通过技术输出和资本,实现“圈地”和布局。
综上所述,三大阵营均已涉足安防行业,看似一片“红海”,但由于我国城市化进程的不断推进,以及平安城市、智慧城市等建设的深入,尤其在计算机视觉等人工智能技术的推动下,安防市场仍然有潜力可挖。此外,在泛金融、手机、零售、自动驾驶、医疗影像、工业制造及广告营销等领域,计算机视觉的发展前景同样广阔,都充满了机遇。
“实体清单”是挑战,更是机遇
10月7日,美国商务部宣布,将8家中国企业在内的28个实体纳入出口管制实体清单,其中就包括海康威视、大华股份、科大讯飞、旷视科技、商汤科技等国内计算机视觉的知名企业。其目的就是通过“技术禁运”,限制中国企业的发展,也以此拖垮我国计算机视觉产业。
姑且不论影响到底如何,从另一层面来看,美国是变相认可了这些中国企业的实力,可以预见,目前中国计算机视觉企业已经拥有叫板美国同行的能力。所以,“实体清单”是挑战,更是机遇。
同时,如今中国芯片厂商也已经开始发力,华为海思、寒武纪、地平线、云天励飞等都结合算法和应用场景需要,推动自研国产计算机视觉相关芯片,逐渐形成了自主可控的产业链模式,以突破美国的封锁。来源:亿欧网

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
懒得打字嘛,点击右侧快捷回复 【右侧内容,后台自定义】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Unity开发者联盟 ( 粤ICP备20003399号 )

GMT+8, 2024-11-25 03:32 , Processed in 0.093925 second(s), 26 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表