上海维塔士电脑软件(上海维塔士电脑软件有限公司官网)
2023-06-15 本站作者 【 字体:大 中 小 】
上周,华强智造在上海卓美亚喜玛拉雅酒店举办了“IC China2016虚拟现实(AR/VR)应用与发展研讨会”。会议现场,上海图漾信息科技有限公司的CEO费浙平先生发表了《计算视觉连接虚拟和现实》的演讲,赢得一片掌声。
在此,小编炮整理了费浙平先生演讲的部分内容,带你走近计算视觉和三维视觉。
——————
今天我准备从视觉、软件、算法以及内容的角度,讲一些比较轻松的话题。
之前的嘉宾也提到,VR的精髓是从2D到3D的沉浸式用户体验,这跟我们目前在做的计算视觉是非常紧密相关的。事实上,尽管业内人士谁都知道计算视觉、三维视觉非常重要,但全世界都还做得不好,目前整个行业最领先的水平也做得马马虎虎,离普通消费者的预期差距仍然比较大。
过去两年多时间里,我们一直在计算视觉(CV)上做了很多工作,但现阶段我们的产品和技术,其实和VR结合得并不紧密。所以今天我要讲的东西可能会虚一点。即使我们很明确这个行业我们在做什么、现阶段是什么样子、我们想要解决什么问题、想要带给AR/VR什么样的用户体验,但很可惜目前还没有做好。
不过,我相信(计算视觉)这个点仍是非常值得关注的,因为如果未来这个问题没有解决,那么AR/VR不过就是一种新型的显示器而已。
数字化内容的产生
从内容上,所有内容的产生或者获取不外乎两种渠道。
第一种是从物理世界里获取,通过传感器、设备把物理世界数字化。现在的DV、电视机、手机、PC的显示器,内容的数字化其实很简单,说穿了就是拍照和拍视频。
第二种:在PC尤其是游戏里面,还有一种内容产生方法:CG(computer cenerated)。比如大量的三维游戏,比如科幻电影里的人物、场景,其实都是电脑+美工师+程序员产生的出来的。
通过这两种方式产生的内容,最终将通过某种设备呈现给人。我认为,从物理世界拍摄而来的内容,加上CG产生的内容的结合,在将来的任何AR、VR、MR等设备里都是非常重要的。
现在我们来关注一下,从物理世界怎么样通过传感器和设备来产生内容。第一种是比较常见的:平面格式内容,就比如用相机、DV来拍照片、视频等等。
但今天我想着重讲另外一种:三维格式内容。三维化的数字内容是目前这个阶段经常被忽视、用处也不太大的一种内容表达形式。但是在AR/VR里,三维格式的内容是很重要的一点,这是将来AR/VR普及后一种关键的内容方式。
目前,AR/VR行业里面比较重要和主流的有两种平面格式内容:全景视频和立体视频。但不管是照片、视频、全景视频或者立体视频,本质上都是两维的平面数据。因为所有的这些内容,其数据本质都是一个个像素,每个像素存着的数据都是RGB(red、green、blue,红绿蓝三基色),每个像素点都是RGB的分量,它的内容本质上不包含任何空间几何信息。
三维信息数据是什么
什么样的内容才是三维数据?一定是在每个点上面,除了RGB数据,还要包含空间的位置信息,也就是还要有XYZ(三维坐标轴)信息。只有RGB和XYZ同时呈现,才是一种真正的、完整意义上的三维。
人的眼睛看外面的世界,通过视觉渠道,是能够同时获得RGB和XYZ信息的。比如大家在看我时,能够看到衣服、头发等颜色信息,也有对我的身高、体型、我们之间的距离等空间几何感。当然人的视觉系统有个缺陷,对空间几何信息的量化比较差,比如你可以看出我们之间的距离是三米左右,但没办法看出是3.1米还是3.45米这样精确的信息。
现阶段所有的照片、视频把RGB信息采集回来后,是既服务于人,也服务于机器。比如机器里的人脸识别算法,处理的基础都是RGB信息;而人眼对RGB信息比较敏感,直接看RGB信息的视觉效果也是可以的。
至于XYZ信息,就有个特点:它主要是服务于机器的。因为每个点的XYZ数据是没办法直接给人眼识别的,视网膜还是只能感觉到量化的颜色信息。
举个例子,这是拍摄电脑包在某个咖啡馆里的一个场景。我把每个点的RGB信息量化出来,大家一看就知道这是个照片;但如果我把每个点的XYZ想办法显示出来,其实就很难。这个图我表达的意思是,XYZ信息怎样让人也有这种感觉?通常是XY先不管,把Z这个距离信息用着色方案先显示出来,但这只是给人一种感觉。
XYZ三维视觉信息的重要性
所以,XYZ数据直接丢给人眼是没有太大价值的,它主要是服务于机器。机器如果要做三维视觉,一定要有显性的RGB和XYZ数据。人的距离感可以自动脑补的,而机器拍摄只能拍摄到RGB信息,目前没有什么单一传感器可以把XYZ量化出来。机器如果有了RGB和XYZ信息,就可以发挥很强的视觉处理能力,比如说做三维建模,视觉效果增强处理等等。
机器拿到XYZ数据之后,可以真正把三维视觉的能力发挥出来,处理完了,再以某种方式输出到设备给人的眼睛和大脑。这时候,人就能够被AR/VR设备带到一个非常有沉浸感的虚拟或者混合世界里面去。
举例子说,这是一个视觉错感照片。
如果我此时问大家一个问题:这张图片里,是人离我近还是圆形物体离我近?如果是人来回答,那非常简单,我们都知道这个圆形物体是非常远的,而人不管是十公里还是二十公里,总是比月亮离我们近的。但是这样回答有个重要的前提,就是人其实已经把月亮的特征识别出来了,我们知道它是月亮。
如果把这个问题丢给机器,就会变得困难,因为机器只能识别出这里面有一个圆形物体和一个人形。进一步说,现在的人工智能或许能用最厉害的图像识别能力去识别出月亮,然后判断距离,回答我说人离我近。
但这已经是目前最先进的算法了。假如我们把问题变难,把月亮的特征抹去,只剩一个圆形,这时候再问:是人离我近还是圆形物体离我近?这下子人和计算机都没法回答了。所以如果要让机器处理这个问题,就要把每个点详细的XYZ数据显性地报告给机器。如果圆形物体的XYZ数据有了,人形的XYZ数据也有,这时候要判断距离谁近谁远,或者它们之间的距离,问题都变得极其简单。
所以计算视觉里最关键的问题就是,要做三维视觉,一定要通过某种传感器的方法,把显性的XYZ数据拿回来,否则三维视觉肯定是做不好的。
怎么获取三维视觉信息
这件事情目前在行业里怎么做?
我们现在的拍照手段还拿不到XYZ信息,因为现在的图像传感器就是个平面的光电传感器而已,每个点只能感应到RGB三个颜色的量化,拍照时是把物理世界的三维信息压到一个平面上,这是整个照片成像的物理基础原理,导致距离信息被天然损失掉了。
现在并没有一种魔术传感器能把XYZ数据拍下来,我们能用的只有图像传感器。图像传感器是目前可用的、唯一的能够把物理世界通过视觉方法拍摄回来并进行量化的渠道。
XYZ数据怎么获取,目前主流的方法只能是通过视觉的手段,使用图像传感器,辅助以一定的光学手段进行视觉计算。这就是我们讲的计算视觉里非常基础的一个技术点。
从原理上讲,只要两个摄像头,立体视觉就能够进行测距。但在现实当中,双目摄像头的测距方案存在非常大的使用局限,只有在非常良好的特定工作条件下才能勉强应用。所以从实际上讲,要做好一个三维传感器或者XYZ数据的量化测量,一定是要应用至少两个摄像头,或者一个摄像头、两个摄像头加一套复杂的光学系统,再加上专门的视觉计算方法,才能计算和测量完成。
三维信息和AR/VR的联系
有了这些三维信息,可以做什么事情,跟AR/VR又有什么联系呢?虚拟内容必须要跟物理世界完美贴合才能给人带来“真实感”,需要3D传感器对外部物理世界进行三维重建。
微软可以说是在民用的三维视觉技术点上,全世界积累得最多的公司,它做三维相关的硬件软件已经超过十年了。在这里举例微软的HoloPortation,一个很黑科技的东西。
当我和一个朋友一起带上微软的HoloPortation系统,在我的视野里面就会出现远程那个人的画面,那个人真实站在我面前,我可以围着他转,做动作等等。这其实就是把远程那个人的实时三维模型建立出来了,每一个时刻的三维模型,每一帧都是完整、准确的,然后通过AR/VR设备显示出来。
尽管对于普通消费者来看,这样建立出来的“人”视觉效果并不是很好,不高清,颜色也太过鲜艳,但微软的建模能力确实很厉害,这其中的技术难度是很大的,在行业里都称之为黑科技。这也是技术行业的边界和消费者需求边界的问题,需要有一个渐近的过程。
现阶段面临的问题
最后做个总结,目前我们存在的问题有:
第一,3D传感器,也就是XYZ的获取较困难,这个点是个薄弱环节。
第二,把RGB和XYZ数据采集回来后,怎么去承载和实现三维视觉算法的处理器,对处理器的要求非常大,目前的都不够用。
第三,视觉算法的软件实现、以及算法本身也还有很多问题需要解决。比如说怎么把三维模型建得又快又好。
第四,如果要做更多的智能识别,三维的物体样本库还没有,跟人工智能、深度学习还没有结合起来。
——————
以上就是费总讲的有RGB信息和XYZ信息的重要性、如何获取三维视觉、三维视觉对AR/VR发展的重要性以及现阶段面临的问题。作为曾在世界顶尖处理器技术公司ARM、MIPS和Imagination工作超过10年的资深人士,费总的见解非常深刻,也帮想要在这个领域发展的同行理清了方向,我们非常期待在这些问题解决后为AR/VR带来的变革。
文章来自:华强智造Hi空间(微信公众号:HQ-Innovator)
“小编炮”搜罗的极客爆品、智能硬件领域最新数据趋势,创业圈内一起嗨的活动,你都想知道的话,来找小编炮咯~~ 长按 HQ-Innovator 复制到微信搜索关注!大声说Hi!!
猜你喜欢
lol猴子天赋(英雄联盟猴子天赋)
扑克牌80分新手教程视频(扑克牌怎么打80分)
小米官网查询真伪小米imei码查询官网(小米官方imei查询网)
无主之地2狂人好玩吗(无主之地2狂枪节操玩法)
热血江湖有手机版本吗(热血江湖出手游版了吗)
天龙八部怀旧丐帮技能详解(天龙八部怀旧服丐帮技能顺序)
标签打印机显示打印错误标签打印机打一张就报错(标签打印机显示错误状态不能打印怎么办)
扑克牌80分四人打牌(扑克牌80分四人打牌图片)
电脑主机开机显示屏不亮联想笔记本电脑黑屏却开着机(联想笔记本电脑开机屏幕不亮怎么回事zol问答)
Win10正式版怎么打开我的电脑?
小红书回应女幼师疑给幼儿喂避孕药 女幼师疑给幼儿喂避孕药群主发声
中国26岁女生在马代被酒店管家性侵 马代警方回应中国女生被性侵
女子因自带披肩被景区商贩薅衣服是什么情况 女子因自带披肩被景区商贩薅衣服该怎么办
马云指出淘宝天猫未来三个方向 都是回归系列
女子房产被邻居打通入住 官司打赢了仍没能拿回房子
上海中考多科目泄题是真的吗 上海市教育考试院辟谣网传中考泄题说法
高校庆男篮夺冠免费加5万只鸡腿 全校发5万多份鸡腿庆祝夺冠
女子自带披肩被景区商贩撕扯衣服 青海通报女子在景区被撕扯披肩
广东一女学生遭校园霸凌被逼下跪是真的吗 广东一女学生遭校园霸凌被逼下跪该怎么处理
企业月薪1万2半年只招到两人是怎么回事 企业月薪1万为何2半年只招到两人