研究 AR 的意义：可能是下一个计算平台

Uploads%2farticles%2f10338%2fmicrosoft executives testing the hololens

行业观察 |

2015-11-09

研究 AR 的意义：可能是下一个计算平台

陈吒奇

编者按：本文作者郁树达，法国计算机视觉博士，现就职于深圳超多维光电子有限公司任研究员，长期关注 AR&VR 相关技术发展。

通过 AR 技术，我们可以让每一个女孩在几秒钟内看到各种粉底、眼影、睫毛膏在自己脸上的效果；我们可以让连环画书中的故事活起来；我们可以在开车的时候，直接在车窗上看到辅助驾驶信息；我们可以看到网上的衣服穿在自己身上的样子......

现实增强虚拟试衣

你也许会说这些看上去高大上的东西没什么用，我还是习惯去实体店使用，我还是喜欢喷着油墨香的连环画，就像现在还是有人坚定的使用着功能机一样。的确，单一的技术有时不一定会像技术发明人想的那样被发扬光大，也常常被创业者和投资者认为解决的是弱需求，不高频等等。但是，我们也应该牢记，科学技术是第一生产力。

扯远了，还是先直截了当的抛出自己对于研究 AR 的意义吧：

AR 设备有可能成为替代智能手机的下一个平台。

1. AR 设备的定义

我们上面所看到的图都是 AR 技术应用场景，这些 AR 技术使用的显示设备是平板，电视和手机，这一类我们称之为 video see-through 的 AR 技术，因为我们所看到的现实是通过摄像头捕捉之后的 video。

而这里我们指的 AR 设备是使用投影设备，将虚拟的物体直接投影在人眼中的近眼显示设备，也称 optical see-through 的 AR 技术，最具有代表性的当然是微软的 Hololens 和 Magic Leap 的 AR 设备了。Optical see-through 相比 video see-through，直接是现实环境加虚拟的物体，这种真实感是后者难以达到的。

Optical see-through AR 设备的典型代表 Hololens

2. AR 赋予设备视觉的力量

我们都知道智能手机代替了功能机。其实我不是非常认同「代替」这个词，因为二者的角色是不一样的，因为功能机是一个工具，而智能手机是一个平台。如果把智能手机看成人类的私人管家，AR 设备给这个管家赋予了更多的力量——视觉的力量。

人类获取到外界的信息 90% 以上来自视觉，你的智能手机只能在碎片的时间覆盖你视野很小很小的比例，而 AR 设备给你的是时刻变化的整个世界。

设想一下，走在路上，AR 设备会随时在你视野中画出导航路线，而你再也不需要低头看手机；当你在饭店点菜，菜单不再是一张张永远与事实不符的图片，而是浮现在餐桌上的拍摄到的饭菜；生活中再也不用担心错过精彩的瞬间因为它是一个随时随地摄像机；当你们相处两地视频聊天的时候，她可以虚拟的出现在你的房间里任意的地方。

没错，智能手机能做的它都能做，而它能做的，智能手机有些永远做不到。智能手机干掉电脑是因为你可以将一台电脑随身携带，但是再怎样随身，你也只能停下来，掏出手机，间断性的使用，而 AR 设备是真正的随身，你所要做的只是与这个私人管家不断交互。当然，偶尔在想静静的时候，也可以让它睡眠......

3. 做好 AR 的三个难点

然而，美好的愿望之所以美好，是需要现实的残酷来烘托，AR 技术之所以没有 VR（虚拟现实）那么受到追捧，是因为其准入门槛极高。

AR 技术横跨了多个领域，从计算机视觉，到计算机图形，再到光学显示，是一个软硬件准入门槛都很高的技术。AR 设备需要通过各种传感器，主要是摄像头以及深度摄像头，让机器感知到外界环境，并且理解外界环境，再生成出与外界环境融合的虚拟场景，最后通过光学显示设备将虚拟场景投到人的眼中。

这其中，一个难题是交互方式。智能手机托乔布斯先生的远见卓识和强大资源，通过触摸屏这一人性化的方式实现了交互，而 AR 设备则需要的更加自然的交互。

现有的方法有多种，有的通过手持设备实现，比如遥控器，体感手套，但使用局限性太大；有的通过手势识别，但作为以后一个常用设备，长时间的手舞足蹈显然是一个费力的方式；有的通过声音语意解析，但许多场景靠声音是无法精确交互的，而且保密性是个问题，可以作为一种交互方式但仍不能作为独立的解决方案。

目前较为现实的交互方案是多元的，比如可以将交互界面投影到空中，像手机界面一样，然后通过动作识别去完成交互，比如通过眼球追踪获取人眼当前聚焦点，并对聚焦画面进行解析。总之，交互方式仍然缺少一个成熟有效的解决方案。

解决交互的一种方式

另外一个难点在于虚实融合。谷歌前几年推出的 Google Glass 之所以被人诟病，除了其可视范围很小之外，一个重要原因就是并没有实现虚实的融合。实际上，Google Glass 实现的只是将虚拟的物体投影到人眼里，当人视野变化时，这个虚拟物体的投影并不能像真实场景中的物体一样在画面中发生变化。

为了实现好的虚实融合，需要在场景三维信息获取、跟踪、渲染几个方面做大量工作。AR 设备需要获取周围场景的三维信息，通过跟踪获取当前人眼与环境的相对位置关系，并通过渲染将虚拟的物体结合现有场景和人眼的相对关系，场景的光源信息等等真实的渲染出来，使之看上去像场景中一个真实的物体一样。这其中，涉及到的软硬件技术繁多，包括但不限于深度摄像头、双目测距、Visual SLAM、重力加速计、陀螺仪、photo-realistic rendering 等等。

最后一个难点是显示技术。Google Glass 通过一个微型投影仪和反射棱镜实现了最基本的近眼 AR 显示，然而仅仅这样是不够的，最主要的是无法做到精密的调节投影仪的角度，使投影的物体可以在不同深度和位置呈现不同的图像。Hololens 和 Magic Leap 在显示方面分别有其独到之处，下期笔者会分享这两家的部分专利进行解读。

最后给大家附上一张列表，包括了现在涉足 AR 设备的厂家：

深圳湾（微信公众号 ID：shenzhenware）是最早也是最活跃的硬件创新社区和媒体，关注「软件+硬件」带来的场景和交互创新，以及与平台和应用相连的产业链升级。

上一篇：华强北亲历，iPhone 16 GB 改 64 GB 全过程实拍

下一篇：QQ 音乐臻品音质认证 + 杜比全景声加持，Sonos Arc Ultra 打造「硬件×内容×场景」新标杆