Uploads%2farticles%2f12288%2f0 meitu 9
|
2018-04-27

人工合成数据,让小型创业公司也能在 AI 上大有作为

没有像大公司一样拥有庞大的数据资源,小公司另辟蹊径制作合成数据

众所周知,除了基础支持技术之外,AI 特定能力的形成以及水平高低还与其受训练数据的多少有密切关系。毫无疑问,互联网巨头在这方面有着天然优势,因为他们有足够的资金和资源(尤其是用户数据)。而对于 AI 初创公司而言,他们一来没有足够的数据基础,二来无法为购买数据支付大笔费用。

不过,柏林的一家新创公司 Spil.LY 想出了一个解决办法,即用虚拟合成数据来训练他们的 AI。他们需要用 AI 算法来密切追踪视频中的人体移动,但没有资源来收集需要应用在项目训练的中的数十万个手动标记图像。

Spil.LY 的工程师开始尝试自己制作数据,创建一些标记图像来训练算法。毕竟真实图像和制作出来的虚拟图像还是有些差距的,就单从外观上来讲,我们看起来可能有点怪异,不过在使用上丝毫不逊色于真实图像。

图片来自 Spil.LY

事实上,除了 Spil.LY 之外,还有不少创业公司也在利用人工合成数据来训练他们的算法,又或者做起了合成数据的生意。

比如,以色列的创业公司 DataGen 就花费高达数百万的资金来制作这些合成图像,而且生成的虚拟图像完全可以以假乱真。

因为客户希望能够通过摄像头追踪到家畜的生长情况,爱沙尼亚塔林的创业公司 Neuromation 正在尝试使用模拟猪的图像来当训练素材。

 图片来自Neuromation

当然,使用合成数据不只是创业公司在干的事情,像 Google、苹果、微软这些拥有全球庞大数据量和丰富资金的人工智能团队也都会使用合成数据。

以苹果公司为例,该公司在 2016 年就发布了一篇关于如何生成逼真图像的研究论文,并用以 AI 在对抗的训练来从模拟和无监督图像中学习。在苹果去年发布具备面部识别的和解锁功能的 iPhone X 后,业界猜测这是合成数据成功运用的一个体现,尽管苹果官方没有承认这一点。

又比如,微软在去年发布了关于如何运用 200 万个合成语句,来改进黎巴嫩阿拉伯语方言翻译的结果。Alphabet 的 Waymo 就曾公开过,其自动驾驶系统在的模拟街道上「行驶」了数十亿英里。

即便合成数据被 AI 训练取得了不少的应用成果,但这不并不意味着我们就可以大范围的使用合成数据来代替真实数据了。这好比用克隆人和真人,外表毫无差距,但内心世界是无法复制的。而模拟的合成数据也同样面临这样的问题,这些数据无法很好的理解现实环境并作出自然的反应。尤其是在一些复杂问题处理的应用上,风险难以把控。(题图来自 Spil.LY Facebook)


>>
Back to top btn