Uploads%2farticles%2f11058%2f
|
2016-08-26

Fccebook 开源三款 AI 软件,解决机器视觉「人和物傻傻分不清」的问题

深度学习已成为各大科技巨头竞争激烈的技术阵地,Google、百度、微软等都在图像识别竞技场中展开了角逐。今日,作为人工智能的积极开拓者,Facebook 的人工智能研究实验室(FAIR)开源了三款人工智能图像分割软件,分别为 DeepMask 分割架构、SharpMask 分各模块(SharpMask 目前已遵循 BSD 授权协议在 GitHub上公开源码)、MultiPathNet 代码。

这三款工具能共同完成一个完整的图像分割处理流程:

  • DeepMask 生成初始对象 mask
  • SharpMask 提炼并优化这些 mask
  • MultiPathNet 识别这些 mask 所框定的物体

图像分割技术的作用

图像分割技术不仅能够识别图片和视频中的人物、地点、物体,甚至能够判断它们在图像中的具体位置(精确到像素级别)。

为了实现这一技术,Facebook 使用了人工智能技术——机器学习,用大量的数据训练人工神经网络,以不断提高其对新数据处理判断的准确性。在开源这三款图像分割软件工具之前,Facebook 还曾在 Torch 上开源了一些功能强大的深度学习工具。

让计算机能够像人眼一样识别图中的多种物体

在过去几年时间里,深度卷积神经网络的发展,以及强大的计算架构,使得机器视觉系统的精度进一步得到提升。

而图像识别也经历了图像分类(a)- 物体检测 (b)的过程,Facebook 所研究出的图像分割技术可清楚的分割每一个物体,如(c)图所示

下面来讲一下图像分割技术实现的过程:

对于一张图片而言,人眼可以清楚的区分人、天空、草地、树木等,但机器人不能。为了让机器能「看到」这些物体,一张图片会被编码成数字组,每一个像素点都有一个值代表一个颜色(如下图所示)。但是,现实世界中的物体和场景也会随时随刻发生变化,这进一步加大了机器识别的难度。

深度网络经过了上百万个模板的学习,能够的图像进行分类,回答「是」与「否」的问题,如「图片中是否有羊?」

物体分割

DeepMask 可把图片分割当做一个海量的二进制分类问题。对于图像中重叠的片区,则使用深度网络来回答:「这一片是否含有物体」,以及进一步的问题「该片中的某一像素点,是否为该片中心物体的一部分?」。达到快速分割图像中物体的目的。

现深度网络中更上的层会捕捉到更多的语义概念,如动物的脸和四肢。这些更上一些层的特征被设置在一个相对低的空间分辨率中计算。但这产生了一个掩码预测(mask prediction)的问题:更上的层虽然能捕捉物体大概的形状掩码,但不能精准的抓取物体的边界。

而 SharpMask 则可以对 DeepMask 输出的图像进行提炼,生成高保真、并能精准的勾画物体边界的掩码。就如下图所示的一些案例(其中红色部分为图片中与物体真实物体边界能够完全对齐的预测掩码,也是 DeepMask 所捕捉不到的)。

物体分类

DeepMask 能够区分物体,但不能分辨出它们具体是什么物品,另外,DeepMask 并不非常具有选择性,也可能会生成并不特别相关的图像区域掩码。所以,得进一步缩小相关掩码的选择范围,从而识别出真正的物体。

这还得让深度网络给定一个 DeepMask 生成的掩码,因此,FAIR 专门训练了一个单独的深度网络,用于对掩码的物体类型进行分类。这其中遵循了一个名为 Region-CNN (RCNN)的基本范式,该范式由 FAIR 的一名成员——Ross Girshick 创造。

RCNN 是一种两阶段的程序,在第一阶段,其将注意力集中到的特定的图像区域,在第二阶段,深度网络识别存在的物体。其中,在 RCNN 的第二阶段,FAIR 使用了专用网络架构对掩码进行分类,以提升其性能。

最终,对于图像中背景杂乱、物体尺寸等问题,利用可允许信息沿多条路径穿过网络的 MultiPathNet ,进一步挖掘图像背后的信息。

图像分割技术还有更多的应用

除了社交软件(图像、视频等)外,图像分割技术有着重要意义,例如让计算机自动识别图片中的物体,以提高图片搜索的效率和准确率。失去视觉的人也能通过系统了解图片内容。

目前,FAIR 还在继续改进这项技术算法,在未来,这套图像检测、分割、识别技术还将有可能应用于商务、健康等领域。


Back to top btn