Uploads%2farticles%2f12815%2fwx2018112l1 114530
|
2018-11-21

云知声 AI 全栈能力再获突破,人脸识别能力高分通过 LFW 和 MegaFace 评测

日前,人工智能企业云知声宣布,其 AI 「全栈」能力再次取得重大突破,在国际权威的人脸识别标准评测数据库 LFW 和 MegaFace 上,云知声团队研发的人脸识别 UFaceID 算法系统性能分别达到 99.80%和 98.47%。

LFW 和 MegaFace 均为人脸识别领域重要的评测数据集。前者是人脸识别研究领域最重要的人脸图像测评集合之一,后者为目前最具权威的、热门的评价人脸识别性能的数据集之一。LFW 是针对早期人脸验证任务提出评测方法与指标,结果有借鉴意义,但已不代表目前的最难问题。MegaFace 提出的关于百万级别的 1:N 人脸辨识任务的评测指标,难度更大,是目前学术界测评的新主流。尽管两个数据集都存在高分数与实际应用需求间的矛盾,但由评测过程中催生出来的新方法,无疑极大的推动了人脸识别技术的长足进步。

云知声很早就开始布局建设 GPU/CPU 异构计算平台和分布式文件存储系统,该计算集群能够为智能计算提供高性能计算和海量数据的存储访问能力。在该计算集群的基础上,云知声建设了 Atlas 机器学习计算平台。

该平台以 GPU 和 CPU 为计算集群的基础硬件资源,针对智能计算的需求和任务特点,使用云知声内部改进的 Kubernetes 作为资源管理和调度系统,通过计算任务容器化和图形化的任务交互,最大化的简化算法研究人员提交计算任务的复杂度,实现计算任务的全流程管理和一键式分布式运行。同时,针对智能计算对海量真实应用场景数据的访问特点, Atlas 智能计算平台构建具备 PB 量级的高 IO 和高可靠的分布式存储系统。

云知声表示,到 2019 年,Atlas 计算平台将具备 1000+ 的 GPU 计算资源和超过一亿亿次每秒的浮点计算能力,为在人工智能新领域的拓展奠定了强大的计算能力基础。

此外,在 Atlas 智能计算平台基础上,云知声还研发了 UniFlow 计算框架,以支持更加高效地实现算法模块共享和高效运行。UniFlow 计算框架支持 DNN、CNN、RNN/LSTM、seq2seq 等丰富的机器学习和深度学习算法模块,支持 TensorFlow 、 PyTorch 、Caffe 等主流计算框架以及用户自定义算法,同时,优化分布式任务的计算和通信逻辑,计算效率提升 50% 以上。同时,云知声表示,在下一代的 UniFlow 中,还将集成自动调参和模型压缩模块,实现全流程托管式自动调参,能够为不同场景下的 AI 数据处理、算法演进提供高效的计算支撑。

基于 Atlas 计算平台和 UniFlow 计算框架,云知声实现在统一计算框架体系下的计算高效率和算法高产出,通过协同利用 AI 底层研发的技术成果,进而实现在人工智能的多个应用领域的快速拓展,从语音识别(ASR)、语义理解(NLU) 到机器翻译(NMT)、计算机视觉(CV)等新的人工智能技术领域。

值得一提的是,在今年 5 月份的 WMT 2018 国际机器翻译大赛中英翻译比赛中,云知声 NMT 机器翻译团队首战即斩获英中第二、中英第四,综合第三(BLEU 关键评分仅次于第二名 0.1)的成绩。结合此次在计算机视觉领域的佳绩,又一次证明了 Atlas 计算平台在云知声探索多模态 AI 技术能力过程中的价值。

云知声 CEO 黄伟指出,「在 LFW 和 MegaFace 评测数据集上的初露锋芒,检验了云知声在计算机视觉研究方面的新进展,也更加坚定了我们发展多模态 AI 能力的信心。但是,从另一方面来看,技术的最终目的是落地,由单纯算法所驱动的技术差距实际上正在变得越来越小,如何将技术落地到场景才是所有的 AI 公司应该关心和考虑的。」

目前,云知声领先的语音技术已在包括家居、车载、医疗、教育、金融、零售等多个领域实现落地。与此同时,在汽车行业,云知声已与吉利汽车达成合作,共同研发融合语音、计算机视觉等技术的车规级前装 AI 芯片。可以想象的是,伴随着计算机视觉技术的成熟,智能语音与计算机视觉技术的深入结合,将进一步丰富云知声 AI 产品与服务的形态,也将有效提升用户的使用体验。

Back to top btn