Uploads%2farticles%2f12505%2f1
|
2018-07-04

百度大脑 3.0 亮相开发者大会,首提「多模态深度语义理解」

愿与开发者共同改变世界。

7 月 4 日,在「百度 AI 开发者大会」(Baidu Create 2018)现场,百度高级副总裁、AI 技术平台体系总负责人王海峰发布了百度大脑 3.0。

百度大脑 3.0:首提「多模态深度语义理解」

「百度大脑」于 2016 年 9 月被正式发布,到现在已从 1.0 进阶到了 3.0。王海峰介绍,百度大脑 1.0 完成基础能力搭建和核心技术初步开放;2.0 则形成了完整的技术体系,开放 60 多项 AI 核心能力;而 3.0 的核心是「多模态深度语义理解」,与此同时还开放 110 多项 AI 能力。

「多模态深度语义理解」是指对文字、声音、图片、视频等多模态的数据和信息进行深层次多维度的语义理解,包括数据语义、知识语义、视觉语义、语音语义一体化和自然语言语义等多方面的语义理解技术。它不仅能让机器听清、看清,更能深入理解背后的含义,深度地理解真实世界,进而更好地支撑各种应用。

除了大数据、深度学习等数据语义技术,在知识语义方面,百度也已经构建了包含数亿实体、数千亿级事实的庞大知识图谱,包括基础的由实体、属性、关系构成的实体图谱,以及针对不同的应用场景和知识形态构建的关注点图谱、事件图谱、多媒体图谱、行业知识图谱等多种图谱——所有这些知识图谱,构成了百度大脑的基础。

视觉语义化层面,针对实际生活的超市购物场景,百度的视觉语义化技术通过识别人物、动作、物品并关联时间序列,将数字化的视频转化为结构化的语义知识,既能实现顾客在无人超市购物的完整体验,也能帮助商店经营者分析和优化商店经营。

语音语义一体化和自然语言语义方面,百度高噪声环境 Hand-free 语音识别准确率已提升了 10 个百分点,语音语义一体化技术使得远场语音识别准确率提升了 10 个百分点;而 WaveNet+ 拼接的情感语音合成技术,则使得语音合成流畅度和自然度也大幅提升。

针对百度自然语言理解技术,王海峰现场还以对话理解和阅读理解为例进行了详细介绍:「百度的对话理解技术已经积累多年,通过研发最新的深层注意力匹配模型,比已知的最好结果又提升了 4.1 %;在阅读理解技术上,百度大脑已经阅读了千亿量级的文章,相当于 6 万个中国国家图书馆的藏书,并由此积累了亿级实体、千亿级事实的知识。」

从芯片到深度学习框架:技术、平台和生态的 AI 全栈技术布局

百度大脑 3.0 提出的「多模态深度语义理解」,以 PaddlePaddle 作为其技术突破背后的基础。

王海峰在发布会现场,也正式公布了百度完全自主研发的深度学习框架 PaddlePaddle 3.0,包括完整的核心框架,以及 AI Studio、AutoDL、EasyDL 等平台

PaddlePaddle3.0 核心框架对服务器版本以及移动端版本进行了全面优化,可以灵活适用于更广泛的开发需求。而三大平台的发布则可让开发者可以更平等便捷地获取 AI 能力: AutoDL 能更高效自动搜索神经网络结构,开发者无需特殊硬件设备就可以快速得到高质量模型;EasyDL 可以帮助算法、深度学习零基础的开发者训练业务定制模型,将操作可视化;AI studio 具有云端集成、简单易用、运行高效和资源免费的特点,是集成「数据、算法、算力」的 PaddlePaddle 实训平台,一站式满足使用者学习、技术进阶、学术研究需求。

此外,百度大脑 3.0 首次将「昆仑」芯片纳入技术体系,它使百度大脑具备了更完备的软硬一体化能力,带动百度大脑算力爆发式增长。王海峰表示,AI 芯片将与百度自主研发的 PaddlePaddle 深度学习框架深度结合,推动 AI 行业生态快速发展。

全面开放:任何人都能平等便捷地获取 AI 能力

百度大脑由于持续不断地开放,现在每天调用次数超过 4 千亿次——调用的人中既有 AI 工程师,也有零 AI 基础的初入门者,以及来自各行各业希望用 AI 创新业务、为业务转型升级的企业。

王海峰用「授人以鱼不如授人以渔。我们研发最顶尖的 AI 技术,我们也致力于开放最顶尖的 AI 技术」再次表明百度愿与开发者共同改变世界的信念。

截止目前,百度已对外开放 110 多项领先的 AI 场景化能力与解决方案,并通过开放 EasyDL 等定制化平台、软硬一体的 AI 能力,持续降低 AI 应用门槛,帮助开发者和企业应用 AI 实现业务创新与升级。

李彦宏表示:「我们希望,今天,无论你在哪里,无论你是谁,都能够通过百度平等便捷地获得 AI 能力。」


>>
Back to top btn