Uploads%2farticles%2f15375%2f%e7%99%be%e5%ba%a6%e7%9b%b4%e6%92%ad 0006
|
2021-12-09

全球首个知识增强千亿大模型鹏城-百度·文心发布

百度联合鹏城实验室,推进产业级知识增强

作为当前人工智能发展的重要方向,预训练大模型已成为 AI 领域的技术新高地。

12 月 8 日,百度联合鹏城实验室重磅发布双方共同研发的全球首个知识增强千亿大模型——鹏城-百度·文心(模型版本号:ERNIE 3.0 Titan),该模型参数规模达到 2600 亿,在 60 多项 NLP 任务中取得世界领先效果。

同时,百度产业级知识增强大模型「文心」全景图首次亮相,其中既包含基础通用的大模型,也包含面向重点领域和重点任务的大模型,同时还有丰富工具与平台支撑高效便捷的应用开发。从技术自主创新和加速产业应用两方面,推动中国 AI 发展更进一步。

现场,中国工程院院士、鹏城实验室主任高文,百度首席技术官、深度学习技术及应用国家工程实验室主任王海峰共同启动发布仪式。

image1

△ 中国工程院院士、鹏城实验室主任高文(左),百度首席技术官王海峰联合发布鹏城-百度·文心

百度产业级知识增强大模型

百度文心大模型包含 NLP(自然语言理解)大模型、CV(计算机视觉)大模型和跨模态大模型。在大模型之上,是大模型零门槛 AI 开发平台 EasyDL 和大模型全功能 AI 开发平台 BML。此外,还有大模型开发工具、大模型轻量化工具和大模型部署工具。

而「知识增强」是文心大模型的核心特色。百度知识增强大模型能够从大规模知识和海量无结构数据中融合学习,学习效率更高、效果更好,具有良好的可解释性。

百度知识增强大模型文心具有通用性好、泛化性强的特点,使开发难度更小、标注数据可以更少,降低了AI开发和应用的门槛,满足真实场景中的应用需求。目前,百度文心大模型已广泛应用在金融、医疗、保险、证券、办公、互联网、物流等行业。

鹏城-百度·文心千亿大模型

此次发布的鹏城-百度·文心千亿大模型是全球首个知识增强千亿大模型,也是目前为止全球最大的中文单体预训练语言模型,参数规模达到 2600 亿,相比 GPT-3 的参数量提升 50%。

该模型是融合了自然语言理解和自然语言生成的全能模型,致力于解决传统 AI 模型泛化性差、强依赖昂贵人工标注数据、落地成本高等应用问题,在各类AI应用场景都具备了极强的泛化能力。

image2

△ 鹏城-百度·文心模型结构图

该模型学习了多源异构的大规模数据与知识,通过文心知识增强算法,实现知识与数据融合学习,提升了模型效率。

飞桨端到端自适应分布式框架实现了多硬件支持,使模型并行效率高达 90%。而鹏城实验室自研的算力系统「鹏城云脑 II」为模型提供支持,该算力集群是我国首个国产 E 级 AI 算力平台,吞吐性能国际领先。

目前,该模型已在机器阅读理解、文本分类、语义相似度计算等 60 多项 NLP 任务中取得世界领先效果。

在行业领域,仅利用少量标注数据甚至无需标注数据,就能解决新场景的任务已成为 AI 工业化大规模应用的关键。该模型在 30 余项小样本和零样本任务上均取得了世界领先成绩,能够实现各类 AI 应用场景效果的提升,也为产业化规模应用打开了新窗口。

2-%E9%B9%8F%E5%9F%8E-%E7%99%BE%E5%BA%A6%C2%B7%E6%96%87%E5%BF%83%E5%B0%8F%E6%A0%B7%E6%9C%AC%E5%AD%A6%E4%B9%A0%E6%95%88%E6%9E%9C

△ 鹏城-百度·文心小样本学习效果

3-%E9%B9%8F%E5%9F%8E-%E7%99%BE%E5%BA%A6%C2%B7%E6%96%87%E5%BF%83%E9%9B%B6%E6%A0%B7%E6%9C%AC%E5%AD%A6%E4%B9%A0%E6%95%88%E6%9E%9C

△ 鹏城-百度·文心零样本学习效果

飞桨助力助力模型训练创新

飞桨是我国首个自研的深度学习开源开放平台,在训练技术层面有诸多创新,它创新采用了 4D 混合并行训练,以及端到端自适应分布式训练框架。

基于这一架构,鹏城-百度·文心的训练性能是传统分布式训练方法 2.1 倍,并行效率高达 90%。这是世界上为数不多的超大规模模型训练框架。

为了进一步提高训练的稳定性和资源利用率,飞桨还提供弹性调度模块,能感知硬件资源变化,如故障、扩容、缩容,来自动重新构建资源视图,并触发飞桨框架的各个模块来自动的做出反应,如模型切分、硬件映射、流水执行,在不中断训练的情况下,弹性调度集群可用资源,来进一步提升训练的性能。

目前,百度文心通过百度飞桨平台陆续对外开源开放,并已大规模应用于百度搜索、信息流、智能音箱等互联网产品,同时通过百度智能云赋能工业、能源、金融、通信、媒体、教育等各行各业。

在金融领域,基于百度文心实现了合同智能解析,能够在一分钟内完成对相关合同条款文本的解析识别,速度是之前的几十倍,大大提升了工作效率。百度智能云的智能客服也基于百度文心提升了服务的精准性,目前已经在中国联通、浦发银行等企业应用,拓展到全国各地。

从 AI 核心技术到 AI 基础平台,从技术创新到实践落地再到开放生态,多年来,以百度为代表的中国 AI 企业坚持自主创新、开源开放,加强产学研协合作,不断降低 AI 技术开发和应用的门槛,为各行各业提供高质量发展新动能。

延伸阅读:


编辑:周森 / 深圳湾

>>
Back to top btn