助力 AI 产业落地,云知声展示全栈 AI 硬核技术
云知声展示全栈 AI 硬核能力,让机器更好地服务人类
全栈指的是全栈技术能力和落地能力,将技术创新贯穿到产业应用中,打造价值闭环;而硬核技术方案能够高效率地解决产业规模化痛点
4 月 18 日,云知声 AI 技术开放日(Open Day)深圳站期间,云知声董事长/CTO 梁家恩博士向深圳的合作伙伴和开发者讲解了云知声全栈 AI 技术图谱和产业能力。梁家恩博士强调,「AI 不是刷榜炫技,而是要真正解决产业实际问题。」AI 技术只有与产业结合起来,解决产业问题,才有可能发挥其最大的价值。
创立 7 年,云知声立足产业需求,逐步形成了自己的 AI 哲学。梁家恩博士将其总结为全栈+硬核,「全栈让我们关注用户价值和应用问题,硬核帮助我们破解产业难题。」其中,全栈指的是全栈技术能力和落地能力,将技术创新贯穿到产业应用中,打造价值闭环;而硬核技术方案能够高效率地解决产业规模化痛点。
全栈 AI 能力,贯通技术创新到产业应用的价值闭环
「全栈」包含了全栈 AI 技术能力和全栈 AI 落地能力两个维度。
从技术的角度看,云知声很早就搭建了 Atlas 机器学习计算平台,该平台具备超强的 GPU 计算资源和浮点计算能力,为在人工智能新领域的拓展奠定了强大的计算能力基础。Atlas 平台向上支撑起信号(AEC/SSP/ISP)、语音(ASR/TTS/VPR/CALL)、语言与认知(NLU/NMT/SDS/ICI)、图像(FID/OD/OCR)等多技术领域的横向扩展和纵向迭代。基于此,云知声硬核 AI 技术图谱具备了完整感知、表达、认知与计算能力。
在完成了全栈技术搭建之后,云知声将能力封装到自研芯片中,打造「云端芯」一体化产品体系,为产业提供面向具体场景的软硬件一体化 Turnkey 解决方案,可让行业用户站在更高的设计起点、以更低的成本,在更短的时间周期内打造出更稳定可靠的产品,继而贯通云知声从 AI 技术到产业应用的生态闭环。
硬核 AI 技术,破解产业规模化应用难题
立足产业需求,云知声对其 AI 硬核技术进行优化和提升,使其能够有效解决行业规模化应用中的难题。截止到目前,云知声的硬核 AI 技术覆盖了语音感知与表达、语言与知识计算、AIoT 芯片落地,以及超算平台与图像、翻译拓展等多个维度。
硬核技术 1:语音感知与表达
语音感知和表达是人机交互的基础。在感知层,需要赋予机器感知并语音指令的能力,让设备能够听得清、听得到。在远场拾音阶段,云知声 AI Labs 技术专家关海欣表示,目前,云知声在回声消除、混响抑制、噪声处理等方向均已有成熟的技术方案,相关技术指标均达行业一流水准。在语音识别阶段,云知声基于大数据、声学建模、自适应学习搭建了声学模型,并有一个数据规模大、融合能力强、灵活和个性化的语言模型,以上模型在还将基于超算平台不断优化迭代。在表达层,云知声通过「算法+数据+工程」三位一体的方式,输出高质量、个性化的语音合成能力。
硬核技术 2:语言与知识计算
认知能力是机器智能的核心,只有解决了认知问题,设备才有可能解决、满足用户的需求。从公司创立之初,云知声便开始布局语言与知识计算;2013 年,云知声面开放了对话技能开放平台(语义云),帮助合作伙伴打造更加自然的人机交互体验;2018 年,云知声形成了完整的技术和应用体系,实现了家、车载、智能儿童机器人等场景的智能交互,和医疗、教育、酒店等场景的行业智能。
云知声的人机对话系统具备流式交互、语用计算与知性会话 3 大硬核能力。云知声 AI Labs 技术专家单波介绍到,流式交互最大的特点是在多轮对话免唤醒,大大的提升了人机对话过程中的流畅程度;语用计算则是将人机对话内容放置到对应的语境中,让设备准确的理解人的意图;最后,知性会话则是通过将知识图谱应用到人机对话过程中,让设备灵活响应用户的问题。
硬核技术 3:AIoT 芯片落地
要将 AI 技术落地,让技术真正惠及行业,仅仅打包云端算法能力是不够的,必须将语音交互和 AI 技术硬件化,通过芯片、模组的方式配合厂商快速推出智能产品。
2014 年开始,云知声确立了「云端芯」战略,随后发布了物联网 AI 硬件芯片方案(IVM)。2015 年云知声正式启动自研 AI 芯片计划。2018 年,云知声推出第一代 UniOne 物联网 AI 芯片「雨燕」,并将基于雨燕的解决方案进行开源。在此基础上,云知声推出智能家居、智能音箱的两套标杆解决方案。
2019 年 1 月,云知声重磅发布多模态 AI 芯片战略,同时宣布推出 3 款全新芯片:第二代物联网语音 AI 芯片雨燕 Lite、面向智慧城市的支持图像与语音计算的多模态 AI 芯片海豚(Dolphin),以及面向智慧出行的车规级多模态 AI 芯片雪豹(Leopard)。基于这一些 AI 芯片,云知声不断拓展技术与场景生态,实现产业赋能。
硬核技术 4:超算平台与图像、翻译拓展
超算平台是 AI 技术自我优化、进行横向扩展和纵向迭代的重要基础。早在 2013 年,云知声便开始建设被誉为云知声版「TensorFlow+GKE(GoogleKubernetesEngine)」的 Atlas 机器学习智能计算平台,把统计学习和深度学习里面的一些通用算法抽样出来。该平台以 GPU 和 CPU 为计算集群的基础硬件资源,针对智能计算的需求和任务特点,使用云知声内部改进的 Kubernetes 作为资源管理和调度系统,通过计算任务容器化和图形化的任务交互,最大化的简化算法研究人员提交计算任务的复杂度,实现计算任务的全流程管理和一键式分布式运行。同时,针对智能计算对海量真实应用场景数据的访问特点, Atlas 智能计算平台构建具备 PB 量级的高 IO 和高可靠的分布式存储系统。
去年 5 月份的 WMT 2018 国际机器翻译大赛中英翻译比赛中,云知声 NMT 机器翻译团队首战即斩获英中第二、中英第四,综合第三(BLEU 关键评分仅次于第二名 0.1)的成绩。这些成绩都是 Atlas 计算平台为云知声探索多模态 AI 技术能力过程中带来的重要价值。
立足产业,让机器更好地服务人类
在迈进 2019 年之后,AIoT 产业还将面临诸多变革,其中,既有面向大众用户的智能交互需求,也有面向特定领域的行业智能需求。
在智能人机交互过程中,新数据维度(图像、语音、视频、VR/AR等)出现带来数据传输的复杂度及对数据实时性处理的要求,需要更全面的运算能力,多模态 AI 技术能力建设成为关键。而面向行业场景,将知识图谱与大数据结合,构建行业知识图谱,打造可迁移的行业智能系统,方可解决行业智能化实际问题。
未来,在全栈能力与硬核科技双轮驱动下,云知声将继续定位需求与问题,致力于打通技术创新到产业应用的闭环,解决产业规模化应用的关键问题。