Uploads%2farticles%2f16393%2fgoogle keynote  google i o  24  xezrz35urlk 0001
|
2024-05-15

Gemini 阵容扩大,生成式 AI 能力更强,搜索重置更新,多模态 AI 助理看点多

Google I/O 开幕演讲回顾:整体来看惊喜不多,基础建设稳扎稳打

谷歌 CEO 桑达尔·皮查伊为刚刚结束的 Google I/O 开幕演讲做了总结:

一个半小时的主题演讲,120 次提及「AI」。不,是 121 次,刚刚我又说了一次,我甚至还想多说几次,让这个数字再扩大一些……
Google_Keynote_(Google_I%E2%A7%B8O_%E2%80%9824)-XEzRZ35urlk-0015

甚至为了给 AI 让路,Google Pixel 8a 在 I/O 大会前就开启预售。而以往的重头戏 Android 部分的解说,直接和谷歌大模型 Gemini 绑定,变成以 AI 为内核的操作系统。

继上次 Sora 截胡 Gemini 1.5 之后,OpenAI 故伎重演,在 Google I/O 开幕前一天甩出了 GPT-4o,免费升级让整个科技互联网狂喜。

> 延伸阅读:OpenAI 热辣滚烫,Google 红毯先生,春节档创纪录

Gemini 不甘示弱,更新了多项大模型和工具,发布了诸多新功能。在生成式 AI 方面,谷歌还展示了与 OpenAI 分庭抗争的文生图、文生视频的新能力。

此外,新的融合了多模态 AI 能力的语音助手 Project Astra 也有很多看点。

Gemini 1.5 Pro 新增 200 万 tokens 参数

去年 12 月,Gemini 首次亮相,并发布了 Gemini 1.0 版本。

今年 2 月,Gemini 1.5 Pro 正式发布,具有 100 万 tokens 参数、长上下文处理能力、多模态交互能力。

会上桑达尔·皮查伊公布了一组数据,目前有超过 150 万开发者使用 Gemini 模型,Gemini 也已进驻至 Android、iOS 系统。

Google_Keynote_(Google_I%E2%A7%B8O_%E2%80%9824)-XEzRZ35urlk-0004

随着使用量的增加,需求也发生着巨大的变化,比如用图片提问,现在已经变得越来越常见。此次 Gemini 家族的诸多更新,即是为了响应用户需求。

首先迎来的是 Gemini 1.5 Pro 的功能改进,在翻译、推理、编码等关键用例上做了优化,能够胜任更复杂的任务处理。

Google_%E2%80%93_Welcome_to_the_Gemini_era-_fuimO6ErKI-0001

新版本 Gemini 1.5 Pro 除了 100 万 tokens 参数外,还新增了 200 万 tokens 选项,语言种类也扩展至 36 种。

Google_Keynote_(Google_I%E2%A7%B8O_%E2%80%9824)-XEzRZ35urlk-0011

基于新版本 Gemini 1.5 Pro 更新的 Gemini Advanced 能够处理多个大型文档,总计 1500 页,或梳理 100 封电子邮件。

Google_Keynote_(Google_I%E2%A7%B8O_%E2%80%9824)-XEzRZ35urlk-0013

未来 Gemini 1.5 Pro 还将继续扩大适用范围,预计将向全球 200 多个国家和地区提供使用。

轻量级模型 Gemini 1.5 Flash,主打短频快

Gemini 1.5 Flash 是 Google 发布的一款新的轻量级模型,主要用于处理高频、简单任务,具备快速响应能力。

Flash_Utility

和 Gemini 1.5 Pro 一样,具有 100 万 tokens 参数,以及支持文本、图像、语音、视频等多模态交互能力。

端侧模型 Gemini nano,与 Android 底层系统集成

Gemini nano 是一款端侧轻量级大模型,将集成在 Android 底层系统,作为一项能力向设备提供,首先是自家的 Pixel 手机。

Google_Keynote_(Google_I%E2%A7%B8O_%E2%80%9824)-XEzRZ35urlk-0040

Gemini nano 能支持语音理解、图像识别,以及将消息、邮件和文档,提炼合成简洁、可读的摘要内容。

具体用例方面,Gemini nano 可以读懂手机界面上的信息、提炼 PDF 等文档关键信息,并支持语音问答。

Google_Keynote_(Google_I%E2%A7%B8O_%E2%80%9824)-XEzRZ35urlk-0041

另外,Gemini nano 还能根据陌生电话涉及的索要身份信息、银行账号等敏感词汇,识别诈骗电话。

Google_Keynote_(Google_I%E2%A7%B8O_%E2%80%9824)-XEzRZ35urlk-0042
Google_Keynote_(Google_I%E2%A7%B8O_%E2%80%9824)-XEzRZ35urlk-0043

开源模型 Gamma 2,性能是同尺寸模型 2 倍,计划今年 6 月发布

会上,谷歌还预告了开源模型 Gamma 2 的发布时间,如果一切进展顺利,6 月即会推出。

据悉 Gamma 2 具备 270 亿训练参数,性能表现是同尺寸模型的 2 倍,并可在 GPU 或 Vertex AI 中的单个 TPU 主机上运行。

Google_Keynote_(Google_I%E2%A7%B8O_%E2%80%9824)-XEzRZ35urlk-0048

而当前的 Gamma 则新增了 PaliGemma 视觉语言模型,并针对图像字幕视觉问答和其他图像标签任务进行了优化。

Google_Keynote_(Google_I%E2%A7%B8O_%E2%80%9824)-XEzRZ35urlk-0049

文生图模型 imagen 3,主打高清图像

文生图模型 Imagen 升级至 Imagen 3 版本,主要改进了图像质量。

Google_Keynote_(Google_I%E2%A7%B8O_%E2%80%9824)-XEzRZ35urlk-0021

Imagen 3 模型带来了更具细节特征的图片,如动物的胡须、人的头发,丝毫毕现。

同时,去除了图像中常见的伪影、杂质,使得图片更加逼真。

文生视频模型 Veo,60 秒 1080P 的短视频,很快会有消费者版本

Veo 以 Google 多年生成式视频模型为基础构建,包括 GQN、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet、Lumiere,能够理解文本内容,输出高质量、高分辨率的视频。

Google_Keynote_(Google_I%E2%A7%B8O_%E2%80%9824)-XEzRZ35urlk-0023

Veo 可以生成 1 分钟时长 1080P 分辨率的短视频,并能理解文本中的「延时拍摄、航拍」镜头拍摄风格。

1-Filmmaking with Donald Glover and his creative studio, Gilga | Veo-dKAVFLB75xs
2-Filmmaking with Donald Glover and his creative studio, Gilga | Veo-dKAVFLB75xs
Filmmaking with Donald Glover and his creative studio, Gilga | Veo-dKAVFLB75xs
Filmmaking with Donald Glover and his creative studio, Gilga | Veo-dKAVFLB75xs
Filmmaking with Donald Glover and his creative studio, Gilga | Veo-dKAVFLB75xs
3-Filmmaking with Donald Glover and his creative studio, Gilga | Veo-dKAVFLB75xs

谷歌表示,目前正在邀请电影制片人和创作者测试 Veo,以打磨出适用于消费者的版本。

生成式音乐工具 Music AI Sandbox

Music AI Sandbox 基于生成式音乐模型 Lyria,并与 YouTube、音乐家、创作者联合打造。

利用 AI,音乐人可以在音乐中添加新的音乐元素、乐器声,以生成全新的音乐曲目。

Google_Keynote_(Google_I%E2%A7%B8O_%E2%80%9824)-XEzRZ35urlk-0022

AI 重构搜索:全新 Overviews 亮相,视频搜索在路上

以搜索见长的谷歌,这次索性用 AI 将搜索引擎折腾了个遍。

搜索引擎将支持语音、图片、圈选,甚至是视频搜索,给出的结果也将是多维度、极丰富的,谷歌称这种新的呈现方式「Overviews 概览」。

overviews

如简单问题提问,搜索引擎可以给出带有观点性、内容性的不同内容回复。

对于复杂问题,AI 会将复杂问题分解为小问题,并按照顺序,逐步呈现。

例如,当提出:我想报一个离我家较近、价格适中的瑜伽班?

搜索引擎就会基于需求,从海量的真实商家信息中,抽离出符合需求的课程。不仅如此,「Overviews 概览」界面还会给出地图、商户的评价,甚至是瑜伽练习的要领提示等信息。

Google_Keynote_(Google_I%E2%A7%B8O_%E2%80%9824)-XEzRZ35urlk-0026

再比如,对于我们日常较为苦恼的饮食安排,你也可以在搜索引擎中直接提出:帮我安排为期七天的饮食菜谱,而即刻获得包含图片、文字、做法的搜索内容。

Search_in_the_Gemini_era_%EF%BD%9C_Google_I%E2%A7%B8O_2024-s4InWsd-J6g

此外,谷歌还预告了「视频搜索」功能。

会上透过一段用户拍摄的唱片机摇臂安装问题发起搜索。AI 通过对视频逐帧分析后,一份包含唱片机厂商、型号,安装方式等内容的「Overviews 概览」即出现在眼前。

Workspace 获 Gemini 1.5 加持,主打一个高效、协同办公

谷歌办公应用 Workspace 的更新,倒是有些看点。

Gmail、文档、幻灯片、表格的侧面板中的 Gemini 将升级至全新的 Gemini 1.5 Pro,通过上下文窗口和更高级的推理,提供服务。

Google_Keynote_(Google_I%E2%A7%B8O_%E2%80%9824)-XEzRZ35urlk-0029

如在 Gmail 中,Gemini 可以对多封邮件,进行关键信息提炼,形成一份待办事项清单。

这当中谷歌列举了两个有趣的例子:

其中之一,丈夫发给妻子希望修缮屋顶的邮件。妻子利用 Gemini 在众多供应商回应邮件中,快速寻找到合适价格、合理工期的供应商。并且 Gemini 还具体问题,生成了自动回复,这着实让妻子大为满意。

Google_Keynote_(Google_I%E2%A7%B8O_%E2%80%9824)-XEzRZ35urlk-0031

而另一个例子,是一个自由摄影工作者,在繁忙的工作中,收到各种出差时的差旅单据时,通过 Gemini 将单据快速生成条目清晰的表格。

另这位摄影工作者欣喜的是,Gemini 还能一键设置命令,Gmail 中所有同类单据都并入至一份表格,而可统一管理。

Google_Keynote_(Google_I%E2%A7%B8O_%E2%80%9824)-XEzRZ35urlk-0032
Google_Keynote_(Google_I%E2%A7%B8O_%E2%80%9824)-XEzRZ35urlk-0033

另外,针对职场常见的拉群工作沟通,谷歌还打造了一个由 AI 驱动的工作助理。

工作助理是一个虚拟同事,你甚至可以给它起名。

在群组内,它可以学习群内聊天内容、项目背景信息,慢慢进化到对项目了如指掌的状态。

Google_Keynote_(Google_I%E2%A7%B8O_%E2%80%9824)-XEzRZ35urlk-0034

演示视频中,工作人员向其发问:咱们的项目能如期上线吗?

工作助理基于所掌握的信息,瞬间列明项目进度、待解决的重要事项,并且将任务发送给所负责的同事。

活脱脱一个项目经理啊!

Gemini 手机版 App 上新,多模态入口设计,可创作多角色聊天机器人

经过全新设计的 Gemini APP,直接以语音、图片、视频为输入口,并能访问 Gemini 最新的版本。

Google_Keynote_(Google_I%E2%A7%B8O_%E2%80%9824)-XEzRZ35urlk-0038

谷歌表示,Gemini APP 的愿景是成为最有用的个人 AI 助理。

基于此,Gemini APP 还提供支持创建 Gems 个性化聊天机器人,可让用户与不同角色的机器人对话。

会上 Google 就列举了如瑜伽搭子、大厨、编码伙伴等角色形象。

第六代 TPU Trillium 低调发布,性能提升 4.7 倍

作为 Gemini 等大模型背后的硬件支柱,第六代 TPU Trillium 在会上也仅作为配角低调发布。

Google_Keynote_(Google_I%E2%A7%B8O_%E2%80%9824)-XEzRZ35urlk-0051

就性能而言,Trillium 还算够强大。会上谷歌表示,相比 TPU v5e,Trillium 每个芯片峰值计算性能提高了 4.7 倍,能效高出 67%。

其中 Trillium 还配备了第三代 SparseCore,一款处理超大嵌入的专用加速器。同时,Trillium TPU 可以更快速训练下一代基础模型,并以比较短的延迟时间及低成本提供模型服务。

智能助理 Project Astra 和 AR 眼镜

Project Astra 是谷歌最新的实时多模态 AI 助理。

会上,演示者手持 Pixel 手机,演示了 Astra 与各种事务的多模态交互能力。

Project_Astra:_Our_vision_for_the_future_of_AI_assistants-nXVvvRhiGjI

与 Pixel 手机先后出现的,还有首次亮相的一款新 AR 眼镜。

有关这部分的详细解读,参考今天推送的第二篇。


主笔:达达 / 深圳湾

审校:周森 / 深圳湾

编辑:陈述 / 深圳湾

>>
Back to top btn