Google I/O 2024：10个你需要知道的新进展

URL

type

status

date

slug

summary

1. Gemini 系列

Gemini 1.5 Pro：百万级上下文令牌时代

Gemini 1.5 Pro 支持多达100万个上下文令牌，显著提升了翻译、编码和推理能力。现在，它通过Gemini Advanced向全球开发者和消费者开放，支持35种语言。目前已登陆 Google AI Studio，向所有开发者开放使用。

同时，Google还推出了Gemini 1.5 Pro超大杯200万令牌上下文窗口的私人预览，这将使其能够处理 2 小时的视频、22 小时的音频、超过 60,000 行代码或超过 140 万个单词，是目前 Claude 3 上下文长度的两倍。未来更多可能性正等待探索。

Gemini 1.5 Flash：低延迟高效率的轻量模型

双子座1.5闪存是一个为低延迟和成本优化的轻量模型，现已在AI Studio和Vertex AI中提供。它专为高容量、高频任务而设计，适用于摘要、聊天应用、图像和视频字幕及数据提取等场景。Gemini 1.5 Flash 的价格定为每 100 万 tokens 35 美分，这比 GPT-4o 的每 100 万 tokens 5 美元的价格要便宜得多。

多模态与长上下文：全面集成，多元输出

Gemini 的多模态能力将各种输入类型无缝集成，提供全面的输出，适用于处理大量文本、音频、视频和代码存储库。

Gemini Advanced Updates：智能语音互动与个性化定制

Gemini Advanced 中的 Gemini 1.5 Pro 可处理多达 100 万个令牌，能理解多个大型文档或总结100封电子邮件。全新的 Gemini Live 允许用户通过语音与Gemini进行自然互动。对于 Gemini 的订阅用户，用户还可以创建名为 Gems 的定制版本，创建不同种类的 Chatbot，类似于在 Character.AI 中制作机器人，该服务允许用户与流行角色和名人的 AI 版本或甚至 AI 医生交谈。谷歌表示，用户可以将 Gemini 变成健身伙伴、厨师、编程伙伴、创意写作指南或能想到的任何东西。

2. AI Overviews智能搜索体验重构

这次几乎完全用AI重构了谷歌搜索的产品形态，在搜索框下，会出现一个为你量身定做的AI总结，提供智能且上下文感知的搜索体验。AI概述扩展了快速解答、规划和研究能力，支持多步推理和复杂查询。新功能包括膳食、旅行等规划，以及AI组织的结果页面，帮助用户更好地头脑风暴和探索想法。本周将向美国用户提供新搜索功能，在年底推广到更多国家，该功能面向全平台推出，从 Web 网页、App 到 Android 设备。

这次AI Overview即将发布的另一个重磅功能，就是多步骤推理。

它能将用户输入的一个复杂问题分解成多部分，确定需要解决哪些问题，以及用什么顺序解决。因此，以前可能要花几分钟甚至几个小时的研究，现在几秒钟内就可以完成！因为它将十个问题合而为一。

而且，我们还可以用视频去搜索了！比如，该怎么修这个唱片机？现在，直接拍一个视频丢给谷歌，然后直接开口问：它的这个毛病是什么原因？

3. Google Workspace AI全面接入全家桶

Gemini 1.5 Pro 现已在Gmail、Docs、Drive、Slides和Sheets中提供，增强了推理和总结功能。Gmail移动应用的新功能包括总结邮件、上下文智能回复和Gmail问答。

4. AI Agents 与 Project Astra智能助手

Google正开发AI Agents来执行复杂任务，Gemini可以发挥自己的「多步推理」能力包揽这些任务，把你需要的信息一次性提供给你！如管理购物退货或组织个人信息。

Project Astra 致力于构建一个在日常生活中真正有用的未来AI助手，能够通过摄像头识别物体、代码和各种东西，目标是开发具有实时对话和多模式理解的通用AI助手。官方介绍，Astra 使用了 Gemini Ultra 的高级版本。在演示中，用户可以佩戴谷歌的智能眼镜可以与 Astra 进行交互，这也被视为一个重启谷歌智能眼镜的机会。

测试者走到白板前，看向一个「服务器」的构建示意图，然后问道，「我应该怎样做能使这个系统更快」？ Gemini表示，「在服务器和数据库之间，添加缓存可以提高速度」。

5. 视频、图像与音乐生成新工具：创造力无限

Veo 这次谷歌发布的视频模型Veo，可以看作是对OpenAI Sora的正面迎战了。通过Veo工具让用户根据文本提示创建视频，能够根据提示词生成 60 秒时长的 1080P 的视频片段，可以捕捉不同的视觉和电影风格，包括风景镜头、延时摄影灯。Veo 接受了大量的镜头训练。这也是当下大模型的训练方式：提供一个又一个的数据示例，模型就会在数据中找到模式，使它们能够生成新数据——对 Veo 来说数据就是视频。官方人员承认有些数据来自 YouTube。像 Sora 一样，Veo 对物理有一定的理解——比如流体动力学和重力等，这些有助于它生成更具真实感的视频。

Veo 还支持对视频的特定区域进行遮罩编辑，并可以从静态图像生成视频，类似于 Stability AI 的 Stable Video 等生成模型。最引人注目的是，给定一系列共同讲述一个故事的提示，Veo 可以生成更长的视频——超过一分钟长度的视频。

ImageFX 更新了图像编辑控件，并集成了Imagen 3以生成高质量图像。DeepMind 负责人 Demis 声称，与 Imagen 2 相比，Imagen 3 能够更准确理解图像的文本提示词，并且生成的图片更具创造性和细节。

MusicFX 新增了DJ模式，允许用户混合节拍并创作音乐，所有生成内容均带有SynthID数字水印。

Ask Photos 由 Gemini 模型提供支持的 Google 相册中的新功能允许用户使用自然语言查询搜索他们的照片库，帮助用户创建精选的照片集锦和个性化标题，以便在社交媒体上分享。Google 确保 Google 相册中用户数据的隐私，不会将个人数据用于广告或外部 AI 训练，并采用行业领先的安全措施

6. 教育与学习

学习LM：为学习而生的AI模型

新系列模型学习LM 以Gemini为基础，针对学习进行了优化。新工具 Illuminate 将研究论文分解为简短音频对话，而 Learn About 则结合高质量内容和学习科学，为用户提供指导性学习体验。

7. 移动设备Gemini on Android

将 Gemini 模型集成到 Android 中，包括具有多模态功能的设备端 Gemini Nano，以增强用户体验。 Circle to Search 功能可帮助学生完成家庭作业，提供分步说明。Gemini 叠加允许跨应用程序拖放生成的内容，并更深入地理解上下文。通过 TalkBack 提供诈骗检测提醒和更清晰的描述。从 Pixel 设备开始，Android 版 Gemini Nano 将提供完整的多模式功能。

8. 第六代TPU Trillium，4.7倍性能提升

Google宣布推出第六代TPU，显著提升AI模型训练和部署的性能，为AI开发者带来更强大的算力支持，相较于TPU v5e，第六代Trillium TPU在性能上实现了高达4.7倍的提升，并在能效上提升了超过67%。。

9. 开发者工具与Gemini API：新功能上线

Gemini API中新增视频帧提取和并行函数调用功能，并将于6月推出上下文缓存。引入了用于图像字幕和视觉问答的PaliGemma，Gemma 2拥有27B参数模型，在GPU或单个TPU上实现高效性能。

10. SynthID 水印：保护生成内容的标志

SynthID 扩展至Gemini应用和Web体验中的AI生成文本及Veo中的视频，嵌入难以察觉的水印，保证内容质量和速度不受影响。Imagen 3 将使用由 DeepMind 开发的 SynthID 水印方法，对生成的图片应用不可见的、加密的水印。SynthID 将全面应用于 AI 生成的图片、视频和音乐作品中。

💡

对这个话题感兴趣的小伙伴，欢迎加我一起探索交流~