URL
type
status
date
slug
summary
tags
category
icon
password
今天的 Google I/O 2024 带来了一系列激动人心的AI新进展。
1. Gemini 系列
Gemini 1.5 Pro:百万级上下文令牌时代
Gemini 1.5 Pro 支持多达100万个上下文令牌,显著提升了翻译、编码和推理能力。现在,它通过Gemini Advanced向全球开发者和消费者开放,支持35种语言。目前已登陆 Google AI Studio,向所有开发者开放使用。
同时,Google还推出了Gemini 1.5 Pro超大杯200万令牌上下文窗口的私人预览,这将使其能够处理 2 小时的视频、22 小时的音频、超过 60,000 行代码或超过 140 万个单词,是目前 Claude 3 上下文长度的两倍。未来更多可能性正等待探索。
Gemini 1.5 Flash:低延迟高效率的轻量模型
双子座1.5闪存是一个为低延迟和成本优化的轻量模型,现已在AI Studio和Vertex AI中提供。它专为高容量、高频任务而设计,适用于摘要、聊天应用、图像和视频字幕及数据提取等场景。Gemini 1.5 Flash 的价格定为每 100 万 tokens 35 美分,这比 GPT-4o 的每 100 万 tokens 5 美元的价格要便宜得多。
多模态与长上下文:全面集成,多元输出
Gemini 的多模态能力将各种输入类型无缝集成,提供全面的输出,适用于处理大量文本、音频、视频和代码存储库。
Gemini Advanced Updates:智能语音互动与个性化定制
Gemini Advanced 中的 Gemini 1.5 Pro 可处理多达 100 万个令牌,能理解多个大型文档或总结100封电子邮件。全新的 Gemini Live 允许用户通过语音与Gemini进行自然互动。对于 Gemini 的订阅用户,用户还可以创建名为 Gems 的定制版本,创建不同种类的 Chatbot,类似于在 Character.AI 中制作机器人,该服务允许用户与流行角色和名人的 AI 版本或甚至 AI 医生交谈。谷歌表示,用户可以将 Gemini 变成健身伙伴、厨师、编程伙伴、创意写作指南或能想到的任何东西。
2. AI Overviews智能搜索体验重构
这次几乎完全用AI重构了谷歌搜索的产品形态,在搜索框下,会出现一个为你量身定做的AI总结,提供智能且上下文感知的搜索体验。AI概述扩展了快速解答、规划和研究能力,支持多步推理和复杂查询。新功能包括膳食、旅行等规划,以及AI组织的结果页面,帮助用户更好地头脑风暴和探索想法。本周将向美国用户提供新搜索功能,在年底推广到更多国家,该功能面向全平台推出,从 Web 网页、App 到 Android 设备。
这次AI Overview即将发布的另一个重磅功能,就是多步骤推理。
它能将用户输入的一个复杂问题分解成多部分,确定需要解决哪些问题,以及用什么顺序解决。因此,以前可能要花几分钟甚至几个小时的研究,现在几秒钟内就可以完成!因为它将十个问题合而为一。
而且,我们还可以用视频去搜索了!比如,该怎么修这个唱片机?现在,直接拍一个视频丢给谷歌,然后直接开口问:它的这个毛病是什么原因?
3. Google Workspace AI全面接入全家桶
Gemini 1.5 Pro 现已在Gmail、Docs、Drive、Slides和Sheets中提供,增强了推理和总结功能。Gmail移动应用的新功能包括总结邮件、上下文智能回复和Gmail问答。
4. AI Agents 与 Project Astra智能助手
Google正开发AI Agents来执行复杂任务,Gemini可以发挥自己的「多步推理」能力包揽这些任务,把你需要的信息一次性提供给你!如管理购物退货或组织个人信息。
Project Astra 致力于构建一个在日常生活中真正有用的未来AI助手,能够通过摄像头识别物体、代码和各种东西,目标是开发具有实时对话和多模式理解的通用AI助手。官方介绍,Astra 使用了 Gemini Ultra 的高级版本。在演示中,用户可以佩戴谷歌的智能眼镜可以与 Astra 进行交互,这也被视为一个重启谷歌智能眼镜的机会。
测试者走到白板前,看向一个「服务器」的构建示意图,然后问道,「我应该怎样做能使这个系统更快」?
Gemini表示,「在服务器和数据库之间,添加缓存可以提高速度」。
5. 视频、图像与音乐生成新工具:创造力无限
Veo 这次谷歌发布的视频模型Veo,可以看作是对OpenAI Sora的正面迎战了。通过Veo工具让用户根据文本提示创建视频,能够根据提示词生成 60 秒时长的 1080P 的视频片段,可以捕捉不同的视觉和电影风格,包括风景镜头、延时摄影灯。Veo 接受了大量的镜头训练。这也是当下大模型的训练方式:提供一个又一个的数据示例,模型就会在数据中找到模式,使它们能够生成新数据——对 Veo 来说数据就是视频。官方人员承认有些数据来自 YouTube。像 Sora 一样,Veo 对物理有一定的理解——比如流体动力学和重力等,这些有助于它生成更具真实感的视频。
Veo 还支持对视频的特定区域进行遮罩编辑,并可以从静态图像生成视频,类似于 Stability AI 的 Stable Video 等生成模型。最引人注目的是,给定一系列共同讲述一个故事的提示,Veo 可以生成更长的视频——超过一分钟长度的视频。
ImageFX 更新了图像编辑控件,并集成了Imagen 3以生成高质量图像。DeepMind 负责人 Demis 声称,与 Imagen 2 相比,Imagen 3 能够更准确理解图像的文本提示词,并且生成的图片更具创造性和细节。
MusicFX 新增了DJ模式,允许用户混合节拍并创作音乐,所有生成内容均带有SynthID数字水印。
Ask Photos 由 Gemini 模型提供支持的 Google 相册中的新功能允许用户使用自然语言查询搜索他们的照片库,帮助用户创建精选的照片集锦和个性化标题,以便在社交媒体上分享 。Google 确保 Google 相册中用户数据的隐私,不会将个人数据用于广告或外部 AI 训练,并采用行业领先的安全措施
6. 教育与学习
学习LM:为学习而生的AI模型
新系列模型学习LM 以Gemini为基础,针对学习进行了优化。新工具 Illuminate 将研究论文分解为简短音频对话,而 Learn About 则结合高质量内容和学习科学,为用户提供指导性学习体验。
7. 移动设备Gemini on Android
将 Gemini 模型集成到 Android 中,包括具有多模态功能的设备端 Gemini Nano,以增强用户体验。 Circle to Search 功能可帮助学生完成家庭作业,提供分步说明。Gemini 叠加允许跨应用程序拖放生成的内容,并更深入地理解上下文。通过 TalkBack 提供诈骗检测提醒和更清晰的描述。从 Pixel 设备开始,Android 版 Gemini Nano 将提供完整的多模式功能。
8. 第六代TPU Trillium,4.7倍性能提升
Google宣布推出第六代TPU,显著提升AI模型训练和部署的性能,为AI开发者带来更强大的算力支持,相较于TPU v5e,第六代Trillium TPU在性能上实现了高达4.7倍的提升,并在能效上提升了超过67%。。
9. 开发者工具与Gemini API:新功能上线
Gemini API中新增视频帧提取和并行函数调用功能,并将于6月推出上下文缓存。引入了用于图像字幕和视觉问答的PaliGemma,Gemma 2拥有27B参数模型,在GPU或单个TPU上实现高效性能。
10. SynthID 水印:保护生成内容的标志
SynthID 扩展至Gemini应用和Web体验中的AI生成文本及Veo中的视频,嵌入难以察觉的水印,保证内容质量和速度不受影响。Imagen 3 将使用由 DeepMind 开发的 SynthID 水印方法,对生成的图片应用不可见的、加密的水印。SynthID 将全面应用于 AI 生成的图片、视频和音乐作品中。
对这个话题感兴趣的小伙伴,欢迎加我一起探索交流~