URL
type
status
date
slug
summary
tags
category
icon
password
每天都能接收到无数条与AI、科技、艺术、经济相关的信息。
但是感觉自己就像那只掰玉米的熊,掰了一路,最后出来发现只剩下手里的两根玉米🌽。
今年希望能够以Newsletter的形式,给自己掰下来的玉米们找个背篓。
人们会被自己热爱的事物改变,而没有人因为给予而贫穷。
Vol.018 Pika实现嘴型同步
by Rocket
#关于AI·谷歌开源CodeGemma系列模型,提升编程与数学推理能力
谷歌宣布开源基于Gemma的一系列AI模型,包括CodeGemma 2B、7B预训练模型和7B经过指令调优的模型。这些模型在编程和数学推理方面展现了卓越的性能。特别是CodeGemma 7B模型,它在代码生成和Python编程任务上的性能得到了显著增强。此外,指令调优的7B模型专门针对Python编程进行了优化,而CodeGemma 2B模型则在代码自动补全方面达到了业界领先的水平。这些模型的开源将进一步推动AI在软件开发和数学问题解决领域的应用。
报告地址:CodeGemma技术报告
💽 Meta推出自研AI芯片,减少对外部供应商依赖
Meta Platforms,即扎克伯格旗下的公司,正在推出一款新的自研AI芯片,这是2023年发布的Mita芯片的升级版。这一举措旨在支持Meta自家的人工智能服务,并减少对英伟达等外部芯片供应商的依赖。通过自主研发芯片,Meta能够更紧密地集成其硬件和软件,优化性能,并可能降低成本。这标志着Meta在追求技术自主性和推动AI技术发展方面迈出了重要一步。
🌟 谷歌云Next活动重点发布AI相关技术
在谷歌的Cloud Next活动上,人工智能成为焦点。最引人注目的消息是,谷歌计划在今年晚些时候发布一款基于Arm技术的定制AI芯片,其性能比微软和亚马逊网络服务使用的同类芯片高出约30%。
此外,谷歌还宣布了多项可能在未来几年内改变AI领域格局的重大消息,包括:
- Vids:一款允许企业领导者使用AI创建短视频剪辑的工具,类似于视频版的PowerPoint。
- 三个开源工具,企业可以用来构建新的AI驱动项目。
- Gemini 1.5 Pro的更新,使平台能够理解和分析音频,例如总结财报电话会议或比较不同的广播节目。
- Code Assistant:与Github的Copilot平台竞争,为开发者提供代码建议和自动完成工具。
- 更新文本到图像生成器Imagen 2,包括一个将文本转换为动画GIF的功能。
- 每月10美元的Workspace订阅服务,提供AI驱动的会议、消息传递和翻译功能。
这些更新和发布展示了谷歌在AI领域的持续创新和领导地位,同时也为开发者和企业提供了更多强大的工具和服务,以推动AI技术的应用和发展。
🌐 Gemini 1.5 Pro现已在180多个国家/地区推出
经过几周的有限发布,Gemini 1.5 Pro现已在180多个国家/地区提供使用。这款AI模型具有更大的上下文窗口和扩展的令牌限制,使得用户可以上传和处理大型文件,如整本书,并对其进行提示和交互。
Gemini 1.5 Pro还具备图像、视频和音频分析功能,以及几乎完美的记忆回忆能力,使其成为从大型文件中提取准确细节的理想选择。
要使用Gemini 1.5 Pro,请按照以下步骤操作:
- 访问AI Studio网站。
- 在页面右侧的模型菜单中选择Gemini 1.5 Pro。
- 使用窗口顶部的插入菜单上传文件。
- 在聊天框中输入提示,开始使用。
除了可以进行常规的聊天机器人操作外,当你上传大型文件并尝试获取与文件相关的答案或摘要时,Gemini 1.5 Pro的性能尤为出色。
请注意,AI Studio目前可以在大多数主要国家/地区访问,但在一些地区尚未推出。如果您在访问AI Studio网站时看到列出的可用国家/地区,这意味着您所在的地区暂时无法使用AI Studio。
💽 英特尔发布Gaudi 3 AI芯片,挑战Nvidia市场主导地位
英特尔在其Vision活动上推出了Gaudi 3 AI芯片,旨在挑战Nvidia的市场领导地位,并为企业提供了一个开放、灵活的替代方案,以实现大规模部署生成AI。
详情如下:
- Gaudi 3承诺在训练和推理性能上比Nvidia的H100芯片快50%,同时在功率效率上提高40%,成本更低。
- 这些芯片预计将在2024年第二季度上市,与Nvidia的H200系列相媲美。
- 英特尔还公布了一个扩展的AI路线图,包括一个开放的企业AI平台和新的Xeon处理器等。
这一进展的意义在于,尽管Nvidia在市场份额上已经占据主导地位,并且其升级版的Blackwell芯片系列也在开发中,但随着AI需求的指数级增长,芯片市场足够大,可以容纳多个赢家。英特尔Gaudi 3的发布可能会为AI芯片市场带来更多的竞争和创新。
🚀 Cohere的Command R+在LMSYS排行榜上名列第六
Cohere最近推出的Command R+企业级大型语言模型(LLM)在LMSYS排行榜上攀升至第六位,超越了包括GPT-4在内的竞争对手,同时在数据隐私和安全性方面给予了高度重视。
详情如下:
- Command R+是排行榜上顶级的开放模型,与Claude 3和GPT-4等专有模型竞争。
- 尽管每个令牌的成本显著降低,但该模型在多语言、RAG和工具使用基准测试中的表现与GPT-4 Turbo和Mistral-Large相当。
- Command R+在多语言评估中也与竞争对手相匹配或更胜一筹,提供跨越10种关键语言的商业能力。
这一进展的重要性在于,Command R+为开放式和企业AI带来了飞跃,它结合了性能、可扩展性、数据保护和成本效率,这些都是企业所要求的。该模型在排行榜上的上升是对开放模型的巨大胜利,同时也标志着又一个达到GPT-4水平的竞争对手的出现。
🎥 Google推出VLOGGER:从音频生成人类视频博客的AI工具
AI技术正从简单的图像深度伪造(deepfakes)发展到视频领域。
今天,谷歌发布了一篇研究论文,详细介绍了一种名为VLOGGER的新型框架,它允许用户仅使用音频剪辑和一张图片作为输入,就能生成一个人类视频博客的视频。
VLOGGER使用多模态扩散技术从音频合成人类形象。它可以生成逼真的视频,展示人物的逼真头部动作、面部表情、目光以及手势。
该AI模型还可以编辑现有视频内容,具有改变视频中人物面部表情的能力。
虽然这种AI模型不太可能完全取代YouTubers和其他内容创作者,但它可能标志着视频博客行业的一个有趣演变。这一技术的发展可能会引发关于AI在媒体和娱乐领域应用的新的讨论和关注。
#关于AI·
欢迎加我交流,加入AIGC社群