AIDaily 018/100

URL

type

status

date

slug

summary

🖼️

每天都能接收到无数条与AI、科技、艺术、经济相关的信息。但是感觉自己就像那只掰玉米的熊，掰了一路，最后出来发现只剩下手里的两根玉米🌽。今年希望能够以Newsletter的形式，给自己掰下来的玉米们找个背篓。人们会被自己热爱的事物改变，而没有人因为给予而贫穷。

Vol.018 Pika实现嘴型同步

by Rocket

#关于AI·谷歌开源CodeGemma系列模型，提升编程与数学推理能力

谷歌宣布开源基于Gemma的一系列AI模型，包括CodeGemma 2B、7B预训练模型和7B经过指令调优的模型。这些模型在编程和数学推理方面展现了卓越的性能。特别是CodeGemma 7B模型，它在代码生成和Python编程任务上的性能得到了显著增强。此外，指令调优的7B模型专门针对Python编程进行了优化，而CodeGemma 2B模型则在代码自动补全方面达到了业界领先的水平。这些模型的开源将进一步推动AI在软件开发和数学问题解决领域的应用。

报告地址：CodeGemma技术报告

https://www.udio.com/

💽 Meta推出自研AI芯片，减少对外部供应商依赖 Meta Platforms，即扎克伯格旗下的公司，正在推出一款新的自研AI芯片，这是2023年发布的Mita芯片的升级版。这一举措旨在支持Meta自家的人工智能服务，并减少对英伟达等外部芯片供应商的依赖。通过自主研发芯片，Meta能够更紧密地集成其硬件和软件，优化性能，并可能降低成本。这标志着Meta在追求技术自主性和推动AI技术发展方面迈出了重要一步。

🌟 谷歌云Next活动重点发布AI相关技术

在谷歌的Cloud Next活动上，人工智能成为焦点。最引人注目的消息是，谷歌计划在今年晚些时候发布一款基于Arm技术的定制AI芯片，其性能比微软和亚马逊网络服务使用的同类芯片高出约30%。

此外，谷歌还宣布了多项可能在未来几年内改变AI领域格局的重大消息，包括：

Vids：一款允许企业领导者使用AI创建短视频剪辑的工具，类似于视频版的PowerPoint。

三个开源工具，企业可以用来构建新的AI驱动项目。

Gemini 1.5 Pro的更新，使平台能够理解和分析音频，例如总结财报电话会议或比较不同的广播节目。

Code Assistant：与Github的Copilot平台竞争，为开发者提供代码建议和自动完成工具。

更新文本到图像生成器Imagen 2，包括一个将文本转换为动画GIF的功能。

每月10美元的Workspace订阅服务，提供AI驱动的会议、消息传递和翻译功能。

这些更新和发布展示了谷歌在AI领域的持续创新和领导地位，同时也为开发者和企业提供了更多强大的工具和服务，以推动AI技术的应用和发展。

🌐 Gemini 1.5 Pro现已在180多个国家/地区推出经过几周的有限发布，Gemini 1.5 Pro现已在180多个国家/地区提供使用。这款AI模型具有更大的上下文窗口和扩展的令牌限制，使得用户可以上传和处理大型文件，如整本书，并对其进行提示和交互。

Gemini 1.5 Pro还具备图像、视频和音频分析功能，以及几乎完美的记忆回忆能力，使其成为从大型文件中提取准确细节的理想选择。

要使用Gemini 1.5 Pro，请按照以下步骤操作：

访问AI Studio网站。

在页面右侧的模型菜单中选择Gemini 1.5 Pro。

使用窗口顶部的插入菜单上传文件。

在聊天框中输入提示，开始使用。

除了可以进行常规的聊天机器人操作外，当你上传大型文件并尝试获取与文件相关的答案或摘要时，Gemini 1.5 Pro的性能尤为出色。

请注意，AI Studio目前可以在大多数主要国家/地区访问，但在一些地区尚未推出。如果您在访问AI Studio网站时看到列出的可用国家/地区，这意味着您所在的地区暂时无法使用AI Studio。

💽 英特尔发布Gaudi 3 AI芯片，挑战Nvidia市场主导地位英特尔在其Vision活动上推出了Gaudi 3 AI芯片，旨在挑战Nvidia的市场领导地位，并为企业提供了一个开放、灵活的替代方案，以实现大规模部署生成AI。

详情如下：

Gaudi 3承诺在训练和推理性能上比Nvidia的H100芯片快50%，同时在功率效率上提高40%，成本更低。

这些芯片预计将在2024年第二季度上市，与Nvidia的H200系列相媲美。

英特尔还公布了一个扩展的AI路线图，包括一个开放的企业AI平台和新的Xeon处理器等。

这一进展的意义在于，尽管Nvidia在市场份额上已经占据主导地位，并且其升级版的Blackwell芯片系列也在开发中，但随着AI需求的指数级增长，芯片市场足够大，可以容纳多个赢家。英特尔Gaudi 3的发布可能会为AI芯片市场带来更多的竞争和创新。

🚀 Cohere的Command R+在LMSYS排行榜上名列第六 Cohere最近推出的Command R+企业级大型语言模型（LLM）在LMSYS排行榜上攀升至第六位，超越了包括GPT-4在内的竞争对手，同时在数据隐私和安全性方面给予了高度重视。

详情如下：

Command R+是排行榜上顶级的开放模型，与Claude 3和GPT-4等专有模型竞争。

尽管每个令牌的成本显著降低，但该模型在多语言、RAG和工具使用基准测试中的表现与GPT-4 Turbo和Mistral-Large相当。

Command R+在多语言评估中也与竞争对手相匹配或更胜一筹，提供跨越10种关键语言的商业能力。

这一进展的重要性在于，Command R+为开放式和企业AI带来了飞跃，它结合了性能、可扩展性、数据保护和成本效率，这些都是企业所要求的。该模型在排行榜上的上升是对开放模型的巨大胜利，同时也标志着又一个达到GPT-4水平的竞争对手的出现。

🎥 Google推出VLOGGER：从音频生成人类视频博客的AI工具 AI技术正从简单的图像深度伪造（deepfakes）发展到视频领域。

今天，谷歌发布了一篇研究论文，详细介绍了一种名为VLOGGER的新型框架，它允许用户仅使用音频剪辑和一张图片作为输入，就能生成一个人类视频博客的视频。

VLOGGER使用多模态扩散技术从音频合成人类形象。它可以生成逼真的视频，展示人物的逼真头部动作、面部表情、目光以及手势。

该AI模型还可以编辑现有视频内容，具有改变视频中人物面部表情的能力。

虽然这种AI模型不太可能完全取代YouTubers和其他内容创作者，但它可能标志着视频博客行业的一个有趣演变。这一技术的发展可能会引发关于AI在媒体和娱乐领域应用的新的讨论和关注。

项目：https://enriccorona.github.io/vlogger/

论文：https://huggingface.co/papers/2403.08764

#关于AI·

💡

欢迎加我交流，加入AIGC社群

AIDaily 018/100

Vol.018 Pika实现嘴型同步

#关于AI·谷歌开源CodeGemma系列模型，提升编程与数学推理能力

#关于AI·

Rocket

AIGC创作者社区

加入智否AIFunr社区讨论分享