URL
type
status
date
slug
summary
tags
category
icon
password
AIDaily 064/100
每天都能接收到无数条与AI、科技、艺术、经济相关的信息。
但是感觉自己就像那只掰玉米的熊,掰了一路,最后出来发现只剩下手里的两根玉米🌽。
今年希望能够以Newsletter的形式,给自己掰下来的玉米们找个背篓。
人们会被自己热爱的事物改变,而没有人因为给予而贫穷。
Vol.064
by Rocket
探索·AI产品
🔍 Perplexity "Pro Search" 功能升级:迈向更智能的搜索体验
Perplexity 最近宣布对其 "Pro Search" 功能进行重大升级,这些升级将提升处理复杂查询和多步推理的能力,同时集成 Wolfram Alpha 来增强数学问题解决能力。
- 多步推理处理:Pro Search 现在能够使用多步推理处理复杂查询,通过链接多个搜索结果来提供更全面的答案。
- Wolfram Alpha 集成:新的集成使得 Pro Search 能够解决高级数学问题,同时提升了代码执行的能力。
- 使用限制:免费用户每四小时可以使用 5 次 Pro 搜索,而订阅用户(每月 20 美元)每天可以使用 600 次。
- 争议背景:此次升级发生在 Perplexity 因数据抓取和归因做法受到争议的背景下。
- 行业影响:鉴于谷歌在 AI 概述方面的挑战,Perplexity 的升级可能会推动 "答案引擎" 的发展,这种引擎能够减轻用户寻找答案的负担。
探索·AI大模型
🍏 苹果在 Hugging Face 上发布 4M 多模态模型

苹果公司在 Hugging Face 平台上开放了他们去年研究论文中提到的 4M 模型的演示。4M 模型能够同时处理文本、图像和 3D 场景等多种类型的数据。
- 信息拆解与生成:模型能够从图片中提取信息,并可能将其转换或生成其他模态的内容,如文本描述或 3D 可视化。
- 应用前景:这种模型在自动内容创作、虚拟现实、游戏开发、教育和辅助技术等领域具有广泛的应用潜力。
🛠️ Salesforce 的 APIGen 与 xLAM 模型:小模型的大突破
Salesforce 刚刚发布了关于 APIGen 的新研究,这是一个自动化系统,专为 AI 训练生成最优化数据集,特别是在函数调用任务上。这项技术使得 Salesforce 的 xLAM 模型在性能上超越了规模更大的竞争对手。
- APIGen 系统:APIGen 设计用于帮助模型在数据集上训练,这些数据集更好地反映了 API 使用的真实世界复杂性。
- xLAM 模型训练:Salesforce 使用 APIGen 训练了包含 7B(70亿)和 1B(10亿)参数的 xLAM 模型,并将它们在关键函数调用基准上进行了测试。
- 性能排名:xLAM 的 7B 参数模型在 46 个模型中排名第 6,匹配或超越了规模是其 10 倍的竞争对手,包括 GPT-4。
- “小巨人”1B 模型:xLAM 的 1B 参数版本被称为“小巨人”,它的表现超过了 Claude Haiku 和 GPT-3.5 等模型。
探索·AI声音
🎙️ ElevenLabs 推出 Voice Isolator:录音降噪新功能
ElevenLabs 最近推出了名为 Voice Isolator 的新功能,专注于改善音频质量,特别是在消除背景噪音方面。Voice Isolator 设计用于从各种录音中去除不需要的背景噪音,提供更清晰的音频输出。帮助用户创建接近专业录音室水平的高质量音频,增强听众的听觉体验。
Voice Isolator 可以应用于多种场景,包括播客制作、视频编辑、音乐制作以及其他任何需要高质量音频的场合。
🌉 Kyutai 推出 Moshi:法国 AI 语音助手的新突破

法国初创公司 Kyutai 推出的 Moshi,是一款具有创新性的实时 AI 语音助手,它在语音交互领域带来了一些令人兴奋的新功能。Kyutai 成立于 2023 年,获得了 32400 万美元的资助,并在短短四个月内由一个 8 人研究团队开发出了 Moshi。
- 实时交互:Moshi 能够边听边说,提供更加流畅和自然的对话体验。
- 情绪和风格多样性:它拥有 70 种不同的情绪和说话风格,包括耳语和带有口音的语音,这为用户提供了丰富的个性化选项。
- 低延迟:Kyutai 声称 Moshi 的延迟仅为 160 毫秒,这在实时语音助手中是一个非常出色的性能指标。
- 开源计划:作为一个非营利组织,Kyutai 计划将 Moshi 的研究和模型开源,这将有助于技术的共享和进一步发展。
- Hugging Face 平台:Moshi 目前已在 Hugging Face 平台上提供试用,使得开发者和用户可以轻松体验这款 AI 语音助手。
探索·AI视频
🎭 快手开源面部表情迁移技术:AI 视频生成的新突破

中国科技公司快手(Kuaishou)在 AI 视频生成领域取得了显著进展,开源了一项面部表情迁移技术,该技术能够将面部表情迁移到图片上,并生成视频。
- 表情迁移:技术能够精确捕捉面部表情,并将其迁移到静态图片上,生成动态视频。在控制面部表情的迁移方面做得非常好,保证了生成视频的自然流畅性。
- 人物表演辅助:该技术对 AI 视频生成中的人物表演和数字人的发展具有重要意义,可以提升虚拟角色的真实感和表现力。
- 微调功能:用户可以对面部运动的幅度进行微调,以适应不同的视频需求和风格。
- 动物面部迁移:除了人类面部,这项技术还支持常见的动物面部迁移,拓宽了应用范围。
- 行业影响:这项技术的开源可能会推动 AI 视频生成和虚拟角色技术的发展,为电影制作、游戏开发、虚拟现实等领域带来新的创新机遇。
探索·AI投融资
🍏 菲尔·席勒加入 OpenAI 董事会:苹果与 OpenAI 合作深化
App Store 首席执行官菲尔·席勒(Phil Schiller)将以观察员身份加入 OpenAI 董事会,这标志着苹果与 OpenAI 之间合作关系的加强。作为观察员,菲尔·席勒将在董事会中代表苹果,但不具有投票权,他的参与将更多地体现在提供意见和监督合作。此举是苹果与 OpenAI 最近宣布的 AI 合作的一部分,显示了苹果对 AI 技术发展的重视和对 OpenAI 的信任。
- 技术交流与合作:席勒的加入可能会促进苹果与 OpenAI 在 AI 技术研究、开发和应用方面的更深层次交流与合作。
- 苹果的 AI 战略:菲尔·席勒的参与也反映了苹果在 AI 领域的战略布局,尤其是在 Siri 和其他智能服务的改进上。
对这个话题感兴趣的小伙伴,欢迎加我一起探索交流~
