AIDaily 064/100

URL

type

status

date

slug

summary

🖼️

每天都能接收到无数条与AI、科技、艺术、经济相关的信息。但是感觉自己就像那只掰玉米的熊，掰了一路，最后出来发现只剩下手里的两根玉米🌽。今年希望能够以Newsletter的形式，给自己掰下来的玉米们找个背篓。人们会被自己热爱的事物改变，而没有人因为给予而贫穷。

Vol.064

by Rocket

探索·AI产品

🔍 Perplexity "Pro Search" 功能升级：迈向更智能的搜索体验

Perplexity 最近宣布对其 "Pro Search" 功能进行重大升级，这些升级将提升处理复杂查询和多步推理的能力，同时集成 Wolfram Alpha 来增强数学问题解决能力。

多步推理处理：Pro Search 现在能够使用多步推理处理复杂查询，通过链接多个搜索结果来提供更全面的答案。

Wolfram Alpha 集成：新的集成使得 Pro Search 能够解决高级数学问题，同时提升了代码执行的能力。

使用限制：免费用户每四小时可以使用 5 次 Pro 搜索，而订阅用户（每月 20 美元）每天可以使用 600 次。

争议背景：此次升级发生在 Perplexity 因数据抓取和归因做法受到争议的背景下。

行业影响：鉴于谷歌在 AI 概述方面的挑战，Perplexity 的升级可能会推动 "答案引擎" 的发展，这种引擎能够减轻用户寻找答案的负担。

探索·AI大模型

🍏 苹果在 Hugging Face 上发布 4M 多模态模型

苹果公司在 Hugging Face 平台上开放了他们去年研究论文中提到的 4M 模型的演示。4M 模型能够同时处理文本、图像和 3D 场景等多种类型的数据。

信息拆解与生成：模型能够从图片中提取信息，并可能将其转换或生成其他模态的内容，如文本描述或 3D 可视化。

应用前景：这种模型在自动内容创作、虚拟现实、游戏开发、教育和辅助技术等领域具有广泛的应用潜力。

https://huggingface.co/spaces/EPFL-VILAB/4M

🛠️ Salesforce 的 APIGen 与 xLAM 模型：小模型的大突破

Salesforce 刚刚发布了关于 APIGen 的新研究，这是一个自动化系统，专为 AI 训练生成最优化数据集，特别是在函数调用任务上。这项技术使得 Salesforce 的 xLAM 模型在性能上超越了规模更大的竞争对手。

APIGen 系统：APIGen 设计用于帮助模型在数据集上训练，这些数据集更好地反映了 API 使用的真实世界复杂性。

xLAM 模型训练：Salesforce 使用 APIGen 训练了包含 7B（70亿）和 1B（10亿）参数的 xLAM 模型，并将它们在关键函数调用基准上进行了测试。

性能排名：xLAM 的 7B 参数模型在 46 个模型中排名第 6，匹配或超越了规模是其 10 倍的竞争对手，包括 GPT-4。

“小巨人”1B 模型：xLAM 的 1B 参数版本被称为“小巨人”，它的表现超过了 Claude Haiku 和 GPT-3.5 等模型。

探索·AI声音

🎙️ ElevenLabs 推出 Voice Isolator：录音降噪新功能

ElevenLabs 最近推出了名为 Voice Isolator 的新功能，专注于改善音频质量，特别是在消除背景噪音方面。Voice Isolator 设计用于从各种录音中去除不需要的背景噪音，提供更清晰的音频输出。帮助用户创建接近专业录音室水平的高质量音频，增强听众的听觉体验。

Voice Isolator 可以应用于多种场景，包括播客制作、视频编辑、音乐制作以及其他任何需要高质量音频的场合。

🌉 Kyutai 推出 Moshi：法国 AI 语音助手的新突破

法国初创公司 Kyutai 推出的 Moshi，是一款具有创新性的实时 AI 语音助手，它在语音交互领域带来了一些令人兴奋的新功能。Kyutai 成立于 2023 年，获得了 32400 万美元的资助，并在短短四个月内由一个 8 人研究团队开发出了 Moshi。

实时交互：Moshi 能够边听边说，提供更加流畅和自然的对话体验。

情绪和风格多样性：它拥有 70 种不同的情绪和说话风格，包括耳语和带有口音的语音，这为用户提供了丰富的个性化选项。

低延迟：Kyutai 声称 Moshi 的延迟仅为 160 毫秒，这在实时语音助手中是一个非常出色的性能指标。

开源计划：作为一个非营利组织，Kyutai 计划将 Moshi 的研究和模型开源，这将有助于技术的共享和进一步发展。

Hugging Face 平台：Moshi 目前已在 Hugging Face 平台上提供试用，使得开发者和用户可以轻松体验这款 AI 语音助手。

https://moshi.chat/?queue_id=talktomoshi

探索·AI视频

🎭 快手开源面部表情迁移技术：AI 视频生成的新突破

中国科技公司快手（Kuaishou）在 AI 视频生成领域取得了显著进展，开源了一项面部表情迁移技术，该技术能够将面部表情迁移到图片上，并生成视频。

表情迁移：技术能够精确捕捉面部表情，并将其迁移到静态图片上，生成动态视频。在控制面部表情的迁移方面做得非常好，保证了生成视频的自然流畅性。

人物表演辅助：该技术对 AI 视频生成中的人物表演和数字人的发展具有重要意义，可以提升虚拟角色的真实感和表现力。

微调功能：用户可以对面部运动的幅度进行微调，以适应不同的视频需求和风格。

动物面部迁移：除了人类面部，这项技术还支持常见的动物面部迁移，拓宽了应用范围。

行业影响：这项技术的开源可能会推动 AI 视频生成和虚拟角色技术的发展，为电影制作、游戏开发、虚拟现实等领域带来新的创新机遇。

https://github.com/KwaiVGI/LivePortrait?tab=readme-ov-file

探索·AI投融资

🍏 菲尔·席勒加入 OpenAI 董事会：苹果与 OpenAI 合作深化

App Store 首席执行官菲尔·席勒（Phil Schiller）将以观察员身份加入 OpenAI 董事会，这标志着苹果与 OpenAI 之间合作关系的加强。作为观察员，菲尔·席勒将在董事会中代表苹果，但不具有投票权，他的参与将更多地体现在提供意见和监督合作。此举是苹果与 OpenAI 最近宣布的 AI 合作的一部分，显示了苹果对 AI 技术发展的重视和对 OpenAI 的信任。

技术交流与合作：席勒的加入可能会促进苹果与 OpenAI 在 AI 技术研究、开发和应用方面的更深层次交流与合作。

苹果的 AI 战略：菲尔·席勒的参与也反映了苹果在 AI 领域的战略布局，尤其是在 Siri 和其他智能服务的改进上。

💡

对这个话题感兴趣的小伙伴，欢迎加我一起探索交流~

AIDaily 064/100

Vol.064

Rocket

AIGC创作者社区

加入智否AIFunr社区讨论分享