AI Daily
🗒️AIDaily 037/100
00 分钟
2024-5-16
2025-1-22
/* */
URL
type
status
date
slug
summary
tags
category
icon
password

AIDaily 037/100

 
🖼️
每天都能接收到无数条与AI、科技、艺术、经济相关的信息。 但是感觉自己就像那只掰玉米的熊,掰了一路,最后出来发现只剩下手里的两根玉米🌽。 今年希望能够以Newsletter的形式,给自己掰下来的玉米们找个背篓。 人们会被自己热爱的事物改变,而没有人因为给予而贫穷。

Vol.037

by Rocket

探索·AI产品
🚗 Perplexity 与 SoundHound AI 合作,为汽车引入在线智能语音助手 Perplexity 与 SoundHound AI 宣布合作,将 Perplexity 的在线大型语言模型(LLM)功能整合到 SoundHound Chat AI 中,为汽车带来先进的在线智能语音助手。
关键点:
  • 技术整合:通过将 Perplexity 的在线 LLM 功能整合到 SoundHound Chat AI,增强了语音助手的能力,使其能够以对话形式从网络获取实时知识并回答问题。
  • 自然语言交流:用户可以自然地与汽车进行交流,提高了交互的便捷性和直观性。
  • 实时知识访问:集成的语音助手可以利用 Web 上的实时信息,为用户提供最新的答案和解决方案。
  • 用户体验提升:合作的目标是通过提供基于自然语言的智能语音交互,提升用户体验和交互效率。
这种合作体现了汽车行业在提供智能、个性化用户体验方面的最新趋势。随着技术的不断进步,未来的汽车将不仅仅是交通工具,更是集成了高级 AI 功能的智能终端,能够更好地满足驾驶者和乘客的需求。通过 Perplexity 和 SoundHound AI 的合作,汽车用户将享受到更加智能和便捷的语音服务体验。
 
🤖 赋予 GPT-4o 真实形象:使用 Synthesia 的 Expressive-1 模型 Synthesia 公司的 Expressive-1 数字模型人技术现在可以为 GPT-4o 这样的人工智能提供逼真的人类形象。
关键特性:
  • 表情生成:Expressive-1 能够根据输入的文本内容自动生成皱眉、微笑、皱眉头等复杂的表情。
  • 声音与口型同步:该技术还能精准匹配声音和口型,实现同步,让 AI 的交流更加自然和人性化。
  • 接入 GPT-4o:通过将 Expressive-1 与 GPT-4o 的语音功能结合,可以使 AI 的交互体验更加接近真人。
这项技术的整合标志着人工智能在模拟人类交流方式方面迈出了重要的一步。通过视觉和听觉的结合,GPT-4o 不仅能够提供信息和执行任务,还能够以更加亲切和直观的方式与用户进行互动。这种高度模拟真人的交流方式可能会在客户服务、教育、娱乐等多个领域中发挥重要作用,进一步提升 AI 的应用价值和用户体验。
🎬 阿里巴巴开源 FunClip 自动化视频剪辑工具 FunClip 是由阿里巴巴开源的一款视频自动化剪辑工具,具备以下特点:
  • 完全开源:工具完全开源,支持本地部署,用户可以自由地使用和修改以适应不同的需求。
  • 自动化语音识别:通过调用阿里巴巴通义实验室的 FunASR Paraformer 系列模型,FunClip 能够实现视频内容的自动化语音识别。
  • 文本片段裁剪:用户可以根据识别出的文本结果选择特定的文本片段或特定说话人,快速裁剪出所需的视频片段。
  • 热词定制化:FunClip 包括热词定制化功能,用户可以利用集成的 SeACo-Paraformer 模型自定义专业术语、品牌名称或人名等作为热词,提高这些词汇的识别准确性。
 
 
探索·AI大模型
🌟 字节跳动推出“豆包大模型”家族,扩展 AI 应用范围 字节跳动宣布发布其“豆包大模型”家族,包含多种类型的 AI 模型,如:
  • 通用模型 Pro:适用于需要高性能处理的场景。
  • 通用模型 Lite:轻量级模型,适用于资源受限的环境。
  • 角色扮演模型:用于模拟特定角色或个性化交互。
  • 语音合成模型:将文本转换为自然听起来的语音。
  • 声音复刻模型:复制特定人声,用于个性化语音服务。
  • 语音识别模型:将语音转换为文本,支持多种语言。
这些模型覆盖了文本生成、语音合成、角色扮演等多种应用场景,显示出字节跳动在 AI 领域的广泛应用能力。
关键点:
  • 多模态能力:豆包大模型具有处理大量文本和生成图片的能力,适用于复杂的数据处理和内容生成任务。
  • 企业智能化:这些模型旨在提升企业的智能化水平,服务于各种业务场景,如客户服务、内容创作和数据分析。
  • 成本效益:相比行业标准,这些模型的价格低 99.3%,提供了显著的成本优势,有助于降低企业采用 AI 技术的门槛。
字节跳动的这一举措不仅展示了其在 AI 技术方面的实力,也表明了公司致力于通过提供高性价比的解决方案来推动 AI 技术的普及和应用。通过“豆包大模型”家族,字节跳动已经在 50 多个内部业务和场景中实现了 AI 的应用,这进一步证明了其 AI 技术的实际效用和商业潜力。
 
探索·AI硬件
🚗 百度发布全球首个 L4 级自动驾驶大模型 百度在其 Apollo Day 2024 活动上发布了全球首个支持 L4 级自动驾驶的大模型——Apollo ADFM(Autonomous Driving Foundation Model)。这一发布标志着百度在自动驾驶技术领域取得了重大进展。
关键点:
  • L4 级自动驾驶:ADFM 是一个支持 L4 级自动驾驶的模型,这是自动驾驶技术中的一个高级阶段,允许在大多数环境条件下无需人类驾驶员干预。
  • 安全性:百度 Apollo 表示 ADFM 的安全性是人类驾驶员的 10 倍以上,这强调了其在减少交通事故方面的潜力。
  • 技术重构:ADFM 基于大模型技术,对自动驾驶进行了重构,以提高技术的安全性和泛化性。
  • 复杂场景覆盖:该模型能够覆盖城市级全域复杂场景,显示了其在多样化驾驶环境中的适应能力。
百度 Apollo 的这一成就不仅展示了其在自动驾驶技术上的领导地位,也为未来智能交通和汽车行业的发展方向提供了新的可能性。随着 L4 级自动驾驶技术的成熟和应用,我们可能会看到自动驾驶汽车更快地进入日常生活,从而改变我们的出行方式和城市交通的面貌。
 
🤖 宇树科技发布 Unitree G1 人形机器人 宇树科技推出了 Unitree G1 人形机器人,其售价为 9.9 万元人民币起。这款机器人的特点包括:
  • 超大关节运动角度:提供了更广泛的运动范围和灵活性。
  • 多达 34 个关节:增加了机器人的动作复杂性和精细操作能力。
  • 力位混合控制技术:使得机器人能够模拟人手进行精准操作。
  • AI 化身特性:具备自我学习和迭代升级的能力。
Unitree G1 的定价在市场上的人形机器人中属于较为经济的范畴,尽管有人认为 9.9 万元的价格属于“常规”价位,但考虑到其技术特性和性能,这一价格具有较高的市场竞争力。
宇树科技的 Unitree G1 以其独特的技术特性和合理的价格,为市场提供了一个具有吸引力的选择,可能会对教育、娱乐、服务和研究等领域产生积极影响。随着人形机器人技术的不断进步和成本的降低,我们可以期待这类机器人在未来有更广泛的应用。