URL
type
status
date
slug
summary
tags
category
icon
password
AIDaily 028/100
每天都能接收到无数条与AI、科技、艺术、经济相关的信息。
但是感觉自己就像那只掰玉米的熊,掰了一路,最后出来发现只剩下手里的两根玉米🌽。
今年希望能够以Newsletter的形式,给自己掰下来的玉米们找个背篓。
人们会被自己热爱的事物改变,而没有人因为给予而贫穷。
Vol.028
by Rocket
🎉 阿里 EMO 项目上线,AI 驱动的人像唱歌视频
阿里巴巴的最新项目 EMO 已经发布,用户可以通过该项目将静态的人像照片转换成唱歌视频,体验非常出色。之前我也写了一篇用wav2lip实现照片说话的教程,大家可以回顾一下。
- 用户可以利用简单的个人照片和克隆的语音模型来创建自己的数字人出镜视频。
- 与需要录制长视频并具有高算力成本的产品(如 Heygen)不同,EMO 项目目前是免费提供给用户的。
- EMO 不仅限于写实人像,还能处理 3D 模型和二次元漫画风格,为用户提供了广泛的应用场景。
- 该项目将于明天开放公测,感兴趣的用户可以获取内测邀请码提前体验。
EMO效果自然的原因:
- EMO 在 talking head(说话头)领域首次提出了 weak condition(弱控制)的设计,避免针对人脸的显示表征建模,转而使用较弱的控制条件引导去噪过程。
- 算法中加入了 face locator 和 speed layers,分别控制人脸生成区域和动作频率,保留了 diffusion 模型的生成能力,同时提高了表情的丰富度和表现力。
表情与口型一致性的保证:
- 模型在训练过程中学习音频特征与图像像素的对应关系,强化音频特征对相关像素的影响,确保人物表情和口型与音频同步。
- EMO 在 250 小时的人物讲话视频上训练,不仅匹配了音频发音和人像口型,还发现了音频语气特征与人物表情之间的关联性,使生成的视频能够体现音频中的语气和情绪。
阿里巴巴的 EMO 项目通过先进的 AI 技术,为用户提供了一个功能强大且易于使用的数字娱乐工具,预示着 AI 在媒体和娱乐领域的应用潜力。
🚀 NVIDIA 发布 "Align Your Steps",提升 AI 生成图像效率
NVIDIA 近期推出了一个创新项目 "Align Your Steps",该项目通过优化扩散模型的采样时间表,显著提高了在较少推理步骤下生成图像和视频的效果。
- "Align Your Steps" 通过改进采样计划,减少了生成高质量图像和视频所需的计算步骤。
- 该技术不仅适用于静态图像,还对 SVD(Stable Video Diffusion)模型有效,提升了视频内容的颜色一致性和减少了过饱和现象。
- ComfyUI 已经集成了这一算法,并在 10 步推理时表现出色,生成效果显著。
NVIDIA 的这项研究为 AI 驱动的内容生成开辟了新的可能性,预示着未来在创意和商业应用中 AI 的更广泛应用。开发者和研究人员可以通过 NVIDIA 提供的快速入门指南和示例代码,轻松地将优化的采样时间表应用到各种扩散模型中。
🍎 Apple 发布 OpenELM,推动设备端 AI
Apple 刚刚发布了 OpenELM,这是一系列小型开源语言模型,旨在在 iPhone 和 Mac 等设备上高效运行。
详细情况:
- OpenELM 包含八个模型,提供四种不同的参数规模(270M、450M、1.1B 和 3B),所有模型均在公共数据集上进行训练12。
- 该模型系列针对设备端使用进行了优化,允许在不依赖云服务器的情况下执行 AI 驱动的任务,从而提高处理速度并增强隐私性31。
- 尽管训练数据量减少了一半,但 OpenELM 的性能仍略优于 OLMo 等相似的开源模型12。
- 同样开源的还有 CoreNet,这是用于训练 OpenELM 的深度神经网络库,以及允许在 Apple 设备上进行高效推理和微调的模型35。
重要性:
- 随着众多公司纷纷投身于小型模型的开发,Apple 的这一发布似乎是对其在 WWDC 上可能宣布的设备端 AI 策略的又一次暗示5。
- 此次开源发布也标志着 Apple 与其以往较为封闭和保密的做法有所不同,这可能是为了吸引更广泛的用户和开发者社区参与,未来可能会推出闭源产品实现商业化58。
Apple 的这一举措不仅展示了其在 AI 领域的技术实力,也可能预示着未来在移动设备上的 AI 应用将更加普及和高效。
🐰 Rabbit R1:AI驱动的移动设备初获好评,虽未完善但表现不俗
新一代人工智能设备在起步时遇到了挑战。Humane 的 Ai Pin 在组建了全明星团队并投入多年产品开发后,本月初遭到了评论家的广泛批评。然而,Rabbit R1 以其早期评论引起了人们的关注和讨论。
R1 是一款具有新颖硬件设计的人工智能移动设备,重量与 iPhone 相近,配备了128GB的存储空间和4GB的RAM。它还包含了SIM卡插槽、摄像头和USB-C充电端口。
早期评论的一些主要观点包括:
- 设备的外观和手感很有趣。
- R1 能够连接到 Spotify、Uber、DoorDash 和 Midjourney 等服务。
- 设备在处理基本的提示和问题上表现良好。
- 摄像头可以描述它所看到的事物,但目前除此之外的功能有限。
- 一些手势和控制操作感觉有些笨拙。
- 当前设备还无法执行一些重要任务,比如发送电子邮件。
尽管The Verge称其为“遗憾地未完成”,但它也形容该设备“愚蠢有趣”。TechCrunch对设备的功能有限表达了类似的感受,但也承认它是一个“让你越来越喜欢的小型AI设备”。尽管R1还有很大的改进空间,但其首版展现了巨大的潜力,并凭借足够的新颖性赢得了早期采用者的青睐。
🧬 Moderna 与 OpenAI 扩大合作,整合 AI 以加速 mRNA 治疗开发
生物技术巨头 Moderna 宣布扩大与 OpenAI 的合作伙伴关系,计划将人工智能技术整合到公司的全部运营中,目的是加速开发能够挽救生命的 mRNA 治疗。
详细情况:
- Moderna 正在使用定制的大型语言模型(GPT)来处理从预测最佳药物剂量到品牌推广和内部沟通等一系列任务。
- 该公司每周为每个用户创建多达 750 个 GPT 模型和 120 个 ChatGPT 对话。
- Moderna 的首席执行官 Stephane Bancel 表示,公司计划利用 AI 重新设计每个业务流程,使得一个由 3,000 人组成的团队能够实现相当于 100,000 人的工作量。
重要性:
- 尽管人工智能在医学研究中的应用是一个普遍话题,但关于其具体应用的细节往往不为人知。Moderna 对 AI 的采用不仅可能极大加速革命性治疗方法的开发,而且可能成为其他企业在组织内部利用 ChatGPT 的参考范例。
这一合作预示着 AI 技术在生物技术和医疗健康领域的应用将更加广泛和深入,同时也表明 Moderna 对于利用 AI 来推动创新和提高效率的前瞻性思考。通过这种合作,Moderna 可能在开发新型疗法和疫苗方面取得更快的进展,从而对全球医疗健康产生积极影响。