我用Wav2lip实现了阿里EMO的唇形同步 | Rocket Lu

AIGC

我用Wav2lip实现了阿里EMO的唇形同步

00 分钟

2024-9-12

URL

type

status

date

slug

summary

tags

category

icon

password

😀

最近在研究如何生成唇形同步的视频，这样就可以实现数字人无限对话了。

01 Pika和阿里发布唇形同步

近期，在AI视频生成领域，Pika和阿里分别推出了引人注目的唇形同步技术，旨在提升视频内容的真实性和观众的互动体验。

Pika的唇形同步功能（Lip Sync） 2月28日，Pika上线了唇形同步（Lip Sync）功能，这一创新的核心目标是增强对话场景的真实感。用户仅需通过文字和语音输入，Pika便能自动生成与输入相匹配的动态唇形，模拟人物对话。上线时，这一功能仅对Pika Pro版用户和超级合作者开放。

一周后，他们将这一功能开放给了所有用户使用，目前免费用户可以拥有250个初始点数，初始点数用完以后，每天更新30个点数。生成一个唇形同步视频需要2个点数，生成一段3秒视频是10个点数。所以每天可以生成3段视频或者15个唇形同步视频。

notion image

垫图素材

我测试了用图片和视频。图片生成的唇形同步视频，只有嘴巴区域可动，其他区域动的比较轻，整体与大部分图片生成语音同步的效果差不多。垫图最好是没有牙齿的，不然会出现很奇怪的牙齿形态。左边的垫图是包含牙齿，右边是没有的。可以看到左边说话是有牙齿明显消失的地方，右边整体还不错。

推荐用视频来生成，效果会好很多，整体视频动态、运镜的能结合起来。另外在Negative prompt里面，加上talking, mouth movement。左边是我先用Pika生成的视频，再加上了唇形同步。右边是Pika自己用Sora生成的外星人视频进行配音的。

测试风格

测试了真实人物风格和卡通类3D人物，卡通类人物，口型输出的会更自然一些。真实人物还是会有点唇部动画的闪帧感。

使用方法

使用方法还是比较简单的。在Pika生成页面上，上传图片或者视频后，底部会出现Lip Sync选项。点击后进入弹窗，直接粘贴文本或者上传自己的音频都可以，目前文本最多只支持250个字。语音生成后，可以直接选取语音片段进行视频生成。Pika语音是和11Labs合作的，对中文的支持还是不够好，生成出来的中文带着一点翻译腔。如果是在中文场景下，大家可以在魔音工坊、腾讯智影或者自己训练一个中文声音模型，输出音频后，上传上去。

阿里的“神级”EMO技术

与此同时，阿里也放出来了一个唇形同步模型，EMO: Emote Portrait Alive，通过一张照片和一段音频，或者视频，就能够生成人物说任何话或唱任何歌曲的动态视频。

尽管目前尚未有公开的DEMO可供体验，但官方发布的示例视频显示，EMO生成的唇形自然，脸部肌肉动作与音频同步，且视频输出的表情动态自然。

无论节奏快和慢的歌曲，都能实现流畅的嘴型同步，且身形也是跟随音乐有节奏的动态。非常期待后续项目发布代码以后，上手试试实际效果。

🔗

项目地址：https://humanaigc.github.io/emote-portrait-alive/… 论文：https://arxiv.org/abs/2402.17485 GitHub：https://github.com/HumanAIGC/EMO

02 如何通过腾讯智影+Wav2Lip+Topaz实现照片说话

在探索如何让静态图像或视频中的角色自然地说话的过程中，我尝试了多种方案。包括Heygen和D-ID，但它们的效果并不理想，且成本较高。为了寻找更经济实惠的解决方案，我决定基于开源工具搭建自己的工作流程，从文本到音频，再到驱动数字人说话。

D-ID最便宜的月费套餐5.9美金（约42人民币）可以生成10分钟视频，生成1分钟视频4块钱左右。Heygen月付最基础的套餐是15点数，价格29美金（约200人民币），也就每个月花200人民币去生成15分钟的视频，另外每个视频最长不超过5分钟，生成1分钟视频要13块钱左右。

于是我决定基于开源工具搭建自己的工作流，实现从文本生成音频、音频驱动图片/视频数字人说话。

开源工作流技术方案

文本转音频：腾讯智影

唇形同步：Wav2Lip

视频增强：剪映/Topaz

03 准备音频素材文本转音频：腾讯智影

我这次用的是腾讯智影，支持中英文混读，每天可以免费生成20次。

它还提供了丰富的声音处理工具，包括停顿、多音字和英文单词读法的调整，以及多角色语音生成。尽管目前还无法克隆个人音色，但腾讯智影的这些功能已经足够强大。

⭐

腾讯智影 - 智能创作工具平台，支持数字人，文本配音免费用！https://zenvideo.qq.com

⭐

这个是我的邀请链接，你可以拥有3天会员，我能得到1000个金币，大家按需自取 https://zenvideo.qq.com/activity/invitee?invitation_code=9n3lUqiXTWFZiBjp&activity_id=Mvxbjw9aFKwVLEeN

notion image

如果你想要训练自己的声音，并且对中文声音克隆感兴趣，那么我之前的文章《我用BERT-VITS2实现中文声音克隆》可能会对你有所帮助。不过，中文特训版本还不支持中英混读，对于年份等特定表达，如“2000年”，还不能实现连读，可能会在表达上有所欠缺。

⭐

https://www.rocketlu.cn/article/bertvits2

此外，剪映平台目前也提供了限免的克隆音色功能，但有小伙伴试用了以后反馈声音不像。

04 用Wav2Lip实现唇形同步

现在，让我们来探索如何使用Wav2Lip技术实现唇形同步。Wav2Lip是一种基于生成对抗网络（GAN）的技术，它能够将音频与视频中的人物唇形进行同步。这意味着你可以让视频中的人物说出任何你提供的音频内容。

Wav2Lip不仅适用于静态图像，还能处理动态视频，实现唇形转换。

他们最近还推出了API服务，用户每个月可以免费生成最多5分钟的视频。在API也搭建了一个简易版的playground，但是生成视频会带Logo水印。

⭐

https://synclabs.so/

好了，让我们正式开始。

这里有两个版本的教程供你选择：

英文版的Wav2Lip，你可以在这里找到：Wav2Lip Colab。

我准备的中文版Wav2Lip，适合中文用户使用：中文版Wav2Lip Colab。

在使用这些教程之前，请确保你有一个Google Drive账号，并将代码保存在Drive上，这样下次就可以直接打开，无需重复设置。

打开代码后，在代码执行程序选择T4 GPU，每个代码块前面都有一个播放按钮，点击它就可以执行代码。

notion image

05 生成视频画质增强

因为开始的时候，为了提高生成速度，所以视频画质被压缩了。生成出来的视频不够清晰，所以我们要通过剪映或者Topaz的视频画质增强工具，增加视频清晰度。

剪映的超清画质功能，生成的很清晰自然，我觉得生成效果比Topaz要好，脸部比较自然，就是需要VIP。

notion image

Topaz AI 是由 Topaz Labs 开发的一系列人工智能驱动的图像和视频处理软件。这些工具利用先进的 AI 技术，为用户提供了从基本编辑到专业级增强的全方位需求。

这次我们用到的是Topaz Video Enhance AI，大家在公众号回复“Topaz”获取下载链接。

Topaz Video Enhance AI：

这款工具专注于视频分辨率的提升，能够将低分辨率视频无损放大至4K甚至8K，同时保持或增强视频质量。

它通过AI模型智能锐化视频，从素材中推断细节，使视频变得清晰。

支持多种AI模型，如Artemis、Dione、Gaia和Theia系列，针对不同类型的视频内容提供优化处理。

软件操作简单，适合各种水平的用户，包括一键式操作和详细的参数调整。

大家可以对照下面图片中，右边参数，进行设置。

notion image

06 我用Wav2Lip实现阿里EMO唇形同步视频

<iframe src="//player.bilibili.com/player.html?isOutside=true&aid=1501482955&bvid=BV1iS421w7NE&cid=1457973296&p=1" scrolling="no" border="0" frameborder="no" framespacing="0" allowfullscreen="true"></iframe>

07 有几个需要注意的地方：

视频长度限制：音视频生成，目前只支持1分钟以下视频，音频可以超过1分钟。

视频质量：生成的视频质量可能会被压缩到720p。为了提高视频的清晰度，你可能需要使用额外的工具，如Topaz Video Enhance AI，这是一个视频清晰度增强软件，可以帮助你提升视频质量。

视频比例：视频比例默认是竖屏720x1280，如果你需要横屏视频，比如16:9的比例，你需要在生成过程中手动调整参数以适应你的需求。

生成时间：现在生成一个1分钟的视频，大约需要5分钟。

Colab算力限制：Google colab免费提供的算力有限，大家可以把素材准备好以后，再打开代码生成。

我也在准备本地化部署的版本了，过两天分享给大家。

notion image

封面图prompt

Pixel-style, a robot in front of a vending machine, the vending machine is placed with all kinds of exquisite mouths.- -ar 16:9

By AI助理midjourney

💡

对这个话题感兴趣的小伙伴，欢迎加我一起探索交流~

notion image

相关文章

Kyutai STT 一种专为实时应用优化的语音转文字模型

DeepSeek-R1 详解：如何打造推世界顶级推理大模型

硬科技新品——闪极发布首款AI眼镜：15小时超大杯续航+AI开放平台智能加持

我用OpenGlass做了一个AI眼镜【上篇】

Flux 完整的 Lora 设置和数据集指南 - 两周学习的事后分析[译文]

我用BERT-VITS2实现中文声音克隆

AIDaily 070/100

我用BERT-VITS2实现中文声音克隆

我用BERT-VITS2实现中文声音克隆

👋🏻 Hi！我是Rocket

Rocket

Rocket

URL

type

status

date

slug

summary

tags

category

icon

password

🧙 AI魔法学习中，喜欢开脑洞捣鼓一切。

🎮 关注科技X设计/新闻交叉领域。

✨ AIGC探索者 | 可视化见证者 |@图纸集主理人

👏 欢迎和我交流

微博 | 小红书 | 微信 | 推特 | Behance | Dribbble

AIGC创作者社区

加入智否AIFunr社区讨论分享

🚀 点击加入智否

最新发布