URL
type
status
date
slug
summary
tags
category
icon
password
最近在研究如何生成唇形同步的视频,这样就可以实现数字人无限对话了。
01 Pika和阿里发布唇形同步
近期,在AI视频生成领域,Pika和阿里分别推出了引人注目的唇形同步技术,旨在提升视频内容的真实性和观众的互动体验。
Pika的唇形同步功能(Lip Sync)
2月28日,Pika上线了唇形同步(Lip Sync)功能,这一创新的核心目标是增强对话场景的真实感。用户仅需通过文字和语音输入,Pika便能自动生成与输入相匹配的动态唇形,模拟人物对话。上线时,这一功能仅对Pika Pro版用户和超级合作者开放。
一周后,他们将这一功能开放给了所有用户使用,目前免费用户可以拥有250个初始点数,初始点数用完以后,每天更新30个点数。生成一个唇形同步视频需要2个点数,生成一段3秒视频是10个点数。所以每天可以生成3段视频或者15个唇形同步视频。
垫图素材
我测试了用图片和视频。图片生成的唇形同步视频,只有嘴巴区域可动,其他区域动的比较轻,整体与大部分图片生成语音同步的效果差不多。垫图最好是没有牙齿的,不然会出现很奇怪的牙齿形态。左边的垫图是包含牙齿,右边是没有的。可以看到左边说话是有牙齿明显消失的地方,右边整体还不错。
推荐用视频来生成,效果会好很多,整体视频动态、运镜的能结合起来。另外在Negative prompt里面,加上talking, mouth movement。左边是我先用Pika生成的视频,再加上了唇形同步。右边是Pika自己用Sora生成的外星人视频进行配音的。
测试风格
测试了真实人物风格和卡通类3D人物,卡通类人物,口型输出的会更自然一些。真实人物还是会有点唇部动画的闪帧感。
使用方法
使用方法还是比较简单的。在Pika生成页面上,上传图片或者视频后,底部会出现Lip Sync选项。点击后进入弹窗,直接粘贴文本或者上传自己的音频都可以,目前文本最多只支持250个字。语音生成后,可以直接选取语音片段进行视频生成。Pika语音是和11Labs合作的,对中文的支持还是不够好,生成出来的中文带着一点翻译腔。如果是在中文场景下,大家可以在魔音工坊、腾讯智影或者自己训练一个中文声音模型,输出音频后,上传上去。
阿里的“神级”EMO技术
与此同时,阿里也放出来了一个唇形同步模型,EMO: Emote Portrait Alive,通过一张照片和一段音频,或者视频,就能够生成人物说任何话或唱任何歌曲的动态视频。
尽管目前尚未有公开的DEMO可供体验,但官方发布的示例视频显示,EMO生成的唇形自然,脸部肌肉动作与音频同步,且视频输出的表情动态自然。
无论节奏快和慢的歌曲,都能实现流畅的嘴型同步,且身形也是跟随音乐有节奏的动态。非常期待后续项目发布代码以后,上手试试实际效果。
项目地址:https://humanaigc.github.io/emote-portrait-alive/…
论文:https://arxiv.org/abs/2402.17485
GitHub:https://github.com/HumanAIGC/EMO
02 如何通过腾讯智影+Wav2Lip+Topaz实现照片说话
在探索如何让静态图像或视频中的角色自然地说话的过程中,我尝试了多种方案。包括Heygen和D-ID,但它们的效果并不理想,且成本较高。为了寻找更经济实惠的解决方案,我决定基于开源工具搭建自己的工作流程,从文本到音频,再到驱动数字人说话。
D-ID最便宜的月费套餐5.9美金(约42人民币)可以生成10分钟视频,生成1分钟视频4块钱左右。Heygen月付最基础的套餐是15点数,价格29美金(约200人民币),也就每个月花200人民币去生成15分钟的视频,另外每个视频最长不超过5分钟,生成1分钟视频要13块钱左右。
于是我决定基于开源工具搭建自己的工作流,实现从文本生成音频、音频驱动图片/视频数字人说话。
开源工作流技术方案
- 文本转音频:腾讯智影
- 唇形同步:Wav2Lip
- 视频增强:剪映/Topaz
03 准备音频素材 文本转音频:腾讯智影
我这次用的是腾讯智影,支持中英文混读,每天可以免费生成20次。
它还提供了丰富的声音处理工具,包括停顿、多音字和英文单词读法的调整,以及多角色语音生成。尽管目前还无法克隆个人音色,但腾讯智影的这些功能已经足够强大。
腾讯智影 - 智能创作工具平台,支持数字人,文本配音免费用!https://zenvideo.qq.com
这个是我的邀请链接,你可以拥有3天会员,我能得到1000个金币,大家按需自取
https://zenvideo.qq.com/activity/invitee?invitation_code=9n3lUqiXTWFZiBjp&activity_id=Mvxbjw9aFKwVLEeN
如果你想要训练自己的声音,并且对中文声音克隆感兴趣,那么我之前的文章《我用BERT-VITS2实现中文声音克隆》可能会对你有所帮助。不过,中文特训版本还不支持中英混读,对于年份等特定表达,如“2000年”,还不能实现连读,可能会在表达上有所欠缺。
此外,剪映平台目前也提供了限免的克隆音色功能,但有小伙伴试用了以后反馈声音不像。
04 用Wav2Lip实现唇形同步
现在,让我们来探索如何使用Wav2Lip技术实现唇形同步。Wav2Lip是一种基于生成对抗网络(GAN)的技术,它能够将音频与视频中的人物唇形进行同步。这意味着你可以让视频中的人物说出任何你提供的音频内容。
Wav2Lip不仅适用于静态图像,还能处理动态视频,实现唇形转换。
他们最近还推出了API服务,用户每个月可以免费生成最多5分钟的视频。在API也搭建了一个简易版的playground,但是生成视频会带Logo水印。
好了,让我们正式开始。
这里有两个版本的教程供你选择:
- 英文版的Wav2Lip,你可以在这里找到:Wav2Lip Colab。
- 我准备的中文版Wav2Lip,适合中文用户使用:中文版Wav2Lip Colab。
在使用这些教程之前,请确保你有一个Google Drive账号,并将代码保存在Drive上,这样下次就可以直接打开,无需重复设置。
打开代码后,在代码执行程序选择T4 GPU,每个代码块前面都有一个播放按钮,点击它就可以执行代码。
05 生成视频画质增强
因为开始的时候,为了提高生成速度,所以视频画质被压缩了。生成出来的视频不够清晰,所以我们要通过剪映或者Topaz的视频画质增强工具,增加视频清晰度。
剪映的超清画质功能,生成的很清晰自然,我觉得生成效果比Topaz要好,脸部比较自然,就是需要VIP。
Topaz AI 是由 Topaz Labs 开发的一系列人工智能驱动的图像和视频处理软件。这些工具利用先进的 AI 技术,为用户提供了从基本编辑到专业级增强的全方位需求。
这次我们用到的是Topaz Video Enhance AI,大家在公众号回复“Topaz”获取下载链接。
Topaz Video Enhance AI:
- 这款工具专注于视频分辨率的提升,能够将低分辨率视频无损放大至4K甚至8K,同时保持或增强视频质量。
- 它通过AI模型智能锐化视频,从素材中推断细节,使视频变得清晰。
- 支持多种AI模型,如Artemis、Dione、Gaia和Theia系列,针对不同类型的视频内容提供优化处理。
- 软件操作简单,适合各种水平的用户,包括一键式操作和详细的参数调整。
大家可以对照下面图片中,右边参数,进行设置。
06 我用Wav2Lip实现阿里EMO唇形同步视频
<iframe src="//player.bilibili.com/player.html?isOutside=true&aid=1501482955&bvid=BV1iS421w7NE&cid=1457973296&p=1" scrolling="no" border="0" frameborder="no" framespacing="0" allowfullscreen="true"></iframe>
07 有几个需要注意的地方:
- 视频长度限制:音视频生成,目前只支持1分钟以下视频,音频可以超过1分钟。
- 视频质量:生成的视频质量可能会被压缩到720p。为了提高视频的清晰度,你可能需要使用额外的工具,如Topaz Video Enhance AI,这是一个视频清晰度增强软件,可以帮助你提升视频质量。
- 视频比例:视频比例默认是竖屏720x1280,如果你需要横屏视频,比如16:9的比例,你需要在生成过程中手动调整参数以适应你的需求。
- 生成时间:现在生成一个1分钟的视频,大约需要5分钟。
- Colab算力限制:Google colab免费提供的算力有限,大家可以把素材准备好以后,再打开代码生成。
我也在准备本地化部署的版本了,过两天分享给大家。
封面图prompt
Pixel-style, a robot in front of a vending machine, the vending machine is placed with all kinds of exquisite mouths.- -ar 16:9
By AI助理midjourney
对这个话题感兴趣的小伙伴,欢迎加我一起探索交流~