URL
type
status
date
slug
summary
tags
category
icon
password
最近在研究如何生成中文声音克隆,这样未来就可以用在视频中了。
上周部署了一下OpenVoice,中文效果还是不行。用了1分钟的声音样本,克隆出来的声音不太像。
最近新出了一个BERT-VITS2 中文强化版本。
准备来尝试一下。
我的实验硬件是MacBook Pro,2.3 GHz 四核Intel Core i7。
所以本期全部都是以Mac为例,Win的大家可以参考。
1.Bert-VITS2 本地化部署教程
1.1 环境准备
1.1.1 下载Anaconda
如果小伙伴之前从来都没接触过Python,编程相关的话,强烈建议下载一个Anaconda,傻瓜式安装编程环境。
🔗 下载地址在这
大家可以根据自己是Intel芯片还是M芯片进行版本选择。

下载后双击,按步骤安装即可。安装好后有个更新版本提示,更新后会自动重启。
1.1.2 Anaconda创建Python环境

更新完后,进入Anaconda,点击左侧菜单的Environment,进入环境界面。然后点击create我们创建一个Bert的虚拟环境。

名字是英文的,大家可以随意取。然后packages选Python,在下拉框里选择Python版本,我们这里选3.8.18。大家可以先看下开源代码里的Python版本要求,按照对应的去选就好。点击create之后,我们的虚拟环境就创建好了。
1.1.3 从创建好的环境中打开Terminal

创建好之后,点击绿色按钮,选择Open Terminal,我们可以看见终端窗口被打开,这个时候我们可以开始输入代码了。
1.2 下载代码及安装依赖包
在打开的terminal中,输入以下代码,进行下载Bert-VITS2源代码到本地。有时候网络不好,需要多来几遍。另外如果第一次用terminal会提示安装xcode,按照提示进行安装即可。

然后进入到下载的项目文件夹,在terminal里面继续输入项目路径地址,cd后面替换成你自己的文件夹地址。

2.准备声音训练素材
BERT-VITS2教程Extra中文特化版本。更强的开源中文声音克隆
Github项目地址:
Bert-VITS2
fishaudio • Updated Feb 11, 2025
2.1 准备工作
- 一个google drive账号 🔗https://drive.google.com/drive/u/0/home
- 一段10min的wav格式语音文件
- 一个GitHub账号 🔗https://github.com/
- 剪映,我的声音没有背景音乐,只有人声,所以我直接用剪映剪辑后,进行导出的。🔗https://www.capcut.cn/
2.1.1 人声+背景声 分离处理工具
ultimatevocalremovergui
Anjok07 • Updated Feb 11, 2025
1. 默认导出是44.1khz 16位,可以改参数调节导出为48khz,音质会更好些,但是不知道哪里能调成24位。win版的相反,能调节导出为24位,但不知哪里能调节成48khz
2.激进去掉人声的模式不好用,会把伴奏的高频削得怪怪的,有哇音的感觉。
3.tta打开,音质会更好些,时间会增加一两分钟。
在线处理人声和背景声工具
每天可以免费处理10分钟,效果不错。
3.在Google Colab上开始训练
准备工作做好,打开colab,选择GitHub
Step 1 打开colab
Step 2 选择GitHub,代码库输入 https://github.com/rocketlu/Bert-VITS2-colab ,然后直接打开代码。

Step 3 菜单栏>代码执行程序>更改运行时类型>硬件加速器选T4 GPU
然后按照代码页面的指导,一步步执行即可。
4.训练结果
我用了一段10分钟的音频,训练模型到5600,大概花了3个小时左右。
最后生成出来的效果还不错,比OpenVoice的效果要好。
最后要达到比较理想的状态,模型至少要到10000。
但是发现一个小Bug,就是中文里面如果有英文,会自动跳过英文,不知道这个后续怎么可以优化一下。
如果要中文+英文版本,需要用主代码,目前中文强化分支还不支持。
补充材料:
在Modescope上发现了一个大神,用Bert-VITS2训练了好多个人物声音,可以直接用。多语言混合可以在Language模式里选auto.
在线原神试玩:https://v2.genshinvoice.top/

欢迎加我交流,加入AIGC社群
