我用BERT-VITS2实现中文声音克隆

URL

type

status

date

slug

summary

1.Bert-VITS2 本地化部署教程

1.1 环境准备

1.1.1 下载Anaconda

如果小伙伴之前从来都没接触过Python，编程相关的话，强烈建议下载一个Anaconda，傻瓜式安装编程环境。

🔗 下载地址在这

https://www.anaconda.com/download

大家可以根据自己是Intel芯片还是M芯片进行版本选择。

下载后双击，按步骤安装即可。安装好后有个更新版本提示，更新后会自动重启。

1.1.2 Anaconda创建Python环境

更新完后，进入Anaconda，点击左侧菜单的Environment，进入环境界面。然后点击create我们创建一个Bert的虚拟环境。

名字是英文的，大家可以随意取。然后packages选Python，在下拉框里选择Python版本，我们这里选3.8.18。大家可以先看下开源代码里的Python版本要求，按照对应的去选就好。点击create之后，我们的虚拟环境就创建好了。

1.1.3 从创建好的环境中打开Terminal

创建好之后，点击绿色按钮，选择Open Terminal，我们可以看见终端窗口被打开，这个时候我们可以开始输入代码了。

1.2 下载代码及安装依赖包

在打开的terminal中，输入以下代码，进行下载Bert-VITS2源代码到本地。有时候网络不好，需要多来几遍。另外如果第一次用terminal会提示安装xcode，按照提示进行安装即可。

然后进入到下载的项目文件夹，在terminal里面继续输入项目路径地址，cd后面替换成你自己的文件夹地址。

2.准备声音训练素材

BERT-VITS2教程Extra中文特化版本。更强的开源中文声音克隆

Github项目地址：

Bert-VITS2

fishaudio • Updated Feb 11, 2025

2.1 准备工作

一个google drive账号 🔗https://drive.google.com/drive/u/0/home

一段10min的wav格式语音文件

一个GitHub账号 🔗https://github.com/

剪映，我的声音没有背景音乐，只有人声，所以我直接用剪映剪辑后，进行导出的。🔗https://www.capcut.cn/

2.1.1 人声+背景声分离处理工具

ultimatevocalremovergui

Anjok07 • Updated Feb 11, 2025

ultimatevocalremovergui

Anjok07 • Updated Feb 11, 2025

🔗 https://vocalremover.org/zh/splitter-ai

1. 默认导出是44.1khz 16位，可以改参数调节导出为48khz，音质会更好些，但是不知道哪里能调成24位。win版的相反，能调节导出为24位，但不知哪里能调节成48khz

2.激进去掉人声的模式不好用，会把伴奏的高频削得怪怪的，有哇音的感觉。

3.tta打开，音质会更好些，时间会增加一两分钟。

在线处理人声和背景声工具

每天可以免费处理10分钟，效果不错。

🔗 https://vocalremover.org/zh/splitter-ai

3.在Google Colab上开始训练

准备工作做好，打开colab，选择GitHub

Step 1 打开colab

https://colab.research.google.com/

Step 2 选择GitHub，代码库输入 https://github.com/rocketlu/Bert-VITS2-colab ，然后直接打开代码。

Step 3 菜单栏>代码执行程序>更改运行时类型>硬件加速器选T4 GPU

然后按照代码页面的指导，一步步执行即可。

4.训练结果

我用了一段10分钟的音频，训练模型到5600，大概花了3个小时左右。

最后生成出来的效果还不错，比OpenVoice的效果要好。

最后要达到比较理想的状态，模型至少要到10000。

但是发现一个小Bug，就是中文里面如果有英文，会自动跳过英文，不知道这个后续怎么可以优化一下。

如果要中文+英文版本，需要用主代码，目前中文强化分支还不支持。

补充材料：

在Modescope上发现了一个大神，用Bert-VITS2训练了好多个人物声音，可以直接用。多语言混合可以在Language模式里选auto.

AI塔菲2.0（加强版） - a Hugging Face Space by XzJosh

Discover amazing ML apps made by the community

https://huggingface.co/spaces/XzJosh/Taffy-Bert-VITS2-2.3

AI塔菲2.0（加强版） - a Hugging Face Space by XzJosh

在线原神试玩：https://v2.genshinvoice.top/

💡

欢迎加我交流，加入AIGC社群

1.Bert-VITS2 本地化部署教程

1.1 环境准备

1.1.1 下载Anaconda

1.1.2 Anaconda创建Python环境

1.1.3 从创建好的环境中打开Terminal

1.2 下载代码及安装依赖包

2.准备声音训练素材

2.1 准备工作

2.1.1 人声+背景声分离处理工具

3.在Google Colab上开始训练

4.训练结果

Rocket

AIGC创作者社区

加入智否AIFunr社区讨论分享

1.Bert-VITS2 本地化部署教程

1.1 环境准备

1.1.1 下载Anaconda

1.1.2 Anaconda创建Python环境

1.1.3 从创建好的环境中打开Terminal

1.2 下载代码及安装依赖包

2.准备声音训练素材

2.1 准备工作

2.1.1 人声+背景声 分离处理工具

3.在Google Colab上开始训练

4.训练结果

Rocket

AIGC创作者社区

加入智否AIFunr社区讨论分享

2.1.1 人声+背景声分离处理工具