ai语音技术根据输入输出分为三种:文字转语音TTS 音色迁移(语音转语音)vtis 预处理(去噪、分离)

其中TTS类又可以根据有无参考音频区分

接下来我们分块介绍几大主流模型

TTS(有参考/可微调)

[可微调][有参考]

gsv版本有 v1 v2 v3 v4 v2p v2pp

v3 由于改了新架构,存在电音过重的问题,而后迭代了v4 问题没有消除,所以作者在v2的基础上重新改良了v2plus 和 v2plus pro

在日语和中文方面效果显著,但根据狐锋的炼丹经验,如果训练语料中仅有日语没有中文,得到的模型在中文方面表现不佳。

据群u经验,gsv在英语方面表现不佳,有机械感

[有参考]mega-tts

目前最新版本是mega-tts3,群u测评除gsv外中文最佳

狐锋测试参考音频超过1分钟会报错

仅支持中文,文本分块后可能会出现前后音色不一致的情况,具体取决于参考音频。跨语言依旧效果不佳。

群u反馈:"对英文支持一塌糊涂,一个单词一个单词的念……"

[有参考]Seed VC V2

效果很差

[有参考]Index-TTS1.5

仅支持中文

使用日语参考音频朗读中文时,会出现类似b站上王小兆抽象视频的配音(具体自己去试吧)

F5-TTS-V1与CosyVoice2-0.5B狐锋还没测试。狐锋觉得日语首选gsv,中文根据需要酌情选择

音色迁移

RVC

ddsp

有6.1/6.2/6.3三个版本

6.3提高了6.2的上限但也拉低了下限,需根据素材质量酌情选择

SVC4.1

预处理

MSST

UVR