语音模型选型
ai语音技术根据输入输出分为三种:文字转语音TTS 音色迁移(语音转语音)vtis 预处理(去噪、分离)
其中TTS类又可以根据有无参考音频区分
接下来我们分块介绍几大主流模型
TTS(有参考/可微调)
[可微调][有参考]
gsv版本有 v1 v2 v3 v4 v2p v2pp
v3 由于改了新架构,存在电音过重的问题,而后迭代了v4 问题没有消除,所以作者在v2的基础上重新改良了v2plus 和 v2plus pro
在日语和中文方面效果显著,但根据狐锋的炼丹经验,如果训练语料中仅有日语没有中文,得到的模型在中文方面表现不佳。
据群u经验,gsv在英语方面表现不佳,有机械感
[有参考]mega-tts
目前最新版本是mega-tts3,群u测评除gsv外中文最佳
狐锋测试参考音频超过1分钟会报错
仅支持中文,文本分块后可能会出现前后音色不一致的情况,具体取决于参考音频。跨语言依旧效果不佳。
群u反馈:"对英文支持一塌糊涂,一个单词一个单词的念……"
[有参考]Seed VC V2
效果很差
[有参考]Index-TTS1.5
仅支持中文
使用日语参考音频朗读中文时,会出现类似b站上王小兆抽象视频的配音(具体自己去试吧)
F5-TTS-V1与CosyVoice2-0.5B狐锋还没测试。狐锋觉得日语首选gsv,中文根据需要酌情选择
音色迁移
RVC
ddsp
有6.1/6.2/6.3三个版本
6.3提高了6.2的上限但也拉低了下限,需根据素材质量酌情选择
SVC4.1
预处理
MSST
UVR
评论
其他文章