首页天道酬勤TTS语音合成助手,TTS语音合成

TTS语音合成助手,TTS语音合成

张世龙 05-12 05:25 80次浏览

声明:语音合成论文优选系列主要是共享论文,共享论文不直接翻译,写的内容主要是我对论文内容的概括和个人意见。 文章的同列统计可以访问。 语音合成http://yqli.tech/page/TTS _ paper.html。 语音识别http://yqli.tech/page/ASR _ paper.html

如果有转载的话,请填写来源。 欢迎来到微信公众号:低调

esp net2- TTS :扩展千兆以太网

本文为Human Dataware Lab. Co .Ltd、Nagoya University等2021.10.15中更新的文章,主要基于ESPNET-TTS,更加灵活更有TTS的训练工具库esp 指向具体文章的链接

3359 arxiv.org/pdf/2110.07840.pdf

(最近,我主要整理语音识别资料和网页,分享文章的情况减少了。 语音合成和语音识别的数据查询值得借鉴

3359 MP.weixin.QQ.com/s/ejcpsfs3ouhrccj7_ bv kog )

个人资料

本文主要介绍新工具ESPNET2-TTS,所以我主要总结这个版本的主要优点,具体细节不做翻译介绍:

1 )提供方便的音频处理工具和完整的模型训练脚本;

2 )提供大量预训模式:人、多人等

3 )提供SOTA的TTS方案。 主要内容如下

a ) T2M模型,即声学模型。 自回归模型(AR )有Tacotron2,Transformer-TTS,非自回归模型(NAR )有Fastspeech,Fastspeech2。 还提供了Conformer版本的模型。

b ) M2W型号,即声码器。 主要有Griffin-Lim、ParalleWaveGan、MelGan、StyleMelGan和Hifi-Gan。

c )接头- t2w模型。 主要提供上述T2M和M2W进行联合训练。

d ) e2e-t2w模型。 真正的端到端T2W,文本直接合成语音。 主要有VITS。

考试

Table 1主要比较了以下系统,表明本版本的联合培训和微调效果最好。 图1示出了纯端到端VITS受G2P影响的结果,其影响测试如table2所示。

其次进行了多人模型实验,主要比较了几个系统,结果如table3和table4所示的seenspeaker和unseen speaker。 table5和table6主要用日语进行实验,其中VITS效果很好,这个结果就在眼前揭晓了呢。

win7下安装linux,ubuntu下安装Django