TTS语音合成助手,TTS语音合成
声明:语音合成论文优选系列主要是共享论文,共享论文不直接翻译,写的内容主要是我对论文内容的概括和个人意见。 文章的同列统计可以访问。 语音合成http://yqli.tech/page/TTS _ paper.html。 语音识别http://yqli.tech/page/ASR _ paper.html
如果有转载的话,请填写来源。 欢迎来到微信公众号:低调
esp net2- TTS :扩展千兆以太网
本文为Human Dataware Lab. Co .Ltd、Nagoya University等2021.10.15中更新的文章,主要基于ESPNET-TTS,更加灵活更有TTS的训练工具库esp 指向具体文章的链接
3359 arxiv.org/pdf/2110.07840.pdf
(最近,我主要整理语音识别资料和网页,分享文章的情况减少了。 语音合成和语音识别的数据查询值得借鉴
3359 MP.weixin.QQ.com/s/ejcpsfs3ouhrccj7_ bv kog )
个人资料
本文主要介绍新工具ESPNET2-TTS,所以我主要总结这个版本的主要优点,具体细节不做翻译介绍:
1 )提供方便的音频处理工具和完整的模型训练脚本;
2 )提供大量预训模式:人、多人等
3 )提供SOTA的TTS方案。 主要内容如下
a ) T2M模型,即声学模型。 自回归模型(AR )有Tacotron2,Transformer-TTS,非自回归模型(NAR )有Fastspeech,Fastspeech2。 还提供了Conformer版本的模型。
b ) M2W型号,即声码器。 主要有Griffin-Lim、ParalleWaveGan、MelGan、StyleMelGan和Hifi-Gan。
c )接头- t2w模型。 主要提供上述T2M和M2W进行联合训练。
d ) e2e-t2w模型。 真正的端到端T2W,文本直接合成语音。 主要有VITS。
考试
Table 1主要比较了以下系统,表明本版本的联合培训和微调效果最好。 图1示出了纯端到端VITS受G2P影响的结果,其影响测试如table2所示。
其次进行了多人模型实验,主要比较了几个系统,结果如table3和table4所示的seenspeaker和unseen speaker。 table5和table6主要用日语进行实验,其中VITS效果很好,这个结果就在眼前揭晓了呢。