当前位置:首页 > 天道酬勤 > 正文内容

文字转语音tts(讯飞tts语音包)

张世龙2021年12月20日 14:10天道酬勤590

今天给您带来一篇看起来很无聊,其实真的很无聊的文章。 TTS :文本到语言。

只是,今天师傅说了一点话后,克里斯绝对不是半途而废想知道的童鞋。 因此,我研究了一段时间想用最一般的语言和大家谈谈这个看起来和技术有关联的概念。 万一以后见面的话。

其实,你应该知道最初接触过的,或者TTS应该是两年前。

那时克里斯去了一家家喻户晓的公司。 那个步步高的读书机哪儿也订不到。 工作了一段时间。 当时接触了内容制作的知识,做了一些英语教材书的内容。 我当时不像现在那么喜欢总结。 所以,我工作流于工作。 没有自己编写的知识框架,很混乱。 (现在也没有知识框架,很混乱,哈哈)

我想我第一次听TTS是在今年4月的时候。

去了哪里,公司的交易平台TTS(totalsolution )就是这个名字。 说到这个名字,我想大家还是戴着圆的,整体的解决方案是? 什么意思?

知道的童鞋知道去哪里是最大的中文旅行搜索平台。 顾名思义,必须为用户提供价格比较,让用户选择最便宜、最方便、最安全的服务和产品。 那么,这是个重要的问题。 全国各地有很多酒店、机票、旅行社和官方旗舰店。 如果与去哪里合作,用户会根据去哪里比较价格,然后点击购买。 必须使用户体验达到最高,优化购买流程,保障其安全性和便利性。 于是,交易平台TTS(totalsolution )整体解决方案这个系统出来了,统一了所有第三方平台的管理,这个平台也加强了对各大代理商的控制权。

要说去哪里,我只是想告诉你一个事实。 很多事情,我们都知道。 但是,因为没有上升到理论水平,或者没有建立自己的知识框架,所以一提到tts,就会变得无知。 其实背后的事,你知道。 (其实,我也是后来才知道的。 所以,请加油。 骚货们~

言归正传。

今天的TTS是text to speech,从文本到语言,从文本到声音的转换,文本阅读,意思差不多。 经常在语音系统开发中使用。

有一次,我给Uber打了电话。 在车里,我想你听过“百度地图会为你继续导航”的话。 那时,我像傻叉一样问了同行的伙伴。 这个说话的女人的声音,有人给你录音了吗? 作为在百度待过的人,感到屈辱。

先说tts的用途,让大家有点概念。

这里涉及两个概念: CTI和IVR。

CTI技术是从计算机通信集成(Computer Telephony Integration )发展而来的,最初是将计算机技术应用于电话系统,自动识别处理电话中的信令信息,建立相关的线路连接。 目前,CTI技术正在发展为“计算机电信集成”技术(computer tele communication integration )。 也就是说,其中的“t”发展成了“电话通信”。 这意味着现在的CTI技术不仅要处理传统的电话语音,还必须处理

在CTI技术中起重要作用的是IVR技术。

交互式语音响应(IVR )、交互式语音响应。 这个概念使大家相对于tts变得明亮。

IVR :您可以只通过电话进入服务中心,根据操作提示收听手机娱乐产品,也可以根据用户输入的内容播放相关信息。 最常见的业务是语音点歌、语音聊天交友、呼叫中心。 IVR的另一个重要应用是呼叫中心,分为前置和后置。 前置IVR在语音先进入IVR处理,无法解决客户问题时转移到人工座位。 背面IVR是指IVR和人工座位处于平衡的位置,人工无法满足客户来电时过渡到IVR,主要是为了延长时间和提供增值服务。

刚才说的IVR也就是tts的代表性用途。

据说现在市场上的TTS很多,实现方式也各种各样,有的很贵,比如科大讯飞当初受863计划的资助,拥有很高的技术。 有的比较便宜,如捷通华声、InfoTalk; 有些是免费的,比如微软的TTS产品。

在这里贴上TTS技术路线图:

图中分为三个部分:数据支持、TTS内核和外部APP。

数据支持部分是语法知识库、语音语料库和语法词典。 在这里,今天我和师傅谈了谈,然后看了我们语料库的后台,数据支持部分是自然握拍和人工输入的方式,准备应该发音的文字。

使用外部当然是用户客户端请求后的响应。

重要的是TTS内核的三个部分:

文本分析:对输入文本进行语言学分析,逐句进行词汇、语法、语义分析,确定句子低层结构和每个单词音素的构成。 这包括文本切分、单词切分、多音字处理、数字处理、缩略语处理等。

语音合成:从语音合成库中提取与处理后的文本相对应的单词和短语,将语言学描述转换为语言波形。

韵律生成:是语音合成系统输出的语音质量,一般从清晰度、自然度、连贯性等方面进行主观评价。 明了度是正确听清有意义的词语的比例自然度,用于评价合成声音的音质是否接近人说话的声音,是合成词

语的语调是否自然; 连贯性用来评价合成语句是否流畅。

要合成出高质量的语音,所采用的算法是极为复杂的,因此对机器的要求也非常高。算法的复杂度决定了目前微机并发进行多通道TTS的系统容量。这一部分也是最难的。

相对于ASR(Automatic Speech Recognition,自动语音识别)来说,实现一个TTS产品所需要的技术难度不算大,在我看来也就是个力气活。

要是让我们来做一个能够把汉语句子朗读出来的TTS,我们会怎么做呢?

有一种最简单的TTS,就是把每个字都念出来,你会问,岂不要录制6千多个汉字的语音?幸运的是,汉语的音节很少,很多同音字。我们最多只是需要录制: 声母数×韵母数×4,(其实不是每个读音都有4声),这样算来,最多只需要录制几百个语音就可以了。

在合成的时候需要一张汉字对应拼音的对照表,汉字拼音输入法也依赖这张表,可以在网上找到,不过通常没有4声音调,大不了自己加上,呵呵,要不怎么说是力气活呢。

这样做出来的TTS效果也还可以,特别是朗读一些没有特别含义的如姓名,家庭住址,股票代码等汉语句子,听起来足够清晰。这要归功于我们伟大的母语通常都是单音节,从古代的时候开始,每个汉字就有一个词,表达一个意思。而且汉字不同于英语,英语里面很多连读,音调节奏变化很大,汉字就简单多了。

当然,你仍然要处理一些细节,比如多音字,把“银行”读成“yin xing”就不对了;再比如,标点符号的处理,数字、字母的处理,这些问题对于写过很多程序的你,当然不难了。

国内的一些语音板卡带的TTS,不管是卖钱的还是免费的,大体都是这样做出来的,也就是这样的效果。

如果要把TTS的效果弄好一点,再来点力气活,把基本的词录制成语音,如常见的两字词,四字成语等,再做个词库和语音库的对照表,每次需要合成时到词库里面找。这样以词为单位,比以字为单位,效果自然是好多了。当然,这里面还是有个技术,就是分词的技术,要把复杂的句子断成合理的词序列,也有点技术。这也要怪新文化那些先驱们,当初倡导白话文,引进西文的横排格式、标点符号的时候,没有引进西文中的空格分词。不过即使分词算法那么不高效,不那么准确,也问题不大,如前面所说,汉字是单音节词,把声音合起来,大体上不会有错。

当然,科大讯飞的力气活又干的多了些,据说已经进化到以常用句子为单位来录音了,大家可以想像,这要耗费更多的力气,换来更好的效果。

至于增加一些衔接处的“词料”,弄一些修饰性的音调,我认为是无关紧要的,对整体的效果改进不是太大。

市面上商品化TTS一般还支持粤语,请个粤语播音员录音,把上面的力气活重做一遍就是了。

再说句题外话,很多人觉得录音最好找电台、电视台的播音员,其实找个你周围的女同事来录制,只要吐字清晰就可以了。在某种情况下,寻常声音比字正腔圆的新闻联播来得可爱。

再来说说文本的标识,对于复杂文本,某些内容程序没有办法处理,需要标识出来。比如,单纯的数字“128”,是应该念成“一百二十八”还是“一二八”?解决办法通常是加入XML标注,如微软的TTS:"<context ID = "number_cardinal">128</context>"念成“一百二十八”,"<context ID = "number_digit">128</context>"将念成“一二八”。TTS引擎可以去解释这些标注。遗憾的是,语音XML标注并没有形成大家都完全认可的标准,基本上是各自一套。

再说说TTS应用编程,微软的TTS编程接口叫SAPI,是COM接口,开发起来还是有点麻烦,还好MSDN的网站上资料很全面。微软的TTS虽然免费,但其中文角色目前是个男声,声音略嫌混浊,感觉不爽。

国内一般的厂家提供API调用接口,相对比较简单,可以方便地嵌入应用程序中去。

商品化的TTS还有个并发许可限制,就是限制同时合成的并发线程数,我觉得这个限制用处不大。无论哪种TTS,都可以将文本文件转换成语音文件,供语音卡播放。大部分应用句子比较短小,一般不会超过100个汉字,合成的时间是非常短的,弄个线程专门负责合成,其它应用向该线程请求就是了,万一句子很长,把它分解成多个短句子就是了,播放的速度总是比合成的速度慢。

也很多应用是脱机合成,没有实时性要求,就更不必买多个许可了。

更多情况下,我们甚至没有必要购买TTS,比如语音开发中常见的费用催缴,拨通后播放:“尊敬的客户,您本月的费用是:212元”,前面部分对所有客户都一样,录一个语音文件就是了,而数字的合成是很简单的,你只要录制好10个数字语音,再加上十,百,千,万,再加上金钱的单位“元”。

虽然本文貌似跟产品运营没有什么关系(其实确实没有什么关系),但是,作为一名运营人员,作为一个年轻人,多学习,是好的,虽然可能明天就忘了。欢迎交流。

扫描二维码推送至手机访问。

版权声明:本文由花开半夏のブログ发布,如需转载请注明出处。

本文链接:https://www.zhangshilong.cn/work/25672.html

分享给朋友:

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。