中英双语语音合成系统的研究|皇冠官方app官网首页









主页 > 新闻中心 > 侵权公告

中英双语语音合成系统的研究|皇冠官方app官网首页

发布者：皇冠官方app官网首页浏览次数：发布时间：2023-12-15

本文摘要：概要：本文首先详细讲解了语音合成概念，然后详尽讲解了语音合成系统的核心，还包括三个模块：文本分析模块、韵律掌控模块和语音合成模块；接着讲解了用MicrosoftspeechSDK5.1制作一个中英双语音阅读器的过程，解决问题了MicrosoftspeechSDK5.1无法中英文混读的问题。

概要：本文首先详细讲解了语音合成概念，然后详尽讲解了语音合成系统的核心，还包括三个模块：文本分析模块、韵律掌控模块和语音合成模块；接着讲解了用MicrosoftspeechSDK5.1制作一个中英双语音阅读器的过程，解决问题了MicrosoftspeechSDK5.1无法中英文混读的问题。章节语言是人们交流的工具，有所不同民族有自己有所不同的语言，有所不同语言之间的交流在今天对外开放的信息社会和网络时代变得十分最重要，多语种的文语制备具有独有的应用于价值。

理想的多语种制备系统最差是各种语言共用一种制备算法或语音合成器，但是现有的语音合成系统大多是针对某一种语言或若干种语言研发出来的，所使用的算法及规则都是和某种语言密切相关的，因此很难推展到其他的语种。例如汉语就和西方语言有相当大的差异，国内的系统都是做到汉语文语切换，它的一套韵律掌控规则几乎不适合于英语，而且主要是制备汉语普通话，即使推展到广东话和上海话都有非常的可玩性。可见要确实解决问题多语种的文语制备，从文本处理到语音合成都必需有新的思路。本研究针对实际应用于的必须，拒绝在对现有的语言制备技术展开分析和研究的基础上，研制一种同时反对中英双语输入的中英双语语音合成系统，尝试解决问题语音合成应用于中的多语言混合输入问题。

1语音合成系统阐述1.1语音合成技术概述语音辨识和语音合成技术是构建人机语音通信，创建一个有听得和谈能力的口语系统所必须的两项关键技术。语音合成技术是将计算机自己产生的或外部输出的文字信息，比如文本文件内容、WORD文件内容等文字信息,按语音处置规则转换成语音信号输入，即使计算机流利地朗读文字信息,使人们通过“听得”就可以明白信息的内容。

这种将文字转换成语音的技术称作文语切换技术,全称TTS(TexttoSpeech)技术,也称作语音合成技术。语音合成技术是嵌入式领域和智能计算出来领域的重点研究内容，其应用于前景非常广阔，具备十分最重要的实用价值。在实际应用于中，中英双语实时混合经常出现的情景是较为少见的，解决问题多语言混合语音合成问题沦为语音合成应用于的一个热点。

1.2语音合成的发展方向（1）提升制备语音的大自然度：就汉语语音合成来说，目前在单字和词组一级上，制备语音的可懂度和大自然度已基本解决问题，但是到句子乃至篇章一级时其大自然度问题就较为大。因为这是一种使用大自然语音波形必要拼凑的方法，展开拼凑的语音单元就是指一个预先录音的大自然语音数据库中挑选出出来的，因此有可能最大限度地保有语音的大自然度。（2）非常丰富制备语音的表现力：目前国内外大多数语音合成研究是针对语音合成系统，且不能解决问题以某种朗诵风格将书面语言转换成口语输入，缺少有所不同年龄、性别特征及语气、语速的展现出，更加不用说彰显个人的感???。

随着信息社会的市场需求发展对语音合成技术明确提出了更高的拒绝。（3）减少语音合成技术的复杂度：目前高质量的汉语语音合成系统一般必须几兆字节到几十兆，甚至几百兆字节的存储容量，这在以PC机或工作站为硬件平台的应用于中是没问题的，而对于像HPC，PDA及无线通信手机，商务通等资源受限的设备上就不了忍受。解决问题的方法可以是通过语音传输编码的方法来传输音库所须要的容量，或者使用更加小的制备基元。

1.3语音合成的简单意义语音辨识和语音合成技术是构建人机语音通信，创建一个有听得、说道能力的口语系统所必须的两项关键技术。作为智能计算机研究的主导方向和人机语音通信的关键技术，语音合成技术越来越受到各国科学界的普遍注目。随着语音合成技术的研究发展，它对计算机发展和社会生活的重要性日益显现出来。

目前，语音合成普遍的应用于基于PC的办公、教学、及娱乐等智能多媒体软件和声讯服务领域内的智能电话查找系统中。2语音合成系统阐述一个顺利的语音合成系统输入的语音应该音质明晰、大自然简洁。语音的大自然度各不相同起发音声调的变化，而在倒数语流中，字的发音不仅与这个字本身的发音有关，而且还受到它邻接字发音以及语气传达的影响。所以在语音合成系统中，必需事前对文本展开分析，根据上下文的关系确认每个字发音的韵律变化，然后用这些韵律变化参数掌控语音的制备。

因此，语音合成系统的核心不应还包括文本分析、韵律掌控、语音合成模块。其结构如图1右图。图1语音合成系统结构示意图2.1文本分析模块语音合成系统首先处置的是文字，也就是它要说的内容。文本分析的主要功能是使计算机能从这些文本中了解文字，进而告诉要放什么音、怎么发音，并将发音的方式告诉他计算机。

另外，还要让计算机告诉，在文本中，哪些是词，哪些是短语或句子，发音时应当到哪里中断及中断多长时间等。其工作过程可以分成三个主要步骤：(1)将输出的文本规范化。在这个过程中，要查询拼写错误，并将文本中经常出现的一些不规范或无法发音的字符过滤器掉。

(2)分析文本中词或短语的边界，确认文字的读音，同时分析文本中经常出现的数字、姓氏、特殊字符、专有词语以及各种多音字的读音方式。(3)根据文本的结构、构成和有所不同方位上经常出现的标点符号，确认发音时语气的转换以及有所不同音的长短方式。

最后，文本分析模块将输出的文字转换成计算机需要处置的内部参数，便于先前模块更进一步处置并分解适当的信息。2.2韵律掌控模块早期的韵律分解方法皆使用基于规则的方法。目前，基于规则的方法依然被视作是行之有效的方法，大部分汉语语音合成系统仍然使用这种方法。最近，通过神经网络或统计资料驱动的方法展开韵律分解已获得成功的应用于。

其构建步骤是：首先设计或搜集一个包括大量语音和文本信息的数据，然后创建一个训练模型，后用从数据库中萃取出有的韵律参数对模型展开训练，通过训练而获得最后的韵律模型。2.3语音合成模块系统产生的制备语音是通过一个声学模块来明确构建的。早期语音合成系统的声学模型多是通过仿真人的口腔的声道特性来产生的。

其中较为知名的有Klatt的共振峰(Formant)制备系统，后来又产生了基于LPC、LSP和LMA等声学参数的制备系统，这些都可以归结参数制备系统。用于这些方法创建声学模型的过程是：首先录音声音，这些声音涵括了人发音过程中所有有可能经常出现的读音；然后，萃取出有这些声音的声学参数，并统合成一个原始的音库。

在发音过程中，首先根据发音必须从音库中自由选择适合的声学参数，然后根据从韵律模型中获得的韵律参数，通过制备算法产生语音。参数制备方法的优点是其音库一般较小，并且整个系统能适应环境的韵律特征的范围较宽，但其制备语音的音质却往往受到一定的容许。近10年来，使用波形拼凑(PSOLA)制备语音的方法更加被广泛应用。

这种方法的核心思想是必要对存储于音库的语音运用PSOLA算法展开拼凑，从而统合成原始的语音。3中英双语阅读器3.1MicrosoftSpeechSDK5.1概述MicrosoftSpeechSDK5.1是微软公司中国研究院发售的反对中文语音应用于程序开发的工具包。它使用了COM标准研发，底层协议都以COM组件的形式独立国家于应用程序层。因此，在构建特定语音应用于系统时，须要考虑到系统的功能构建和界面掌控，不用考虑到简单的语音技术的构建算法，很大地减少了研发语音应用于系统必须的代码量，从而为二次开发获取方便快捷的途径，并获取了系统的可扩展性和可维护性。

它还包括微软公司倒数语音辨识引擎(Microsoftcontinuousspeechrecognitionengine)和微软公司串联语音合成引擎(Microsoftconcatenatedspeechsynthesisengine(也称之为TTS引擎)。利用获取的工具、信息、例子、SAPI5.1引擎和应用于，用户可以便利地研发包括语音辨识和语音合成功能的应用程序。这个版本的研发包括有一系列反对COM的语音自动化模块。

自动化模块使得面向对象(Object-Oriented)开发方法再一在语音研发中获得了反对。MicrosoftSpeechSDK5.1可在微软公司网站(mandButton控件，将它们分别命名为“OpenBtn”、“ClearBtn”、“SaveTxtBtn”和“CloseBtn”，将它们的Caption分别命名为“关上（O）”、“清理（L）”、“留存（T）”和“重开（C）”，分别用来关上要读者的文件、清理MainTxtBox中的内容、留存MainTxtBox中的内容和重开中英文阅读器；在Frame4加到四个Label控件，将它们的Caption分别命名为分别“Speak”、“Pause”、“Stop”和“Save”；加到四个commandButton控件，将它们分别命名为“SpeakBtn”、“PauseBtn”、“StopBtn”和“SaveWavBtn”，将它们的Caption分别命名为“朗诵（R）”、“停止（P）”、“暂停（S）”和“留存（W）”，分别用作掌控朗诵过程的开始、停止、暂停和留存声音（WAV）文件。最后再行加到一个CommonDialog控件，将其命名为ComDlg，用来调至“公共对话框”。设置已完成的界面如图2右图。

图2中英文阅读器的界面3.4中英双语阅读器的算法原理(1)中英双语阅读器核心技术的解决方案本论文要制作的中英双语阅读器的语音库是提到MicrosoftSpeechSDK5.1的语音库。由于MicrosoftSpeechSDK5.1的语音库在读者时不存在的很多的问题，因此我在制作中英双语阅读器时做到了一些改良，使其有更佳的读者效果。中英混读功能中英混读功能是本阅读器最重要的功能，也是本研究要解决问题的核心问题。

中英混读功能调用了MicrosoftSpeechObjectLibrary中的两位朗读者，中文时是MicrosoftsimplifiedChinese，英文时是MicrosoftSam。根据要读者的文本动态地调用读者引擎，超过了中英混读功能。主要原理是：Step1：检测第一个字母原作初始读者引擎和标志；Step2：一一检测每一个字符，并支付字符串str；Step3：检测到有所不同种语音的字符时，调用读者函数朗读str，清空str并切换读者引擎和标志；Step4：检测否到了文本的末尾，不是的话就转至Step2；Step5：调用读者函数朗读str；Step5：完结。

读者各种号码的能力MicrosoftSpeechSDK5.1的语音库在读者时经常出现了很多问题，其中一个是当遇上一串数字时不能读作一个整体的数，比如“430074”它不会读作“四十三万零七十四”，这个在有的时候是准确的，但有的时候这个读法有是错误的，比如“武汉邮科院烽火科技学院的邮政编码是430074”，根据人们的习惯“430074”就应当读作“四三零零七四”，而不是“四十三万零七十四”。类似于的还有电话号码、电子邮件等。解决问题这个方法是：当遇上数字时，就检测字符串str，当字符串中有“电话”、“号”、“码”、“电子邮件”时，就在数字后面加到空格，这样就能构建这样数的读法。电子邮箱地址的读法有时候要写某人的电子邮箱地址，比如“我的电子邮箱是yujianchen@163.com”，应当读作“yujianchen@163.com”，而让阅读器不会读者时，“yujianchen”不会一起朗读，“@”无法朗读，“163”读作“一百六十三”，“.com”读作“点com”，就最后一处读法是准确的，其他的都是错误的。

怎样解决问题这个问题呢！这个不像电话号码那样必要检测数字前面是不是电话号码等字样，有的话就在数字后面特空格，因为一般的电子邮箱地址都即包括字母和数字，有的甚至还有文字，这样就不会有引擎的切换，电子邮箱地址就无法在一个字符串里，因此无法像上面的(2)那样处置。经思维，获得了以下的解决问题方法：当遇上“邮箱”或者“电子邮箱”时，后面的字符之间都加到空格直到“.”为止。

网址的读法网址不会经常出现在文章中，根据测试，MicrosoftSpeechSDK5.1在读网址的时候不论是英文读法还是中文读法都是错误的，一般都是“/”读书不对，如果没改良，中英双语阅读器也是错误的，它把“/”读作了“除以”。这个问题的明确解决办法是：再行检测“mainTxtBox”中否经常出现“http:”或者“www.”，如果有的话，就检测当前字符否为“字母”、“数字”、“.”、“/”或者“：”（一般网址都是由这些字符构成的），如果是“：”或者“/”，就用逗号来替换（也可以用空格来替换，只是这样的节奏感没用逗号替换好）；如果是数字，就在数字后面特空格；其他的字符就必要特到字符串上。

这样改良后的读法就跟人们平时读者时差不多了，不足之处是数字的读法是英文的。(2)中英双语阅读器流程图由于MicrosoftSpeechObjectLibrary中，自带了四位朗读者：MicrosoftsimplifiedChinese、MicrosoftMary、Microsoftmike和MicrosoftSam四种。所以当自由选择其中的任何一位时，VB将自动的调用该说出引擎朗读MainTxtBox中的字符。

而MicrosoftSpeechSDK5.1在朗诵中英混合文本时，若用于中文引擎，对于英文单词不能将其还包括的各个字母一一朗诵出来；若用于英文引擎，汉字就将被跳过，这样就丧失了其本来的意义。“中英文混读”在这方面展开了改良，在语音朗诵过程中提早辨别即将处置文本的类型并且依据系统回到的消息，动态在中英文引擎之间展开转换，从而构建了确实的中英文朗诵。构建中英文文本朗诵是中英双语阅读器的主要功能，其流程图如图3右图。

图3中英双语阅读器流程图(3)中英文混读算法流程图如前所述，MicrosoftSpeechSDK5.1无法确实地展开中英文混合文本的朗诵。我设计的中英文混读程序就要构建确实地展开中英文混合文本的朗诵。

该程序利用MicrosoftSpeechSDK5.1自带的两位阅读者MicrosoftsimplifiedChinese和MicrosoftSam，根据辨别当前字符，中文的调用MicrosoftsimplifiedChinese，英文的调用MicrosoftSam，这样就构建了中英文混合文本的朗诵。明确的解决方案是：依序处置文本中每个字符，辨别字符中所含的中英文类型，若类型与前一字符完全相同则加到至中间变量，否则朗诵中间变量文本并留存当前方位，接着转换引擎。文本朗诵完结，收到EndStream消息，从当前方位之后循环。

其流程图如图4右图。图4中英文混读程序流程图4结束语语音技术是一门新兴的学科，同时又是综合性的多学科领域和涉及面很广的交叉学科，是目前发展尤为很快的信息科学研究领域中的一个。MicrosoftSpeechSDK5.1在朗诵中英混合文本时，用中文引擎，对于英文单词不能将其还包括的各个字母一一朗诵出来；用英文引擎，汉字就无法读书，这样就丧失了其本来的意义。

中英双语阅读器在这方面展开了改良，动态在中英文引擎之间展开转换，从而构建了确实意义上的中英文朗诵，这是本研究仅次于的创意点。同时根据MicrosoftSpeechSDK5.1在读者是经常出现的错误，对其展开了一些改良，还包括电话号码、邮政编码等类似数字、电子邮箱和网页地址的读法，使得读者的效果更佳，更加合乎现实中人们读者的习惯。中英双语阅读器还有一个创意点是具备录音功能，也就是可以将文本文档转化成为Wav格式留存，之后就可以用别的播放器播出，很便利。

但是被迫否认，MicrosoftspeechSDK5.1还不存在着很多问题，比如说读者时的简洁度和可懂度都尚待提升。要确实构建计算机需要象人一样的说出，和人类权利地展开聊天，依然必须假以时日，还有大量的研究工作要去做到。

本文关键词：皇冠官方app官网首页

本文来源：皇冠官方app官网首页-www.payalkhurana.com

皇冠官方app官网首页_除了智能换装机器视觉还能带给我们什么

谷歌小心!微软推出全新翻译应用：皇冠官方app官网首页

餐饮案例 / Restaurant