语音合成知名百科

编辑时间	历史版本	内容长度	图片数	目录数	修改原因
2023-06-02 15:51	最新历史版本	28413	5	2	新增图片,调整页面

语音合成是通过机械完成的、用电子方法产生人工声音的技术。TTS技术（也称为文本到语音转换技术）隶属于语音合成。语音合成是由计算机自己生成的、或者从外部输入可理解文本信息、流利的中文口语输出技术。

1）语言学处理

它在文语转换系统中起着重要的作用，主要模拟人类理解自然语言的过程、词的切分、语法分析和语义分析使计算机能够全面理解输入的文本，并给出后两部分所需的各种发音提示。

2）韵律处理

规划合成语音的段特征，如音高、声音长度和强度使合成的语音正确表达意思，听起来更自然。

3）声学处理

根据前两部分处理结果的要求输出语音，即合成语音。

1. 共振峰合成

----语音合成的理论基础是语音生成的数学模型。该模型语音生成过程是在激励信号的激励下，声波经谐振腔（声道），由嘴或鼻辐射声波。因此，声道参数、声道谐振特性一直是研究的重点。在图1 所示的某一语音的频率响应图中，标有Fp1、Fp2、Fp3 … … 处为频率响应的极点，此时，声道的传输频率响应有极大值。习惯上，把声道传输频率响应上的极点称之为共振峰，而语音的共振峰频率（极点频率）的分布特性决定着该语音的音色。

----音色各异的语音具有不同的共振峰模式，因此，以每个共振峰频率及其带宽作为参数，可以构成共振峰滤波器。再用若干个这种滤波器的组合来模拟声道的传输特性（频率响应），对激励源发出的信号进行调制，再经过辐射模型就可以得到合成语音。这就是共振峰合成技术的基本原理。基于共振峰的理论有以下三种实用模型。

（图）语音合成

级联型共振峰模型在该模型中，声道被认为是一组串联的二阶谐振器。该模型主要用于绝大部分元音的合成。

----并联型共振峰模型许多研究者认为，对于鼻化元音等非一般元音以及大部分辅音，上述级联型模型不能很好地加以描述和模拟，因此，构筑和产生了并联型共振峰模型。

----混合型共振峰模型在级联型共振峰合成模型中，共振峰滤波器首尾相接；而在并联型模型中，输入信号先分别通过幅度调节再加到每一个共振峰滤波器上，然后将各路的输出叠加起来。将两者比较，对于合成声源位于声道末端的语音（大多数的元音），级联型合乎语音产生的声学理论，并且无需为每一个滤波器分设幅度调节；而对于合成声源位于声道中间的语音（大多数清擦音和塞音），并联型则比较合适，但是其幅度调节很复杂。基于此种考虑，人们将两者结合在一起，提出了混和型共振峰模型，如图2 所示。

（图）语音合成

事实上，上述三种共振峰模型在实际中都得到了成功的应用。例如：Fant 的OVE 系统就采用了级联型的共振峰模型；Holmes 合成器采用的是并联型的共振峰模型；而最为典型也是最为成功的Klatt 合成器则构筑在混合型共振峰模型的基础之上。

----在汉语语音合成方面，研究人员研制出了一些基于共振峰模型的成功的应用系统。如社科院语言所的 SIFS 合成器、中科院声学所的KX 1 系统中基于Holmes 的并联型共振峰合成器模型，而同样由中科院声学所开发的第二代共振峰合成器KX FSS 则基于Klatt 合成器。

----共振峰模型是基于对声道的一种比较准确的模拟，因而可以合成出自然度比较高的语音，另外由于共振峰参数有着明确的物理意义，直接对应于声道参数，因此，可以容易利用共振峰描述自然语流中的各种现象，并且总结声学规则，最终用于共振峰合成系统。

----但是，人们同时也发现该技术有明显的弱点。首先由于它是建立在对声道的模拟上，因此，对于声道模型的不精确势必会影响其合成质量。另外，实际工作表明，共振峰模型虽然描述了语音中最基本最主要的部分，但并不能表征影响语音自然度的其他许多细微的语音成分，从而影响了合成语音的自然度。另外，共振峰合成器控制十分复杂，对于一个好的合成器来说，其控制参数往往达到几十个，实现起来十分困难。

----基于这些原因，研究者继续寻求和发现其他新的合成技术。人们从波形的直接录制和播放得到启发，提出了基于波形拼接的合成技术，LPC 合成技术和PSOLA 合成技术是其中的代表。与共振峰合成技术不同，波形拼接合成是基于对录制的合成基元的波形进行拼接，而不是基于对发声过程的模拟。

LPC 参数合成

----波形拼接技术的发展与语音的编、解码技术的发展密不可分，其中LPC 技术（线性预测编码技术）的发展对波形拼接技术产生了巨大的影响。

----LPC 合成技术本质上是一种时间波形的编码技术，目的是为了降低时间域信号的传输速率。

----对于利用LPC 合成技术来进行汉语语音合成和汉语文语转换的研究，中科院声学所在这方面做了大量的工作。1987 年，他们引进了多脉冲激励LPC 技术，1989 年又引入矢量量化，之后，1993 年，他们引入码激励技术，他们的这些工作对于LPC 合成技术在汉语合成方面的运用做出了重要的贡献。

----LPC 合成技术的优点是简单直观。其合成过程实质上只是一种简单的解码和拼接过程。另外，由于波形拼接技术的合成基元是语音的波形数据，保存了语音的全部信息，因而对于单个合成基元来说能够获得很高的自然度。

----但是，由于自然语流中的语音和孤立状况下的语音有着极大的区别，如果只是简单地把各个孤立的语音生硬地拼接在一起，其整个语流的质量势必是不太理想的。而LPC 技术从本质上来说只是一种录音＋重放，对于合成整个连续语流LPC 合成技术的效果是不理想的。因此，LPC 合成技术必须和其他技术相结合，才能明显改善LPC 合成的质量。

----一种典型的基于单音节和VQLPC（矢量量化的LPC）技术的文语转换系统原理图如图3 所示。

（图）语音合成

2. PSOLA 合成技术

----20 世纪80 年代末提出的PSOLA 合成技术（基音同步叠加技术）给波形拼接合成技术注入了新的活力。PSOLA 技术着眼于对语音信号超时段特征的控制，如基频、时长、音强等的控制。而这些参数对于语音的韵律控制以及修改是至关重要的，因此，PSOLA 技术比LPC 技术具有可修改性更强的优点，可以合成出高自然度的语音。

----PSOLA 技术的主要特点是：在拼接语音波形片断之前，首先根据上下文的要求，用PSOLA 算法对拼接单元的韵律特征进行调整，使合成波形既保持了原始发音的主要音段特征，又能使拼接单元的韵律特征符合上下文的要求，从而获得很高的清晰度和自然度。

----如何将PSOLA 技术应用于汉语文语转换系统，国内许多学校和科研单位对此进行了大量广泛深入的研究。清华大学、北方交大、中科院声学所等在对PSOLA 技术研究的基础上，先后开发出了基于波形拼接的汉语文语转换系统，并且对于如何进一步完善该技术，如何进一步改善合成语音的自然度等都提出了一些具体措施。

----PSOLA 技术保持了传统波形拼接技术的优点，简单直观，运算量小，而且还能方便地控制语音信号的韵律参数，具有合成自然连续语流的条件，得到了广泛的应用。

----但是，PSOLA 技术也有其缺点。首先， PSOLA 技术是一种基音同步的语音分析/ 合成技术，首先需要准确的基因周期以及对其起始点的判定。基音周期或其起始点的判定误差将会影响PSOLA 技术的效果。其次，PSOLA 技术是一种简单的波形映射拼接合成，这种拼接是否能够保持平稳过渡以及它对频域参数有什么影响等并没有得到解决，因此，在合成时会产生不理想的结果。

LMA 声道模型

----随着人们对语音合成的自然度和音质的要求越来越高，PSOLA 算法表现出对韵律参数调整能力较弱和难以处理协同发音的缺陷，因此，人们又提出了一种基于LMA 声道模型的语音合成方法。这种方法具有传统的参数合成可以灵活调节韵律参数的优点，同时又具有比PSOLA 算法更高的合成音质。

----目前，主要的语音合成技术是共振峰合成技术和基于PSOLA 算法的波形拼接合成技术。这两种技术各有所长，共振峰技术比较成熟，有大量的研究成果可以利用，而 PSOLA 技术则是比较新的技术，具有良好的发展前景。

----过去这两种技术基本上是互相独立发展的，现在许多学者开始研究它们两者之间的关系，试图将两者有效地结合起来，从而合成出更加自然的语流。例如清华大学的研究人员进行了将共振峰修改技术应用于PSOLA 算法的研究，并用于Sonic 系统的改进，研制出了具有更高自然度的汉语文语转换系统。

3. 基于隐马尔可夫模型的语音合成

近年来，基于隐马尔可夫模型（HMM）的语音合成系统得到广泛的重视和应用。与一直以来语音合成方法的主流――基于大语料库的拼接合成方法相比，基于隐马尔可夫模型的语音合成系统优势在于系统结构简单，基本不需要任何语言学知识指导系统训练，构建时间短，构建过程基本不需要人工干预，而由于系统属于参数化合成方法，系统的合成结果灵活多变，可以很容易的应用于多个发音人，多种发音风格，多种情感表达的需求中。

基于HMM的语音合成方法主要分为两个阶段：训练阶段和合成阶段。首先对用于训练的语料进行参数提取（包括频谱参数和基频参数，本文用到的频谱参数为LSP线性频谱对参数）。HMM的观察向量可分为谱参数和基频参数两个部分，其中谱参数部分采用连续概率分布HMM进行建模，基频部分采用多空间概率分布HMM（MSD-HMM）进行建模。在合成阶段，首先对给定的待合成文本进行上下文分析，并将文本转换成模型的单元序列。然后根据基于HMM语音合成方法的参数生成算法，同时考虑语音参数的静态参数和动态参数，得到连续的目标语音参数序列，最后通过语音合成器合成出待合成语音。

基于HMM的语音合成方法虽然有系统易小型化、灵活多变等特点，但是和传统的拼接合成相比，还是有音质下降的缺点。传统的拼接合成方法由于是将真实的语音片段通过选音算法拼接在一起所以保留了原始语音片断的音质。而基于HMM的语音合成方法和其他的参数化语音合成方法一样，通过了一次语音编码解码的过程，不可避免的会造成合成音质的下降。另外，在HMM参数估计的过程中的统计方法使得频谱参数趋于平均化；同时，由于模型自身拓扑结构的限制，模型对频谱参数在时域方向变化的描述也存在局限性。这两种在频谱参数层上导致合成语音音质下降的现象本文称之为频域过平滑和时域过平滑。

为了解决这些问题，我们提出了基于离散HMM和连续HMM相结合的思路，这种方法在保持系统灵活性的同时，最大限度的保留了语音的声学特征，使得语音合成结果基本接近大语料的语音合成系统的清晰度。这一方法的合成结果不仅要优于传统HTS的合成结果，而且能够有效的在各种应用场合进行实际应用。

（图）语音合成

语音合成

基本结构

合成方法

标签

语音合成

基本结构

​​合成方法

标签

合成方法