人声编码器
人声编码器(voice encoder编码器编码器),简称声码器,也称语音信号分析与合成系统,是一种分析和合成声音的系统,主要用于合成人的语音。这种编码器的主要概念是在传输声音之前对声音进行编码,允许更多的语音信道共享同一个无线电电路或海底电缆。语音编码器可以通过硬件或软件实现。
概况简介 编辑本段
说话是人类最直接的方式、最有效的信息交流方式。在通信技术的发展中,语音通话一直是大多数通信系统的基本功能。信息传递的内容开始向多元化方向发展,图像、视频等非语音信息在通信中的比重逐渐增加,但语音通话便宜、便利仍然是最广泛使用的通信方式,因此有效地传输语音信息仍然是许多通信系统的基本功能之一。在数字通信系统中,原始语音信号在传输前必须进行数字化处理,但数字化后的语音信号有很多冗余。对语音信号进行编码可以有效地去除数字语音信号中的冗余信息,降低编码速率,因此语音编码技术在现代通信系统中得到了广泛的应用。
声音编码器或声码器语音信号编码器和解码器。使用语音信号模型进行语音分析和合成的系统。传播时只使用模型参数,编解码时使用模型参数估计和语音合成技术。在其语音模型中,语音被视为快速变化的激励信号的输出,该信号被发送到缓慢变化的信道滤波器。当有声时,激励信号是噪声,当有声时,激励信号是具有音调周期的脉冲序列。语音模型中的语音信号由两组参数表示。一组是激励源参数,包括浊音和清音指示、基音频率和振幅;另一组是信道滤波器的响应参数,参数不同,声码器的类型也不同。传输的是语音信号中没有冗余的模型参数。压缩比大,但是丢失了语音的一些细节,对语音信号的自然度影响很大。开发的声码器包括通道声码器、共振峰声码器、同态声码器、线性预测声码器和音素声码器。声码器早期用于军事通信,虽然压缩比大,但重建语音质量差。线性预测声码器可以满足电话通信对语音质量的要求,并应用于移动通信中、语音存储和转发可视电话等领域有着广阔的应用前景。
声码器的明显优势是码率低,所以适用于窄带、贵劣信道条件下的数字电话通信可以满足节约频带的要求、省电和抗干扰编码的要求。低数字速率也有利于语音存储和语音加密。声码器的缺点是音质不如普通数字电话,工作过程复杂,成本高。现代声码器主要用于军队、政府和那些值得付出代价来换取通信安全的人(保密)的场合。随着对人类发声机制和听觉机制的深入研究,以及计算机技术和大规模集成电路的发展,声码器的音质和小型化将不断提高,并将在数字通信中得到更广泛的应用。
声码器非常有利于语音存储和语音加密、有算法,速度快、质量好,结构简单、适合于窄带、昂贵和劣质信道条件下的数字电话通信。但是工作过程复杂,价格高,音质有点差。
编码理论 编辑本段
人说话时,人的声音是由喉头的声带开合声门产生的,其中包含许多周期性的波形和许多谐波这些周期波可视为基本声源信号。这些声源信号然后通过鼻子和喉咙(可以认为是一个复杂的共振系统)通过改变口型来改变系统,产生不同的和声内容,创造出各种声音;此外,气流通过不同的口型会产生浊音和哽咽声。声码器发送端的分析器分析语音信号,并将信号分成多个频带(数字越大,分析就越准确)输入信号经过多频带滤波器,每个频带分别经过包络检波器,包络检波器得到的控制信号输出到解码器。由于控制信号的变化速度比原始语音波形慢得多,声码器大大减少了语音传输所需的频带。如果对控制信号进行加密,可以保证语音传输的安全性,防止被截获。与原来的语音数据相比,传输数据可以压缩到原来的十分之一左右。语音信号的重建将颠倒这些步骤;接收机接收到各个频带的包络参数后,分别得到各个频带的包络,可以看作多个时变滤波器。接着由一个新的“丰富频率成分”的声源信号(可视为噪音讯号),通过每个频带的滤波器得到每个频带的包络信号,最后将这些信号相加得到恢复的语音信号。值得注意的是,通过上述编码方法,原始信号的很多信息都被丢弃了,主要是信息频谱的瞬时频率,也就是频谱的相位。虽然这种信息的丢失保留了语音的可懂度,但相位的丢失意味着音高的丢失,就像汉语一样“平、上、去、入”等五次,信息会丢失,听起来像机器人在说话,不会“抑扬顿挫”这种“机器人式”其特殊的音色流行于流行音乐和音响娱乐中,广泛应用于电子音乐中。
类型种类 编辑本段
1939年以后,已经制造的声码器主要包括:通道声码器、共振峰声码器、同态声码器、线性预测声码器和音素声码器。
通道声码器:在该声码器中,由14~20个带通滤波器组成的滤波器组对输入语音信号的幅度谱进行分析滤波器组将频率范围划分为许多相邻的频带或通道,每个滤波器的输出是一个包络缓慢变化的信号包络的大小反映了该频带中信号的功率。因此,每个带通滤波器输出的包络可以近似表示语音信号的幅度谱。另一方面,音调检测和清音鉴别器提供音调周期和清音指示。在解码端,有与编码端相同的滤波器组。浊音指示用于选择滤波器组的激励源,浊音时使用脉冲串,浊音时使用噪声。脉冲串的频率由基音控制,谱包络信息用于控制各个滤波器的输出,最终可以合成接近原始谱包络的语音信号。信道声码器的语音质量,即使在2.4kbit/Srate还能做到高清,抗背景噪声能力强,稳定性好,因此得到广泛应用,多年来兴趣不减。
共振峰声码器:它是信道声码器的变体,对共振峰频率和带宽进行编码。根据听力测试的结论,一般只需要传输3~4个共振峰,所以数据率可以很低。当共振峰提取正确时,共振峰声码器在语音质量上可以超过信道声码器,而速度只有后者的一半。只是因为正确跟踪共振峰频率相当困难,阻碍了这种声码器的实用化,但对它的研究一直在进行。
同态声码器:又称为倒谱声码器,它传递的模型参数是语音的倒谱和语音的幅度谱,可以反映信道响应但理论上,倒谱可以使语音模型中的激励源和信道响应参数得到理想的分离虽然在理论上是一种方法,但同态声码器在实际实现中需要大量的计算,在相同语音质量下数据率高于信道声码器,抗语音背景噪声能力差,所以只能得到有限的结果。
线性预测声码器:它是应用最广泛的声码器。它的主要特点是使用线性预测来模拟信道的响应。除了激励参数,声码器传输的参数是线性预测系数。典型的线性预测系数代表声道的冲激响应,但语音质量对这些系数的量化非常敏感,每个参数需要的比特数较多,所以在实际中经常使用各种等效参数,如反射系数线谱等效等,这些等效参数需要的量化比特数较少,对比特数不敏感。线性预测声码器的激励模型得到了改进,如浊音声门波激励模型或多脉冲激励模型。经过这些改进,线性预测声码器的语音质量处于声码器的前列。
音素声码器:最低速率声码器主要由音素识别器和音素合成器组成。但实际使用的语音单位一般不是音位,而是复合音位等更大的语音单位,因为不考虑上下文而连接的音位串是无法理解的。这个声码器的语音质量已经基本失去了自然度,声码器要求的数据速率可以是200bit/s以下。
在声码器的历史上也出现过相关的声码器、相位声码器和f.Motzer等提出的Motzer声码器。其中,相位声码器虽然在一般文献中被归为声码器,但实际上属于次待机编码。它和相关的声码器都没有在实践中应用,只有Motzer声码器被应用。
附件列表
词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。