知名百科 >> 语音输入 >> 历史版本
编辑时间历史版本内容长度图片数目录数修改原因
2023-07-19 15:36 最新历史版本 10921 1 3 新增图片
上一历史版本 |   返回词条

语音输入

语音输入(Voice input)是一种简便易用的输入法,指用户将语音(“说话”)信号通过麦克风输入计算机,计算机将语音信号识别为文字的计算机输入方式。语音识别技术是一个典型的多学科交叉的前沿技术,涉及声学、生理学、心理学、信号处理、模式识别、人工智能、信息理论、语言学以及计算机科学等众多学科。语音输入有广泛的应用领域,如:语音听写机、声控系统等。

目录

系统组成

大词汇量语音识别系统多采用统计模式识别技术,典型的基于统计模式识别方法的语音识别系统由以下几个基本模块构成:
(1)信号处理及特征提取模块,主要任务是从输入信号中提取特征,供声学模型处理。目前常用语音声学特征参数有Mel倒谱系数(Mel-frequency cepstral coefficients,MFCC)和感知线性预测(perceptual linear predictive,PLP)等。同时,该模块一般还采用一些信号处理技术,以尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。
(2)统计声学模型,典型系统多采用基于隐马尔科夫模型(HMM)进行建模。语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模。一个音素就是一个三至五状态的HMM,一个词就是构成词的多个音素的HMM串行起来构成的HMM,而连续语音识别的整个模型就是词和静音组合起来的HMM。
(3)发音词典,包含系统所能处理的词汇集及其发音。发音词典实际提供了声学模型建模单元与语言模型建模单元间的映射。
(4)语言模型,对语音识别系统所针对的语言进行建模。语言模型主要分为规则模型和统计模型两种,语言模型性能通常用交叉熵和复杂度(perplexity)来衡量。理论上,包括正则语言和上下文无关文法在内的各种语言模型都可以作为语言模型,但目前各种系统普遍采用的还是基于统计的N元文法及其变体。
(5)解码器,语音识别系统的核心之一。其任务是对输入的信号,根据声学、语言模型及词典,搜索能够以最大概率输出该信号的词串。

系统原理

语音识别系统的识别基元通常采用上下文相关的音素,汉语语音识别基元也经常选择声韵母或者音节。语音识别系统所需的训练数据大小与模型复杂度有关,大词汇量和非特定人的连续语音识别系统通常又称为听写机。
其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构,训练时对每个语音识别基元用前向后向算法获得HMM模型参数。识别时,将基元串接成词,词间加上静音模型并引入语言模型作为词间转移概率,形成循环结构,用Viterbi算法进行解码针对汉语易于分割的特点,先进行分割再对每一段进行解码,可以有效地提高解码的效率。

系统性能

语音识别系统的性能受许多因素的影响,包括不同的说话人、说话方式、环境噪声和传输信道等。提高系统强健性,就是使系统在不同的应用环境和条件下保持性能的稳定性。语音识别系统自适应的目的,就是根据不同的影响,自动的、有针对性的对系统进行调整,在使用中逐步提高语音识别系统性能。