语音识别技术
语音识别技术又称自动语音识别(Automatic Speech Recognition,ASR),是以语音为研究对象,通过语音信号处理和模式识别,使机器自动识别和理解口语或文字的技术。语音识别技术通常使用计算机程序。通过分析语音信号的特征,如频率、音调、语速、语调等。,声学建模、语言模型、语音和自然语言之间的对齐和解码被进一步处理,最终输出可理解的文本结果。
语音技术的研究正式进入起步阶段。语音识别是一门涉及面很广的交叉学科,与声学、语音学、语言学、信息论、模式识别理论和神经生物学等学科密切相关。它正逐渐成为信息技术中人机接口的关键技术。语音识别技术和语音合成技术的结合,使得人们可以在不使用键盘等输入工具的情况下,通过语音命令进行相应的操作。
语音识别是人工智能领域相对成熟的技术,已广泛应用于智能助理、语音识别交互、智能家居、金融交易等领域。随着移动互联网的发展,基于Deep Peak2和Deep Fully等语言模型的语音识别技术已经广泛应用于各种产品中。
发展历史
20世纪50年代,贝尔实验室实现了世界上第一个可以识别10个英文数字的语音识别系统,即Audry系统,标志着语音识别研究的开始。
20世纪60年代,随着计算机技术的发展,开始创建使用DP(动态编程)和LP(线性预测)分析语音信号的声学模型。通过这个模型,人们将语音信号转换成数字形式供计算机处理。
1970年,前苏联的维利奇科和扎戈鲁科将模式识别的概念引入语音识别。同年,板仓提出了线性预测编码(LPC)技术,并将其应用于语音识别。1978年,在前苏联科学家Vintsyuk的工作基础上,日本人Sakoe和Chiba成功地使用动态编程算法在时间轴上对齐了两个不同长度的语音,这就是我们现在经常提到的动态时间弯曲(DTW)。该算法将时间正则化和距离计算有机地结合起来,解决了不同时长的语音匹配问题。
在1970年至1980年期间,语音识别的研究从针对特定人的小规模独立单词语音识别转向独立于说话人的连续语音识别。
20世纪80年代,来自IBM的工程师耶利内克和他的团队开发了一种声控打字机。一个名为Tangora的实验性语音识别系统使用IBM PC AT来识别语音并将其打印在纸上。每个说话者必须单独训练打字机,使其能够识别自己的声音,并在每两个单词之间停顿一下。到20世纪80年代中期,Tangora识别的词汇量达到了2万个单词,这证明了统计方法的有效性。
1989年,Rabiner提出了隐马尔可夫模型(HMM),将语音识别的研究从模板匹配方法转变为基于概率统计的统计建模。
自2000年以来,人机语音交互成为研究的热点。研究重点是即兴口语和自然口语对话的识别和理解,以及多语种同声语音翻译。
2011年,苹果推出了智能语音系统Siri,它可以通过语音接收用户的需求,让用户跳过复杂的操作步骤,实现自己的需求,从而改变了人们与可计算设备的沟通方式。
2012年,谷歌首次将深度神经网络用于语音识别领域并取得重大突破。该技术可以大大提高语音识别的准确率和速度,使语音识别可以广泛应用于物联网、智能家居、语音助手等领域。
2017年,百度提出了Deep Speech2和Deep Peak2等端到端模型。同年,谷歌将机器翻译中使用的Seq-Seq方法应用于语音识别,并提出了自注意和多头结构,取得了良好的识别效果。谷歌还在2018年的Interspeech大会上提出了LAS(Listen Attend and Spell)在线识别产品。。同年,中国科大讯飞公司提出了深度卷积神经网络(DFCNN),阿里巴巴提出并开放了基于双向LSTM的深度前馈顺序存储网络(DFSMN)。这些模型和技术推动了语音识别技术的发展。
工作原理
语音识别的原理是将语音转换成用户可以阅读的单词。它采用模式识别作为基本框架,分为四个部分:数据预处理、特征提取、模型训练和测试应用。语音识别一般可以分为两个模块,训练模块和识别模块。训练模块主要学习声音,并将学习结果存储到语音数据库中。在识别过程中,在语音数据库中搜索当前听到的声音的相应语义或含义。根据目前主流的语音识别算法,识别模块对接收到的语音信号进行特征参数分析(即特征提取),并根据既定的判断条件和标准与语音数据库中的数据进行比较,最终通过比较得出语音识别结果。
主要分类
关键词识别:关键词识别是从连续无限的语音中识别给定数量的单词。这些单词可以包括许多其他单词和各种其他非语音现象,例如咳嗽、呼吸、蹒跚、音乐、关门、背景噪声和传输噪声。关键词识别包括两个基本内容:关键词检测和关键词确认。关键词检测是识别输入语音是否包含预先设定的关键词,关键词确认是判断输入语音是否为假设关键词。目前,随着语音分析和处理理论的进一步发展,关键词识别的应用领域越来越广泛,如声控电话交换机、语音拨号系统、预约系统、医疗服务、搜索引擎等。
基于声学模型的识别(ACM):声学模型是使用机器学习算法处理音频,训练语音特征和语音识别模型,然后识别输入语音。声学模型将语音数据映射成一组概率分布,用于表示语音信号中语音特征的出现概率。这些概率分布用于在语音识别中计算对应于语音信号的文本。对于给定的语音信号,声学模型可以计算它与某个文本之间的相似性或距离度量,从而确定最有可能对应的文本,即识别的语音文本。
基于语言模型的识别:语言模型主要基于统计模型和深度学习算法,用于解决语音识别中潜在的歧义问题,提高语音识别的准确率。这项技术主要分为两个步骤:训练和分类。在训练阶段,输入大量的脚本和标记的语言类型,使系统能够学习不同语言的特征以及每种语言中出现的单词组合。通过计算每种语言的词频和序列频率,建立模型。语言模型使用基于N-gram的统计模型,其中N表示使用前n-1个单词来预测下一个单词的模型。在分类阶段,给定一段文本,由模型进行推断,并计算指定文本属于每种语言的可能性。最后选择概率最大的语言作为答案。判断结果可以通过计算给定文本与每个语言模型之间的相似度来获得,通常使用余弦相似度等方法。
端到端语音识别:这种语音识别技术不需要将语音信号转换为微小的声学特征,而是直接将整个语音信号输入到深度学习模型中,从而实现语音识别。它使用单一模型直接将音频映射到字符或单词,这更容易构建和训练。端到端模型的所有参数都可以随着训练的进展进行同步调整和优化,从而避免使用不同损失函数导致的训练差异。
混合语音识别(混合语音识别):混合语音识别结合了声学模型和语言模型,还使用了混合算法模型,如HMM和DNN。混合语音识别主要包括前端音频处理和后端语音识别两个阶段。在前端音频处理中,主要对输入音频信号进行预处理,并对原始音频信号进行滤波和去噪以提高录音质量。在后端语音识别中,主要使用两种或两种以上的语音识别技术来提高识别的准确性和鲁棒性。
主要应用
语音助手:苹果与语音识别厂商合作后,手机实现了语音识别功能,这就成了我们今天熟悉的Siri。到了2015年9月,Siri已经可以摆脱之前的手动开启模式,支持语音指令“hi Siri”开启,这在一定程度上解放了她的双手。Siri变得越来越智能,甚至一度出现了“所有人都在戏弄”Siri的情况。它可以为用户提供语音控制操作方式,方便用户使用设备或获取信息。
语音搜索:用户通过语音搜索所需信息。例如,基于Android系统作为应用程序开发平台,使用Google语音识别技术来实现语音搜索和语音打开手机软件的功能。开发人员还实现了常用网站的链接和手机软件的列表显示,使用户更容易上网和娱乐。通过实机测试,实现了语音搜索和语音打开手机软件的功能,性能稳定可靠,实用性强。
语音翻译:通过语音输入要翻译的文本,然后翻译软件通过语音识别技术识别用户的语音,并将语音翻译成目标语言的文本。例如,2018年,谷歌将机器中使用的Seq-Seq方法应用于语音识别,并提出了自注意和多头模型,取得了良好的识别和翻译效果。
语音识别密码:在银行、电子商务、社交媒体等领域,用户可以通过语音进行身份验证或支付。例如,使用基于统计模型的隐马尔可夫模型(HMM)来描述语音模型,训练语音模型库,使用带有模板匹配的Viterbi算法进行语音识别。所设计的语音密码锁系统将语音密码和键盘密码技术相结合,保证了系统的安全性。通过测试,该系统对特定人的语音识别率可达98%。
口声控制:在智能家居领域,用户可以通过语音控制家用电器、打开电视、调节空调温度等操作。阿里巴巴的天猫精灵智能音响可以通过天猫精灵的召唤语言唤醒,然后说出相应的控制语句来控制家用电器的动作。
医学领域:通过智能语音识别技术与医疗场景的结合应用,辅助临床工作,提高工作效率,实现医患沟通,实现语音识别病历输入和医嘱。例如,基于“语音云”开发了医疗语音输入助手,使医生在使用键盘书写病历时可以一键启动语音输入,提高了病历输入效率,并针对识别过程中出现的多字、漏字、识别错误等问题建立了各科室语料库,优化了医疗语言模型并增加了方言识别功能,解决了医生记录慢、电子病历应用推广难等问题。
教育领域:语音识别技术也广泛应用于口语测评、学习记录、智能讲座平台、多媒体信息检索等。语音技术的发展将进一步助力外语和语言教学,提高教学效率和教学效果,推动人工智能技术的整体发展。与传统的图形编程和文本编程相比,利用语音识别开发的基于教育机器人的语音控制自动编程系统更加智能、易操作、易学,达到了寓教于乐的编程和学习目的。