国内现阶段语音识别技术的发展总结

五度易链 2018-11-01 3425 98

专属客服号

微信订阅号

科技最前沿

剖析产业发展现状

为区域/园区工作者洞悉行业发展

语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面，其中，最基础的就是语音识别单元的选取。

　　语音识别技术最开始的研究范围集中在小的词汇方面，后来逐步向大的词汇量发展，研究方向也转变为建立声音识别模型和经过处理后的语言数据进行匹配。

　　语音识别的技术的实现方式

　　语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面，其中，最基础的就是语音识别单元的选取。

　　(1)语音识别单元的选取。语音识别研究的基础是选择语音识别单元。语音识别单元有单词(句)、音节和音素三种，具体选择哪一种语音识别单元由具体研究任务的类型决定：

　　单词(句)单元在中小词汇语音识别系统中应用广泛，但由于模型库过于庞大，模型匹配算法复杂，实时性不强，所以不适合大词汇系统;

　　音节单元主要应用于汉语语音识别，因为汉语是单音节结构的语言，虽然有大约1300个音节，但无调音节共408个，相对较少，所以音节单元在中、大词汇量的汉语语音识别系统上是可行的。

　　音素单元之前曾广泛应用于英语语音识别，也越来越多的应用于中、大词汇量汉语语音识别系统中。原因在于汉语音节仅由22个声母和28个韵母构成，把声母细化，虽然增加了模型数量，但是提高了易混淆音节的区分能力

　　(2)特征参数提取技术。特征提取就是对语音信号进行分析处理，把丰富的语音信息中的冗余信息去除，获得对语音识别有用的信息。这是一个对语音信号进行信息压缩的过程，目前经常采用的特征参数提取技术是线性预测(LP)分析技术。基于LP技术提取的倒谱参数再加上Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱对人耳处理声音的模拟，进一步提高了语音识别系统的性能。

　　(3)模式匹配及模型训练技术。早期的语音识别应用的模式匹配和模型训练技术是动态时间归正技术(DTW)，它在孤立词语音识别中获得了良好性能，但是由于对大词汇量以及连续语音识别的不准确，目前已经被隐马尔可夫模型(HMM)和人工神经元网络(ANN)所取代。

　　我国语音识别技术的发展

　　研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后，国家863智能计算机专家组为语音识别技术研究专门立项，每两年滚动一次。我国语音识别技术的研究水平已经基本上与国外同步，在汉语语音识别技术上还有自己的特点与优势，并达到国际先进水平。中科院自动化所、声学所、清华大学、北京大学、哈尔滨工业大学、上海交通大学、中国科技大学、北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究，其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。

　　清华大学电子工程系语音技术与专用芯片设计课题组，研发的非特定人汉语数码串连续语音识别系统的识别精度，达到94.8%(不定长数字串)和96.8%(定长数字串)。在有5%的拒识率情况下，系统识别率可以达到96.9%(不定长数字串)和98.7%(定长数字串)，这是目前国际最好的识别结果之一，其性能已经接近实用水平。研发的5000词邮包校核非特定人连续语音识别系统的识别率达到98.73%，前三选识别率达99.96%;并且可以识别普通话与四川话两种语言，达到实用要求。

　　中科院自动化所及其所属模式科技(Pattek)公司2002年发布了他们共同推出的面向不同计算平台和应用的“天语”中文语音系列产品——PattekASR，结束了中文语音识别产品自1998年以来一直由国外公司垄断的历史。

　　2009年前后，大多主流的语音识别解码器已经采用基于有限状态机(WFST)的解码网络，该解码网络可以把语言模型、词典和声学共享音字集统一集成为一个大的解码网络，提高了解码的速度，为语音识别的实时应用提供了基础。

　　随着互联网的快速发展，以及手机等移动终端的普及应用，可以从多个渠道获取大量文本或语音方面的语料，这为语音识别中的语言模型和声学模型的训练提供了丰富的资源，使得构建通用大规模语言模型和声学模型成为可能。

　　在语音识别中，训练数据的匹配和丰富性是推动系统性能提升的最重要因素之一，但是语料的标注和分析需要长期的积累和沉淀，随着大数据时代的来临，大规模语料资源的积累将提到战略高度。

　　现如今，语音识别在移动终端上的应用最为火热，语音对话机器人、语音助手、互动工具等层出不穷，许多互联网公司纷纷投入人力、物力和财力展开此方面的研究和应用，目的是通过语音交互的新颖和便利模式迅速占领客户群。

　　语音识别技术当前发展问题

　　目前，语音识别技术基本成型，处于较为成熟的状态。例如在语音识别的Switchboard任务方面，最新的IBM已经能将错误率控制在5.5%之下，有经验的转写人员在这个任务中可以达到4%之下。因此，这类安静环境下的语音识别系统已经近似于人类水平。

　　目前的进展多处于应用层面。语音合成技术被应用在更多领域，而且从原始的机器声音已经进化到能够发出自然人的声音的程度，甚至现在出现各种明星声音的语音助手。在语音识别方面，市面上已经出现了针对方言口音的语音软件。在语义理解方面，聊天机器人正处在迅速进化的过程中，甚至能够讲笑话。在语音唤醒方面，智能音箱等产品大量出现。虽然在这些应用中，许多产品并没有达到高层智能的水平，但也给语音识别技术指明了方向。

　　实际上，语音识别技术在发音规范且背景噪音可控的环境下，在很多年前就能够进入应用阶段。不少尖端系统在工程水平很高的情况下还可以做的更好，如早期的Siri及DARPA项目语音识别评测中的各种参赛系统。

　　但在飞速进步的过程中，语音识别仍无法避免遇到某些瓶颈。

　　在强噪声干扰的情况下，目前的语音识别系统还很难达到实用化要求。在自然发音、噪声、口音等复杂条件下，语音识别的准确率明显下降。此外，语音的训练和测试用数据的匹配也并不十分契合。

　　想要解决环境复杂的问题，除了高超的技术之外，声学模型自适应等也是不错的方式。对于匹配问题则可以更加偏向研究方向，对语音本质进行更为深入的理解。

　　例如在人类的听觉系统中，存在一种“鸡尾酒会效应”：人类在具有背景噪声干扰的情况下，依然能够将注意力集中在某一个人的谈话上。可以将人类听觉系统的这种功能赋予语音识别系统，但就目前的技术而言依然很难实现。

　　同时，远场识别也依然是个充满挑战性的问题。当前，语音识别的远场错误率是近场的两倍左右。因此，解决远场及强噪声干扰情况下的语音识别是当前的一个有待进一步研究的问题。

　　对于这个问题，目前的主要解决方法是语音识别和麦克风阵列相结合。通过阵列信号处理技术，增强多通道语音技术，而后利用深度学习的方法进行声学建模。当然，这种方案有待于进步和优化，并且要考虑多方面的问题。如怎样将阵列信号处理技术和深度学习方法相结合，利用阵列信号处理的相关知识指导深度神经网络的结构设计，以便直接从多通道语音信号中学习多通道语音增强方法，而后和后端声学模型联合优化等。

　　另外，个体发音以及用词习惯都存在差异性，所以如何使得语音识别更加智能化也是一个问题。

　　可以看到，语音识别已经走到一个相对成熟的发展阶段，未来也会在应用级市场普及，但在发展过程中仍然存在许多瓶颈。生物技术识别方式先进而便捷，但人们不免担心其中所涉及到的隐私问题。

从当前环境来看，语音识别技术涉及到的使用范围还不是很广，但是随着深度学习的研究推进，语言识别的技术能够在发展之前，进一步提高识别的精确度。

产品演示在线咨询

本文由五度数科整理，转载请标明出处，违者必究！

语音识别

收藏|51 赞|98

发表评论