搜档网
当前位置:搜档网 › 实用语音识别基础第二讲

实用语音识别基础第二讲

语音识别技术

预处理

中国科学院声学研究所

Institute of Acoustics, CAS

2017《语音识别技术》教学进度表

课程类别:专业普及课

首席教授:颜永红主讲教师:张鹏远日期周次主要讲授内容授课人备注

2017-09-122语音识别技术概述颜永红2017-09-193语音识别预处理张鹏远2017-09-264语音特征提取徐及2017-10-035国庆假期无2017-10-106语言模型葛凤培2017-10-177声学模型第一讲张鹏远2017-10-248声学模型第二讲张鹏远2017-10-319自适应技术葛凤培2017-11-0710解码器

黎塔2017-11-1411深度神经网络在语音识别中的应用

徐及2017-11-2112关键词检索张鹏远2017-11-2813语音识别的应用

张鹏远2017-12-0514答疑张鹏远2017-12-12

15

考试

张鹏远

中国科学院声学研究所

Institute of Acoustics, CAS

参考书

?王炳锡等著,实用语音识别基础,国防工业出版社,2005年1月出版

?俞栋,邓力著,解析深度学习:语音识别实践,电子工业出版社,2016年7月出版?韩纪庆等编著,语音信号处理,清华大学出版社,2013年4月出版

中国科学院声学研究所

Institute of Acoustics, CAS

上课形式

?讲课+作业讨论

中国科学院声学研究所

Institute of Acoustics, CAS

提纲

?语音端点检测

?短时能量?短时平均过零率

?语音识别基础

?汉语语音基本特性?识别基元的选取

中国科学院声学研究所

Institute of Acoustics, CAS

现有语音识别系统框架

6

(()|())(())

arg max (()|())arg max

(())i i i i i

P O u w u P w u F P w u O u P O u λλ=

=前端处理解码器声学模型语言模型

识别

结果

用户语音

特征矢量:

识别过程是基于声学模型、发音词典、语言模型找到一个使后验概率最大化的词串作为识别结果

1,2(){,}

T O u O O O = 预加重加窗函数

FFT Mel滤波器DCT求倒谱语音信号

MFCC特征参数

发音词典

中国:

zh ong1 g guo2人民:r en2 m in2

建模单元的选择概率模型的选择

模型的训练方法

搜索空间的构建快速算法的研究

中国科学院声学研究所

Institute of Acoustics, CAS

音频信号的采集与存储

声音的起源物体振动引起(如人类发声器官)声音的传播

在介质中(如空气)以声波形式传播

声音的采集空气中传播的声波

通常用麦克风进行采集

模拟信号

音频信号的存储

数字信号

采样、量化

可闻声20-20kHz 高于或低于这一频段称为超声或次声

可以理解为一种传感器将空气的机械振动转化为电信号

采样率:每秒采样次数(8k/16k)

量化级:采样点所用二进制位数(16bit)

中国科学院声学研究所

Institute of Acoustics, CAS

语音信号生成的数学模型

音频信号包括音乐、噪声等多种情况,我们重点关注其中的语音信号(通常为300Hz-3400Hz)

激励模型

声道模型

辐射模型

物理原型

声带振动产生激励信号主要参量

基频(影响声调)

分析方法基频提取物理原型

咽鼻口等形成谐振腔主要参量

频谱包络,共振峰(影响音素种类)分析方法频谱分析

物理原型

声波在空气中传播主要参量

能量衰减曲线

处理对策预加重

中国科学院声学研究所

Institute of Acoustics, CAS ?红色曲线为频谱包络,其中的局部极大点称为共振峰,为浊音

特有,能够反映声道物理特性

?人类语音的前三至四个共振峰有较好的区分性,也是频谱分析

过程中的重点关注对象

中国科学院声学研究所

Institute of Acoustics, CAS

音素160ms

音节330ms

可以看出,语音信号在较短时间内呈现相对平稳的特点

短时平稳性假设是语音信号可以进行短时分析的理论基础

红色高亮部分为共振峰

语谱图是语音信号分析的重要手段之一,能够直观反映时频关系

中国科学院声学研究所

Institute of Acoustics, CAS

概念:语音端点检测(Voice Activity Detection,VAD)就是从连续的语音流中检测出有效的语音段。它包括两个方面,检测出有效语音的起始点即前端点,检测出有效语音的结束点即后端点。作用:

(1)从连续的语音流中分离出有效语音,可以降低存储或传输的数据;(2)端点检测可以简化人机交互,比如在录音的场景中,语音后端点检测可以省略结束录音的操作。

(3)可以用于去掉多余的非有声信号,提高系统处理语音的速度,同时减少因非有声信号进入后端分析系统而产生的干扰。

语音端点检测

中国科学院声学研究所

Institute of Acoustics, CAS

语音信号是一个以时间为自变量的一维连续函数,计算机处

理的语音数据是语音信号按时间排序的采样值序列,这些采

样值的大小同样表示了语音信号在采样点处的能量。

上图是一段只有两个字的简单音频,从图上可以很直观的看

出,首尾的静音部分声波的振幅很小,而有效语音部分的振

幅比较大,一个信号的振幅从直观上表示了信号能量的大小

:静音部分能量值较小,有效语音部分的能量值较大。

中国科学院声学研究所

Institute of Acoustics, CAS

基于信号时域分析的语音端点检测方法

?方法理论依据

?语音信号一般可分为无声段、清音段和浊音段,三者在能量和过零率上具有一定的差异

类型能量过零率无声低低清音较低高浊音

中国科学院声学研究所

Institute of Acoustics, CAS

时域分析

中国科学院声学研究所

Institute of Acoustics, CAS

基于能量的端点检测

由于语音是纯净语音和噪声的叠加,所以从时域波形看,一般地,语音的的幅度均值要大于非语音幅度均值,所以一般地,在短时间内,语音的能量大于非语音的能量,给定一个阈值,短时能量大于阈值的则判断为语音,否则判断为非语音。短时能量公式:对数表达:

()

2

1enery N

i x i ==∑()

2

101

10log N

i db x i ==∑

N表示分帧窗内取的样点数,x(i)表示第i个样本点幅度值。

基于短时平均能量的方法对于能量大的浊音来说,很有用,但是有时候会将能量小的清音判为非语音。这个问题可以引进短时过零率

中国科学院声学研究所

Institute of Acoustics, CAS

短时平均过零率

短时平均过零率:

()()()

sgn sgn 1n m z x m x m w n m ∞

=-∞

=

---????????∑从时域波形看,清音具有很高的短时过零率。所以在短时平均

能量的方法基础之上,再添加一个短时平均过零率门限(双门限方法),可以解决清音漏检的问题。

先设置一个较高的短时平均能量门限,可以确定一个语音开始点N1,但是并非真正的语音起始点,N1之前有清音,再取一个短时过零率门限,就可以找到真正的起始点。

中国科学院声学研究所

Institute of Acoustics, CAS ?步骤1:定位浊音

?确定较高的能量限M H

?语音中高于M H的部分

可以基本判定为浊音

?确定端点A1和A2

中国科学院声学研究所

Institute of Acoustics, CAS ?步骤2:扩展搜索

?选取低能量门限M L并

由A1和A2向两侧扩展,

确定B1和B2

?确定无声过零率均值

Zs,以3倍Zs为门限由

B1和B2再次向两侧扩

展确定C1和C2,为最

终分割结果

中国科学院声学研究所

Institute of Acoustics, CAS 语音识别基础知识

中国科学院声学研究所

Institute of Acoustics, CAS

一、语音的单位

?语音的片断从大到小可以有:篇章、段落、句

群、句子、短语、词、语素、音节、音素。?语音学主要研究音节和音素。

?应用的语言学从表达的角度也研究句子的语气、句调、逻辑重音等;以及篇章的朗读等。?音节由音素构成。

语音识别发展现状与展望

中国中文信息学会第七次全国会员代表大会 暨学会成立30周年学术会议 语音识别发展现状与展望中科院自动化研究所徐波 2011年12月4日

报告提纲 ?语音识别技术现状及态势?语音识别技术的行业应用?语音识别技术研究方向?结论与展望

2010年始语音识别重新成为产业热点?移动互联网的兴起成为ASR最重要的应用环境。在Google引领下,互联网、通信公司纷纷把语音识别作为重要研究方向 –Android系统内嵌语音识别技术,Google语音 翻译等; –iPhone4S 上的Siri软件; –百度、腾讯、盛大、华为等都进军语音识别领 域; –我国语音技术领军企业讯飞2010年推出语音云识别、讯飞口讯 –已有的QQ2011版语音输入等等

成熟度分析-技术成熟度曲线 ?美国市场调查咨询公司Gartner于2011年7月发布《2011新兴技术成熟度曲线》报告:

成熟度分析-新兴技术优先矩阵?Gartner评出了2011年具有变革作用的技术,包括语音识别、语音翻译、自然语言问答等。其中语音翻译和自然语言问答有望在5-10年内获得大幅利用,而语音识别有望在2-5年内获得大幅利用;

三十年语音识别技术发展 ---特征提取与知识方面?MFCC,PLP,CMS,RASTA,VTLN;?HLDA, fMPE,neural net-based features ?前端优化 –融入更多特征信息(MLP、TrapNN、Bottle Neck Features等) ?特征很大特点有些是跟模型的训练算法相匹配?大规模FSN图表示,把各种知识源集中在一起–bigram vs. 4-gram, within word dependencies vs. cross-word

基于matlab的语音识别系统

机电信息工程学院专业综合课程设计 系:信息与通信工程 专业:通信工程 班级:081班 设计题目:基于matlab的语音识别系统 学生姓名: 指导教师: 完成日期:2011年12月27日

一.设计任务及要求 1.1设计任务 作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。以语音识别开发出的产品应用领域非常广泛,有声控电话交换、语音拨号系统、信息网络查询、家庭服务、宾馆服务、旅行社服务系统、订票系统、声控智能玩具、医疗服务、银行服务、股票查询服务、计算机控制、工业控制、语音通信系统、军事监听、信息检索、应急服务、翻译系统等,几乎深入到社会的每个行业、每个方面,其应用和经济社会效益前景非常广泛。本次任务设计一个简单的语音识别系。 1.2设计要求 要求:使用matlab软件编写语音识别程序 二.算法方案选择 2.1设计方案 语音识别属于模式识别范畴,它与人的认知过程一样,其过程分为训练和识别两个阶段。在训练阶段,语音识别系统对输入的语音信号进行学习。学习结束后,把学习内容组成语音模型库存储起来;在识别阶段,根据当前输入的待识别语音信号,在语音模型库中查找出相应的词义或语义。 语音识别系统与常规模式识别系统一样包括特征提取、模式匹配、模型库等3个基本单元,它的基本结构如图1所示。 图1 语音识别系统基本结构图 本次设计主要是基于HMM模型(隐马尔可夫模型)。这是在20世纪80年代引入语音识别领域的一种语音识别算法。该算法通过对大量语音数据进行数据统计,建立识别词条的统计模型,然后从待识别语音信号中提取特征,与这些模

型进行匹配,通过比较匹配分数以获得识别结果。通过大量的语音,就能够获得一个稳健的统计模型,能够适应实际语音中的各种突发情况。并且,HMM算法具有良好的识别性能和抗噪性能。 2.2方案框图 图2 HMM语音识别系统 2.3隐马尔可夫模型 HMM过程是一个双重随机过程:一重用于描述非平稳信号的短时平稳段的统计特征(信号的瞬态特征);另一重随机过程描述了每个短时平稳段如何转变到下一个短时平稳段,即短时统计特征的动态特性(隐含在观察序列中)。人的言语过程本质上也是一个双重随机过程,语音信号本身是一个可观测的时变列。可见,HMM合理地模仿了这一过程,是一种较为理想的语音信号模型。其初始状态概率向量π,状态转移概率矩阵向量A,以及概率输出向量B一起构成了HMM的3个特征参量。HMM 模型通常表示成λ={π,A,B}。 2.4HMM模型的三个基本问题 HMM模型的核心问题就是解决以下三个基本问题: (1)识别问题:在给定的观测序列O和模型λ=(A,B,π)的条件下,如何有效地计算λ产生观测序列O的条件概率P(O︱λ)最大。常用的算法是前后向算法,它可以使其计算量降低到N2T次运算。 (2)最佳状态链的确定:如何选择一个最佳状态序列Q=q1q2…qT,来解释观察序列O。常用的算法是Viterbi算法。 (3)模型参数优化问题:如何调整模型参数λ=(A,B,π),使P(O︱λ)最大:这是三个问题中最难的一个,因为没有解析法可用来求解最大似然模型,所以只能使用迭代法(如Baum-Welch)或使用最佳梯度法。 第一个问题是评估问题,即已知模型λ=(A,B,π)和一个观测序列O,如何计算由该模型λ产生出该观测序列O的概率,问题1的求解能够选择出与给定的观测序列最匹配的HMM模型。 第二个问题力图揭露模型中隐藏着的部分,即找出“正确的”状态序列,这是一个典型的估计问题。

语音识别技术的发展与未来

语音识别技术的发展与未来 与机器进行语音交流,让它听明白你在说什么。语音识别技术将人类这一曾经的梦想变成了现实。语音识别就好比“机器的听觉系统”,该技术让机器通过识别和理解,把语音信号转变为相应的文本或命令。 在1952年的贝尔研究所,Davis等人研制了世界上第一个能识别10个英文数字发音的实验系统。1960年英国的Denes等人研制了第一个计算机语音识别系统。 大规模的语音识别研究始于上世纪70年代以后,并在小词汇量、孤立词的识别方面取得了实质性的进展。上世纪80年代以后,语音识别研究的重点逐渐转向大词汇量、非特定人连续语音识别。 同时,语音识别在研究思路上也发生了重大变化,由传统的基于标准模板匹配的技术思路开始转向基于统计模型的技术思路。此外,业内有专家再次提出了将神经网络技术引入语音识别问题的技术思路。 上世纪90年代以后,在语音识别的系统框架方面并没有什么重大突破。但是,在语音识别技术的应用及产品化方面出现了很大的进展。比如,DARPA是在上世界70年代由美国国防部远景研究计划局资助的一项计划,旨在支持语言理解系统的研究开发工作。进入上世纪90年代,DARPA计划仍在持续进行中,其研究重点已转向识别装置中的自然语言处理部分,识别任务设定为“航空旅行信息检索”。 我国的语音识别研究起始于1958年,由中国科学院声学所利用电子管电路识别10个元音。由于当时条件的限制,中国的语音识别研究工作一直处于缓慢发展的阶段。直至1973年,中国科学院声学所开始了计算机语音识别。 进入上世纪80年代以来,随着计算机应用技术在我国逐渐普及和应用以及数字信号技术的进一步发展,国内许多单位具备了研究语音技术的基本条件。与此同时,国际上语音识别技术在经过了多年的沉寂之后重又成为研究的热点。在这种形式下,国内许多单位纷纷投入到

基于matlab的语音识别技术

项目题目:基于Matlab的语音识别 一、引言 语音识别技术是让计算机识别一些语音信号,并把语音信号转换成相应的文本或者命令的一种高科技技术。语音识别技术所涉及的领域非常广泛,包括信号处理、模式识别、人工智能等技术。近年来已经从实验室开始走向市场,渗透到家电、通信、医疗、消费电子产品等各个领域,让人们的生活更加方便。 语音识别系统的分类有三种依据:词汇量大小,对说话人说话方式的要求和对说话人的依赖程度。 (1)根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量及无限词汇量识别系统。 (2)根据对说话人说话方式的要求,可以分为孤立字(词)语音识别系统、连接字语音识别系统及连续语音识别系统。 (3)根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。 二、语音识别系统框架设计 2.1语音识别系统的基本结构

语音识别系统本质上是一种模式识别系统,其基本结构原理框图如图l所示,主要包括语音信号预处理、特征提取、特征建模(建立参考模式库)、相似性度量(模式匹配)和后处理等几个功能模块,其中后处理模块为可选部分。 三、语音识别设计步骤 3.1语音信号的特征及其端点检测 图2 数字‘7’开始部分波形 图2是数字”7”的波形进行局部放大后的情况,可以看到,在6800之前的部分信号幅度很低,明显属于静音。而在6800以后,信号幅度开始增强,并呈现明显的周期性。在波形的上半部分可以观察到有规律的尖峰,两个尖峰之间的距离就是所谓的基音周期,实际上也就是说话人的声带振动的周期。 这样可以很直观的用信号的幅度作为特征,区分静音和语音。只要设定一个

门限,当信号的幅度超过该门限的时候,就认为语音开始,当幅度降低到门限以下就认为语音结束。 3.2 语音识别系统 3.2.1语音识别系统的分类 语音识别按说话人的讲话方式可分为3类:(1)即孤立词识别(isolated word recognition),孤立词识别的任务是识别事先已知的孤立的词,如“开机”、“关机”等。(3)连续语音识别,连续语音识别的任务则是识别任意的连续语音,如一个句子或一段话。 从识别对象的类型来看,语音识别可以分为特定人语音识别和非特定人语音识别,特定人是指针对一个用户的语音识别,非特定人则可用于不同的用户。显然,非特定人语音识别系统更符合实际需要,但它要比针对特定人的识别困难得多。 3.2.2语音识别系统的基本构成 语音识别系统的实现方案如图3所示。输入的模拟语音信号首先要进行处理,包括预滤波,采样和量化,加窗,端点检测,预加重等。语音信号经处理后,接下来很重要的一环就是特征参数提取。 图3 语音识别系统 在训练阶段,将特征参数进行一定的处理之后,为每个词条得到一个模型,保存为模版库。在识别阶段,语音信号经过相同的通道得到语音参数,生成测试模版,与参考模板进行匹配,将匹配分数最高的参考模型作为识别结果。 3. 2.3 语音识别系统的特征参数提取 特征提取是对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。语音信号是一种典型的时变信号,然而如果把观察时间缩短到十毫秒至几十毫秒,则可以得到一系列近似稳定的信号。人的发音器官可以用若干段前后连接的声管进行模拟,这就是所谓的声管模型。 全极点线性预测参数 (LPC: Liner Prediction Coeffieient)可以对声管模型进行很好的描述,LPC参数是模拟人的发声器官的,是一种基于语音合成的参数模型。 在语音识别中,很少用LPC系数,而是用LPC倒谱参数 (LPCC: Liner Prediction Cepstral Coefficient)。LPCC参数的优点是计算量小,对元音有较好的描述能力,其缺点在于对辅音的描述能力较差,抗噪声性能较差。

语音识别技术文献综述

语音识别技术综述 The summarization of speech recognition 张永双 苏州大学 摘要 本文回顾了语音识别技术的发展历史,综述了语音识别系统的结构、分类及基本方法,分析了语音识别技术面临的问题及发展方向。 关键词:语音识别;特征;匹配 Abstact This article review the courses of speech recognition technology progress ,summarize the structure,classifications and basic methods of speech recognition system and analyze the direction and the issues which speech recognition technology development may confront with. Key words: speech recognition;character;matching 引言 语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科,所涉及的领域有信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等,甚至还涉及到人的体态语言(如人民在说话时的表情手势等行为动作可帮助对方理解)。其应用领域也非常广,例如相对于键盘输入方法的语音输入系统、可用于工业控制的语音控制系统及服务领域的智能对话查询系统,在信息高度化的今天,语音识别技术及其应用已成为信息社会不可或缺的重要组成部分。 1.语音识别技术的发展历史 语音识别技术的研究开始二十世纪50年代。1952年,AT&Tbell实验室的Davis等人成功研制出了世界上第一个能识别十个英文数字发音的实验系统:Audry系统。

语音识别方法及发展趋势分析

语音识别改进方法及难点分析 ——《模式识别》结课小论文 学院:化工与环境学院 学号:2120151177 姓名:杜妮

摘要:随着计算机技术的不断发展,人工智能程度也越来越高,作为人工智能的一部分——模式识别也在模型和算法上愈发成熟。本文根据近105年文献,分析最新声音识别的方法和应用。 关键字:模式识别声音识别方法应用 随着人工智能的迅速发展,语音识别的技术越来越成为国内外研究机构的焦点。人们致力于能使机器能够听懂人类的话语指令,并希望通过语音实现对机器的控制。语音识别的研究发展将在不远的将来极大地方便人们的生活。 语音识别大致的流程包括:特征提取、声学模型训练、语音模型训练以及识别搜索算法。作为一项人机交互的关键技术,语音识别在过去的几十年里取得了飞速的发展,人们在研究和探索过程中针对语音识别的各部流程进行了各种各样的尝试和改造,以期发现更好的方法来完成语音识别流程中的各步骤,以此来促进在不同环境下语音识别的效率和准确率。本文通过查阅近10年国内外文献,分析目前语音识别流程中的技术进展和趋势,并在文章最后给出几项语音识别在日常生活中的应用案例,从而分析语音识别之后的市场走势和实际利用价值。 一、语音识别的改进方法 (一)特征提取模块改进 特征提取就是从语音信号中提取出语音的特征序列。提取的语音特征应该能完全、准确地表达语音信号,特征提取的目的是提取语音信号中能代表语音特征的信息,减少语音识别时所要处理的数据量。语音信号的特征分析是语音信号处理的前提和基础,只有分析出可以代表语音信号本质特征的参数,才能对这些参数进行高效的语音通信,语音合成,和语音识别等处理,并且语音合成的好坏,语音识别率的高低,也都取决于语音特征提取的准确性和鲁棒性。目前,针对特定应用的中小词汇量、特定人的语音识别技术发展已较为成熟,已经能够满足通常应用的要求,并逐步投入了实用。而非特定人、大词汇量、连续语音识别仍是

HTK(V3.1)基础指南中文版

HTK(V3.1)基础指南(原文:HTK(v.3.1):Basic Tutorial) Nicolas Moreau/02.02.2002 陶阳译 taoyangxp@https://www.sodocs.net/doc/c43906423.html, 江西.南昌 2009.6.1

目录 0HTK简介 (1) 1Yes/No识别系统 (1) 1.1搭建步骤 (1) 1.2工作环境构建 (1) 1.3标准HTK工具选项 (1) 2创建训练集 (1) 2.1录音 (2) 2.2标注信号 (2) 2.3文件重命名 (2) 3声学分析 (2) 3.1配置参数 (3) 3.2源/目标规范 (3) 4HMM定义 (4) 5HMM训练 (6) 5.1初始化 (6) 5.2训练 (8) 6任务定义 (8) 6.1语法和字典 (8) 6.2网络 (9) 7识别 (10) 8性能测试 (12) 8.1主标签文件 (12) 8.2错误率 (13)

0HTK简介 HTK是指隐马尔可夫模型工具箱(Hidden Markov Model Toolkit),由剑桥大学工程系(CUED)研发而成。该工具箱的目的是搭建使用隐马尔可夫模型(HMMs)。HTK主要 用于语音识别研究(但是HMMs应用范围很广,还有很多其它可能的应用…) HTK由一系列库模块构成,包括C语言形式的可用工具,可自由下载,包括一个完整的文档说明(大约300页),见https://www.sodocs.net/doc/c43906423.html,/。 1Yes/No识别系统 本指南中,我们将基于HTK工具集建立一个2-单词识别系统,词汇集是{Yes,No}。 这是可以设计出来的最基本的自动语音识别(ASR)系统。 1.1搭建步骤 构建语音识别系统的主要步骤如下: (1)训练库的创建:词汇集中的每个元素进行多次录制,且与相应词汇做好标签; (2)声学分析:训练波形数据转换为一系列系数向量; (3)模型定义:为总词汇集中的每个元素定义一个HMM原型; (4)模型训练:使用训练数据对每个HMM模型进行初始化、训练; (5)任务定义:识别系统的语法(什么可被识别)的定义; (6)未知输入信号识别; (7)评估:识别系统的性能可通过测试数据进行评估。 1.2工作环境构建 建议创建如下的目录结构: (1)data/:存储训练和测试数据(语音信号、标签等等),包括2个子目录,data/train/ Array和data/test/,用来区分识别系统的训练数据和评估数据; (2)analysis/:存储声学分析步骤的文件; 建立以下目录 (3)training/:存储初始化和训练步骤的相关文件; (4)model/:存储识别系统的模型(HMMs)的相关文件; (5)def/:存储任务定义的相关文件; (6)test/:存储测试相关文件。 1.3标准HTK工具选项 一些标准选项对每个HTK工具都是通用的。我们将使用以下一些选项: (1)-A:显示命令行参数; (2)-D:显示配置设置; (3)-T1:显示算法动作的相关信息。 完整的选项列表请参见:HTK文档,第50页(第四章操作环境)。 2 创建训练集Array 图1录制标签训练数据 首先,我们录制Yes和No两个语音信号,作为要训练的单词模型(训练集)。 然后为每个语音信号打上标签,也就是说,关联一个文本来描述语音内容。录制和打标签,

语音识别的发展及应用

语音识别的发展及应用 本文介绍了隐马尔可夫模型(Hidden Markov Model,HMM),传统的人工神经网络语音识别方法以及改进的人工神经网络,针对最近研究热点深度学习在语音识别中的应用做了详细的描述,并对与人工神经网络在语音识别中的缺点进行阐述,就如何将HMM与深度神经网络联合起来运用到语音识别中进行详细的分析与介绍。 标签:隐马尔科夫模型人工神经网络深度学习 一、引言 伴随着计算机技术的不断进步以及人工智能学科的飞速发展。人们对大脑学习、思维机能的研究逐渐深入。人工神经网络作为借鉴人脑神经元互相连结构的信息处理网络,受到了广泛的关注。深度学习作为人工神经网络的一个分支,能够从海量的数据中挖掘到有效的信息,成为语音识别领域的一个研究热点。 二、隐马尔科夫模型 隐马尔可夫模型[3](HMM)是马尔可夫链的一种,它的状态不能直接观察到,但能通过观测向量序列观察到,每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。所以,隐马尔可夫模型是一个双重随机过程——具有一定状态数的隐马尔可夫链和显示随机函数集。 隐马尔科夫模型(HMM)可以用五个元素来表示,包括两个状态集合和三个概率矩阵:1.隐含状态S;2.可转移状态O;3aaaa.初始状态概率矩阵π;4.隐含状态转移概率矩阵A;5.观测状态转移概率矩阵B。一般的,可以用λ=(A,B,π)三元组来简洁的表示一个隐马尔科夫模型。应用隐马尔科夫模型通常解决三类基本问题:1.评估问题;2.解码问题;3.学习问题。 隐马尔可夫模型是目前进行声学建模的主流技术。采用5状态的连续HMM 模型(见图1),其中1、5状态只起连接作用,没有观测概率,第2、3、4状态有高斯概率分布,假设特征参数是相互独立的,所以规定协方差矩阵为对角阵。 图1 五状态HMM模型结构 三、深度神经网络模型 1.神经网络的基本概念 神经网络即人工神经网络,是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法的数学模型。此网络依靠系统的复杂程度,通过调整内部大

语音识别基本知识及单元模块方案设计

语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别技术正逐步成为计算机信息处理技术中的关键技术,语音技术的应用已经成为一个具有竞争性的新兴高技术产业。 1语音识别的基本原理 语音识别系统本质上是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单元,它的基本结构如下图所示: 未知语音经过话筒变换成电信号后加在识别系统的输入端,首先经过预处理,再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的模型,将计算机中存放的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义,通过查表就可以给出计算机的识别结果。显然,这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。2语音识别的方法 目前具有代表性的语音识别方法主要有动态时间规整技术(DTW)、隐马尔可夫模型(HMM)、矢量量化(VQ)、人工神经网络(ANN)、支持向量机(SVM)等方法。 动态时间规整算法(Dynamic Time Warping,DTW)是在非特定人语音识别中一种简单有效的方法,该算法基于动态规划的思想,解决了发音长短不一的模板匹配问题,是语音识别技术中出现较早、较常用的一种算法。在应用DTW算法进行语音识别时,就是将已经预处理和分帧过的语音测试信号和参考语音模板进行比较以获取他们之间的相似度,按照某种距离测度得出两模板间的相似程度并选择最佳路径。 隐马尔可夫模型(HMM)是语音信号处理中的一种统计模型,是由Markov链演变来的,所以它是基于参数模型的统计识别方法。由于其模式库是通过反复训练形成的与训练输出信号吻合概率最大的最佳模型参数而不是预先储存好的模式样本,且其识别过程中运用待识别语音序列与HMM参数之间的似然概率达到最大值所对应的最佳状态序列作为识别输出,因此是较理想的语音识别模型。 矢量量化(Vector Quantization)是一种重要的信号压缩方法。与HMM相比,矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是将若干个语音信号波形或特征参数的标量数据组成一个矢量在多维空间进行整体量化。把矢量空间分成若干个小区域,每个小区域寻找一个代表矢量,量化时落入小区域的矢量就用这个代表矢量代替。矢量量化器的设计就是从大量信号样本中训练出好的码书,从实际效果出发寻找到好的失真测度定义公式,设计出最佳的矢量量化系统,用最少的搜索和计算失真的运算量实现最大可能的平均信噪比。在实际的应用过程中,人们还研究了多种降低复杂度的方法,包括无记忆的矢量量化、有记忆的矢量量化和模糊矢量量化方法。 人工神经网络(ANN)是20世纪80年代末期提出的一种新的语音识别方法。其本质上是一

语音识别技术的现状与未来

语音识别技术的现状与未来 The Present and Future of Speech Recognition (CSLT-TRP-20160034) 王东(Dong Wang) 2017/01/08 CSLT, RIIT, Tsinghua Univ.

语音识别任务及其研究意义 语音识别(Automatic Speech Recognition, ASR)是指利用计算机实现从语音到文字自动转换的任务。在实际应用中,语音识别通常与自然语言理解、自然语言生成和语音合成等技术结合在一起,提供一个基于语音的自然流畅的人机交互方法。 早期的语音识别技术多基于信号处理和模式识别方法。随着技术的进步,机器学习方法越来越多地应用到语音识别研究中,特别是深度学习技术,它给语音识别研究带来了深刻变革。同时,语音识别通常需要集成语法和语义等高层知识来提高识别精度,因此和自然语言处理技术息息相关。另外,随着数据量的增加和机器计算能力的提高,语音识别越来越依赖数据资源和各种数据优化方法,这使得语音识别与大数据、高性能计算等新技术产生广泛结合。综上所述,语音识别是一门综合性应用技术,集成了包括信号处理、模式识别、机器学习、数值分析、自然语言处理、高性能计算等一系列基础学科的优秀成果,是一门跨领域、跨学科的应用型研究。 语音识别研究具有重要的科学价值和社会价值。语音信号是典型的局部稳态时间序列,研究这一信号的建模方法具有普遍意义。事实上,我们日常所见的大量信号都属于这种局部稳态信号,如视频、雷达信号、金融资产价格、经济数据等。这些信号的共同特点是在抽象的时间序列中包括大量不同层次的信息,因而可用相似的模型进行描述。历史上,语音信号的研究成果在若干领域起过重要的启发作用。例如,语音信号处理中的隐马尔可夫模型在金融分析、机械控制等领域都得到了广泛应用。近年来,深度神经网络在语音识别领域的巨大成功直接促进了各种深度学习模型在自然语言处理、图形图象处理、知识推理等众多应用领域的发展,取得了一个又一个令人惊叹的成果。 在实用价值方面,语音交互是未来人机交互的重要方式之一。随着移动电话、穿戴式设备、智能家电等可计算设备的普及,基于键盘、鼠标、触摸屏的传统交互方式变得越来越困难。为了解决这种困难,手势、脑波等一系统新的人机交互方式进入人们的视野。在这些五花八门的新兴交互方式中,语音交互具有自然、便捷、安全和稳定等特性,是最理想的交互方式。在语音交互技术中,语音识别是至关重要的一环:只有能“听懂”用户的输入,系统才能做出合理的反应。今天,语音识别技术已经广泛应用在移动设备、车载设备、机器人等场景,在搜索、操控、导航、休闲娱乐等众多领域发挥了越来越重要的作用。随着技术越来越成熟稳定,我们相信一个以语音作为主要交互方式的人机界面新时代将很快到来。 研究内容和关键科学问题 语音识别研究主要包括如下三方面内容:语音信号的表示,即特征抽取;语音信号和语言知识建模;基于模型的推理,即解码。语音信号的复杂性和多变性使得这三方面的研究都面临相当大的挑战。图1给出一个语音识别系统的典型架构。

微软Speech SDK 5.1开发语音识别系统主要步骤

微软语音识别分两种模式:文本识别模式和命令识别模式.此两种模式的主要区别,主要在于识别过程中使用的匹配字典不同.前者使用的是通用字典,特点是内容多,覆盖的词汇量大,字典由sdk提供.适用于没有预定目标的随机听写之类的应用.同时因为词汇量大直接导致识别的精度降低,识别速度较慢.后者的字典需要开发者自己编写,就是你们所说的xml文件.xml 文件作为一种数据存储的方式,有一定的格式,定义了sdk需要确定的一些标签,和用以匹配的词汇.这种方式由开发者定义词汇的数量,大大降低匹配过程中需要检索的词汇量,提高了识别速度.同时因为侯选项极少,所以一般不会识别错误.其缺点也是明显的:词汇量小,只有预先输入字典的词汇可以被识别出来,所以一般用来作为常用命令的识别,方便用户操作,代替菜单命令等. 利用微软Speech SDK 5.1在MFC中进行语音识别开发时的主要步骤,以Speech API 5.1+VC6为例: 1、初始化COM端口 一般在CWinApp的子类中,调用CoInitializeEx函数进行COM初始化,代码如下: ::CoInitializeEx(NULL,COINIT_APARTMENTTHREADED); // 初始化COM 注意:调用这个函数时,要在工程设置(project settings)->C/C++标签,Category中选Preprocessor,在Preprocessor definitions:下的文本框中加上“,_WIN32_DCOM”。否则编译不能通过。 2、创建识别引擎 微软Speech SDK 5.1 支持两种模式的:共享(Share)和独享(InProc)。一般情况下可以使用共享型,大的服务型程序使用InProc。如下: hr = m_cpRecognizer.CoCreateInstance(CLSID_SpSharedRecognizer);//Share hr = m_cpRecognizer.CoCreateInstance(CLSID_SpInprocRecognizer);//InProc 如果是Share型,可直接进到步骤3;如果是InProc型,必须使用ISpRecognizer::SetInput 设置语音输入。如下: CComPtr cpAudioToken; //定义一个token hr = SpGetDefaultTokenFromCategoryId(SPCAT_AUDIOIN, &cpAudioToken); //建立默认的音频输入对象 if (SUCCEEDED(hr)) { hr = m_cpRecognizer->SetInput(cpAudioT oken, TRUE);} 或者: CComPtr cpAudio; //定义一个音频对象 hr = SpCreateDefaultObjectFromCategoryId(SPCAT_AUDIOIN, &cpAudio);//建立默认的音频输入对象 hr = m_cpRecoEngine->SetInput(cpAudio, TRUE);//设置识别引擎输入源 3、创建识别上下文接口 调用ISpRecognizer::CreateRecoContext 创建识别上下文接口(ISpRecoContext),如下:hr = m_cpRecoEngine->CreateRecoContext( &m_cpRecoCtxt ); 4、设置识别消息 调用SetNotifyWindowMessage 告诉Windows哪个是我们的识别消息,需要进行处理。如下:

语音识别基础讲义01

第一章 绪论 1.1 语音识别的重要性 1.1.1 语音信息处理与语音识别 人类利用语言相互交流信息,包括语音和文字两种表达方式。通过语音相互传递信息,这是人类最重要的基本功能之一。随着信息社会的发展,人与人之间,自不必说,即使在人与机器之间也每时每刻都需要进行大量的信息交换。人类在利用语音进行信息交流时,说话人大脑产生思想,通过语言转换,再由发声器官发出相应的语音;语音的声波经由空气传播到达听话人的耳朵,通过听觉器官将语音传送到大脑,由此理解该语音所表达的语言意义。这是人类进行信息交流与处理的过程。用计算机来模拟人类的这一交流信息的过程,包括以下几个部分: (1)将大脑产生的思想转换成语言; (2)将语言转换成相应的语音; (3)识别表达语言的语音内容; (4)理解语音所表达的语言意义。 上述(1)与(4)的部分属于自然语言生成和理解的研究范围,(2)的部分属于语音合成的研究范围;(3)的部分则属于语音识别的研究范围。图1.1为人与人之间、人与机器之间的语音信息处理流程的示意图。 图1.1 人与人之间、人与机器之间的语音信息处理流程图 1.1.2 语音识别的重要性 计算机语音识别是智能计算机系统的重要特征。这一技术的应用将从根本上改变计算机的人机界面,从而对计算机的发展以及推广应用产生深远的影响。基于电话的语音识别技术,使计算机直接为客户提供金融、证券和旅游等方面的信息查询及服务成为可能,进而成为电子商务进展中的重要一环(V oice-Commerce)。其次,语音识别技术作为声控产业,必将对编辑排版、办公自动化、工业过程和机器操作的声控技术起到重大的推进作用。因此可以预言,语音技术必将对工业、金融、商业、文化、教育等诸方面事业产生革命性的影响。这是一项具有巨大应用推广前景的工程。正是由于这一点,一些主要先进国家都把此工程列为国家级研究项目。 面对如此广阔的应用领域,目前国内外众多公司正积极推动语音识别技术的应用。 人与人之间的语音通信 (人 说话方 收听方 (机器

基于AVR单片机的语音识别系统设计

基于AVR单片机的语音识别系统设计 0 引言传统的人机交互依靠复杂的键盘或按钮来实现,随着科技的发展,一些新型的人机交互方式也随之诞生,带给人们全新的体验。基于语音识别的人机交互方式是目前热门的技术之一。但是语音识别功能算法复杂、计算量大,一般在计算机上实现,即使是嵌入式方面,多数方案也需要运算能力强的 ARM 或DSP,并且外扩RAM、FLASH 等资源,增加了硬件成本,这些特点 无疑限制了语音识别技术的应用,尤其是嵌入式领域。本系统采用的主控MCU 为Atmel 公司的ATMEGA128,语音识别功能则采用ICRoute 公司的单芯片LD3320。LD3320 内部集成优化过的语音识别算法,无需外部 FLASH,RAM 资源,可以很好地完成非特定人的语音识别任务。 1 整体方案设计1.1 语音识别原理在计算机系统中,语音信号本身的不确定性、动态性和连续性是语音识别的难点。主流的语音识别技术是基于统计模式识别的基本理论,原理如图1 所示。 语音识别通常需要两个阶段完成。第一阶段是训练,主要是提取语音特征,用户往往需要进行几次语音训练,经过预处理和特征提取后获得相应特征参数。第二阶段是识别,识别过程就是将输入的语音特征参数和模型库中的参数进行相似性比较,最后输出匹配度最高的特征参数完成识别过程。 2 硬件电路设计硬件框架如图2 所示,电路主要由主控制器电路和语音识别电路组成。ATMEGA128 控制LD3320 语音识别电路,输出结果由ATMEGA128 处理,然后通过总线来控制不同的设备。 2.1 控制器电路控制器选用Atmel 公司生产的ATMEGA128 芯片,采用先

基于深度学习的语音识别——文献阅读笔记

语音识别 1 《基于深度学习的语音识别应用研究》 语音识别主要作用就是把一段语音信号转换成相对应的文本信息,系统主要由声学特征提取、语言模型、声学模型和解码器等组成。训练识别的过程是从原始波形语音数据中提取的声学特征经过训练得到声学模型,与发声词典、语言模型组成网络,对新来的语音提取特征,经过声学模型表示,通过维特比解码得出识别结果。 特征 系统主要由声学特征提取、语言模型、声学模型和解码器等组成。 音识别中的特征包括:线性预测参数(LinearPredictionCoefficients,LPC)、倒谱系数(Cepstral Coefficients, CEP)、梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients, MFCC)和感知线性预测系数(Perceptual Linear Prediction, PLP)等。 声学模型 声学基元选择 词(Word)、音节(Syllable)、声韵母(Initial/Final) 以及音素(Phone) HMM声学建模 隐马尔科夫模型 声学模型训练准则 最大似然准则 语言模型 统计语言模型,通过概率来表示词序列在语言环境中出现的可能性,并不是基于语法规则的简单判断。 解码器 通过在一个由语言模型、发声词典、声学模型构成的网络空间中 搜索得分较高的状态序列,其中这里的网络空间有动态网络和静态网络,得分主要由声学模型得分和语言模型得分共同决定。 语音识别的深度学习 CNN 将语音看做二维特征输入时,第一维是时域维度,第二维是频域维度,这两维的物理意义完全不同!.

输入层、卷积核、特征图(feature map)都是一维的。 用Kaldi中特征提取工具以帧长25ms、巾贞移10ms,提取原始数据生成39维MFCC特征(12维滤波器输出值加上1维对数能量,以及其一阶差分和二阶差分)。分布满足a, =0及德尔塔=1,这么做可以直接避免训练样本分布的重新估计。 总结 通过深度神经网络提取语音特征的方法、深度神经网络提取声韵母属性的方法和深度学习搭建声学模型的方法的语音识别系统与MFCC特征下GMM-HMM 搭建的系统就词识别率的结果比较可以看出,深度学习网络替换GMM模型做状态输出的系统识别错误率最低,深度神经网络提取声韵母属性的方法的效果次之,深度神经网络提取语音特征效果比深度神经网络提取声韵母属性效果差,但是比MFCC的系统好。 2 卷积神经网络在语音识别中的应用 将语音看做二维特征输入时,第一维是时域维度,第二维是频域维度。 DNN上实验证明,多帧串联的长时特征对模型性能的提高很重要。当前帧的前后几帧串联起来构成长时特征。 频域维度上,一般采用梅尔域的滤波带系数( filterbank) 作为参数( 如图% 中选择+ 个滤波频带) 在送入B++ 训练前,将多帧串联构成长时 特征!所有特征都进行了逐句的均值方差规整! 英文标准连续语音识别库TIMIT 主流的语音识别系统基本上都是以隐马尔科夫模型为基础所建立的 倒谱均值方差归一化、声道长度归一化以及RASTA滤波 用深度学习方法提取语音高层特征通常可以采用MFCC、PLP以及filter-bank 等参数作为输入。

语音识别技术基础知识

语音识别技术基础知识

————————————————————————————————作者:————————————————————————————————日期:

语音识别技术基础知识 6月27日,美国权威科技杂志《MIT科技评论》公布2017全球最聪明50家公司榜单。科大讯飞名列中国第一、全球第六。全世界排在科大讯飞前面企业分别是:英伟达、Spacex、亚马逊、23andme、Alphabet。《MIT科技评论》认为,“科大讯飞旗下的语音助手是中国版的Siri,其可携带实时翻译器则是一款杰出的人工智能应用,克服了方言、俚语和背景杂音,可将汉语精准地翻译成十几种语言。科大讯飞在中国语音技术市场的占有率70%。”越来越多的人认为,语音识别将成为下一代交互革命的关键技术。 与此同时,在日常生活中,我们已经习惯用Siri或者Cortana这样的语音助手在一些特定的情况下帮我们解决一些小问题,如在开车时制定本周的日常,简短地回复他人消息等等,然而,在大多数情况下语音助手的使用率并不高,据研究机构CreativeStrategies的调查-有62%的安卓用户从未使用过语音助手,而这个数字苹果用户中则是70%。是语音识别的技术还不够先进,还是人们不需要语音助手呢?Amazon Echo的成功或许能给我一些启示。 Amazon Echo是亚马逊公司于2014年11月推出的一款家庭语音助手,能够实现包括购物、控制智能家居、阅读Kindle、预约Uber、跟踪(亚马逊)快递、订披萨、计时、算术、放音乐、找手机、模仿雨声等等诸多功能,一经推出就点燃了市场的热情,据国外研究机构统计,2015年Echo的销量是170万台左右,2016年则增长至650万余台,而截至2017年1月,亚马逊Echo的全球销量已超过700万台,预计今年将突破1100万台。另据eMarketer的一份报告,在美国智能音箱市场,亚马逊Echo占据的市场份额超过70%。 同样是语音助手,为何Echo与Siri的境况如此不同呢,有研究者认为,这主要是两种产品使用环境不同而导致的。对于大多数人而言,在公共场合拿出手机,对着一个机器人说话不但缺乏隐私,同时多少有些不适;而在家庭中,面对家人和朋友,这点就能够有效避免,同时安静的环境更能有效提高机器识别的速度与精度,可以认为,Amazon Echo精准地切入了市场。然而,其他巨头也不甘人后,纷纷推出了自己的家庭智能语音助手:苹果推出了Home pod, 而google 也推出了google home. 看来,一场语音大战已经风雨欲来。

语音识别技术人工智能论文_大学论文

一:前沿 语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。它是一门交叉学科,正逐步成为信息技术中人机接口的关键技术。语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。 二:语音识别技术概述 语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。 语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。如今,随着语音识别技术研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。以语音识别技术

开发出的产品应用领域非常广泛,如声控电话交换、信息网络查询、家庭服务、宾馆服务、医疗服务、银行服务、工业控制、语音通信系统等,几乎深入到社会的每个行业和每个方面。 三.语音识别的研究历史 语音识别的研究工作始于20世纪50年代,1952年Bell 实验室开发的Audry系统是第一个可以识别10个英文数字的语音识别系统。1959年,Rorgie和Forge采用数字计算机识别英文元音和孤立词,从此开始了计算机语音识别。60年代,苏联的Matin等提出了语音结束点的端点检测,使语音识别水平明显上升;Vintsyuk提出了动态编程,这一提法在以后的识别中不可或缺。60年代末、70年代初的重要成果是提出了信号线性预测编码(LPC)技术和动态时间规整(DTW)技术,有效地解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。 80年代语音识别研究进一步走向深入:HMM模型和人工神经网络(ANN)在语音识别中成功应用。1988年,FULEE Kai等用VQ/I-IMM方法实现了997个词汇的非特定人连续语音识别系统SPHINX。这是世界上第1个高性能的非特定人、大词汇量、连续语音识别系统。 进入90年代后,语音识别技术进一步成熟,并开始向市场提供产品。许多发达国家如美国、日本、韩国以及IBM、Apple、AT&T、Microsoft等公司都为语音识别系统的实用化开发研究投以巨

语音识别调研

语音识别调研报告 一、语音识别简介 语音识别主要是指用机器在各种情况下,根据信息执行人的各种意图,有效地了解、识别语音和其它声音。它是近十几年来发展起来的具有理论价值和实用价值的新兴学科:从计算机大学科角度看,可视为智能计算机的智能接口;从信息处理学科来看,可视为信息识别的一个重要分支;从自动控制学科来看,又可视为模式识别的一个重要组成部分. 它是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等 二、语音识别发展史 早在18 世纪,人们就对语音学进行了科学研究,但由于各种条件的限制,语音识别仅在计算机技术迅速发展之后,才成为一个非常活跃的研究领域. 60 年代末期,面对语音识别的种种困难,人们开始研究特定人、孤立词、小词汇量的识别,从而使语音识别的问题能够在当时的条件下得以开展;70年代后期,特定人、孤立词、小词汇量的语音识别取得较为满意的效果,语音识别的研究则沿着特定人向非特定人、孤立词向连续词、小词汇量向大词汇量方向扩展研究领域和目标;80 年代中期以来,计算机技术、信息技术及模式识别等技术的迅猛发展,极大地促进了语音识别技术的发展.。具体发展历史: ①1952年贝尔研究所Davis等人研究成功了世界上第一个能识别10个英文数字发音的 实验系统。 ②1960年英国的Denes等人研究成功了第一个计算机语音识别系统。 ③大规模的语音识别[3] 研究是在进入了70年代以后,在小词汇量、孤立词的识别方面 取得了实质性的进展。 ④进入80年代以后,研究的重点逐渐转向大词汇量、非特定人连续语音识别。在研究 思路上也发生了重大变化,即由传统的基于标准模板匹配的技术思路开始转向基于统计模型(HMM)的技术思路。此外,再次提出了将神经网络技术引入语音识别问题的技术思路。

相关主题