-
根据识别的对象不同,语音识别任务大体可分为3类,即孤立词识别(isolated word recognition),关键词识别(或称关键词检出,keyword spotting)和连续语音识别。其中,孤立词识别 的任务是识别事先已知的孤立的词,如“开机”、“关机”等;连续语音识别的任务则是识别任意的连续语音,如一个句子或一段话;连续语音流中的关键词检测针对的是连续语音,但它并不识别全部文字,而只是检测已知的若干关键词在何处出现,如在一段话中检测“计算机”、“世界”这两个词。 根据针对的发音人,可以把语音识别技术分为特定人语音识别和非特定人语音识别,前者只能识别一个或几个人的语音,而后者则可以被任何人使用。显然,非特定人语音识别系统更符合实际需要,但它要比针对特定人的识别困难得多。 另外,根据语音设备和通道,可以分为桌面(PC)语音识别、电话语音识别和嵌入式设备(手机、PDA等)语音识别。不同的采集通道会使人的发音的声学特性发生变形,因此需要构造各自的识别系统。 语音识别的应用领域非常广泛,常见的应用系统有:语音输入系统,相对于键盘输入方法,它更符合人的日常习惯,也更自然、更高效;语音控制系统,即用语音来控制设备的运行,相对于手动控制来说更加快捷、方便,可以用在诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多领域;智能对话查询系统,根据客户的语音进行操作,为用户提供自然、友好的数据库检索服务,例如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等等。
-
技术发展 目前在大词汇语音识别方面处于领先地位的IBM语音研究小组,就是在70年代开始了它的大词汇语音识别研究工作的。AT&T的贝尔研究所也开始了一系列有关非特定人语音识别的实验。这一研究历经10年,其成果是确立了如何制作用于非特定人语音识别的标准模板的方法。 这一时期所取得的重大进展有: ⑴隐马尔可夫模型(HMM)技术的成熟和不断完善成为语音识别的主流方法。 ⑵以知识为基础的语音识别的研究日益受到重视。在进行连续语音识别的时候,除了识别声学信息外,更多地利用各种语言知识,诸如构词、句法、语义、对话背景方面等的知识来帮助进一步对语音作出识别和理解。同时在语音识别研究领域,还产生了基于统计概率的语言模型。 ⑶人工神经网络在语音识别中的应用研究的兴起。在这些研究中,大部分采用基于反向传播算法(BP算法)的多层感知网络。人工神经网络具有区分复杂的分类边界的能力,显然它十分有助于模式划分。特别是在电话语音识别方面,由于其有着广泛的应用前景,成了当前语音识别应用的一个热点。 另外,面向个人用途的连续语音听写机技术也日趋完善。这方面,最具代表性的是IBM的ViaVoice和Dragon公司的Dragon Dictate系统。这些系统具有说话人自适应能力,新用户不需要对全部词汇进行训练,便可在使用中不断提高识别率。 中国的语音识别技术的发展 : ⑴在北京有中科院声学所、自动化所、清华大学、北方交通大学等科研机构和高等院校。另外,还有哈尔滨工业大学、中国科技大学、四川大学等也纷纷行动起来。 ⑵现在,国内有不少语音识别系统已研制成功。这些系统的性能各具特色。 · 在孤立字大词汇量语音识别方面,最具代表性的要数92年清华大学电子工程系与中国电子器件公司合作研制成功的THED-919特定人语音识别与理解实时系统。 · 在连续语音识别方面,91年12月四川大学计算机中心在微机上实现了一个主题受限的特定人连续英语——汉语语音翻译演示系统。 ·在非特定人语音识别方面,有清华大学计算机科学与技术系在87年研制的声控电话查号系统并投入实际使用。
-
识别模式 这一时期的语音识别方法基本上是采用传统的模式识别策略。其中以苏联的Velichko和Zagoruyko、日本的迫江和千叶,以及当时在美国的板仓等人的研究工作最具有代表性。 · 苏联的研究为模式识别应用于语音识别这一领域奠定了基础; · 日本的研究则展示了如何利用动态规划技术在待识语音模式与标准语音模式之间进行非线性时间匹配的方法; ·板仓的研究提出了如何将线性预测分析技术(LPC)加以扩展,使之用于语音信号的特征抽取的方法。 数据库 在语音识别的研究发展过程中,相关研究人员根据不同语言的发音特点,设计和制作了以汉语(包括不同方言)、英语等各类语言的语音数据库,这些语音数据库可以为国内外有关的科研单位和大学进行汉语连续语音识别算法研究、系统设计、及产业化工作提供充分、科学的训练语音样本。例如:MIT Media lab Speech Dataset(麻省理工学院媒体实验室语音数据集)、Pitch and Voicing Estimates for Aurora 2(Aurora2语音库的基因周期和声调估计)、Congressional speech data(国会语音数据)、Mandarin Speech Frame Data(普通话语音帧数据)、用于测试盲源分离算法的语音数据等。
-
中国的语音识别研究起始于1958年,由中国科学院声学所利用电子管电路识别10个元音。直至1973年才由中国科学院声学所开始计算机语音识别。由于当时条件的限制,中国的语音识别研究工作一直处于缓慢发展的阶段。 进入80年代以后,随着计算机应用技术在中国逐渐普及和应用以及数字信号技术的进一步发展,国内许多单位具备了研究语音技术的基本条件。与此同时,国际上语音识别技术在经过了多年的沉寂之后重又成为研究的热点,发展迅速。就在这种形式下,国内许多单位纷纷投入到这项研究工作中去。 1986年3月中国高科技发展计划(863计划)启动,语音识别作为智能计算机系统研究的一个重要组成部分而被专门列为研究课题。在863计划的支持下,中国开始了有组织的语音识别技术的研究,并决定了每隔两年召开一次语音识别的专题会议。从此中国的语音识别技术进入了一个前所未有的发展阶段。
-
1952年贝尔研究所Davis等人研究成功了世界上第一个能识别10个英文数字发音的实验系统。 1960年英国的Denes等人研究成功了第一个计算机语音识别系统。 大规模的语音识别研究是在进入了70年代以后,在小词汇量、孤立词的识别方面取得了实质性的进展。 进入80年代以后,研究的重点逐渐转向大词汇量、非特定人连续语音识别。在研究思路上也发生了重大变化,即由传统的基于标准模板匹配的技术思路开始转向基于统计模型 (HMM)的技术思路。此外,再次提出了将神经网络技术引入语音识别问题的技术思路。 进入90年代以后,在语音识别的系统框架方面并没有什么重大突破。但是,在语音识别技术的应用及产品化方面出现了很大的进展。 DARPA(Defense Advanced Research Projects Agency)是在70年代由美国国防部远景研究计划局资助的一项10年计划,其旨在支持语言理解系统的研究开发工作。 到了80年代,美国国防部远景研究计划局又资助了一项为期10年的DARPA战略计划,其中包括噪声下的语音识别和会话(口语)识别系统,识别任务设定为“(1000单词)连续语音数据库管理”。 到了90年代,这一DARPA计划仍在持续进行中。其研究重点已转向识别装置中的自然语言处理部分,识别任务设定为“航空旅行信息检索”。 日本也在1981年的第五代计算机计划中提出了有关语音识别输入-输出自然语言的宏伟目标,虽然没能实现预期目标,但是有关语音识别技术的研究有了大幅度的加强和进展。 1987年起,日本又拟出新的国家项目---高级人机口语接口和自动电话翻译系统。
-
【问题简要】CloudUSM3.0版本,usm与asr已经正常对接;在使用IVR语音识别cell调用时,没有生成 mrcp 日志。请协助处理IVR调用ASR问题。【问题类别】CloudUSM3.0,IVR调用ASR问题 【可选问题类别:IVR】【期望解决时间】2020年5月28日【问题现象描述】 CloudUSM3.0版本,usm与asr已经正常对接;在使用IVR语音识别cell调用时,没有生成 mrcp 日志。请协助处理IVR调用ASR问题。 intess消息 、ICCdebug 和IVRtrace,方便的话流程文件 ,这4个文件正在协调上传。【日志或错误截图】【可选】 请见附件的截图 【附件】【可选】
-
麻烦分析一下流程日志,具体是因为什么导致的语音识别失败
-
技术前沿神经网络RNN、LSTM、BiLSTM、FNN、DFSMN、LCBLSTM,LFR-LCBLSTM等自适应技术i-vector、AEC等语言模型N-gram、word2vec等语音识别难点远场麦克风识别高噪音场景语音识别多人语音识别交谈背景语音识别非标准语音识别(变速,带有情绪等)未来展望更优的算法与模型更先进的麦克风阵列技术更先进的声学模型与范式更强有力的工具更深入的特征方法和预处理方法多学科融合
-
自动语音识别语音识别技术就是让机器通过识别和理解把语音信号转变为相应的文本或命令的高端技术。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。自动语音识别发展史1952年,贝尔研究所研究成功了世界上第一个能识别10个英文数字发音的试验系统;1970年以后,在小词汇和孤立词的识别方面取得了实质性进展;1980年以后,孤立词转向连接词识别;1987年12月,李开复开发出世界上第一个“非特定人连续语音识别系统”,用统计方法提升了语音识别率;1990年以后,大词汇量连续语音识别得到优化;1997年,IBM Viavoice首个语音听写产品问世;2010年,Google VoiveAction支持语音操作与搜索;2011年初,微软的DNN在语音搜索任务上取得成功,科大讯飞将DNN首次成功应用到中文语音识别领域;2011年10月,苹果iPhone 4S自带的语音助手Siri一炮走红;2013年,Google发布Google Glass,苹果发布iWatch都嵌入语音交互功能;
-
语音处理语音信号处理(speech signal processing)简称语音处理。•语音处理是用以研究语音发声过程、语音信号的统计特性、语音的自动识别、机器合成以及语音感知等各种处理技术的总称。•由于现代的语音处理技术都以数字计算为基础,并借助微处理器、信号处理器或通用计算机加以实现,因此也称数字语音信号处理。语音处理介绍语音信号处理的研究起源于对发音器官的模拟。1939年美国H.杜德莱(H.Dudley)展出了一个简单的发音过程模拟系统,以后发展为声道的数字模型。利用该模型可以对语音信号进行各种频谱及参数的分析,进行通信编码或数据压缩的研究,同时也可根据分析获得的频谱特征或参数变化规律,合成语音信号,实现机器的语音合成。语言信息主要包含在语音信号的参数之中,因此准确而迅速地提取语言信号的参数是进行语音信号处理的关键。语音学语音学是语言学的一个分支,是研究人类语言声音的学科。主要研究语言的发音机制,语音特性和在言谈中的变化规律。狭义的语音学对应英语中phonetics一词,关注的重点在具体语音本质以及产生语音的方法。与之相对的是音韵学(或称音系学),研究音位或语音区别特征在某种语言中运作的抽象规则和语音的系统。广义的语音学是指语音学和音韵学这两大方面研究的总合。在中国传统音韵学研究中有关语音的描写和分类,也都属于语音学的范畴。但自近代科学的语音学发展以后,分类越来越细,定义也趋于严密,语音学就专指语音本身特点的研究了。
-
想问一下华为和讯飞合作的ASR,对于方言的识别效果如何呢?就比如说的是很纯正的上海话,能否保持高准度的识别呢?
-
【问题简要】3.6版本编辑器如何支持客户语音识别【问题类别】IVR(gsl )【IPCC解决方案版本】CTI 版本 v300r006c60spc008编辑器版本 ICD V300R006C60 网关U2980【期望解决时间】2019.9.29【问题现象描述】当前3.6版本想要在播报语音过程中可以接收客户说话,并进行识别,要如何实现?能否提供demo
-
【问题简要】3.6版本编辑器如何支持客户语音识别【问题类别】IVR(gsl )【IPCC解决方案版本】CTI 版本 v300r006c60spc008编辑器版本 ICD V300R006C60 网关U2980【期望解决时间】2019.9.19【问题现象描述】当前3.6版本想要在播报语音过程中可以接收客户说话,并进行识别,要如何实现?效果如何?是否能达到如下效果:播报语音如欢迎词等过程中客户开始说话即停止播音,并接收客户语音,在客户说话结束后及时将客户语音传递给ASR进行识别及处理后返回结果,当前版本是否支持,是否有缺陷?若当前版本效果不佳,建议升级到哪个版本合适?若当前版本无法支持,需要如何处理?
-
【问题简要】 mrcp在语音识别中,最终结果应该在RECOGNITION-COMPLETE后面获取,目前流程在mrcp中的IN-PROGRESS状态下流程流转下一步,这时无法拿到结果数据【问题类别】 可选问题类别:IVR【IPCC解决方案版本】 【期望解决时间】 今天【问题现象描述】 mrcp在语音识别中,最终结果应该在RECOGNITION-COMPLETE后面获取,目前流程在mrcp中的IN-PROGRESS状态下流程流转下一步,这时无法拿到结果数据 【日志或错误截图】【可选】 //如果有日志或错误截图,请作为附件上传 【附件】【可选】
-
【问题简要】对于客户短语音,误识别为用户静音,如客户说【对】,被识别为用户静音【问题类别】vxml2.0 【IPCC解决方案版本】IPCC V200R001C80【问题现象描述】正常声音说话,对于短语音识别,如客户说【对】【是】等等一两个字时,有比较大的概率会被识别为静音异常为noinput,请问有什么方法可以优化一下吗
上滑加载中
推荐直播
-
GaussDB管理平台TPOPS,DBA高效运维的一站式解决方案
2024/12/24 周二 16:30-18:00
Leo 华为云数据库DTSE技术布道师
数据库的复杂运维,是否让你感到头疼不已?今天,华为云GaussDB管理平台将彻底来改观!本期直播,我们将深入探索GaussDB管理平台的TPOPS功能,带你感受一键式部署安装的便捷,和智能化运维管理的高效,让复杂的运维、管理变得简单,让简单变得可靠。
回顾中 -
DTT年度收官盛典:华为开发者空间大咖汇,共探云端开发创新
2025/01/08 周三 16:30-18:00
Yawei 华为云开发工具和效率首席专家 Edwin 华为开发者空间产品总监
数字化转型进程持续加速,驱动着技术革新发展,华为开发者空间如何巧妙整合鸿蒙、昇腾、鲲鹏等核心资源,打破平台间的壁垒,实现跨平台协同?在科技迅猛发展的今天,开发者们如何迅速把握机遇,实现高效、创新的技术突破?DTT 年度收官盛典,将与大家共同探索华为开发者空间的创新奥秘。
回顾中
热门标签