• [其他] 【人工智能相关知识分享】语音识别的技术发展
    技术发展 目前在大词汇语音识别方面处于领先地位的IBM语音研究小组,就是在70年代开始了它的大词汇语音识别研究工作的。AT&T的贝尔研究所也开始了一系列有关非特定人语音识别的实验。这一研究历经10年,其成果是确立了如何制作用于非特定人语音识别的标准模板的方法。 这一时期所取得的重大进展有: ⑴隐马尔可夫模型(HMM)技术的成熟和不断完善成为语音识别的主流方法。 ⑵以知识为基础的语音识别的研究日益受到重视。在进行连续语音识别的时候,除了识别声学信息外,更多地利用各种语言知识,诸如构词、句法、语义、对话背景方面等的知识来帮助进一步对语音作出识别和理解。同时在语音识别研究领域,还产生了基于统计概率的语言模型。 ⑶人工神经网络在语音识别中的应用研究的兴起。在这些研究中,大部分采用基于反向传播算法(BP算法)的多层感知网络。人工神经网络具有区分复杂的分类边界的能力,显然它十分有助于模式划分。特别是在电话语音识别方面,由于其有着广泛的应用前景,成了当前语音识别应用的一个热点。 另外,面向个人用途的连续语音听写机技术也日趋完善。这方面,最具代表性的是IBM的ViaVoice和Dragon公司的Dragon Dictate系统。这些系统具有说话人自适应能力,新用户不需要对全部词汇进行训练,便可在使用中不断提高识别率。 中国的语音识别技术的发展 : ⑴在北京有中科院声学所、自动化所、清华大学、北方交通大学等科研机构和高等院校。另外,还有哈尔滨工业大学、中国科技大学、四川大学等也纷纷行动起来。 ⑵现在,国内有不少语音识别系统已研制成功。这些系统的性能各具特色。 · 在孤立字大词汇量语音识别方面,最具代表性的要数92年清华大学电子工程系与中国电子器件公司合作研制成功的THED-919特定人语音识别与理解实时系统。 · 在连续语音识别方面,91年12月四川大学计算机中心在微机上实现了一个主题受限的特定人连续英语——汉语语音翻译演示系统。 ·在非特定人语音识别方面,有清华大学计算机科学与技术系在87年研制的声控电话查号系统并投入实际使用。
  • [其他] 【人工智能相关知识分享】语音识别的识别模式与数据库
    识别模式 这一时期的语音识别方法基本上是采用传统的模式识别策略。其中以苏联的Velichko和Zagoruyko、日本的迫江和千叶,以及当时在美国的板仓等人的研究工作最具有代表性。 · 苏联的研究为模式识别应用于语音识别这一领域奠定了基础; · 日本的研究则展示了如何利用动态规划技术在待识语音模式与标准语音模式之间进行非线性时间匹配的方法; ·板仓的研究提出了如何将线性预测分析技术(LPC)加以扩展,使之用于语音信号的特征抽取的方法。 数据库 在语音识别的研究发展过程中,相关研究人员根据不同语言的发音特点,设计和制作了以汉语(包括不同方言)、英语等各类语言的语音数据库,这些语音数据库可以为国内外有关的科研单位和大学进行汉语连续语音识别算法研究、系统设计、及产业化工作提供充分、科学的训练语音样本。例如:MIT Media lab Speech Dataset(麻省理工学院媒体实验室语音数据集)、Pitch and Voicing Estimates for Aurora 2(Aurora2语音库的基因周期和声调估计)、Congressional speech data(国会语音数据)、Mandarin Speech Frame Data(普通话语音帧数据)、用于测试盲源分离算法的语音数据等。
  • [其他] 【人工智能相关知识分享】语音识别技术在中国的发展
    中国的语音识别研究起始于1958年,由中国科学院声学所利用电子管电路识别10个元音。直至1973年才由中国科学院声学所开始计算机语音识别。由于当时条件的限制,中国的语音识别研究工作一直处于缓慢发展的阶段。 进入80年代以后,随着计算机应用技术在中国逐渐普及和应用以及数字信号技术的进一步发展,国内许多单位具备了研究语音技术的基本条件。与此同时,国际上语音识别技术在经过了多年的沉寂之后重又成为研究的热点,发展迅速。就在这种形式下,国内许多单位纷纷投入到这项研究工作中去。 1986年3月中国高科技发展计划(863计划)启动,语音识别作为智能计算机系统研究的一个重要组成部分而被专门列为研究课题。在863计划的支持下,中国开始了有组织的语音识别技术的研究,并决定了每隔两年召开一次语音识别的专题会议。从此中国的语音识别技术进入了一个前所未有的发展阶段。
  • [其他] 【人工智能相关知识分享】语音识别技术发展史
    1952年贝尔研究所Davis等人研究成功了世界上第一个能识别10个英文数字发音的实验系统。 1960年英国的Denes等人研究成功了第一个计算机语音识别系统。 大规模的语音识别研究是在进入了70年代以后,在小词汇量、孤立词的识别方面取得了实质性的进展。 进入80年代以后,研究的重点逐渐转向大词汇量、非特定人连续语音识别。在研究思路上也发生了重大变化,即由传统的基于标准模板匹配的技术思路开始转向基于统计模型 (HMM)的技术思路。此外,再次提出了将神经网络技术引入语音识别问题的技术思路。 进入90年代以后,在语音识别的系统框架方面并没有什么重大突破。但是,在语音识别技术的应用及产品化方面出现了很大的进展。 DARPA(Defense Advanced Research Projects Agency)是在70年代由美国国防部远景研究计划局资助的一项10年计划,其旨在支持语言理解系统的研究开发工作。 到了80年代,美国国防部远景研究计划局又资助了一项为期10年的DARPA战略计划,其中包括噪声下的语音识别和会话(口语)识别系统,识别任务设定为“(1000单词)连续语音数据库管理”。 到了90年代,这一DARPA计划仍在持续进行中。其研究重点已转向识别装置中的自然语言处理部分,识别任务设定为“航空旅行信息检索”。 日本也在1981年的第五代计算机计划中提出了有关语音识别输入-输出自然语言的宏伟目标,虽然没能实现预期目标,但是有关语音识别技术的研究有了大幅度的加强和进展。 1987年起,日本又拟出新的国家项目---高级人机口语接口和自动电话翻译系统。
  • [入驻式求助] CloudUSM3.0与asr已经正常对接;请指导IVR调用ASR问题
    【问题简要】CloudUSM3.0版本,usm与asr已经正常对接;在使用IVR语音识别cell调用时,没有生成 mrcp 日志。请协助处理IVR调用ASR问题。【问题类别】CloudUSM3.0,IVR调用ASR问题      【可选问题类别:IVR】【期望解决时间】2020年5月28日【问题现象描述】        CloudUSM3.0版本,usm与asr已经正常对接;在使用IVR语音识别cell调用时,没有生成 mrcp 日志。请协助处理IVR调用ASR问题。        intess消息 、ICCdebug 和IVRtrace,方便的话流程文件 ,这4个文件正在协调上传。【日志或错误截图】【可选】          请见附件的截图 【附件】【可选】
  • [入驻式求助] 9600排队机,发起语音识别失败问题
    麻烦分析一下流程日志,具体是因为什么导致的语音识别失败
  • [技术干货] 语音识别未来
    技术前沿神经网络RNN、LSTM、BiLSTM、FNN、DFSMN、LCBLSTM,LFR-LCBLSTM等自适应技术i-vector、AEC等语言模型N-gram、word2vec等语音识别难点远场麦克风识别高噪音场景语音识别多人语音识别交谈背景语音识别非标准语音识别(变速,带有情绪等)未来展望更优的算法与模型更先进的麦克风阵列技术更先进的声学模型与范式更强有力的工具更深入的特征方法和预处理方法多学科融合
  • [技术干货] 自动语音识别发展史
    自动语音识别语音识别技术就是让机器通过识别和理解把语音信号转变为相应的文本或命令的高端技术。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。自动语音识别发展史1952年,贝尔研究所研究成功了世界上第一个能识别10个英文数字发音的试验系统;1970年以后,在小词汇和孤立词的识别方面取得了实质性进展;1980年以后,孤立词转向连接词识别;1987年12月,李开复开发出世界上第一个“非特定人连续语音识别系统”,用统计方法提升了语音识别率;1990年以后,大词汇量连续语音识别得到优化;1997年,IBM Viavoice首个语音听写产品问世;2010年,Google VoiveAction支持语音操作与搜索;2011年初,微软的DNN在语音搜索任务上取得成功,科大讯飞将DNN首次成功应用到中文语音识别领域;2011年10月,苹果iPhone 4S自带的语音助手Siri一炮走红;2013年,Google发布Google Glass,苹果发布iWatch都嵌入语音交互功能;
  • [技术干货] 语音识别
    语音处理语音信号处理(speech signal processing)简称语音处理。•语音处理是用以研究语音发声过程、语音信号的统计特性、语音的自动识别、机器合成以及语音感知等各种处理技术的总称。•由于现代的语音处理技术都以数字计算为基础,并借助微处理器、信号处理器或通用计算机加以实现,因此也称数字语音信号处理。语音处理介绍语音信号处理的研究起源于对发音器官的模拟。1939年美国H.杜德莱(H.Dudley)展出了一个简单的发音过程模拟系统,以后发展为声道的数字模型。利用该模型可以对语音信号进行各种频谱及参数的分析,进行通信编码或数据压缩的研究,同时也可根据分析获得的频谱特征或参数变化规律,合成语音信号,实现机器的语音合成。语言信息主要包含在语音信号的参数之中,因此准确而迅速地提取语言信号的参数是进行语音信号处理的关键。语音学语音学是语言学的一个分支,是研究人类语言声音的学科。主要研究语言的发音机制,语音特性和在言谈中的变化规律。狭义的语音学对应英语中phonetics一词,关注的重点在具体语音本质以及产生语音的方法。与之相对的是音韵学(或称音系学),研究音位或语音区别特征在某种语言中运作的抽象规则和语音的系统。广义的语音学是指语音学和音韵学这两大方面研究的总合。在中国传统音韵学研究中有关语音的描写和分类,也都属于语音学的范畴。但自近代科学的语音学发展以后,分类越来越细,定义也趋于严密,语音学就专指语音本身特点的研究了。
  • 语音识别的方言识别程度怎么样
      想问一下华为和讯飞合作的ASR,对于方言的识别效果如何呢?就比如说的是很纯正的上海话,能否保持高准度的识别呢?
  • [已解决问题归档] 【入驻式求助】3.6版本编辑器如何支持客户语音识别
    【问题简要】3.6版本编辑器如何支持客户语音识别【问题类别】IVR(gsl )【IPCC解决方案版本】CTI 版本 v300r006c60spc008编辑器版本 ICD V300R006C60 网关U2980【期望解决时间】2019.9.29【问题现象描述】当前3.6版本想要在播报语音过程中可以接收客户说话,并进行识别,要如何实现?能否提供demo
  • [已解决问题归档] 【入驻式求助】3.6版本编辑器如何支持客户语音识别
    【问题简要】3.6版本编辑器如何支持客户语音识别【问题类别】IVR(gsl )【IPCC解决方案版本】CTI 版本 v300r006c60spc008编辑器版本 ICD V300R006C60 网关U2980【期望解决时间】2019.9.19【问题现象描述】当前3.6版本想要在播报语音过程中可以接收客户说话,并进行识别,要如何实现?效果如何?是否能达到如下效果:播报语音如欢迎词等过程中客户开始说话即停止播音,并接收客户语音,在客户说话结束后及时将客户语音传递给ASR进行识别及处理后返回结果,当前版本是否支持,是否有缺陷?若当前版本效果不佳,建议升级到哪个版本合适?若当前版本无法支持,需要如何处理?
  • [已解决问题归档] 【入驻式求助】ASR、MRCP
    【问题简要】              mrcp在语音识别中,最终结果应该在RECOGNITION-COMPLETE后面获取,目前流程在mrcp中的IN-PROGRESS状态下流程流转下一步,这时无法拿到结果数据【问题类别】      可选问题类别:IVR【IPCC解决方案版本】        【期望解决时间】                      今天【问题现象描述】                   mrcp在语音识别中,最终结果应该在RECOGNITION-COMPLETE后面获取,目前流程在mrcp中的IN-PROGRESS状态下流程流转下一步,这时无法拿到结果数据 【日志或错误截图】【可选】         //如果有日志或错误截图,请作为附件上传 【附件】【可选】
  • [已解决问题归档] 【入驻式求助】语音识别问题
    【问题简要】对于客户短语音,误识别为用户静音,如客户说【对】,被识别为用户静音【问题类别】vxml2.0 【IPCC解决方案版本】IPCC V200R001C80【问题现象描述】正常声音说话,对于短语音识别,如客户说【对】【是】等等一两个字时,有比较大的概率会被识别为静音异常为noinput,请问有什么方法可以优化一下吗
  • [已解决问题归档] 【入驻式求助】关于语音识别日志里语音识别开始和结束问题
    【问题简要】语音识别日志哪一条输出日志说明是已经说完话,那一句是开始有了结果,哪一句是开始识别【问题类别】vxml2.0 【IPCC解决方案版本】IPCC V200R001C80【问题现象描述】日志如下:特别是红色字体的意思是什么2019-07-11 20:08:03.662   10 IVR(255)(12,10)->CCS(0)(15,14687): Play & digit collection message: The type of command used for voice recognition and digit collection is 12; VP  Play, FileName=Y:/flow/china_life_insurance/wav/obs/gui001.wav; 2019-07-11 20:08:03.704   10 CCS(0)(15,14687)->IVR(255)(12,10): ICD录放音应答:放音,成功,VPDsn=65535 2019-07-11 20:08:03.704   10 Enter IVR_ProcessEvent() function, Param: UserDialing=0, UserHookOff=1,TimeOut=1, ResAvailable=0, DeviceInfo=1,Notify=0, UserAsr=02019-07-11 20:08:03.704   10 [事件处理]2019-07-11 20:08:13.565   10 CCS(0)(15,14687)->IVR(255)(12,10): 录放音结束:MSG_SSP_SCP_PLAYRECORD_RES(21), result=1, mode=0.2019-07-11 20:08:13.565   10 ProcessEvent receive msg type=21, mask=2502019-07-11 20:08:13.565   10 设备消息出口2019-07-11 20:08:13.565   10 Get Message form Queue! Event=设备消息出口(6)2019-07-11 20:08:13.565   10 Play_Drv_Asr return value = 6,Left2019-07-11 20:08:13.565   10 CI Speak&Input get QuitVoiceEnd and not allow bargein, next step is VP DrvAsr2019-07-11 20:08:13.565   10 IVR(255)(12,10)->CCS(0)(15,14687): Play & digit collection message: The type of command used for voice recognition and digit collection is 10; VP  Voice identification, 2019-07-11 20:08:13.635   10 CCS(0)(15,14687)->IVR(255)(12,10):  SP_START_DTMF_ASR_ACK result: 成功, vp dsn: 655352019-07-11 20:08:13.635   10 Enter IVR_ProcessEvent() function, Param: UserDialing=1, UserHookOff=1,TimeOut=1, ResAvailable=0, DeviceInfo=1,Notify=0, UserAsr=12019-07-11 20:08:13.635   10 [事件处理]2019-07-11 20:08:15.833   10 CCS(0)(15,14687)->IVR(255)(12,10): 上报识别收号结果消息:识别结束的原因为61:ASR_USER_START_SPEAK2019-07-11 20:08:15.835   10 ProcessEvent receive msg type=142, mask=10488272019-07-11 20:08:15.835   10 Get asrResult.ucResult=612019-07-11 20:08:15.835   10 Get Message form Queue! Event=[事件处理](28)2019-07-11 20:08:15.835   10 Enter IVR_ProcessEvent() function, Param: UserDialing=0, UserHookOff=1,TimeOut=1, ResAvailable=0, DeviceInfo=1,Notify=0, UserAsr=12019-07-11 20:08:15.835   10 [事件处理]2019-07-11 20:08:17.021   10 CCS(0)(15,14687)->IVR(255)(12,10): 上报识别收号结果消息:识别结束的原因为0:ASR_RESULT_SUCCESS2019-07-11 20:08:17.023   10 ProcessEvent receive msg type=142, mask=10488262019-07-11 20:08:17.023   10 asrLastRecogResult[0] Confidenc=100 id=268500992 Result={2019-07-11 20:08:17.023   10 Get Message form Queue! Event=[事件处理](28)2019-07-11 20:08:17.023   10 <===SpeakInputResult=28 input: {***36  InputType=02019-07-11 20:08:17.023   10 speech input,Slot:meaningValue:redis_N7bk8daw501aa8c00062019-07-11 20:08:17.023   10 speech input,Slot:idValue:redis_N7bk8daw501aa8c00062019-07-11 20:08:17.023   10 Interpreter get user input: {2019-07-11 20:08:17.023   10 Interpreter process phrase2019-07-11 20:08:17.023   10   Current Dialog:asr , id , asr 2019-07-11 20:08:17.023   10 Interpreter, var:meaning=redis_N7bk8daw501aa8c00062019-07-11 20:08:17.023   10 Interpreter, var:id=redis_N7bk8daw501aa8c00062019-07-11 20:08:17.024   10 $$
总条数:53 到第
上滑加载中