-
【问题简要】语音识别日志哪一条输出日志说明是已经说完话,那一句是开始有了结果,哪一句是开始识别【问题类别】vxml2.0 【IPCC解决方案版本】IPCC V200R001C80【问题现象描述】日志如下:特别是红色字体的意思是什么2019-07-11 20:08:03.662 10 IVR(255)(12,10)->CCS(0)(15,14687): Play & digit collection message: The type of command used for voice recognition and digit collection is 12; VP Play, FileName=Y:/flow/china_life_insurance/wav/obs/gui001.wav; 2019-07-11 20:08:03.704 10 CCS(0)(15,14687)->IVR(255)(12,10): ICD录放音应答:放音,成功,VPDsn=65535 2019-07-11 20:08:03.704 10 Enter IVR_ProcessEvent() function, Param: UserDialing=0, UserHookOff=1,TimeOut=1, ResAvailable=0, DeviceInfo=1,Notify=0, UserAsr=02019-07-11 20:08:03.704 10 [事件处理]2019-07-11 20:08:13.565 10 CCS(0)(15,14687)->IVR(255)(12,10): 录放音结束:MSG_SSP_SCP_PLAYRECORD_RES(21), result=1, mode=0.2019-07-11 20:08:13.565 10 ProcessEvent receive msg type=21, mask=2502019-07-11 20:08:13.565 10 设备消息出口2019-07-11 20:08:13.565 10 Get Message form Queue! Event=设备消息出口(6)2019-07-11 20:08:13.565 10 Play_Drv_Asr return value = 6,Left2019-07-11 20:08:13.565 10 CI Speak&Input get QuitVoiceEnd and not allow bargein, next step is VP DrvAsr2019-07-11 20:08:13.565 10 IVR(255)(12,10)->CCS(0)(15,14687): Play & digit collection message: The type of command used for voice recognition and digit collection is 10; VP Voice identification, 2019-07-11 20:08:13.635 10 CCS(0)(15,14687)->IVR(255)(12,10): SP_START_DTMF_ASR_ACK result: 成功, vp dsn: 655352019-07-11 20:08:13.635 10 Enter IVR_ProcessEvent() function, Param: UserDialing=1, UserHookOff=1,TimeOut=1, ResAvailable=0, DeviceInfo=1,Notify=0, UserAsr=12019-07-11 20:08:13.635 10 [事件处理]2019-07-11 20:08:15.833 10 CCS(0)(15,14687)->IVR(255)(12,10): 上报识别收号结果消息:识别结束的原因为61:ASR_USER_START_SPEAK2019-07-11 20:08:15.835 10 ProcessEvent receive msg type=142, mask=10488272019-07-11 20:08:15.835 10 Get asrResult.ucResult=612019-07-11 20:08:15.835 10 Get Message form Queue! Event=[事件处理](28)2019-07-11 20:08:15.835 10 Enter IVR_ProcessEvent() function, Param: UserDialing=0, UserHookOff=1,TimeOut=1, ResAvailable=0, DeviceInfo=1,Notify=0, UserAsr=12019-07-11 20:08:15.835 10 [事件处理]2019-07-11 20:08:17.021 10 CCS(0)(15,14687)->IVR(255)(12,10): 上报识别收号结果消息:识别结束的原因为0:ASR_RESULT_SUCCESS2019-07-11 20:08:17.023 10 ProcessEvent receive msg type=142, mask=10488262019-07-11 20:08:17.023 10 asrLastRecogResult[0] Confidenc=100 id=268500992 Result={2019-07-11 20:08:17.023 10 Get Message form Queue! Event=[事件处理](28)2019-07-11 20:08:17.023 10 <===SpeakInputResult=28 input: {***36 InputType=02019-07-11 20:08:17.023 10 speech input,Slot:meaningValue:redis_N7bk8daw501aa8c00062019-07-11 20:08:17.023 10 speech input,Slot:idValue:redis_N7bk8daw501aa8c00062019-07-11 20:08:17.023 10 Interpreter get user input: {2019-07-11 20:08:17.023 10 Interpreter process phrase2019-07-11 20:08:17.023 10 Current Dialog:asr , id , asr 2019-07-11 20:08:17.023 10 Interpreter, var:meaning=redis_N7bk8daw501aa8c00062019-07-11 20:08:17.023 10 Interpreter, var:id=redis_N7bk8daw501aa8c00062019-07-11 20:08:17.024 10 $$
-
【问题简要】语音识别超时会挂断【问题类别】vxml2.0 【IPCC解决方案版本】IPCC V200R001C80【问题现象描述】科大那边做的语音识别,设置了识别时长为一分钟,实际测试发现,如果超过一分钟就会自动挂断,看日志流程也终止不走了,也没有拆线操作,日志如图,测试流程请看附件
-
【问题简要】语音识别后调用动态库异常【问题类别】vxml2.0 【IPCC解决方案版本】IPCC V200R001C80【问题现象描述】测试源码 temp.jsp 第 31 行 <goto next="#test0"/> ,获取语音识别结果后去调用动态库的 TISC_Init 函数,日志显示能获取正常的语音识别结果,也能成功调用动态库的函数,结果正常。当我修改第 31 行为 <goto next="#test1"/>,即获取语音识别结果后去调用动态库的另一个函数 TISC_QueryKey,此时会出现获取不到语音识别结果,而且日志也卡死了,也没有看到任何报错电话就挂断了,在监控台页面上日志被清空,日志系统似乎是挂了,后续再呼进流程时,日志也不能跟踪刷新了,需要再次点击停止跟踪和开始跟踪。请问为何日志和流程同时卡死,之前没遇到过这种情况,就算代码错了日志也应该会正常显示。测试源码和 ivr trace log 和 icdDug 日志已发附件。
-
【问题简要】IVR 获取语音识别结果【问题类别】vxml2.0 【IPCC解决方案版本】IPCC V200R001C80【问题现象描述】您好!我们使用 vxml 2.0 开发 IVR 流程,下图为 asr 的测试流程的从开始说话到获取结果 IVR 侧的日志截图:请问,平台是如何解析 asr 厂商返回的结果的,上图日志中,只看到了解析了两个 key 分别为 id 和 meaning,请问能获取其它值吗,另外再附上 asr 厂商发的返回结构,请问可以获取到 input 标签的值「我要还款」吗, vxml 2.0 代码要如何获取?
-
智能客服集成语音识别的智能客服系统,可以自动识别客户的语音和语义,然后自动以语音形式回复客户。减少人力成本,保证服务质量。智能会议集成语音识别的智能会议系统,可以自动识别参会人员的声纹、语音,通过实时、精准的识别,达到实时弹幕显示、会议记录等。直播字幕在视频直播场景中,将音频实时转写成文本字幕,与视频一起播出,提升观众友好性。结合敏感关键词检测服务,进行质检审查。人机交互通过语音唤醒、语音识别服务,对终端设备发送语音命令,对设备进行实时操作,提升人机交互体验。
-
本帖最后由 speedy2016 于 2018-6-28 20:21 编辑国内首款基于FPGA平台的语音识别加速解决方案登陆华为云 近期,华为云与国际领先深度学习加速方案提供者深鉴科技共同发布语音识别加速引擎DDESE——DeePhi Descartes Efficient SpeechRecognition Engine,即深鉴科技笛卡尔架构高效语音识别引擎。该方案以语音识别为应用载体,对AI类应用推理计算进行全面加速。成为目前国内公有云市场上,首款基于FPGA平台的原创深度学习语音识别加速解决方案。现已全面登录华为云市场。18350近年来,云端业务发展日新月异,市场对底层硬件架构提出更高性能的要求,而FPGA的可定制化和多功能的灵活特性,与云端灵活、复杂、多变的需求“不谋而合”,继而在全球云端业务中广泛加快布局。而华为云顺应趋势,并结合自身硬件优势全面推出FPGA加速云服务器平台,应用场景覆盖基因分析、视频/图片处理、深度学习、加解密、大数据等多个领域,致力于为企业提供极致、易用、专业的FPGA加速云服务。华为云结合深鉴科技,在FPGA加速云服务器平台上发布了DDESE。该产品是以Xilinx FPGA为计算架构平台,为用户打造的一款算法、软件和硬件协同设计的推理计算加速解决方案。基于深鉴科技独有的深度压缩能力,可以在保持精度的同时将神经网络压缩超过10倍,并部署在深鉴科技自主研发的笛卡尔架构硬件平台上,其核心加速引擎能够显著降低语音识别的延时,同时达到更低的功耗。根据单句语音识别重复测试的结果,DDESE端到端语音识别的计算速度是同等级GPU(Tesla P4 + c**n)的2倍,其中LSTM部的加速比超过2.5倍。该款产品主要应用于语音识别场景,可为用户提供端到端语音识别服务。未来,深鉴科技希望依托于华为云的平台,能够在FPGA领域继续突破前沿技术,引领国际先进的深度学习加速方案,进一步赋能语音识别应用场景。目前,DDESE正面向华为云用户提供免费试用,期待更多开发者与厂商体验深鉴算法、软件、硬件协同设计的深度学习加速解决方案。DDESE体验链接:https://app.huaweicloud.com/product/00301-110982-0--0
-
本帖最后由 DeePhi 于 2018-6-19 11:11 编辑【导语】2018年4月26日星期四,北京深鉴科技有限公司入驻华为云市场,在华为云市场发布了“深鉴笛卡尔高效语音识别引擎” —— DDESE(DeePhi Descartes Efficient SpeechRecognition Engine)。该产品针基于Xilinx FPGA,针对深度神经网络(主要针对LSTM),为用户提供软硬件协同设计的快速、灵活、高效的推理计算解决方案。 【标签】华为云市场 云端大事件 FPGA LSTM加速 产品介绍DDESE是深鉴科技自主研发的高效端到端自动语音识别引擎,它使用了算法、软件、硬件协同设计的深度学习加速解决方案(包括剪枝、定点、编译和FPGA执行推理)。我们使用了DeepSpeech2框架和LibriSpeech 1000小时数据集来做模型训练和压缩,支持用户测试对比CPU/FPGA的性能以及执行单句语音识别。 产品特色业界领先的原创深度学习语音识别加速解决方案 (ESE,FPGA2017 best paper)- 针对模型推理支持对单向、双向LSTM使用FPGA做加速- 支持卷积层、全连接层、BN层和多种激活函数(例如Sigmoid、Tanh和HardTanh)- 支持测试CPU/FPGA的性能比较以及单句语音识别17727 解决方案我们的解决方案包括算法、软件和硬件协同设计(包括剪枝、定点、编译和FPGA执行推理)。经过剪枝,可以在精度损失很小的情况下得到稀疏模型(稠密度为15%~20%),然后将模型的权重和激活值定点到16bit,这样一来整个模型能够被压缩超过10倍,可以借助稀疏存储格式编译并部署在深鉴科技自主研发的笛卡尔平台上,采用FPGA执行高效的推理。14590 应用场景/行业DDESE聚焦语音识别场景,构建了以赛灵思FPGA为平台的自动语音识别系统加速引擎,可以为用户提供端到端的语音识别服务。基于FPGA平台,结合深鉴科技算法、软件和硬件协同设计的深度学习加速解决方案,DDESE在语音识别端到端的计算速度是同等级GPU(Tesla P4)的2倍,其中LSTM部分的加速比超过2.5倍。深鉴科技在云端部署FPGA加速解决方案,面向全球用户提供加速服务,支持其降低开发与部署成本,消除硬件壁垒,同时通过软硬件协同优化,取得更高效的云端计算能力。 产品价值点深鉴科技的核心加速引擎主要针对RNN/LSTM,能够显著的降低语音识别、机器翻译等AI时序类应用的延时。深鉴科技在华为云市场发布DDESE,目的是以语音识别为应用载体,展现基于Xilinx FPGA的AI类应用推理计算加速能力,并通过云端推广,让更多客户试用并深入了解深鉴科技的全流程解决方案。关于DDESE的更多信息,请参考深鉴科技官网:http://www.deephi.com/zh-cn/ddese.html
-
问:UVoice 现在是否可以使用?答:UVoice现在处于邀测阶段,预计2017年底上线公测。 问:UVoice服务如何购买?答:目前处于邀测阶段,当前可以联系 zhongweicai@huawei.com咨询,上线后公测期间华为云用户可免费使用。 问:什么是UVoice:答:UVoice致力于为企业和个人提供语音识别和语音合成服务,通过API 调用即可实现语音转文字、从文本生成语音等功能。 问:UVoice 有哪些能力?语音识别:可以快速识别语音内容,将语音转换为文字。语音合成:可以快速将文字合成语音,提供多种音色选择,支持语速调节,合成效果流畅自然,更接近人声。 问:怎么使用UVoice?答:用户通过API调用使用UVoice服务,用户开通UVoice服务后即可参考接口文档调用服务。 问:使用UVoice需要购买华为云的哪些配套资源?答:用户开通UVoice就可以使用;为了获得更好的体验,建议用户购买华为云的弹性云服务器和OBS搭配使用。 问:UVoice处理一段语音需要多久?答:UVoice基于华为新一代GPU弹性云服务器,处理一段10S短语音最快0.1秒。 问:UVoice可以处理多长的语音识别?答:UVoice即可以识别短语音,也可以识别长语音。 问:我的文件发送给UVoice会不会泄露?答:UVoice和华为云其他服务采用同样的安全措施保证用户数据安全,并且UVoice承诺不保存用户数据用于商业用途。
上滑加载中
推荐直播
-
GaussDB管理平台TPOPS,DBA高效运维的一站式解决方案
2024/12/24 周二 16:30-18:00
Leo 华为云数据库DTSE技术布道师
数据库的复杂运维,是否让你感到头疼不已?今天,华为云GaussDB管理平台将彻底来改观!本期直播,我们将深入探索GaussDB管理平台的TPOPS功能,带你感受一键式部署安装的便捷,和智能化运维管理的高效,让复杂的运维、管理变得简单,让简单变得可靠。
回顾中 -
DTT年度收官盛典:华为开发者空间大咖汇,共探云端开发创新
2025/01/08 周三 16:30-18:00
Yawei 华为云开发工具和效率首席专家 Edwin 华为开发者空间产品总监
数字化转型进程持续加速,驱动着技术革新发展,华为开发者空间如何巧妙整合鸿蒙、昇腾、鲲鹏等核心资源,打破平台间的壁垒,实现跨平台协同?在科技迅猛发展的今天,开发者们如何迅速把握机遇,实现高效、创新的技术突破?DTT 年度收官盛典,将与大家共同探索华为开发者空间的创新奥秘。
回顾中
热门标签