• [技术干货] 华为云音视频服务(IoT Video):如何实现视频验证
    随着互联网技术的发展,用户身份验证成为了保障网络安全和数据安全的重要环节。传统的验证码方式包括图片验证码、短信验证码、邮件验证码等,但是这些方式存在一定的局限性,例如容易被自动化工具破解、发送成本高、用户体验差等问题。因此,视频验证码应运而生,它通过将验证码嵌入到视频中的方式,提高了验证码的安全性和用户体验。华为云的音视频服务(IoT Video),也称为实时音视频服务(SparkRTC),是一种基于华为在视频业务领域长期技术积累而提供的服务。这项服务旨在为行业提供高并发、低延迟、高清流畅、安全可靠的全场景、全互动、全实时的音视频解决方案。它适用于多种场景,包括在线教育、云会议、社交文娱等。本文将介绍如何使用华为云音视频服务(IoT Video)实现视频验证码,包括录制视频、生成验证码、嵌入验证码、视频播放和验证验证码等步骤。应用场景互动娱乐:覆盖多种社交娱乐场景,如游戏直播、互动播客、秀场直播等。支持观众与主播连麦,提供优质音效和1080P高清画质。视频会议:提供高清视频会议服务,支持全球化部署,适用于远程协作、会场直播等。在线金融:将线下业务场景迁移到线上,如视频面签、保险定损等,提供全链路安全端到端加密。在线教育:通过超低延时、高质量的实时音视频,提供一站式解决方案,适用于1V1教学、小班课等。产品优势全球覆盖:基于全球一张网络,覆盖200个国家和地区。优质体验:支持H.265编解码,带宽节省30%,E2E时延小于300ms。安全可靠:E2E数据加密,多级冗余部署,可用性高达99.99%。简单易用:基于多语言的SDK设计,易于集成对接。 此外,华为云的实时音视频服务还提供了丰富的功能,如音视频通话、直播连麦、实时监测等,以满足不同场景的需求。 录制视频使用华为云音视频服务(IoT Video)录制视频,可以是任意长度和内容的视频。录制视频的步骤如下:创建音视频项目配置录制参数开始录制视频结束录制视频华为云音视频服务(IoT Video)支持多种录制格式,包括MP4、AVI、MOV等,可以根据实际需求选择合适的录制格式。生成验证码生成验证码可以使用华为云的其他服务,如短信服务SMS或邮件服务Mail。生成验证码的步骤如下:配置短信服务SMS或邮件服务Mail调用短信服务SMS或邮件服务Mail生成验证码获取生成的验证码生成验证码的方式可以是随机生成、时间戳加偏移量等,可以根据实际需求选择合适的方式。嵌入验证码将生成的验证码嵌入到视频中,可以在视频的关键帧或者特定的时间点嵌入验证码。嵌入验证码的步骤如下:获取视频关键帧或特定时间点将验证码嵌入到视频关键帧或特定时间点保存嵌入验证码的视频嵌入验证码的方式可以是水印、文字、二维码等,可以根据实际需求选择合适的方式。视频播放将嵌入验证码的视频上传到华为云音视频服务(IoT Video),用户在播放视频时可以看到验证码。视频播放的步骤如下:将嵌入验证码的视频上传到华为云音视频服务(IoT Video)获取视频播放链接用户播放视频视频播放的方式可以是直接播放、下载播放等,可以根据实际需求选择合适的方式。验证验证码用户需要将看到的验证码输入到相应的验证码输入框中,服务端会比对输入的验证码和嵌入视频中的验证码是否一致。验证验证码的步骤如下:获取用户输入的验证码获取嵌入视频中的验证码比对用户输入的验证码和嵌入视频中的验证码是否一致验证验证码的方式可以是直接比对、加密比对等,可以根据实际需求选择合适的方式。结语本文介绍了如何使用华为云音视频服务(IoT Video)实现视频验证码,包括录制视频、生成验证码、嵌入验证码、视频播放和验证验证码等步骤。通过使用视频验证码,可以提高用户身份验证的安全性和用户体验。希望本文对大家有所帮助。
  • [问题求助] TTS播报文字内容过长?
    【问题来源】     内部测试环境功能测试 【问题简要】     TTS播报内容:您的储蓄卡余额为378.64元。了解当前使用明细,可以登录我行APP、手机银行、微信银行进行明细查询。您可以登录我行官网,参与当前优惠活动与存储活动,抽最高100元话费福利!请问还有什么可以帮您的? 【问题类别】     IVR(gsl)     【AICC解决方案版本】     AICC 版本:AICC 23.200     SCE 版本: ICDV300R008C25SPC009 【期望解决时间】     尽快 【日志或错误截图】          
  • [问题求助] Web接口直接访问Cell,请求参数为变量无法替换
    【问题来源】     内部测试环境功能测试 【问题简要】  问题1:   参照Web接口直接访问Cell,请求参数设置为变量,实际未替换变量成功     请求参数:{"sessionId": "$sessionId", "queryText":"$queryText"},从日志端看到sessionId=1711420619-167,queryText=挂失。     同时也尝试了使用请求参数{"sessionId": "${sessionId}", "queryText":"${queryText}"}任然未替换其中变量。 问题2:如果web接口返回的内容是json数组格式如何解析?  如:{"strA":"a",  "answerContents":[{"text":"测试","type":1}], "actions":[]}【问题类别】     IVR(gsl)     【AICC解决方案版本】     AICC 版本:AICC 23.200     SCE 版本: ICDV300R008C25SPC009 【期望解决时间】     尽快 【日志或错误截图】
  • [问题求助] IVR语音识别结果解析
    【问题来源】     内部测试环境功能测试 【问题简要】     ASR识别结果为:{<id 余额查询余额查询><asrid ef9ff17e749f45df><meaning 余额查询余额查询>}0.990     怎么获取到ASR识别结果中的业务名称“余额查询”,使用哪个CELL能处理这类动态结果? 【问题类别】     IVR(gsl)     【AICC解决方案版本】     AICC 版本:AICC 23.200     SCE 版本: ICDV300R008C25SPC009 【期望解决时间】     尽快 【日志或错误截图】
  • [问题求助] ASR识别结果判断
    【问题来源】     内部测试环境功能测试 【问题简要】          问题1:ASR识别后的文字通过工具打开为乱码;     问题2:如何判断ASR的识别文字做后续的处理。 ASR识别到文字后,通过对比判断业务类型,对比失败,从底层日志能看到ASR识别的文字,通过文本工具打开ASR识别的结果为乱码,尝试使用了“字符集编码转换”CELL进行编码转换GBK转UTF8,还是不行,请问有什么办法能对比识别的意图,如客户说“余额查询”,IVR判断结果为“余额查询”时进入到余额查询的节点。 【问题类别】     IVR(gsl)     【AICC解决方案版本】     AICC 版本:AICC 23.200     SCE 版本: ICDV300R008C25SPC009 【期望解决时间】     在线等     【日志或错误截图】日志文件和sce源文件见附件。
  • [问题求助] TTS语速问题
    【问题来源】     公司内部测试环境     【问题简要】     通过TTS报工号的放音语速为x-slow,通过ivr脚本放音的语速为medium,通过CTI页面修改TTS报工号放音语速不生效,请问怎么修改TTS报工号的放音语速 【问题类别】     TTS     【AICC解决方案版本】     AICC 版本:AICC 23.200     SCE 版本: ICDV300R008C25SPC009  【期望解决时间】     在线等      【问题现象描述】      环境:内部测试环境           【日志或错误截图】           TTS报工号截图CTI侧配置  UAP侧配置通过脚本测试TTS的语速是正常的
  • [问题求助] IVR对接ASR失败
    【问题来源】     上海井星科技   【问题简要】     使用demo文件ASR.GSL测试,连接ASR报错:VP load GSL Grammar fail 【问题类别】     IVR(gsl)     【AICC解决方案版本】     AICC 版本:AICC 23.200     SCE 版本: ICDV300R008C25SPC009 【期望解决时间】     在线等     【问题现象描述】      环境:内部测试环境          【日志或错误截图】        
  • [其他] 聊聊语音识别技术前景
    语音识别技术,也被称为自动语音识别(Automatic Speech Recognition,ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。 随着计算机的小型化,键盘鼠标已经成为了计算机发展的一大阻碍。人类的计算机从超大体积发展到现在占地不到1平方米的微型计算机,想必未来的计算机可能会有意想不到的小,那么键盘鼠标对其来说就是障碍了,这时候就需要语音识别来完成命令。一些科学家也说过:“计算机的下一代革命就是从图形界面到语音用户接口”。这表明了语音识别技术的发展无疑改变了人们的生活。在某些领域,电话正在逐渐地演变成一个服务者而非简单的对话工具,通过电话,人们也可以使用语音来获取自己想获得的信息,其工作效率也自然而然提高了一个档次。 语音识别技术渐渐地变成了人机接口的关键一步,这样一个极具竞争性的新兴产业,其市场的发展更是十分迅速, 发展趋势也在逐步上升。从1999到2005年间,语音识别技术市场正在以每年31%的趋势增长,如今在 iPhone等智能 手机中,语音助手已经成为了标配功能,为用户带来了许多的便利,人们也可以通过电话和网络来订购机票火车票,甚至是旅游服务。因此,语音识别技术在我们实际生活中也有着越来越广阔的发展前景和应用领域。  在电话与通信系统中,智能语音接口正在把电话机从一个单纯的服务工具变成为一个服务的“提供者”和生活“伙伴”;使用电话与通信网络,人们可以通过语音命令方便地从远端的数据库系统中查询与提取有关的信息;随着计算机的小型化,键盘已经成为移动平台的一个很大障碍,想象一下如果手机仅仅只有一个手表那么大,再用键盘进行拨号操作已经是不可能的。语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。 语音识别技术发展到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方经济发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息,并且取得很好的结果。调查统计表明多达85%以上的人对语音识别的信息查询服务系统的性能表示满意。 能一步步朝着改进语音识别系统的方向一步步地前进。至于什么时候可以建立一个像人一样完善的语音识别系统则是很难预测的。
  • [其他] 浅聊语音识别技术常用的方法
    语音识别技术,也被称为自动语音识别(Automatic Speech Recognition,ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。2019年8月17日,北京互联网法院发布《互联网技术司法应用白皮书》语音识别技术常用的方法有如下四种: 1. 基于语言学和 声学的方法,2. 随机模型法,3. 利用人工神经网络的方法,4. 概率语法分析。其中最主流的方法是随机模型法。 基于语言学和声学的方法 基于语言学和声学的方法是最早应用于语音识别的方法,但是这种方法涉及的知识太过于困难,导致现在并没有得到大规模普及。  随机模型法 随机模型法目前应用较为成熟,该方法主要采用提取特征、训练模板、对模板进行分类及对模板进行判断的步骤来对语音进行识别。该方法涉及到的技术一般有3种:动态时间规整(DTW),隐马尔科夫模型(HMM)理论和矢量量化(VQ )技术。其中,HMM 算法相较于其他两者的优点是简便优质, 在语音识别性能方面更为优异。也正因为如此,如今大部分语音识别系统都在使用HMM算法。 神经网络的方法 (ANN)神经网络方法是在语音识别发展的后期才有的一种新的识别方法。它其实是一种模拟人类神经活动的方法,同时具有人的一些特性,如自动适应和自主学习。其较强的归类能力和映射能力在语音识别技术中具有很高的利用价值。业界将 ANN 与传统的方法进行结合,各取所长,使得语音识别的效率得到了显著的提升。 概率语法分析法 概率语法分析法是一种能够识别大长度语段的技术,主要是为了完成“区别语言的特征”,对于不同层次的知识利用相应层次的知识来解决。这种方法最大的不足就是,建立一个有效、适宜的适用知识系统存在着一定的困难。
  • [其他] 浅浅了解语音识别技术框架 
    声学特征提取 模拟的语音信号进行采样得到波形数据之后,首先要输入到特征提取模块,提取出合适的声学特征参数供后续声学模型训练使用。好的声学特征应当考虑以下三个方面 的因素。第一,应当具有比较优秀的区分特性.以使声学模型不同的建模单元可以方便准确的建模。其次,特征提取也可以认为是语音信息的压缩编码过程,既需要将信道、说话人的因素消除保留与内容相关的信息,又需要在不损失过多有用信息的情况下使用尽量低的参数维度,便于高效准确的进行模型的训练。最后,需要考虑鲁棒性,即对环境噪声的抗干扰能力。 声学模型 如今主流语音识别系统都采用隐马尔科夫模型(HMM)作为声学模型,这是因为HMM具有很多优良特性。HMM模型的状态跳转模型很适合人类语音的短时平稳特性,可以对不断产生的观测值(语音信号)进行方便的统计建模;与HNN相伴生的动态规划算法可以有效地实现对可变长度的时间序列进行分段和分类的功能;HMM的应用范围广泛。只要选择不同的生成概率密度,离散分布或者连续分布,都可以使用HNM进行建模。HMM以及与之相关的技术在语音识别系统中处于最核心的地位。自从HMM的理论被提出以来(Baum and Easo,1967),它在语音信号处理及相关领域的应用范围变得越来越广泛,在语音识别领域起到核心角色的作用,它还广泛活跃精音的参数合成、语言理解、 机器翻译等其他领域。  以汉语为例: 汉语按音素的发音特征分类分为辅音、单元音、复元音、复鼻尾音四种,按音节结构分类为声母和韵母。并且由音素构成声母或韵母。有时,将含有声调的韵母称为调母。由单个调母或由声母与调母拼音成为音节。汉语的一个音节就是汉语一个字的音,即音节字。由音节字构成词,最后再由词构成句子。 汉语声母共有22个,其中包括零声母,韵母共有38个。按音素分类,汉语辅音共有22个,单元音13个,复元音13个,复鼻尾音16个。 目前常用的声学模型基元为声韵母、音节或词,根据实现目的不同来选取不同的基元。汉语加上语气词共有412个音节,包括轻音字,共有1282个有调音节字,所以当在小词汇表孤立词语音识别时常选用词作为基元,在大词汇表语音识别时常采用音节或声韵母建模,而在连续语音识别时,由于协同发音的影响,常采用声韵母建模。 基于统计的语音识别模型常用的就是HMM模型λ(N,M,π,A,B),涉及到HMM模型的相关理论包括模型的结构选取、模型的初始化、模型参数的重估以及相应的识别算法等。 语言模型与语言处理 语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型,语言处理可以进行语法、语义分析。 语言模型对中、大词汇量的语音识别系统特别重要。当分类发生错误时可以根据语言学模型、语法结构、语义学进行判断纠正,特别是一些同音字则必须通过上下文结构才能确定词义。语言学理论包括语义结构、语法规则、语言的数学描述模型等有关方面。目前比较成功的语言模型通常是采用统计语法的语言模型与基于规则语法结构命令语言模型。语法结构可以限定不同词之间的相互连接关系,减少了识别系统的搜索空间,这有利于提高系统的识别。