• [其他] 人工智能 - 常用名词
    自然语言处理(NLP)  是人类与机器沟通的中介,我们需要靠它来理解、处理和运用自然语言。    自然语言理解(NLU)  指的是机器的语言理解能力,将人类语言转化为机器可理解的内容。    自然语言生成(NLG)  指的是机器通过一系列的分析处理后,把计算机数据转化生成为自然语言内容,让人类可以理解。  语音识别(ASR)  将语音内容转为文字,比如在微信里,当别人发的语音信息不方便外放收听时,可以转为文字查看。    语音合成(TTS)  将文字内容转为语音,比如现在很多的阅读软件,支持播放,有的就是利用 TTS,直接将文本内容转为语音播放出来。  意图(Intent)  一个人希望达到的目的,或者解释为想要做什么?他的动机是什么?    槽位(Slot)  可以理解为系统要向用户收集的关键信息。  实体(Entity)  用户在语句中提到的具体信息。  解析器(Parser)  抽取或解析用户语句中的关键信息。  命名实体识别(NER)  用来识别具有特定意义的实体。主要包括机构、地名、组织等。    任务对话(Task Dialogue)  有上下文联系,就像我们要去订票、订餐之类的一段任务型的对话。  知识图谱(Knowledge Graph)  这个可以理解为可视化关联信息。  训练(Train)  这个概念可以这样理解,比如你创建了个机器人,但是它什么都还不懂,于是你塞了堆知识给他,这时,它就需要自己训练学习了,训练好了,就能回答你塞的那堆知识里的问题了。  数据标注  将对话日志中有价值的数据做标注(标记、匹配、关联之类)。
  • [其他] 语音识别 - 主要步骤
    输入  对于语音识别系统而言,第一步要检测是否有语音输入,即,语音激活检测(VAD)。识别  在低功耗设计中,相比于语音识别的其它部分,VAD采用always on的工作机制。当VAD检测到有语音输入之后,VAD便会唤醒后续的识别系统。步骤  识别系统总体流程如图2所示,主要包括特征提取、识别建模及模型训练、解码得到结果几个步骤:    声音的三个主要的主要属性,即音量(响度)、音调、音色(也称音品)。    声音的音量(volume),即音频的强度和幅度;    声音的音调,也称为音高(pitch),即音频的频率或每秒变化的次数;    声音的音色(timbre),即音频泛音或谐波成分。音品  每个人的发音都有其独特的音品,为此,在训练用户的语音识别时,需要提取用户的音品特征,对已经训练的基础模型进行调整,建立用户的声音特征模型,这样可以显著提升识别的成功率和速度,在复杂语音背景下增强抗干扰能力。思路  这是一个值得研究的新思路。
  • [其他] 语音识别 识别结果非常差 解决思路
    Ⅰ  调用语音识别接口,识别结果同真实结果差别很大,或者服务端报音频格式错误。Ⅱ  解决方案如下Ⅲ  检查音频采样率是否符合。Ⅳ  对于裸音频,可采用toolsoft Audio player等工具进行试听,通过设置不同的采样率,播放正常的即为音频正常采样率。Ⅴ  如果检查参数“property”是否与采样率一致,如“chinese_8k_common”, 8k即采样率。
  • [其他] 语音交互 API 识别结果为空
    共有三种方式可以基于已构建好的请求消息发起请求:cURL  cURL是一个命令行工具,用来执行各种URL操作和信息传输。cURL充当的是HTTP客户端,可以发送HTTP请求给服务端,并接收响应消息。cURL适用于接口调试。编码  通过编码调用接口,组装请求消息,并发送处理请求消息。REST客户端  Mozilla、Google都为REST提供了图形化的浏览器插件,发送处理请求消息。一般按照以下情况进行排查:1.  请确保音频格式和请求格式参数保持一致,音频采样率和选择“property”参数中采样率保持一致。2.  确保音频位宽为16bit,目前仅支持16bit位宽的音频,如果低于该位宽的音频,则无法正常识别。
  • [其他] 人工智能 - 语音识别
    Ⅰ  需要多种算法将语音转换为文本并准备进行数字处理。尽管语音识别系统变得越来越好,但是即使是当今最好的语音识别系统也仍然容易出错,因此在安全关键型应用(例如医疗数据捕获)中需要进行一些验证。Ⅱ  贝尔实验室的研究人员于1952年开发了首个用于识别单个数字的语音识别系统。到1962年,IBM公司推出了Shoebox机器,该机器可以理解16个单词。到1980年代中期,研究人员开始使用统计技术(例如隐马尔可夫模型)来开发可以理解2万个单词的应用程序,但其单词之间会有停顿。第一款消费者听写产品Dragon Dictate于1990年发布,可以根据语音自动键入文字。然后,AT&T公司推出了一种语音识别应用程序,该程序无需人工即可路由呼叫。这些早期的系统或者具有适合特定环境的小型词汇表,需要由单个声音进行大量训练。Ⅲ  研究人员从2010年开始发现了将深度神经网络应用于语音识别的方法。这一增长的主要推动力之一是需要找到更好的方法来代表不同类型智能音箱的声音特征。这要求探索出更好的方法,将原始音频数据转换为人类习惯于收听的独特声音(称为音素)(例如,“汽车”一词中的“c”)。Ⅳ  研究人员还将基本的语音识别结果与更好的场景结合起来,以区分同音异义词(bear/bare)。云计算服务现在提供了各种核心的语音转文本服务,开发人员随后将其融入各种企业工作流程中。Ⅴ  基本的语音识别功能通过云计算服务(如微软Cortana、谷歌Now和苹果Siri)嵌入到现代智能手机和电脑中。亚马逊公司利用语音识别技术推出了一种新的方式,通过Alexa语音服务在智能手机之外连接互联网。这些服务通常在云平台中完成繁重的工作。最近,谷歌公司通过开发更有效的算法来提高标准,这些算法可以在其Pixel手机上本地运行语音识别应用程序。Ⅵ  语音识别技术在企业中的使用正在增加。一些供应商还开始开发用于自动记录电话会议和现场会议的应用程序,以达到合规目的或更好地记录决策过程。自动化语音识别还可以帮助监视呼叫中心的活动,以确保工作人员遵循正确的程序,从而使管理人员不必听到每个呼叫。语音识别应用程序也正用于为国际旅行者自动进行语言翻译。这项人工智能技术的其他商业应用包括家庭自动化、视频游戏交互以及将视频编入索引的自动隐藏式字幕。
  • [已解决问题归档] 【CloudUSM V600R019C10产品 对接jssip实现html5实时语音]
    【功能模块】 我现在要实现使用javascript   sip库 在前端html5页面实现基于sip协议 的实时语音,拔通连在cloud usm平台某一台坐机有没有什么开发例子能提供给我
  • [其他] NLP 研究方向
    一  自然语言处理 (Natural Language Processing) 是人工智能(AI)的一个子领域。  自然语言处理是研究在人与人交互中以及在人与计算机交互中的语言问题的一门学科。二主要研究方向有:信息抽取:从给定文本中抽取重要的信息,比如时间、地点、人物、事件、原因、结果、数字、日期、货币、专有名词等等。通俗说来,就是要了解谁在什么时候、什么原因、对谁、做了什么事、有什么结果。文本生成:机器像人一样使用自然语言进行表达和写作。依据输入的不同,文本生成技术主要包括数据到文本生成和文本到文本生成。数据到文本生成是指将包含键值对的数据转化为自然语言文本;文本到文本生成对输入文本进行转化和处理从而产生新的文本。问答系统:对一个自然语言表达的问题,由问答系统给出一个精准的答案。需要对自然语言查询语句进行某种程度的语义分析,包括实体链接、关系识别,形成逻辑表达式,然后到知识库中查找可能的候选答案并通过一个排序机制找出最佳的答案。对话系统:系统通过一系列的对话,跟用户进行聊天、回答、完成某一项任务。涉及到用户意图理解、通用聊天引擎、问答引擎、对话管理等技术。此外,为了体现上下文相关,要具备多轮对话能力。文本挖掘:包括文本聚类、分类、情感分析以及对挖掘的信息和知识的可视化、交互式的表达界面。目前主流的技术都是基于统计机器学习的。语音识别和生成:语音识别是将输入计算机的语音符号识别转换成书面语表示。语音生成又称文语转换、语音合成,它是指将书面文本自动转换成对应的语音表征。信息过滤:通过计算机系统自动识别和过滤符合特定条件的文档信息。通常指网络有害信息的自动识别和过滤,主要用于信息安全和防护,网络内容管理等。舆情分析:是指收集和处理海量信息,自动化地对网络舆情进行分析,以实现及时应对网络舆情的目的。信息检索:对大规模的文档进行索引。可简单对文档中的词汇,赋之以不同的权重来建立索引,也可建立更加深层的索引。在查询的时候,对输入的查询表达式比如一个检索词或者一个句子进行分析,然后在索引里面查找匹配的候选文档,再根据一个排序机制把候选文档排序,最后输出排序得分最高的文档。机器翻译:把输入的源语言文本通过自动翻译获得另外一种语言的文本。机器翻译从最早的基于规则的方法到二十年前的基于统计的方法,再到今天的基于神经网络(编码-解码)的方法,逐渐形成了一套比较严谨的方法体系。
  • [其他] 什么是语音交互服务
      语音交互服务(Speech Interaction Service,简称SIS)是一种人机交互方式,以开放API(Application Programming Interface,应用程序编程接口)的方式提供给用户,用户通过实时访问和调用API获取语音交互结果。目前语音交互服务仅支持中文识别与合成。语音交互包括以下子服务:定制语音识别(ASR Customization,ASRC):基于深度学习技术,提供针对特定领域(如快递行业)优化的语音识别能力,并可自定义语言模型。定制语音识别包含一句话识别、录音文件识别功能。支持热词定制。实时语音转写(Real-time ASR,RASR):将连续的音频流实时转换成文本,语音识别更快。短语音识别(Automatic Speech Recognition,ASR):将时长低于1min的口述音频转换为文本。语音合成(Text To Speech,TTS):是一种将文本转换成逼真语音的服务。定制语音合成(Text To Speech Customization,TTSC):依托华为先进的语音技术,使用深度学习算法,将文本转换为自然流畅的语音。
  • [其他] 实时语音转写是什么?
    实时语音转写实时语音转写服务,用户通过实时访问和调用API获取实时语音转写结果。RASR优势识别准确率采用最新一代语音识别技术,基于DNN(深层神经网络)技术,大大提高了抗噪性能,使识别准确率显著提升。识别速度快把语言模型,词典和声学模型统一集成为一个大的神经网络,同时在工程上进行了大量的优化,大幅提升解码速度,使识别速度在业内处领先地位。多种识别模式支持多种实时语音转写模式,如流式识别、连续识别和实时识别模式,灵活适应不同应用场景。定制化服务可定制特定垂直领域的语言层模型,可识别更多专有词汇和行业术语,进一步提高识别准确率。
  • [其他] 深度学习之语音识别
    我们必须要小心,不能使用会改变类别的转换。例如,光学字符识别任务需要认识到 “b’’ 和 “d’’ 以及 “6’’ 和 “9’’ 的区别,所以对这些任务来说,水平翻转和旋转180◦ 并不是合适的数据集增强方式。能保持我们希望的分类不变,但不容易执行的转换也是存在的。例如,平面外绕轴转动难以通过简单的几何运算在输入像素上实现。数据集增强对语音识别任务也是有效的 (Jaitly and Hinton, 2013)。在神经网络的输入层注入噪声 (Sietsma and Dow, 1991) 也可以被看作是数据增强的一种方式。对于许多分类甚至一些回归任务而言,即使小的随机噪声被加到输入,任务仍应该是能够被解决的。然而,神经网络被证明对噪声不是非常健壮 (Tang and Eliasmith, 2010)。改善神经网络健壮性的方法之一是简单地将随机噪声添加到输入再进行训练。输入噪声注入是一些无监督学习算法的一部分,如去噪自编码器(Vincent et al., 2008a)。向隐藏单元施加噪声也是可行的,这可以被看作在多个抽象层上进行的数据集增强。Poole et al. (2014) 最近表明,噪声的幅度被细心调整后,该方法是非常高效的。我们将 节介绍一个强大的正则化策略 Dropout,该策略可以被看作是通过与噪声相乘构建新输入的过程。
  • [热门活动] 直播回顾-AI智能语音,企业高效获客的秘密武器
    技术的发展让AI在 场景走进了我们的视线,特别是疫情期间的AI外呼,AI诊断等。我们也经常在生活的各个方面接到过AI语音电话,比如接到AI快递通知,比如接到银行的AI服务通知等等。以前的AI语音还能够一秒听出,现在,随着技术的改进,AI语音越来越拟人化,越来越趋向于真人的声音。那么企业为什么要用AI语音呢?AI语音又为什么要拟人化呢?企业为什么要用AI语音?AI智能语音本质是代替人与目标用户的更高效触达与沟通,传统的企业与客户沟通的方式成本高、效率低,无法触达客户的每个旅程节点。AI智能语音,利用AI辅助人工,在每个客户触点提供服务,涵盖售前、售中、售后的全旅程,自动收集分析每个触点的互动数据,并对客户体验的管理提供数据支持,让客户体验的全旅程自动化、数字化,从而提升客户的购买欲。并且AI语音外呼可以有效地帮助企业降低成本,提高效率。AI语音又为什么要拟人化呢?AI语音拟人化可以天然的拉近与客户的距离,让用户有亲切感,也有更强烈的沟通交流下去的意愿。并且AI语音拟人化,当遇到AI无法解决的问题时,能够更好地支持人工客服无感介入。 直播中介绍的一知智能语音,与华为云高度适配,支持灵活调度,可以根据用户的需求定制最合适的部署方,包括本地化部署、公有云服务器、私有云服务器、个性化深度定制等。直播回放:AI智能语音,企业高效获客的秘密武器一知智能外呼系统:https://marketplace.huaweicloud.com/product/OFFI541183899011121152?marketplace_live_20210610 
  • [其他] 智能新生态 可信新未来
    --- 2021年7月15日,中国信息通信研究院云计算与大数据研究所在京举办 “2021年可信AI成果发布会”。 会上,中国信通院云大所正式发布《2021人工智能十大关键词》、2021年首批可信AI评估结果,智能语音语义,开发平台、机器人流程自动化、内容安全等产品评测观察,并深入解读可信AI评估体系、人脸威胁情报、护脸计划、《可信人工智能白皮书》等工作。 ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202107/25/012311ffx43sbqbmm74tcr.png) **可信AI成果发布会现场** 中国信通院云计算与大数据研究所所长何宝宏发布了《2021人工智能十大关键词》并对其进行了解读。十大关键词分别为:可信AI、工程化、大模型、人脸安全、治理、超级自动化、MLOPS、知识计算、多模态融合和行业融合。十大关键词指出在近一年来,人工智能技术、应用和产业等方面呈现出的特点和趋势,为产业的下一步发展提供参考。 ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202107/25/012321vrjy4mucbiijckli.png) **中国信通院云计算与大数据研究所所长何宝宏** 中国信通院云大所人工智能部副主任曹峰解读了可信AI评估体系,并对RPA评估专项进行了解读。曹峰表示,评测工作开展已经近4年,通过制定评测标准体系,建设软硬件测试环境和能力,已经形成专用芯片、智能语义、机器人流程自动化(RPA)、开发平台、内容安全等典型产品和服务的评测能力。截止2020年底,累计已有七十多家企业的近180项产品通过了评测。今年评测品牌正式升级为“可信AI”评测体系,上半年共有30家企业的52款产品通过测试。 ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202107/25/012328icoevgrhde2lgz0b.png) **中国信通院云大所人工智能部副主任曹峰** 2021年首批可信AI评测结果: ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202107/25/012336swxpu1erkndgpyay.png) **华为云的ModelArts同样在列。** 中国信通院云大所人工智能部副主任石霖介绍了“可信人脸应用守护计划”工作进展。“护脸计划”自发起以来,已经形成《人脸识别系统通用可信能力要求》,正在开展第一批可信人脸识别测试,得到多家人脸识别技术企业的积极响应。会上,“护脸计划”宣布建立人脸威胁情报共享机制,由中国信通院云大所联合蚂蚁集团正式发布“人脸应用·威胁动态”。该威胁动态以电子期刊形式,持续提供人脸威胁预警和安全防御服务,构建动态化的防范体系。 中国农业银行研发中心上海研发部处长陈小敏为大会带来《农业银行数字员工应用实践》主题报告,提到RPA作为银行数字化转型底层技术底座,融合了多要素组成数字劳动力,为数字化转型提供新的动力和工具。阳光保险集团首席科学家杜新凯带来《AI技术助力保险数智化转型》的主题报告分享中,解读了AI技术对保险行业带来的创新与变革,随着技术的发展,数字化转型已经逐渐成为各个行业不可或缺的重要助力。 中国信通院云大所人工智能部高级业务主管董晓飞介绍了智能语义产品评测情况。本轮共有12款产品通过智能化分级测试,呈现出如下特点。一是智能交互类产品的意图识别率和任务完成率显著提升,带来更好的交互体验;二是产品能力由数据原生驱动,转变为“数据+知识”的双重驱动,充分发挥了语料库和知识库在语言处理中的效用;三是产品服务重心从效果和性能,转向用户情绪识别和轨迹理解等 “以人为本”的需求。下一步将重点面向金融、政务、医疗、电商等垂直行业制定相关标准,并组织开展相关评估测试、技术沙龙、产业研讨等活动。 ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202107/25/012434i1hbjubewwmz04wm.png) **智能语义产品评测颁证仪式** 中国信通院云大所人工智能部高级业务主管李荪介绍了智能语音产品评测的总体情况。本轮共有8款产品通过测试,呈现出新技术产业化应用、特定场景需求凸显、抗攻击干扰能力提升的特点,但对于噪声、数字符号、专有名词等复杂场景和数据的处理和识别能力还有待进一步提高。下一步智能语音将聚焦产业应用需求,从标准制定、评测能力、沙龙活动三个方面,推动智能语音系统抗攻击、安全审核和数据安全方面可信能力研究,落实智慧助手白皮书、标准和评估测试,开展智能语音产品服务基础能力和专项能力的评测。 中国信通院云大所人工智能部工程师董昊介绍了人工智能开发平台评测的总体情况。本轮共有7款产品通过智能化分级测试,呈现出如下特点。一是参测产品基础功能完备,可视化水平普遍较高;二是可视化建模和自动建模模板可大幅降低开发门槛,不同平台的能力差异较大;三是考虑到用户需求和平台定位等因素,部分平台在特征工程、NLP/语音领域的开发能力较弱。 中国信通院云大所人工智能部工程师陈文弢介绍了内容安全评测的总体情况。本轮共有7家企业的18项服务通过测试,通过评测结果来看,已经呈现出基础功能完备、服务易用性较强的特点;但同时也存在小语种支持、高级检索功能不完善等问题。另外,内容识别标签不统一仍然是目前行业中相对突出的问题,因此,下一步,中国信通院将就此开展标签体系标准化工作。 可信人工智能已经成为全球共识,但实践中缺少一套可落地的方法论和落地指南。在本次大会上,中国信通院云大所人工智能部高级业务主管刘硕深度解读了由中国信通院云大所、华东分院、京东探索研究院共同编制的《可信人工智能白皮书》。白皮书从落实全球人工智能治理共识的角度出发,聚焦于可信人工智能技术、产业和行业实践等层面,分析了实现可控可靠、透明可释、隐私保护、明确责任及多元包容的可信人工智能路径,并对可信人工智能的未来发展提出了建议。
  • [技术干货] TTS放音失败问题解决
    1.使用智能IVR新建流程后,流程配置完后,使用机器人测试ok,openeye测试时,流程中播放TTS放音,未播放语音问题问题解决:抓取主被叫跟踪消息发现交互类型不对,正确的应该是2(语音交互播放TTS内容),修改了流程的对话类型为语音导航,之前是聊天机器人2.使用客户的IVR流程,电话拨打后,TTS放音失败问题解决:抓取了端到端消息发现使用的是普通话和女声,查看UAP配置发现并没有配置女声,导致校验不过,TTS放音失败
  • [已解决问题归档] 【AICC产品】【坐席接收来电功能】
    【问题来源】    【新点软件】    【问题简要】语音转写功能握手失败【问题类别】    【可选问题分类:AICC】【AICC解决方案版本】    【AICC 8.14.0】【期望解决时间】【2021-07-16 10:00:00】【接听】:同时登录两个坐席,市民呼入语音电话时,坐席01拒接后,坐席02并未收到市民的来电提示。 如果市民来电,当前有多个坐席签入并空闲,那么A坐席拒接后,电话分配给坐席的规则是什么,是依次分配给下一个空闲坐席?还是直接挂断?【问题现象描述】【姓名】 徐亚柏【邮箱】 m13812858509@163.com【联系方式】 13812858509
  • [已解决问题归档] 【语音转写调用订阅方法失败】【AICC功能】
    【问题来源】    【新点软件】    【问题简要】语音转写功能握手失败【问题类别】    【可选问题分类:AICC】【AICC解决方案版本】    【AICC 8.14.0】【期望解决时间】【2021-07-12 10:00:00】登陆鉴权成功:接口地址:https://139.9.50.74:9000/agentgateway/resource/config/login,入参:{agentId=56010, password=Huawei_123!} 接口返回值:{"msg":"登录鉴权成功!","code":{"result":{"guid":"CAF41D5BD1EB1D3B244172980BDDDF10269B40A05DE751A1.AgentGateway1"},"message":"success","retcode":"0"}}2.订阅失败订阅接口: https://139.9.50.74:9000/agentgateway/resource/config/subscribe/register 请求类型:post 入参:{subscribeType=1, serviceCallBackUri=http://119.3.161.76:8080/cns-bmfw-web/rest/cc-ai/nlrresult, nlpFlag=false, flowAccessCode=} 请求头:{guid=CAF41D5BD1EB1D3B244172980BDDDF10269B40A05DE751A1.AgentGateway1} 返回值:{"message":"openproxy login request timeout.","retcode":"107-029"}【问题现象描述】【姓名】 徐亚柏【邮箱】 m13812858509@163.com【联系方式】 13812858509