• [问题求助] IVR流程中调用放音收号识别cell来处理ASR语音转文本
    问题来源】【必填】      深圳容大【问题简要】【必填】      IVR流程中,调用放音收号识别cell来处理ASR语音转文本,用手机呼入流程后说话收集话语【问题类别】【必填】       IVR(gsl)【AICC解决方案版本】【必填】       AICC22.100       UAP:V100R005 spc108       ICD V300R008C20SPC002【期望解决时间】【选填】在线等【问题现象描述】【必填】      用户拨打热线号码,根据需要进入ivr流程,播完设置的语音之后我说话给流程收集语音转文本,获取文本调用接口传参,但是流程还没播完语音直接识别结束-错误,然后挂机了(注:在华为提供的ASR放音流程基础上写的流程,直接用的ASR放音demo部署之后测试也是这个结果)【日志或错误截图】【可选】流程大体如下
  • [问题求助] RPA 控件里的非必填参数如何动态赋值
    动态读取不同sheet页的数据,但是不能指定sheet
  • [问题求助] 语音合成 VITS pytoch框架转 ONNX 报错 ,长虹企业重要客户,重点项目
    [ERROR] TBE(8520,atc.bin):2022-09-02-15:18:16.121.452 [util.cc:103][OP_PROTO] CheckTwoInputDtypeSame:103 OpName:[Mul_3865] "The Mul_3865 op dtype is not same, type1:DT_INT32, type2:DT_INT64"
  • [版务处理] 让我哥
    未通过然后特还挺好
  • [其他] 整合不同智能语音助理服务成为趋势?
     2017年8月30日,微软和亚马逊就曾经宣布,双方达成智能语音助理合作协议,直到2018年8月,微软Cortana和亚马逊Alexa才真正完全整合的工作。未来Alexa和Cortana的用户可以相互唤醒对方语音助理功能,进而达到在家或在工作上无间隙的体验。 例如,用户可以打开亚马逊Echo智能音箱,进而说出“Alexa,打开Cortana”,这时家中的Windows 10装置或Harman Kardon Cortana智能音箱就可被唤醒。通过这次整合,Alexa用户可以透过Cortana做出一些特有功能,包含:预订会议,了解工作日历,提醒用户注意事项,或阅读工作电子邮件等。简单来说,这些所有功能都可以通过语音来完成。 反之亦然,Cortana用户可以通过Alexa来控制家中的智能装置,甚至在亚马逊网站上进行购物,以及使用在Alexa平台上开发出的应用程序与技能等。 从这些合作可以看得出来,亚马逊正在利用与微软合作来面对未来更严峻的挑战。毕竟,根据许多测试都一再显示,苹果Siri和谷歌的Assistant都比起Alexa还要来得更智慧化。 对于科技大厂来说,其布局语音助理的动机都不同,所以采取的解决方案也不同。例如:谷歌是透过其在搜索引擎和安卓操作系统的优势,来强化谷歌助理的智慧化,进而提供回答问题与个性化服务。至于拥有Siri的苹果公司,这是专注于音质与Apple Music服务,让HomePod成为家庭中的智能音箱。预计未来也将帮助其HomeKit的布局。 研究公司Gartner表示,微软和亚马逊之间的合作伙伴关系,将两家的优势服务整合在一起,形成一种互补性服务。 微软的Windows 10是在工作场所具有优势的平台,这是亚马逊无法涉及的市场。可是亚马逊的Echo是消费性家庭的智能平台,这也是微软无法涉及的领域。因而,两家公司的合作都能够帮助其服务做出进一步的延伸。 不过,两家公司的这项合作,并无法让Alexa与Cortana互相访问对方的数据。 也就是说,语音助理收集数据的本质与方式将由各自的公司控制,并且各自保护消费者的隐私。因此,本质上来说,亚马逊与微软将用户引用到彼此的语音助理服务而不是分享语音助理的运作模式。 目前,亚马逊和微软的这项整合性的应用服务仅仅针对美国用户推出而已,未来将透过搜集用户反馈,来改善这一功能,进而推广至全球。来源: 物联之家网
  • [其他] 话说的好不如说的巧-你的智能语音助理安全吗?
    全球各地的家庭正快速采用对话式用户接口 (CUI) 技术,也就是我们熟知的 Siri、Alexa、Cortana 及 Google Assistant 等语音助理背后的技术。报导指出 2017 年具有语音功能的机器出货量达到 2,400 万部,而且仍在持续成长。随着这些装置逐渐问世,用户立即发挥它们的最大潜力,创造出越来越多的连网家庭。 话说多了会出毛病? 键盘渐渐不再是主要的输入设备,如果只要说出问题或指令即可,又何需打字呢?但这项技术也带来一些新问题,包括如何操纵语音数据,以及如何破解这些装置。既然这些智能装置负责控制部分居家功能,想当然尔,会产生关于隐私与<a href="https://www.iothome.com/tech/voice/2017/0911/%3Ca%20href=" https:="" www.iothome.com="" '="" target="_blank" style="padding: 0px; margin: 0px; outline: 0px; zoom: 1; text-decoration-line: none; color: rgb(11, 59, 140); font-family: 微软雅黑, 黑体, Arial; font-size: 16px; white-space: normal; background-color: rgb(255, 255, 255);">https://www.iothome.com/' target='_blank'>安全的疑虑,它们可接收对话内容,并将其记录下来,造成严重的隐私问题。 根据近期事件显示,即使是合法的公司也在寻找特殊方法,滥用这些装置对于声音的灵敏度。其中一则案例与一家广受欢迎的快餐连锁店有关,该连锁店制作一则广告,刻意触发Google智能助理的口令:“OK, Google”,使家里有Google的智能管家Google Home的观众,自动启动语音助理回答装置,搜寻并念出该产品在维基百科上的介绍。,虽然公然地利用这些装置并不违法,除了使用者反弹, 窜改汉堡王的维基百科页面,并把华堡的内容物被加入“老鼠肉”、“脚趾甲片”等副作用外,新技术领域意味着没有规则可以管理这些装置的使用。  恶质男友呛声,竟意外地让女友从枪下逃生 另外有些事件,是这些装置意外录下一些信息或执行指令,竟意外地解决一场争端,与同居人争吵的男子, 拿枪指着女友并问:“你打电话给警察了吗?“Google Home 显然听到了“打电话给警察”,然后就执行了这项指令。911在电话背景中听到了争执,警察实时赶到阻止了可能的悲剧。 但也有不好的部分。在制造商部分,他们可以收集并储存数据,并建立可能有安全疑虑的使用者个人资料。当然,总是会有恶意攻击者尝试利用最新技术进行入侵,或寻找新的方式窃取个人资料。此信息图表详细说明这些装置可能遭入侵的各种方式,同时为使用者与制造商建议一些最佳的实务做法。这项技术为使用者提供便利性与许多其他好处,但对于连接至住家的任何装置而言,安全与隐私都是最重要的议题。 使用者可采取正确的做法并安装安全解决方案,以保护其具有语音功能的装置。Trend Micro™ Home Network Security 具有网站防护与深度封包检测功能,足以保护联机至路由器的智能语音助理,并提供网关解决方案,可在潜在威胁进入住家之前予以排除。来源: 物联之家网
  • [其他] 智能语音助理可帮助科技公司带来潜在营收机会
    根据研究机构Juniper Research的一项最新研究发现,美国到了2022年家庭安装类似亚马逊Echo,谷歌Home和Sonos One等<a href="https://www.iothome.com/tech/voice/2017/1114/%3Ca%20href=" https:="" www.iothome.com="" '="" target="_blank" style="padding: 0px; margin: 0px; outline: 0px; zoom: 1; text-decoration-line: none; color: rgb(11, 59, 140); font-family: 微软雅黑, 黑体, Arial; font-size: 16px; white-space: normal; background-color: rgb(255, 255, 255);">https://www.iothome.com/' target='_blank'>智能喇叭的数目将超过7000多万,占全美所有家庭数的55%。总安装装置将可超过1.75亿。 Juniper Research进一步预测,到了2022年,所有平台(包括智能手机,平板计算机,个人计算机,喇叭,连网电视,汽车和穿戴式装置)都将内建语音助理,这些装置在美国可达8.7亿台,比起2017年的4.5亿台,还要增加了95%。 随着联网家庭的成长,许多应用,软件和服务将陆续出现,顾问公司麦肯锡认为随着语音控制和人工智能的进步,智能助理现在成为联网家庭的一个控制中心。根据麦肯锡的数据显示,智能联网家庭(Smart Connected Home)的数量已经从2015年的1700万上升到2017年的2900万,成长31%。 Gartner认为智能喇叭由于能够提供运行基于因特网的应用程序和服务,这使得其能够帮助亚马逊、谷歌、苹果甚至三星等公司巩固其在智能家居产业的地位。 不过,现今的营运模式仍处于摸索阶段,因为这些公司如何从语音助理中获得营收,就变得很具挑战性。现在除了硬件本身的成本结构而获得微薄利润之外,公司根本无法将免费提供的语音助理服务中获利。未来初步最有可能的方式是,在不同公司的语音助理生态体系下,向开发人员收取语言处理费用,以及根据自己独特营运模式来获利。                              图、2017-2022年内建语音助理之平台装置数量预估然而,Juniper Research认为透过广告获得语音助理服务之外的最大营收来源,也是机会之一。其预计到2022年全球透过语音助理获得之广告支出将攀升至190亿美元。简单来说,透过语音搜寻将是广告客户未来不得不采取的战略,可是这种战略必须建立在一个提供讯息和品牌的声音战略。可是消费者是否能够接受一个透过来自语音助理的广告模式,仍具模糊性。 对于亚马逊来说,可以透过Alexa平台带来语音购物与其他平台服务的营收。RBC Capital Markets的研究指出,亚马逊Alexa平台到了2020年可以为其带来100亿美元的营收。 Trefis却认为从语音助理获得之数据能够改善谷歌网络广告能力,并发掘人们行为趋势,进而让谷歌得以进行个性化广告。如果一切顺利,谷歌的硬件结合谷歌助理能够将其营收多增加10亿美元。 从这里可以看出,语音助理在未来几年将帮助大型科技公司占领智能家居的有利地位,进而改变人们生活型态。来源: 物联之家网
  • [其他] 车载智能语音助理异军突起,往汽车标准配备前进
    图片来源:https://pixabay.com/photo-2095800/  根据Voicebot.ai于2019年宣布了关于车载语音助理的报告,针对1,040名美国成年人的问卷调查,以了解语音助理使用于汽车的趋势。近年来,随着智能手机逐步成为美国成年人的必需品,使得许多人在车上不只有讲电话,甚至回复简讯,因此,美国许多州法律规定,在开车时,不准驾驶使用手机,因此透过语音助理在汽车中操作就成为重要的关键功能。 根据调查问卷显示,美国成年人口有4570万人每月使用45%的智能音箱,可是却高达7700万人每个月使用语音助理。与家中的智能音箱相比,语音助理导入车内似乎是更棒的使用体验。在使用率方面,智能音箱仍占据93.3%的使用比例,其次是智能手机的65.8%,至于在汽车内也高达50.1%。 那么,人们如何在汽车中使用语音助理呢?根据调查显示,车载系统通过蓝牙连接到智能手机的情况和最初安装在汽车上的情况超过30%。其中,苹果的CarPlay比例是20.7%,谷歌的Android Auto是9.5%紧随其后。 在年龄方面,年龄在30岁至44岁之间是使用车载语音助理比例最高的族群,占据33.5%。在收入方面,年收入在15万至20万美元之间族群使用率为69.2%。 每月至少使用一次车载语音助理的人的比例高达67.5%。每天使用的用户也达24.2%。只有3.6%表示他们只是尝试后再也没有使用它。 在汽车行驶的过程中,使用语音助理的最大目的是打电话,高达是73.7%,其次是汽车导航达50.3%,简讯传递与回复为41.2%,播放音乐为28.7%,查询附近餐厅比例为17.6%。 近年来,厂商都逐步在改善语音助理,有高达24%的人认为改善很多,27.2%比例认为有些许进步,23.8%比例认为没甚么变化,只有2.8%的人认为语音助理变得更糟糕。 那么,语音助理的存在是否会影响消费者下次购车的决定呢?大约60%的汽车购买者认为,未来拥有语音助理的汽车是选购车的重要依据。此外,25%的购车者认为,只是重要的考虑因素之一。 Voicebot.ai还发现,进入2019年之后,有高达57.6%的人认为车载语音助理的使用比例会愈来愈高,只有4.0%以负面态度看待。毫无疑问的,2019年起,车载语音助理的使用比例将不断攀升,而且会成为愈来愈重要的汽车标准配备之一。来源: 物联之家网
  • [其他] 智能语音助理的发展
    图片来源:pixabay自从2014年Amazon发布Echo之后,跨国科技企业,如Apple、Facebook、Google、Microsoft、Samsung及一些较小的公司都随之跟进,并在平台上推出各自的数字助理。随着越来越多的数字智能助理整合第三方的APP与功能,使得数字助理的实际应用越来越贴近消费者需求,并能以B2B的方式运作,但语音助理面临着如何让平台盈利的关键挑战。以早期的发展的状况来看,小型参与者注重于语言课程的训练,但仅少数能与整体环境兼容。研究主要是强调,当这项新技术变得更为主流,不同领域的企业参与此技术发展的可能性。 兹整理Juniper Research论述语音助理发展报告,将分成两方面进行探讨:数字语音助理的组成与盈利策略。 一、数字语音助理的组成 从技术角度来看,以语音接口作为数字助理已是一种常见且成熟的技术,麦克风、处理器、云端运算与喇叭皆是多数装置的共同基本配备。数字语音助理的目标是提供流畅的语音服务,然而第一代独立式数字语音助理及其装置已成为过去,为了确保应用程序顺利运行,第二代数位语音助理必须包含多种明确地附加功能。 二、数字语音助理的盈利策略: (一)  聊天<a href="https://www.iothome.com/tech/voice/2019/0803/%3Ca%20href=" https:="" www.iothome.com="" '="" target="_blank" style="padding: 0px; margin: 0px; outline: 0px; zoom: 1; text-decoration-line: none; color: rgb(11, 59, 140);">https://www.iothome.com/tech/ai&ml/' target='_blank'>机器人 聊天机器人被许多产业认为是一种在网络上与顾客互动的自动化方式,包括:零售、电子商务、金融与医疗保健研究等产业。 聊天机器人和语音助理间具有很多的潜在重迭,因都需要类似等级的自然语言处理执行其功能。从纯文本(Text-Based)的输入到语音的转变,并非简单的过程,虽许多任务的底层程序设计是相同的,但需要额外的程序设计进行处理。 (二)  广告 数字助理可透过软件授权,直接在B2B环境中实现盈利,并成为盈利服务的网关。但数字语音助理厂商提供的付费型顾客服务却很少,对APP开发者来说,助理本身是服务的网关,而非付费的服务。 在付费搜寻(Paid Search)领域中数字语音助理的发展机会,是与其他广告平台使用相同的方式,出售特定顾客的信息,并以更高的价格售出,因选项列表较短,而有较高的转化率。但以此种方式盈利是有些限制的,因为并非所有对语音助理提出的要求皆能被用于盈利,但仍须提供相关信息服务。 为了将这些顾客要求转为公司盈利来源,公司最终将成为提供结果的产品公司,并以此作为品牌形象的一部分。类似于Google Answer Box的语音系统,能透过将付费广告显示于搜索页顶端的方式盈利。(三)  付费搜寻的收益 对于数字语音助理的询问,多以搜寻的方式呈现。对于那些自己经营前端助理的公司来说,将会透过一种付费搜寻广告的形式,以实践盈利。由于语音需求可能仅提供几个有限的选项,其搜寻结果的转换速率将更高,因此应该高于纯文本付费搜寻的收费率。 另外,这不仅局限于拥有自己搜索引擎的业者,Juniper预期手机广告公司将扩展语音实时搜寻的功能。这须将用户帐户与装置链接,装置将因此能连接用户的历史搜寻与偏好。正如专门研究各种新媒体(如:虚拟现实)的广告公司一样,语音搜寻的新兴技术公司将会大量兴起。 然而,这还有一段路要走,数字语音助理的广告发展,目前仅限于APP中的传统横幅广告,或内建于智能手机的语音助理软件,这些仅有语音的基础背景,都还未成气候,这意味着,市场参与者需要一些时间调整非侵入性的形式。来源: 物联之家网
  • [其他] 智能语音助理的未来
    图片来源:https://pixabay.com/images/id-4758340/人工智能已经真正改变了智能语音助理在我们日常生活中的使用方式,而我们才刚刚开始了解它们。 一份又一份报告预测智能语音助理将会快速发展,这意味着这些物联网设备背后的工具和技术正在塑造技能互联网。这些新一代智能工具和技术可以促进零售、物流、医疗保健、智慧城市、制造业和自动驾驶汽车等领域的增长。 普华永道(PWC)最近的一项调查显示,智能语音助理在过去十年中已被广泛应用,未来,它们将继续塑造我们的生活和工作。以下是报告中的一些数字: ▲90%的人认可智能语音助理▲72%使用智能语音助理▲57%的语音命令来自智能手机▲27%的语音命令来自智能扬声器▲20%的语音命令来自车辆导航系统 此外,在18-24岁的青少年中,语音辅助技术的采用率最高。但使用智能语音助理频率最高的年龄段是25-49岁,其中65%的人被认为是“重量级”用户,每天至少向设备发出一次语音命令。 更重要的是,让我们考虑一下今天语音助理的用途。根据普华永道的调查,人们要求语音助理执行的最常见任务是在互联网上搜索信息、回答问题、提供天气或新闻、播放音乐以及设置计时器或提醒。此外,该报告还显示了一些不太常见的任务,比如发送文本或电子邮件以及检查网络流量。有趣的是,50%或更多的人说他们从来不通过智能语音助理购买或订购东西并使用它们来控制其他物联网设备。 至于增长,Juniper Research表示,到2023年将有80亿个数字语音助理投入使用。这意味着该阶段已经迈出了重要的一步,但是,这种增长对聊天机器人等意味着什么呢? 在过去十年的使用中,第一个障碍,意识,已经被消除了。现在,在同一时期,第二个障碍,即在不同人群中获得接受和基本使用,也已经消除。这项技术在相对较短的时间内也取得了长足的进步,然而,下一个障碍将与用户的信任有关。 还有很多工作需要做。我们需要扪心自问,为什么人们不使用智能语音助理来完成更复杂的任务?普华永道的报告显示,当涉及到更复杂的任务并涉及到人们辛苦赚来的金钱时,人们更喜欢使用他们知道和信任的方法。这意味着语音助理还没有出现在信任列表中。但并不是每个人都这样,在这项调查中,大约50%的人说他们用智能语音助理购物,购买包括食品(34%)、日用品(31%)、书籍(24%)和交通出行(21%)。 但约有25%的受访者表示,他们不考虑使用智能语音助理进行购物。最主要的原因是人们不相信智能语音助理能够正确地理解和处理购买。 这与风险有关。当您要求Google Home mini在Spotify上播放某个列表或者告诉您外面的温度时,风险并没有那么高。但如果您在Echo上要求亚马逊Alexa给您买一个新的空气过滤器并把它送到您家时,那么这就涉及资金交易了。 您相信人工智能能够理解您的要求,买到正确的过滤器,向您收取正确的费用,并把它送到正确的地方。但即使在不到50美元情况下,仍然存在很大风险。赢得消费者信任将是语音助理技术公司的下一个重大任务,因为购物只是人们不愿意做的事情之一。 根据普华永道的调查显示,使用智能语音助理控制其智能家居的人数甚至更少,而这或许就是问题的最大症结所在。(来自物联之家网)在未来,我们需要看看语音助理还能做什么,而这将需要得到更多用户的信任,例如,对智能语音助理的一个预测是,它们将在医疗保健领域得到越来越多的应用。 智能语音助理有能力在如此多的领域中提供帮助,但现在真正的问题是,我们还需要多长时间才能真正相信智能语音助理?来源: 物联之家网
  • [其他] AI学习记(语音识别)-第二集
    AI语音识别定义与解读        语音识别是人机交互的接口,是指机器/程序接收,解释声音,或理解和执行口头命令的能力。在智能时代,越来越多的场景在设计个性化的交互页面时,采用以对话为主的交互形式。一个完整的对话交互是由“听懂-理解-回答”三个步骤完成的闭环。其中,“听懂”需要语音识别技术;“理解”需要自然语言处理技术;“回答”需要语音合成技术,三个步骤环环相扣,相辅相成。语音识别技术时对话交互的开端,时保证对话交互高效准确进行的基础。        语音识别技术子20世纪50年代开始步入萌芽阶段,发展至今,主流算法模型已经经历了四个阶段,包括模板匹配阶段,模式和特征分析阶段,概率统计建模阶段和现在主流的深度神经网络阶段。目前,语音识别主流厂商主要使用端到端算法,在理想实验环境下语音识别准确率可高达98%以上。语音识别发展历程如下:
  • [应用实践] [语音识别]用mindspore实现元音分类器的尝试
    前言:自从接触到MindSpore,就一直想要用mindspore实现语音识别。在官网的教程上,看到有机器视觉的(CV),也有自然语言处理的(NLP),可是没有语音识别(ASR),心中一直有个缺憾,想补齐这个能力。于是调研了其他的框架的入门例子,可以理解为机器视觉的MNIST:1.Tensorflow的语音识别教程,google提供了一个含30个词的65000条语音,可以训练一个简单的语音识别网络,可以识别yes, no, up, down等等简单词。源代码可见于https://github.com/tensorflow/tensorflow/tree/master/tensorflow/examples/speech_commands2.但是做语音识别,更专业的会用kaldi,最简单的例子为yesno, 60个音频文件(每个文件含8个单词,单词为希伯来语的“是”,“否”,我也不知道为什么用这种语言入门,不过刚好笔者业余学过hhh,是以色列的官方语言),音频数据训练测试各半分。https://github.com/kaldi-asr/kaldi/tree/master/egs/yesno但是tf我是没有成功,各种条件不足;kaldi实现过,在ubuntu上,配置好各种依赖,编译完成,可以训练成功,再放到voxforge目录下进行推理,效果不错。不过,不好意思,入门的例子还是用传统的方法,没有涉及深度神经网络。尝试阅读代码理解整个流程,还是门槛太高,不太懂机器学习,自觉才疏学浅。不过读大学时,自个钻研过语音识别,想出一个架构,后来还做成了毕业设计,所以还是有自己的一些认知和见解。最近藉着MindSpore有幸入门深度学习领域,然后结合自己对语音识别的理解,做一点分享。这个其实也是受官网教程“线性拟合”https://www.mindspore.cn/tutorial/training/zh-CN/master/quick_start/linear_regression.html的启发,越基本对新手越友好。先把目标和结果写上来吧目标:用一些a, o, e, i, u, v的音频文件做训练,期望得到一个网络,能够对音频做推理,判断声音中是什么元音。即标题说的,“元音分类器”结果:最后由于模型设计太简单,没有收敛。所以一方面是分享,另一方面希望大家对模型的设计,调参等给出建议,语音的原理声音的本质是简谐运动,机械波(纵波,传播方向与振动方向一致)。所以声音会使介质的粒子(比如空气)振动,并传播,波峰处密,波谷处疏。一般场景,就是空气中传播,那么就是导致不同的压强。接着通过公式y=A sin(wx)再看声音的几个性质,振幅就体现于声音的响度,频率体现于声音的高低。而语音上表现为轻声、重音;声调高低。这些是结合常识就可以理解的。但是音色,或者就说/a/, /o/, /e/,这些是从公式的什么地方体现的呢?原来语音不是单纯一个音,而是混合了多种频率的,非常复杂的。比如y1=2sin(x)+4sin(3x), y2=sin(x)+3sin(3x),这里两种不同频率的正弦波,按照不同的1:2,1:3组合,就形成了不同的音色。简而言之,音色由不同频率的强度占比决定。声音的记录我们常听说mp3,m4a等音频格式,这些是怎么来的呢?我们从头说起,声音振动影响气压,记录声音,绝大多数设备就是根据空气的压强。麦克风的传感器(比如压电传感器)将其转换为电压(模拟值),然后做模数转换,就存储为二进制的数据。不论是实时语音语音,还是录音文件的识别,都要经过这一步。而录音文件,最简单的格式是wav,mp3,m4a则是在不影响人耳感知的前提下做了压缩。音频文件的读取一般做语音识别,就是用wav格式的音频做训练。音频文件一般由文件头和数据部分组成。wav是微软定的一个格式,满足数据交换。这个网上很多介绍了,直接看代码附件吧,用C++二进制读取。频谱分析由于音频文件记录了时域信息,我们需要频域信息,比较好做分析。所以要用傅里叶变换,这样本来是波形的语音数据,就可以转化为频率的强度分布。代码附件tool.zip。但是由于语音是不断变化的,计算机又是要离散的,所以做离散的短时傅里叶变换。自制工具编译命令g++ -c Complex.cpp -o Complex.o g++ -c Transform.cpp -o Transform.o g++ -c SoundToSpectrum.cpp -o main.o g++ main.o Transform.o Complex.o -o spectrum_tool.exe  ./spectrum_tool.exe a0.wav > a0.txt共振峰短时傅里叶变换有个约束,帧的长度越小,频率的分辨率越低。经过研究发现,5ms左右的帧,能够得到语音频谱的包络面,而且会显示出几个峰值,叫做共振峰(formant),而这些峰值的频率就可以对应元音。准备数据当然最先想到的是录音,不过自己合成也可以。介绍一个开源的软件praat,可以合成哦。于是构造了每种元音各10个音频。然后把文件读取和频谱分析的代码编译后,得到一个频谱计算工具。最后写了一个脚本批量处理这些音频,将频谱信息保存在txt文件中,文件以元音名称和文件序号命名。附件audio.zip为音频文件,spec.zip为频谱数据。预备工作完成!开始构建网络首先是读取数据集,自己写了一个很土的读取方法get_data()然后网络中,先是op.ArgMaxWithValue()这个算子真好用hhh,直接帮我提取频谱中峰值和对应频率。然后就不知道怎么利用好这两个数据了,乘起来?试试,后面开始遍历每个数据文件,设好优化器,学习率,损失函数……用每个数据训练一轮。import numpy as np from mindspore import nn from mindspore import Parameter from mindspore.nn import WithLossCell from mindspore.nn import TrainOneStepCell from mindspore import context import mindspore import mindspore.ops.operations as op from mindspore import context context.set_context(mode=context.GRAPH_MODE, device_target="GPU") vowel_dict = {"a":100, "o":200, "e":300, "i":400, "u":500, "v":600} def get_data(vowel, file_num):     filename=vowel+file_num+".txt"     spectrum = np.loadtxt(filename).astype(np.float32)     vowel_num = vowel_dict[vowel]     label_np = np.array([vowel_num]).astype(np.float32)     return spectrum, label_np     class Net(nn.Cell):     def __init__(self):         super(Net, self).__init__()         self.arg = op.ArgMaxWithValue()         self.mul = op.Mul()         weight_np = np.full((1,), 1, dtype=np.float32)         sekf.weight = Parameter(Tensor(weight_np), name="weight")     def construct(self, input_x):         freq, value = self.arg(x)         product = self.mul(freq, value)         output = self.mul(product, self.weight)         return output if __name__ == "__main__":     lr = 0.0005     momentum = 0.1     net = Net()     loss = nn.loss.MSELoss()     opt = nn.Momentum(net.trainable_params(), lr, momentum)     net_with_criterion = WithLossCell(net, loss)     train_net = TrainOneStepCell(net, opt)     train_net.set_train()     vowel_list = ["a", "o", "e", "i", "u", "v"]     train_list = ["0", "1", "2", "3", "4"]     test_list = ["5", "6", "7", "8", "9"]     #train     for vowel in vowel_list:         for file_name in train_list:             input_np, label_np = get_data(vowel, file_name)             train_net(Tensor(input_np), Tensor(label_np))     #test     for vowel in vowel_list:         for file_name in train_list:             input_np, label_np = get_data(vowel, file_name)             predict = net(Tensor(input_np))             error = predict.asnumpy() - label_np             print(loss)然后就可以推理了,但是怎么把字符和数值对应呢?用了一个dict,当然训练也用到这个做为label。然后把推理结果和标签比较一下,还是不打印了,结果很差。如果把机器学习比喻为炼丹,那我这个明显是炼丹炉炸了hhh。“药材”,“火候”,还是要把控好的。总结与不足之处1.这里十二分地简化了语音识别的场景,仅仅识别元音。而且训练数据也是不真实的,如果打开听,可以发现是很稳定的声音,所以提取频谱也只对某一时刻做了操作,推理也只是看某一个时刻的。2.数据的使用太简单。mindspore有自己的数据读取方式,但是还是主要做图片和文本的。我只好自己处理,自己读取为numpy的格式。3.模型的设计过于简单,连全连接层都没用上。其实本来要提取两个共振峰的频率,就是第一共振峰,第二共振峰,然后就能大致判断元音的。但其实有时候第一、二共振峰会发生融合,就难说了。所以处理频谱时,先做归一化,每个频率强度除第一个频率的,这样就算声音大小不同,这个比值应该还是稳定的,然后就可以用最大值。4.所以正如标题说的,这是一个尝试,突发奇想。希望mindspore能够有一天推出ASR的实践,我很乐意去验收教程的,哈哈哈,身份是不是明显了?
  • [入驻式求助] 语音识别失败问题咨询
    目前IVR导航中会出现asrerror,通过分析记录、日志、网络包后,发现华为设备并没有发送语音转写的信令给mrcp,之前也提供了mrcp主机端的抓包信息给华为,但华为的答复是mrcp少发了某条消息,麻烦华为的同志帮忙指出我们的mrcp少回复了什么消息。
  • [优秀实践] ModelArts中文语音识别和语音识别的实战经验
    案例链接https://nbviewer.jupyter.org/github/huaweicloud/ModelArts-Lab/blob/master/notebook/DL_speech_recognition/DFCNN和Transformer模型完成中文语音识别.ipynb 做到最后一步,如下图,回复打卡贴截图即可,课程打卡回复链接:https://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=72297&page=1#pid314425作业1,如图按照作业1的要求音频以上传,下载解压后如图,选择一个音频即可。图内代码如下import librosaimport IPythonimport librosa.displayimport matplotlib.pyplot as plty_source, sr_source = librosa.load("pig2.wav")IPython.display.Audio("pig2.wav")  # 播放原声sr_speed = int(sr_source * 0.2)librosa.output.write_wav("pig_speed1.wav",y_source, sr_speed)  # 改变采样率IPython.display.Audio("pig_speed1.wav")  # 播放处理后的声音博客链接 https://bbs.huaweicloud.com/blogs/195268 
  • [AI人工智能全栈成长...] 【问答官】ModelArts的语音识别技术优势在哪里?
    【问答官】ModelArts的语音识别技术优势在哪里?