• [问题求助] 【SIS】【SIS】语音服务不支持跨区访问OBS
    使用的北京4的SIS服务,配合北京4的OBS存放的音频文件,是没问题的。 如图 ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20223/13/1647147751549860871.png) 按帮助里说的,SIS可以支持其他区域的OBS的,只是说优先推荐使用同REGION下的OBS ["EI企业智能服务对于图片、语音等多媒体文件支持直接使用华为云OBS服务的数据处理方式,以减少服务使用成本,降低服务的响应时长,提升服务使用的体验。语音交互服务优先推荐使用同一region下OBS的音频链接作为传入音频的URL。"](https://support.huaweicloud.com/api-sis/sis_03_0047.html) 而实际上,跨区域服务是会报错的,当使用广州的OBS时,如图: ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20223/13/1647148077013562986.png)
  • [已解决问题归档] icd的默认语音调试
    问题来源】【必填】    贵州119【问题简要】【必填】   电话进线排队时无排队的语音提示,我想知道,这些默认的语音是有单独的语音包吗。   【问题类别】【必填】  icd【AICC解决方案版本】【必填】 ICDV300R008C25【期望解决时间】【选填】     尽快解决【问题现象描述】【必填】
  • [技术干货] kaldi中文语音识别---multi_cn案例整理及模型对比
    在语音识别领域,关于中文的语音识别,常用的中文开源数据集有:aishell、thchs30和multi_cn 1. aishell数据集 总共178小时,400个人讲,其中训练集340个人,测试解20个人,验证集40个人,每个人大概讲三百多句话,每个人讲的话都放在一个文件夹里面。包含400位来自中国不同口音地区的发音人语音,语聊涵盖财经、科技、体育、娱乐、时事新闻等。 AISHELL-2结构类似(1000个小时),不过总共1991人讲,每个人有500句话,每个人讲的话可能会有重复。 2. thchs-30数据集 thchs-30是清华大学公布的超过三十个小时的数据集,选取1000句来录音,都是女声。 3. multi_cn数据集 multi_cn则是一个集大成者,是六个数据集的集合:aidatatang、aishell、magicdata primewords、stcmds、thchs。 本篇文章就multi_cn案例来整理一下语音识别的流程,并将同样的语音数据在kaldi工具包中aishell和multi_cn下的解码结果做对比 #### **- multi_cn案例的流程:** *数据下载* 由于我们需要下载的数据量有点多,如果使用原下载链接速度可能较慢,所以修改一下run.sh脚本的url如下: aidatatang_url=openslr.magicdatatech.com/resources/62 aishell_url=openslr.magicdatatech.com/resources/33 magicdata_url=openslr.magicdatatech.com/resources/68 primewords_url=openslr.magicdatatech.com/resources/47 stcmds_url=openslr.magicdatatech.com/resources/38 thchs_url=openslr.magicdatatech.com/resources/18 run.sh中的dbase参数时数据集的存放位置,结合自己习惯,自行修改一下。 修改完url你会发现速度基本能在500K-1M左右,因为wget是单线程下载的 这还是不够快啊。 安装aria2c,至于这么安装自己baidu一下。 然后找到s5/local文件夹下的下面六个文件 thchs_download_and_untar.sh aidatatang_download_and_untar.sh aishell_download_and_untar.sh magicdata_download_and_untar.sh primewords_download_and_untar.sh stcmds_download_and_untar.sh 在这六个文件夹中都有如下一段代码来进行下载: cd $data if ! wget --no-check-certificate $full_url; then echo "$0: error executing wget $full_url" exit 1; fi 修改上述wget --no-check-certificate为aria2c -s 16 -x 16 OK,现在下载速度起飞。 *数据整理* 将数据整理成kaldi规定的格式,主要生成spk2utt utt2spk text wav.scp四个主要文件,并六个数据集文件整合 *语言模型训练* 采用n-gram语言模型来训练。相比深度的语言模型速度快,适用于短句的语音识别 ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20222/28/1646014164326399115.png) *特征提取* mfcc特征提取,MFCC倒谱系数 (滤波器组)就是声学特征,下图是语音特征提取的详细步骤: ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20222/28/1646014301988322736.png) *GMM-HMM声学模型训练* 单音子模型假设,一个音素的实际发音,与其左右相邻或相近的因素(上下文音素)无关。但音素的实际发音有可能受到其相邻、相近音素的影响,也可能因为其在句子中出现的位置不同而发生改变,此时就需要引入上下文相关的声学模型,不仅要考虑中心音素本身,还要考虑该音素所在位置的上下文音素。三音子建模可以实现对音素上下文更精细的建模。下图是三音子的训练流程图: ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20222/28/1646014443235895743.png) *DNN-HMM声学模型训练* 将GMM-HMM的HMM提取出来作为DNN-HMM中的HMM,GMM则用整个DNN替换。GMM-HMM训练好的帧与HMM状态的对齐相当于DNN-HMM的标注数据,有监督的训练DNN ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20222/28/1646015036471262141.png) *chain模型训练(区分性训练)* 声学模型训练一般基于ML(最大似然),只考虑正确路径的优化训练,没有考虑降低混淆路径的分数,因而识别效果并不能达到最优。而区分性训练(Discriminative Training)同时兼顾正确路径和混淆路径,目标是提高正确路径的分数,同时压低混淆路径的分数,以加大这些路径之间的打分差异,跟识别目标更匹配。 以Chain为代表的纯序列区分性训练简化了不少HMM相关的步骤,其架构跟端到端语音识别已比较接近,但又保留HMM的独特优势,达到了 综合性能的最优,因此成为工业界应用的主流框架。 *解码* 采用HCLG构图的方式进行解码 ### - 模型对比 采用同样的语音数据测试aisell和multi_cn的模型 aishell: ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20222/28/1646012033397683606.png) multi_cn ![1be420d5005fbed55eab43584980518.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20222/28/1646011751168939757.png) 结论: multi_cn的模型效果更优,泛化能力也更强。适合做预训练模型
  • [行业资讯] 供应链流程的下一步是什么?
    供应链企业需要采用创新技术来确保敏捷性、提高生产力和提高效率。在过去一年,全球供应链由于发生疫情而承受着巨大压力。对在线商品、关键医疗用品等的空前需求,加上全球库存短缺,使得供应链难以满足不断增长的客户需求和期望。事实上,最近进行的研究表明,新冠疫情破坏和影响了全球四分之三以上(78%)的供应链。这场疫情让供应链行业意识到,敏捷性不再是一件锦上添花的事情,而是管理消费者需求变化、不断发展的技术和意外中断的必要条件。随着世界开始重新开放,供应链学会应对未来几个月和几年的不可预测性,企业必须着眼于解决方案的未来发展,以保持竞争力、继续履行订单并满足客户需求。无论发生什么,敏捷性是在疫情之后取得成功并适应不确定的未来的关键。提高供应链生产力对于供应链和仓库业务,工作人员的生产力对于跟上持续的市场需求和增长至关重要。例如,在电子商务中,消费者根据其快速准时交付订单的能力来评估品牌的服务,因此工作场所的效率将确保零售供应链能够满足客户的期望。因此,供应链需要选择采用针对供应链流程和用户体验都进行了优化的移动操作系统(OS)。然而,企业现在面临越来越多的选择,因为传统的Windows和Android操作系统现在正在与苹果公司的iOS竞争。尽管与iOS相关的成本通常很高,但在制药和零售等某些行业的采用正在增长,因为这些行业被其安全性、可管理性和消费级用户界面功能所吸引。更重要的是,Windows CE最近鼓励供应链进行现代化改造,并迁移到新设备。企业应该利用这三种操作系统的兼容软件,将现有的Telnet和Web应用程序快速安全地迁移到Android、iOS和Windows10操作系统中。这意味着供应链可以选择他们希望在其供应链中运行的设备。这将在每台设备上提供相同的视图和一致的用户体验,以最大限度地提高员工的生产力和准确性,减少停机时间,减少入职时间并最终让客户满意。支持语音的解决方案新冠疫情的影响将电子商务世界向前推进了大约5年,预计这种趋势不会很快放缓。电子商务和消费者需求增长得越多,改进仓库流程的需求就越大。为了满足需求,许多仓库正在探索采用支持语音的技术,以帮助他们更智能、更快、更高效地工作。通过采用语音技术,以往采用纸质文件来了解哪些订单需要拣货或包装的日子已经一去不复返了。与其相反,仓库员工可以利用语音替代方案,更准确地完成工作。事实上,通过语音技术,员工可以将工作效率提高25%,并将错误率降低35%。为了最大限度地发挥语音解决方案的优势,企业应该寻求一种简单快速的部署,几乎没有停机时间,并培训员工更加简单。有效的解决方案还将提供根据需要扩大或缩小规模的灵活性和多功能性。语音技术为仓库提供了快速满足消费者突然激增需求的工具,并加速这些业务进入供应链。工业物联网的兴起供应链也处于工业物联网(IIoT)的复苏增长之中。虽然这种转变在疫情爆发之前就已经开始,但由于供应链无法以传统方式运作,新冠疫情加速了工业物联网(IIoT)的采用。物联网设备连接到互联网,因此相互连接,无需人工干预即可有效通信和传输数据。当应用于供应链行业时,物联网设备非常有益。从移动操作系统到支持语音的技术,它们提供的连接可以在货物沿着供应链向下移动时实现实时库存可见性和资产跟踪,对机器和设备进行预测性维护以避免计划外停机,让员工专注于更高价值责任,及早发现因货物丢失或延误而引起的问题。工业物联网(IIoT)网络可以促进自动化“协作机器人”或协作机器人的引入,并通过鼓励用户与仓库中的连接设备更好地集成来减少员工的培训时间。然而,这可能是一把双刃剑,因为尽管工业物联网(IIoT)可以提高效率,并使供应链员工更有效地运作,但这也意味着需要管理和控制更多设备以确保不出问题。因此,供应链组织必须采取措施缓解工业物联网(IIoT)问题,包括确保所有边缘设备都得到妥善管理和保养。有了这些措施,企业也开始将他们的思维方式转变为统一端点管理(UEM),也就是新的移动设备管理(MDM)。MDM功能对于保持对连接的供应链设备和资产的控制至关重要,确保它们安全、可用和可访问。组合解决方案允许企业在一个简单的系统中配置、部署、更新和维护所有设备,从而优化设备性能。更重要的是,它可以通过远程管理所有连接的设备来实现无需人工交互的设备管理方法。远程管理设备的能力至关重要,因为新冠疫情的影响仍然存在,供应链企业希望部署永久的混合或灵活的工作环境。如果说,在过去的一年教会人们什么的话,那就是现状可能会在几天甚至几小时内出人意料地发生变化。供应链必须准备好应对突然的中断,继续照常营业,并通过采取措施提高其生产力和敏捷性来确保其在未来世界中的地位。无论是通过升级移动设备软件、将补充设备集成到工业物联网(IIoT)、采用新的创新解决方案还是通过自动化设备管理减少停机时间来实现这一目标,企业都必须利用支持性技术来优化这些决策。
  • [行业资讯] 车载智能语音助理异军突起,往汽车标准配备前进
    根据Voicebot.ai于2019年宣布了关于车载语音助理的报告,针对1,040名美国成年人的问卷调查,以了解语音助理使用于汽车的趋势。近年来,随着智能手机逐步成为美国成年人的必需品,使得许多人在车上不只有讲电话,甚至回复简讯,因此,美国许多州法律规定,在开车时,不准驾驶使用手机,因此透过语音助理在汽车中操作就成为重要的关键功能。 根据调查问卷显示,美国成年人口有4570万人每月使用45%的智能音箱,可是却高达7700万人每个月使用语音助理。与家中的智能音箱相比,语音助理导入车内似乎是更棒的使用体验。在使用率方面,智能音箱仍占据93.3%的使用比例,其次是智能手机的65.8%,至于在汽车内也高达50.1%。 那么,人们如何在汽车中使用语音助理呢?根据调查显示,车载系统通过蓝牙连接到智能手机的情况和最初安装在汽车上的情况超过30%。其中,苹果的CarPlay比例是20.7%,谷歌的Android Auto是9.5%紧随其后。 在年龄方面,年龄在30岁至44岁之间是使用车载语音助理比例最高的族群,占据33.5%。在收入方面,年收入在15万至20万美元之间族群使用率为69.2%。 每月至少使用一次车载语音助理的人的比例高达67.5%。每天使用的用户也达24.2%。只有3.6%表示他们只是尝试后再也没有使用它。 在汽车行驶的过程中,使用语音助理的最大目的是打电话,高达是73.7%,其次是汽车导航达50.3%,简讯传递与回复为41.2%,播放音乐为28.7%,查询附近餐厅比例为17.6%。 近年来,厂商都逐步在改善语音助理,有高达24%的人认为改善很多,27.2%比例认为有些许进步,23.8%比例认为没甚么变化,只有2.8%的人认为语音助理变得更糟糕。 那么,语音助理的存在是否会影响消费者下次购车的决定呢?大约60%的汽车购买者认为,未来拥有语音助理的汽车是选购车的重要依据。此外,25%的购车者认为,只是重要的考虑因素之一。 Voicebot.ai还发现,进入2019年之后,有高达57.6%的人认为车载语音助理的使用比例会愈来愈高,只有4.0%以负面态度看待。毫无疑问的,2019年起,车载语音助理的使用比例将不断攀升,而且会成为愈来愈重要的汽车标准配备之一。
  • [行业资讯] 人工智能和物联网推测智能语音商品应用的演变
    从电影《星际争霸战》(Star Trek)到《钢铁人》(Iron Man),与计算机交谈和沟通一直是人类科技技术的目标之一。以目前来说,语音技术、人工智能及物联网最新进展已将这部分实现。智能手机、智能喇叭和其他设备能够透过 Google 智能语音助理、Siri 和 Alexa 等语音助手来对设备进行指令。 为了帮助了解智能语音技术的未来,先简易分析一下语音助手设备受欢迎的程度、使用它们的最佳状况以及我们如何利用智能语音来作为生物辨识身份的识别工具防止个人资料安全盗用。 语音助理和智能喇叭 智能喇叭受到消费者青睐大部分归因于它们能够理解语音命令并与其他装置设备连接。预计到 2020 年,Amazon Echo 和 Google Home 等智能与音声控喇叭的销售量将达到2.25亿台。 数字语音助理(DVA;Digital Voice Assistants )的扩展是科技公司期望与客户保持互动性所需要采用三个主要趋势之一。根据 IDTechEX Research 研究报告表示,2029年智能语音技术市场将达到 155 亿美元。知名管理咨询、讯息技术跨国公司埃森哲(Accenture)还发现全球有93%的消费者希望家里设备都能够透过智能语音系统来驱动家里的相关电器物品。 车内的声音 除智能家居之外,采用语音技术受到最大的影响就是汽车。语音助手减轻了当今驾驶所面临的最严重的问题之一“分心驾驶”。 美国知名行动用量保险 (UBI) 技术公司TrueMotion,声称“普通美国司机在每次驾驶过程中共花费17%的时间来说话、刷卡或发讯息。” 一般来说,驾驶在开车的途中需要将双手放在方向盘上,并将眼睛放持续专注在前方的交通状况。因此,在不久的将来将会把语音助手融合在开车驾驶的环境。而现今,虽然在车内还未有非常成熟的语音助手,但越来越多车子配备 Apple CarPlay 以及 Android Auto 也算是符合趋势并往前迈进一大步。 人工智能(AI)调查机构 Voicebot 最近的一份报告表示,超过一半的美国车主在驾驶汽车中使用了语音助手,共有67.5%的人每个月都会使用。使用车载语音的前5个用途是打电话(73.7%)、导航(50.3%)、发送讯息(41.2%)、播放音乐(28.7%)和询问餐厅(17.6%)。此外,有60%使用过车载语音助手的用户表示,这是他们购车时所决策考虑的一个重大因素。 语音生物辨识认证 随着我们的更多个人信息在在线共享,资料安全问题在全球成为一个日益严重的问题。在英国,个人资料遭窃占所有举报诈欺案件的56%。许多银行都期望透过语音生物辨识身份来防范电话诈欺。2016年,英国第二大银行巴克莱(Barclays)推出了语音识别服务,以防止所有语音诈欺行为。该技术仅透过语音识别,完全不需要安全密码,因为「每个人的声纹特质就跟指纹一样是独一无二的」。除此之外,语音识别技术也能够用于智能居家及智能办公室。 智能电子锁等设备目前使用密码或行动应用程序进行验证,可能会产生许多不稳定的用户体验。去年底,知名电子锁公司耶鲁(Yale)智能安全系统出现了一个小故障,导致许多人被关在家或被锁在家外面好几个小时。 安全公司企业正在为智能居家创建新平台。语音安全和身份验证的领导者 Pindrop 公司宣布,他们正在通过语音识别平台将语音生物辨识技术扩展到智能居家。预计消费者很快就能够透过声音来验证我们在家中或办公室的各种物联网设备身份及账户。 语音科技就是未来 我们习惯使用键盘、鼠标和触碰式屏幕与计算机进行互动。语音助理提供更自然,更有效的互动,更有可能会形成一种习惯;因为说话和提问是大部分的人与生俱来的能力。随着人工智能和物联网不断的进步,语音助理将很快成为我们与计算机互动的主要方式,就像《钢铁人》的人工智能管家“贾维斯”(Jarvis)一样。
  • [热门活动] 泛微发布全新人事管理平台——聚才林
    聚才林 -- 人事管理平台近日,泛微发布了全新人事管理平台——聚才林,是一套与业务系统融为一体、工作流驱动的全员人事管理平台。“聚才林”为各行各业的客户提供一套人力资源应用领域的专项产品及解决方案,重点提供组织、人事、考勤管理、薪酬管理、招聘管理、绩效管理、培训管理、员工自助等人力资源方面的数字化应用。组织HR管理面临着以下问题:1、系统主要服务HR部门,相关数据缺少有效协同,个性化需求响应成本高:2、由于信息量大、数据来源多,如何实现过程的优化?如何形成对员工和组织全面客观公正的评价?3、如何实现HR管理与业务融入,让静态数据有动态业务支撑?因此,HR系统需要与动态业务管理深入融合,在业务开展过程中才能发现人才、培养人才,只有把业务数据都传输到HR系统中,才会更全面更立体了解人才。现在,泛微发布的——聚才林新一代的HR系统为组织提供了全面的人事管理应用,涵盖选、用、育、留 人事管理的全过程:• 完善了HR核心的应用:组织人事、招聘管理、薪酬、绩效等;• 实现HR事务与业务融合,流程驱动入转调离的基本信息和工作数据,形成员工的成长轨迹;• 过程中结合智能组件:如电子签章、智能语音助手等,提高HR工作效率,提升员工人事服务体验;• 通过低代码开发平台,能够快速应对各类的人力资源需求。聚才林-人事管理平台应用亮点一、部门、组织、全员-灵活适用满足各层级诉求,服务组织所有成员1、助力组织“找到人、用好人”更好的帮助组织找到人,无论是内部人员的内推,还是外部各大招聘网站的对接,智能简历解析,更精 准、方便的招募到合适的人员。更好的帮助组织判断人,通过客观的数据分析,形成人员画像、组织画像,组织再大,也不会错过、误 判人才。2、为HR部门降低重复、低价值的操作,高效处理核心事务在招聘端一键发布内外网的招聘需求,利用自动化工作,抓取外部简历并解析,自动匹配岗位需求。灵活的排班、假勤管理与内部流程及外部数据的打通,高效处理假期。强大的薪酬管理、灵活应对薪酬体系、薪酬核算、便捷的工资发放。3、让员工方便办理人事相关事务构建个人工作门户,转变以往“人找事”到“事情主动到人”推送。搭建人力共享中心:聚才林HR让很多人事事务变成员工自助化服务,例如请假、查工资、查考勤、查 绩效,只需对手机发布语音指令,系统就能立即根据权限自动办理。二、全流程驱动、自动化处理流程驱动让结果有据可依OA的流程审批功能,可以实现HR事务通过流程审批后直接存档,所有结果数据和过程数据相关联,可 以通过过程查看结果,也可以通过结果追踪过程。通过流程来驱动:入转离的审批、用工需求的审批、请销假的审批、工资绩效的审批……等业务。三、业务、管理、数据、行为-全面协同汇总所有工作轨迹和数据形成人员画像聚才林HR整合各异构系统数据,以HR为维度汇总,客观全面展现员工画像。把业务数据、管理数据、 效率数据、行为习惯,工作的点点滴滴都记录下来,有效反映一个人的全貌,反映组织的全貌。聚才林的HR根植于泛微OA,所有人都在OA上工作,工作的点点滴滴能够在聚才林上反映出来,聚才 林天然具备全面协同的能力。四、低代码平台-适应HR个性化需求按需扩展业务需求,快速响应聚才林HR源于泛微,预置了近百项开箱即用的模块,也可以通过云商店下载不同行业特色的人事包。 系统内置低代码平台,适应HR个性化需求。即使不懂代码,也可以按照组织需求定制各类个性化应用,比如干部管理、证照管理、员工活动管理等 等。五、业务系统与HR的融合无缝衔接、相辅相成聚才林HR能够无缝衔接第三方业务系统:如招聘网站、ERP、CRM等业务系统、企业微信、考勤设备等业务系统中的流程、工作微博、知识分享、问答交流、任务等模块产生的数据可以全面支撑HR系统了解每一位员工。(员工画像)结语:作为新一代全程数字化人力资源管理软件,聚才林HR软件目前已经完善了招聘、组织、人事、假勤、薪资、绩效、第三方集成等模块。今后,泛微将会推出更多的配置化交付功能,快速构建人事业务场景,聚才林始终努力为客户打造一套全面协同、智能化、流程驱动、全程电子化与业务系统融为一体的HR系统,让人力资源管理更全面、更精准、更智慧:• 协同化:所有与组织、员工相关的数据都相互协同;• 数字化:所有人力资源应用功能数字化,随时调用;• 流程化:贯穿人力资源管理全业务,更加合规高效;• 智能化:融入RPA、语音识别、OCR等智能化技术;• 低代码化:不懂代码,也可以快速搭建个性化需求;• 全程数字化:减少手工录入签署,人事文件线上签。
  • [行业资讯] 国家网信办:合成人声、人脸替换等深度合成信息内容须进行显著标识
     1 月 28 日消息,国家互联网信息办公室就《互联网信息服务深度合成管理规定(征求意见稿)》(以下简称“意见稿”)公开征求意见。  意见稿表示,为了规范互联网信息服务深度合成活动,弘扬社会主义核心价值观,维护国家安全和社会公共利益,保护公民、法人和其他组织的合法权益,我办起草了本次意见稿。  意见稿中明确表明,本规定所称深度合成技术,是指利用以深度学习、虚拟现实为代表的生成合成类算法制作文本、图像、音频、视频、虚拟场景等信息的技术,包括但不限于:  (一)篇章生成、文本风格转换、问答对话等对文本内容进行生成或者编辑的技术;  (二)文本转语音、语音转换、语音属性编辑等对语音内容进行生成或者编辑的技术;  (三)音乐生成、场景声编辑等对非语音内容进行生成或者编辑的技术;  (四)人脸生成、人脸替换、人物属性编辑、人脸操控、姿态操控等对图像、视频内容中人脸等生物特征进行生成或者编辑的技术;  (五)图像增强、图像修复等对图像、视频内容中非生物特征进行编辑的技术;  (六)三维重建等对虚拟场景进行生成或者编辑的技术。  同时意见稿第十四条显示,深度合成服务提供者提供以下深度合成服务的,应当使用显著方式对深度合成信息内容进行标识,向社会公众有效提示信息内容的合成情况:  (一)提供智能对话、智能写作等模拟自然人进行文本生成或者编辑服务的,在文本信息内容的稿源说明处等位置进行显著标识;  (二)提供合成人声、仿声等语音生成或者显著改变个人身份特征的编辑服务的,在音频信息内容的合理区域以语音说明等方式进行显著标识;  (三)提供人脸生成、人脸替换、人脸操控、姿态操控等虚拟人物图像、视频生成或者显著改变个人身份特征的编辑服务的,在图像、视频信息内容的明显位置进行显著标识;  (四)提供沉浸式拟真场景等生成或者编辑服务的,在虚拟场景信息内容的明显位置进行显著标识;  (五)提供其他具有生成或者显著改变信息内容功能的服务的,在文本、图像、音频或者视频、虚拟场景等的合理位置或者区域进行显著标识。
  • [行业资讯] 智能语音助理的未来
    编译:iothome人工智能已经真正改变了智能语音助理在我们日常生活中的使用方式,而我们才刚刚开始了解它们。 一份又一份报告预测智能语音助理将会快速发展,这意味着这些物联网设备背后的工具和技术正在塑造技能互联网。这些新一代智能工具和技术可以促进零售、物流、医疗保健、智慧城市、制造业和自动驾驶汽车等领域的增长。 普华永道(PWC)最近的一项调查显示,智能语音助理在过去十年中已被广泛应用,未来,它们将继续塑造我们的生活和工作。以下是报告中的一些数字: ▲90%的人认可智能语音助理▲72%使用智能语音助理▲57%的语音命令来自智能手机▲27%的语音命令来自智能扬声器▲20%的语音命令来自车辆导航系统 此外,在18-24岁的青少年中,语音辅助技术的采用率最高。但使用智能语音助理频率最高的年龄段是25-49岁,其中65%的人被认为是“重量级”用户,每天至少向设备发出一次语音命令。 更重要的是,让我们考虑一下今天语音助理的用途。根据普华永道的调查,人们要求语音助理执行的最常见任务是在互联网上搜索信息、回答问题、提供天气或新闻、播放音乐以及设置计时器或提醒。此外,该报告还显示了一些不太常见的任务,比如发送文本或电子邮件以及检查网络流量。有趣的是,50%或更多的人说他们从来不通过智能语音助理购买或订购东西并使用它们来控制其他物联网设备。 至于增长,Juniper Research表示,到2023年将有80亿个数字语音助理投入使用。这意味着该阶段已经迈出了重要的一步,但是,这种增长对聊天机器人等意味着什么呢? 在过去十年的使用中,第一个障碍,意识,已经被消除了。现在,在同一时期,第二个障碍,即在不同人群中获得接受和基本使用,也已经消除。这项技术在相对较短的时间内也取得了长足的进步,然而,下一个障碍将与用户的信任有关。 还有很多工作需要做。我们需要扪心自问,为什么人们不使用智能语音助理来完成更复杂的任务?普华永道的报告显示,当涉及到更复杂的任务并涉及到人们辛苦赚来的金钱时,人们更喜欢使用他们知道和信任的方法。这意味着语音助理还没有出现在信任列表中。但并不是每个人都这样,在这项调查中,大约50%的人说他们用智能语音助理购物,购买包括食品(34%)、日用品(31%)、书籍(24%)和交通出行(21%)。 但约有25%的受访者表示,他们不考虑使用智能语音助理进行购物。最主要的原因是人们不相信智能语音助理能够正确地理解和处理购买。 这与风险有关。当您要求Google Home mini在Spotify上播放某个列表或者告诉您外面的温度时,风险并没有那么高。但如果您在Echo上要求亚马逊Alexa给您买一个新的空气过滤器并把它送到您家时,那么这就涉及资金交易了。 您相信人工智能能够理解您的要求,买到正确的过滤器,向您收取正确的费用,并把它送到正确的地方。但即使在不到50美元情况下,仍然存在很大风险。赢得消费者信任将是语音助理技术公司的下一个重大任务,因为购物只是人们不愿意做的事情之一。 根据普华永道的调查显示,使用智能语音助理控制其智能家居的人数甚至更少,而这或许就是问题的最大症结所在。(来自物联之家网)在未来,我们需要看看语音助理还能做什么,而这将需要得到更多用户的信任,例如,对智能语音助理的一个预测是,它们将在医疗保健领域得到越来越多的应用。 智能语音助理有能力在如此多的领域中提供帮助,但现在真正的问题是,我们还需要多长时间才能真正相信智能语音助理?
  • [行业资讯] 从触摸到声音:语音技术如何改变物联网格局
    编译;iothome肆虐的冠状病毒大流行给经济和社会造成了沉重打击。尽管这一全球性挑战的长期后果尚待观察,但我们在互动和经商方式上已经发生了根本性的变化。诸如社交距离和避免触摸物体表面之类的措施给语音识别带来了新的动力,并推动了无接触控制的发展。 语音识别技术已经存在很长一段时间了。20世纪50年代初开发的第一套系统只能理解数字,到2017年,这项技术达到了人类水平的准确度。这种先进程度使得语音识别能够在各个行业中扩展,并成为互联设备的标准。普华永道最近的一项调查显示,90%的受访者认可语音助理,其中72%的人使用过智能语音助理。 随着千禧一代和Z一代的采用,语音技术正逐渐成为主流。事实上,全球语音识别市场预计到2025年将达到318.2亿美元。 当一些科技巨头为了获得更大市场份额而展开竞争时,值得一问的是,为什么这项技术如此受欢迎,以及是什么原因导致了人们向语音的转变。 是什么推动了语音革命 这种流行病凸显了迫切需要重新考虑用户与控制器进行交互的方式,以支持非接触式系统。除了提高安全性之外,语音优先技术还通过增加交流的便利性来改善客户体验,因为我们说话的速度比打字快得多。通过将口头命令应用于非接触式控制系统,交流变得更加自然和高效。 除了为用户提供低成本、高舒适度的体验之外,还有其他因素促使人们转向语音: ▲具有语音功能的设备的全球移动性,可用于移动语音搜索▲智能扬声器已广泛渗透到现代家庭▲自然语言处理(NLP)的进步,使情感分析和一般上下文理解成为可能▲人工智能和机器学习的进步推动了个性化体验▲智能语音物联网设备无处不在 随着语音识别系统的不断成熟和日趋完善,语音技术有望在未来几年内吸引数十亿的用户。专家预测,在未来5年内,几乎每个应用程序都会以某种形式集成语音技术。 实施语音技术 从家庭自动化到电子商务到医疗保健再到汽车,各行各业都在将物联网功能与语音识别技术相结合,以满足不断变化的消费者需求并释放业务优势。 ▲智能家居 由连网设备和功能组成的智能家居生态系统使远程访问和实时监控成为可能,但语音控制系统将智能家居自动化提升到了一个新的水平。 诸如Amazon Echo、Google Nest和Samsung SmartThings之类的智能家居中心使用户可以使用简单的语音命令来管理连网设备——所有这些设备都是从单一的界面进行管理。 ▲数字化工作场所 家庭并不是语音激活设备发挥作用的唯一地方,语音技术也在改变工作场所。Gartner预测,到2023年,25%的员工与应用程序的交互将通过语音进行。 如今,支持语音的虚拟助理通过执行琐碎且耗时的任务(例如安排会议和面试、设置提醒等)来帮助员工提高效率和生产力。具有语音到文本功能的语音界面可以为会议、讲座和电话会议做笔记,生成亮点并与参与者共享,以简化协作。 对话式销售平台Tact.ai使用语音智能来自动化和简化卖家的工作流程。该平台使销售人员可以随时使用语音命令发送电子邮件、搜索文档、浏览销售历史记录等等。 ▲智慧能源管理 随着家庭自动化系统的日益普及,基于语音的助理可以轻松地从连网设备中获取丰富的能源数据,并将控制权交回用户手中。能源公司开始通过Alexa、Google助理,Siri和其他虚拟助理吸引住宅用户,以提供有关当前能源使用的信息,提供个性化的节能建议并提高能源消耗效率。 在客户体验体系中添加语音助理也是引入自助渠道和降低呼叫中心成本的好方法。会话助理可帮助用户访问帐户余额,查找有关最佳费率的信息,获取有关停电和能源使用趋势的最新信息等等。 电力公司为用户提供能源管理工具的一个很好例子是Octopus,它是一家与Alexa合作将实时能源价格与语音自动化结合起来的能源公司。除其他事项外,用户可以询问虚拟助理何时电费最便宜,然后在该时段安排最高能耗任务以降低电费。 ▲医疗保健 在医疗环境中,物联网语音控制有助于改善患者体验并提供个性化护理。智能语音助理可以实时更新患者病历,提供有关药物和治疗程序的信息,等等。 健康技术公司Orbita提供了一个语音健康虚拟助理,它简化了与医院工作人员的沟通,并大大缩短了响应时间。波士顿儿童医院推出的儿童疾病管理系统(KidsMD)允许家长在支持Alexa的设备上获取高质量的临床信息和特定的治疗方案。 ▲语音支付 语音技术已作为一种强大的工具而受到金融业的关注,该工具可以改善客户服务、个性化金融体验并获得竞争优势。像bankofamerica和Ally Bank这样的大公司正在利用基于文本和语音的对话代理来帮助客户查询他们的余额、设置账户提醒、跟踪他们的支出、获取常见问题的答案等等。另外,像Atom这样的挑战者银行使用语音生物识别技术为银行应用程序增加了另一层安全性。 随着人们对这项技术的更多信任,语音支付也开始兴起。最近的一项研究表明,用户现在更愿意用自己的声音支付低价商品、订阅以及点播电影、音频和电视节目的费用。 银行中语音技术的另一个潜在用途是每天被人们使用的ATM。语音识别可以作为一种替代方式来认证用户和执行交易,而不需要基于触摸的交互——在疫情大流行后的世界,这可能会成为新的标准。 是否适用于工业物联网? 消费者物联网并不是感受到语音技术热潮的唯一行业。在高度重视灵活性、效率和可持续性的工业物联网环境中,基于语音的设备可以改变游戏规则。 制造工厂、建筑工地、生产线——所有这些工业环境都需要物联网语音识别系统提供的免提移动性。当员工需要获得额外的指示或搜索解决方案时,语音控制可通过非接触式和直观的交互方式来方便地访问所需信息。 到2022年,在工业4.0生态系统中进行协作的所有人中,有超过50%的人将使用虚拟助理或智能代理与周围环境以及其他人进行自然而高效的互动。 在智能工厂环境中,基于语音的助理还可以执行以下功能: ▲创建工作单并记录资产数据▲更新订单的装运状态▲通过访问集成ERP系统中的数据来改善资源规划▲与资产管理系统集成。 语音引导仓储,简称VDW,也正在兴起。在高强度仓库环境中,语音拣选系统使用语音识别来帮助员工与仓库管理系统交互,并通过语音接收指令,从而提高生产效率并减少错误。ZeteMedia是一家语音拣选解决方案供应商,它可以轻松地与WMS、ERP和其他企业系统集成,以优化复杂的仓储操作。 实施挑战 但是,在工业环境中利用语音技术并非没有挑战。为了使物联网中的语音控制器有效,声音必须清晰明了且语音命令必须易于理解,而这在嘈杂的工作环境中并不总是容易实现的。支持语音的助理不仅需要将人声与背景噪音区分开,而且还需要支持不同的语言和口音才能真正发挥作用。 物联网中语音控制面临的另一个挑战是,不是所有的物联网设备都连接到互联网,或者并非一直连接到互联网。(来源物联之家网)为了确保可靠的人机交互,需要强大的离线语音识别功能。恩智浦通过其远距离离线语音控制解决方案满足了市场需求,该解决方案利用其最先进的微控制器使设备制造商更容易集成语音命令。 总部位于特拉维夫的人工智能初创公司Onvego也在致力于实现物联网设备的语音激活,即使它们处于离线状态。除了多语言支持外,其语音解决方案还以机器学习算法为基础,以确保在企业的特定内容中进行快速培训。 总结 声控技术被誉为我们的未来,它以我们无法想象的方式重新定义了我们与世界互动的方式。具有语音功能的物联网正越来越多地从智能家居转向工业应用。尽管语音控制面临某些挑战,但其速度、便利性和免提交互的好处(尤其是在需要保持社交距离的情况下),正在推动该技术成为我们生活中不可或缺的一部分。
  • [其他] LeCun预言的自监督模型来了:首个多模态高性能自监督算法,语音、图像文本全部SOTA
    自监督学习能在各种任务中学习到分层特征,并以现实生活中可使用的海量数据作为资源,因此是走向更通用人工智能的一种途径,也是深度学习三巨头之一、图灵奖得主 Yann LeCun 一直推崇的研究方向。LeCun 认为:相比于强化学习,自监督学习(SSL)可以产生大量反馈,能够预测其输入的任何一部分(如预测视频的未来画面),从而具有广泛的应用前景。自监督学习通过直接观察环境来进行学习,而非通过有标签的图像、文本、音频和其他数据源进行学习。然而从不同模态(例如图像、文本、音频)中学习的方式存在很大差异。这种差异限制了自监督学习的广泛应用,例如为理解图像而设计的强大算法不能直接应用于文本,因此很难以相同的速度推动多种模态的进展。现在,MetaAI(原 Facebook AI)提出了一种名为 data2vec 的自监督学习新架构,在多种模态的基准测试中超越了现有 SOTA 方法。data2vec 是首个适用于多模态的高性能自监督算法。Meta AI 将 data2vec 分别应用于语音、图像和文本,在计算机视觉、语音任务上优于最佳单一用途算法,并且在 NLP 任务也能取得具有竞争力的结果。此外,data2vec 还代表了一种新的、全面的自监督学习范式,其提高了多种模态的进步,而不仅仅是一种模态。data2vec 不依赖对比学习或重建输入示例,除了帮助加速 AI 的进步,data2vec 让我们更接近于制造能够无缝地了解周围世界不同方面的机器。data2vec 使研究者能够开发出适应性更强的 AI,Meta AI 相信其能够在多种任务上超越已有系统。    论文地址:https://ai.facebook.com/research/data2vec-a-general-framework-for-self-supervised-learning-in-speech-vision-and-language    项目地址:https://github.com/pytorch/fairseq/tree/main/examples/data2vec转发自:https://www.jiqizhixin.com/articles/2022-01-21-5
  • [技术干货] 华为云AI论文精读会2021第二十二期:可变长度的语音片段情感识别解读分享
    2021年11月3日上午10:00,举行华为云AI论文精读会2021第二十二期:可变长度的语音片段情感识别解读分享。本期邀请到的嘉宾是:陈城鑫,中国科学院大学信号和信息处理专业博士研究生,研究方向为多模态情感识别和语音交互。本次论文精读的领域是NLP领域,感兴趣的小伙伴点击下方的链接一起观看学习吧~华为云AI论文精读会致力于让更多人低门槛使用经典算法,助力AI开发者基于ModelArts,实现高效率论文复现和挑战!本期视频:算法链接:https://marketplace.huaweicloud.com/markets/aihub/modelhub/detail/?id=302dce12-f205-482e-a955-4a84193ae7fb华为云AI论文精读会2021·论文算法实战赛报名地址:https://competition.huaweicloud.com/information/1000041393/introduction
  • [技术干货] 华为云AI论文精读会2021第二十一期:语音驱动风格可控手势生成
    2021年10月28日晚上19:00,举行华为云AI论文精读会2021第二十一期:语音驱动风格可控手势生成。本期邀请到的嘉宾是:张旭,大连理工大学计算机科学与技术硕士研究生,研究方向为人工智能、数据挖掘与应用,曾于大连理工大学获得国家奖学金。本次论文精读的领域是NLP领域,感兴趣的小伙伴点击下方的链接一起观看学习吧~华为云AI论文精读会致力于让更多人低门槛使用经典算法,助力AI开发者基于ModelArts,实现高效率论文复现和挑战!直播间链接:https://bbs.huaweicloud.com/live/cloud_live/202110261900.html算法链接:https://marketplace.huaweicloud.com/markets/aihub/modelhub/detail/?id=9256a610-0912-4106-9ed4-087a99fc58dd华为云AI论文精读会2021·论文算法实战赛报名地址:https://competition.huaweicloud.com/information/1000041393/introduction
  • [行业资讯] 外卖平台为骑手们定制专属头盔:可语音接单、碰撞检测
    近日,为解决外卖配送员骑行安全的问题,饿了么与美团分别推出了自己研发的智能头盔。1月12日,饿了么宣布在上海等城市试点智能头盔,计划今年在全国发放超100000顶。据介绍,这款头盔可以通过语音指令进行接单操作。为了提升语音识别的准确度,智能头盔搭载了独立降噪控制芯片,降低环境噪音后可以使语音识别更为精准。同时,通过内置的传感器,智能头盔可以进行佩戴检测及碰撞检测。此外智能头盔还内置了警示灯,如果骑士刹车或者到了没有路灯的地段,头盔的侧灯也会自动闪烁,提升骑行安全。目前,正在测试将智能头盔与骑士接单软件互联互通,扩展出更多功能。饿了么终端技术负责人郑海波透露,未来智能头盔将“进化”为AI助手,骑士可以与智能头盔语音互动。美团外卖在去年也推出了这样的智能头盔。其定制式开发的智能头盔在湖南、广东、辽宁、宁夏等省(区、市)批量投放使用,通过物联网、AI等技术手段,为骑手安全保驾护航,降低骑手配送过程中的交通事故发生率。美团的智能安全头盔主要具备四项功能:一是有嵌入蓝牙耳机、麦克风、快捷按键等功能,可方便骑手听单、接单既提升配送体验,又避免因听单、接单导致分散精力,进而带来安全隐患;二能对骑手进行戴盔检测,提高戴盔率;三是配置自感应尾灯,可识别骑手夜间工作模式并自动开启频闪,对后车进行提示,防止后车追尾;四是进一步提高电池续航能力,充电2小时后可使用3天时间。
  • [问题求助] Atlas200dk中文语音识别MindStudio样例运行教程还有么?
    【功能模块】【操作步骤&问题现象】1、2、【截图信息】【日志信息】(可选,上传日志内容或者附件)