• [其他] 人工智能-语音交流
    第一个基于电子计算语音识别统出现在1952年,AT&T贝尔实验室开发了一款Audrey的语音识别系统,能够识别10个英文数字,正确率高达98%。 70年代开始出现了大规模的语音识别研究,但当时的技术还处于萌芽阶段,停留在对孤立词、小词汇量句子的识别上。 80年代是技术取得突破的时代,一个重要原因是**全球性的电传业务**积累了大量文本,这些文本可作为机读语料用于模型的训练和统计。研究的重点也逐渐转向大词汇量、非特定人的连续语音识别。那时最主要的变化来自用**基于统计的思路**替代传统的基于匹配的思路,其中的一个关键进展是隐马尔科夫模型(HMM)的理论和应用都趋于完善。工业界也出现了广泛的应用,德州仪器研发了名为Speak&Spell语音学习机,语音识别服务商SpeechWorks成立,美国国防部高级研究计划局(DARPA)也赞助支持了一系列语音相关的项目。 90年代是语音识别基本成熟的时期,主流的高斯混合模型GMM-HMM框架逐渐趋于稳定,但与实用还有一定距离,语音识别研究的进展也逐渐趋缓。由于80年代末90年代初神经网络技术的热潮,神经网络也被用于语音识别,提出了多层感知器一隐马尔科夫模型(MLP-HMM)混合模型。但是性能上无法超越GMMHMM框架。 突破的产生始于深度学习的出现。随着深度神经网络(DNN)被应用到语音的声学建模中,人们陆续在音素识别任务和大词汇量连续语音识别任务上取得突破。基于GMM-HMM的语音识别框架被基于DNN-HMM的语音识别系统所替代,而随着系统的持续改进,又出现了深层卷积神经网络和引人长短时记忆模块(LSTM)的循环神经网络(RNN),识别效果得到了进一步提升,在许多(尤其是近场)语音识别任务上达到了可以进人人们日常生活的标准。于是我们看到以Apple Siri为首的智能语音助手、以Echo为首的智能硬件人口等等。而这些应用的普及,又进一步扩充了语料资源的收集渠道,为语言和声学模型的训练储备了丰富的燃料,使得构建大规模通用语言模型和声学模型成为可能。
  • [其他] 人工智能技术的辨识
    有的时候,我们其实很难辨别某个操作是不是有人工智能的技术来完成的。 因为目前的流行的主要是工具性人工智能,并没有达到通用性人工智能的高度。 举一个例子 1920年生产的“Radio Rex”玩具狗可能是世界上最早的语音识别器,当有人喊“Rex”的时候,这只狗能够从底座上弹出来。 所以,这是采用了人工智能的技术吗? 但实际上不是,它所用到的技术并不是真正的人工智能(语音识别),而是通过一个弹簧,这个弹簧**在接收到500Hz的声音时会自动释放**,而500赫兹恰好是人们喊出“Rex”中元音的第一个共振峰。:)
  • [行业资讯] 智能家居下半场:欧瑞博原生智能物联网操作系统或成破局之道
    全屋智能的吸引力有多大?为此,比尔 · 盖茨付出的代价是数千万美元——位于西雅图郊区的世外桃源 2.0,可能是全球第一所堪称全屋智能的别墅。而早在 1995 年,比尔 · 盖茨就在其所著《未来之路》中断言," 在不远的未来,没有智能家居系统的住宅,会像不能上网的住宅一样不合潮流。"现在,如他所言,全屋智能大势已成共识,只是,如今的智能家居产品早已普惠化,欧瑞博推出的全屋智能基础版新套餐,仅需 999 元。大势汹汹之下,行业高度内卷。继欧瑞博 2018 年发布首款 MixPad,打造 "1+4+N(入口 +4 类基础环境系统产品 +N 个生态产品)" 的产品矩阵后,其他厂商相继跟进,比如 2021 年华为发布的中控屏和 "1+2+N" 全屋智能解决方案、2022 年小米发布的智能家庭屏 10、海尔旗下三翼鸟发布的智家大脑屏和 "1+3+5+N" 解决方案。据统计,从 2022 年 3 月起至今,智能家居各厂商共发布 23 块智能屏。同质化之下,反内卷变得紧迫,谁能率先破局,谁就可能突围而上。就在刚过去的 5 月 18 日,一直充当创新先锋的头部玩家欧瑞博,在发布会上宣布了新的战略方向,除了颜值审美依然在线的硬件新品外,还重点推出了独立研发的原生智能物联网操作系统 HomeAI OS 4.0。欧瑞博创始人兼 CEO 王雄辉认为," 科技美学将提升行业审美革命,操作系统将引领业态升级,开启全屋智能下半场 "。此举如同向沉寂已久的市场投下一颗重磅之石,并且可能再次引领行业新趋势。一行业内卷,操作系统破局实现场景化全屋智能的关键钥匙是什么?在各厂商青睐智能屏时,智能家居语音中控屏原创发明者欧瑞博从手机、汽车行业得到了启发。在欧瑞博的设想中,房子如同手机、汽车一样,是一体化空间,可以实现协同管理,智能操控,甚至主动洞察用户需求,以及持续升级,这才是真正的全屋智能。复盘手机和汽车行业就会发现,2007 年苹果发布了 iPhone,带来颠覆性的手机体验,终结了功能机;2008 年,特斯拉发布第一款电动汽车,引领了智能电动车的标准。他们都凭借极具设计美感的外观和其他友商无法企及的极致交互体验,赢得用户的青睐。前者要赖于审美品牌和技术能力,后者则来自于底层操作系统的支撑。而无论是苹果的 iOS,还是特斯拉的汽车中控系统,它们均放弃了原生安卓系统,分别基于 Unix 和 Linux 的内核,独立研发出符合自己交互要求的操作系统。欧瑞博想做的,正是智能家居行业的 " 苹果 " 和 " 特斯拉 ",为用户提供一体化的极致全屋智能体验,而其找到的那把关键钥匙,就是全链路优化的软硬一体化——底层操作系统必不可少。基于安卓系统进行改良曾是 " 捷径 ",这也是智能家居行业不少玩家的选择,欧瑞博早期也是如此。但安卓系统的短板也显而易见。首当其冲的是隐私安全。安卓系统难以杜绝安全隐患,一旦智能摄像头等设备遭到黑客入侵,或出现其他技术漏洞,用户数据和隐私就会遭到泄露。据第一财经发布的《2021 年智慧家居趋势报告》显示,中国超过 40% 的消费者把提升安全感,作为智能家居的首要考量因素。其次,安卓系统功耗大的短板也顽疾难愈。时间一久,系统越慢,屏幕发烫。由此,发热会影响设备寿命,增加用户成本;温度变高会影响到传感器等部件的功能,比如无法精准感知周围的温度、光线;三是安全体验,墙面中控屏的发烫,会让用户产生可能漏电等担心。一位地产企业高管曾告诉《财经故事荟》,他们采购的一批智能家居中控屏发热严重,住户入住后吐槽投诉不断," 让我们退货,换个品牌。"再者,安卓本是为手机场景而生,天然无法贴合家居场景的交互体验需要。上述局限性决定了,安卓系统并非智能家居操作系统的最优选。另外,在中美关系趋冷后,华为在芯片和系统上双双受限的前车之鉴,也值得警醒,智能家居操作系统不能过度依赖安卓。种种考虑之下,欧瑞博决定完全摆脱安卓,独立开发一个专门针对全屋智能家居场景的原创智能物联网操作系统。为此,欧瑞博组建了 200 多人的团队——接近欧瑞博全员 1/3 的人力,耗费三年时间挖空安卓,基于 Linux 微内核,重写 500 万行代码,从系统内核层、系统服务层以及应用架构做了全面优化,打造出专为全屋智能而生的原生物联网操作系统—— HomeAI OS 4.0。根据王雄辉的介绍,这个系统一共申请了 613 项专利,其中 350 项是发明专利,硬核技术直接拉满,而对原生操作系统的执着,在国内,欧瑞博是独一份儿。二掏空安卓,欧瑞博一枝独秀 " 反内卷 "目前,业内智能家居操作系统主要分为两类,一是同样摆脱安卓的华为鸿蒙 OS,二是其他大部分厂商所用的基于安卓底层的操作系统。前者固然强大,但因其服务于手机、电脑、平板、电视、无人驾驶、车联网等 " 泛 " 智能场景,难以针对全屋智能场景下的个性化需求,进行 " 大动干戈 " 的彻底优化。而后者最大的问题则是无法跳出系统变慢、屏幕发热的底层顽疾。对比可以发现,欧瑞博新发布的操作系统具备两个特性:一是摆脱了安卓限制,彻底放飞;二是专注服务于智能家居场景,更聚焦更垂直。如此大刀阔斧的 " 底层变革 ",也将刷新欧瑞博终端用户的体验和感知。其一,更人性化、更细腻的智能交互。目前,用户对智能家居设备的语音控制,大多都需唤醒词,多次操作需要重复唤醒语音助手,这不仅不符合自然语音对话方式,而且会带来 " 这么麻烦,不如我走过去用传统开关控制简单 " 的落差感。而欧瑞博基于 One Step 3.0 技术,实现了免唤醒功能,只需说 " 关灯 " 或者 " 太亮了 " 就能精准控制,实现自然流畅的人机互动。面对一个空间中多个智能中控屏响应冲突的问题,欧瑞博也花了一年时间解决,在就近唤醒 3.0 人机交互定位技术中,采用分布式混直分离声源定位叠加多重噪音抑制,只唤醒离用户最近的设备,防止多个设备 " 吵架 "。可以看出,在更人性化、更细腻的语音控制方面,欧瑞博确实下了功夫,仅语音控制技术就已拿下几十项专利。在主动智能方面,HomeAI OS 4.0 中的主动智能引擎 AISense3.0 将基础用户场景标准化后,全屋分布式的 MixPad 就能根据用户所处的时间、空间识别需求,自动执行动作,比如晚上 6:00 回家,自动开主灯,但凌晨 2:00 回家,就只开小灯,免得打扰家人,而且上述动作无需用户预先设置。另外,在对氛围影响最大的光线方面,欧瑞博研发了 Auto Light 自适应调光技术,能根据 24 小时外部阳光的变化,自动调整灯的色温和亮度,提升舒适度。其二,更安全、更稳定、更便捷、更节能的连接。普通无线连接方式存在网关单向认证设备的安全漏洞,为了解决这个问题,欧瑞博全链路在设备与网关之间设置了双向认证,如此可杜绝第三方窃听的风险。而在稳定性上,HomeAI OS 4.0 研发了木星技术和章鱼技术,一方面将交互尽可能本地化,既避免了云端控制模式下的入侵可能性,又提高了交互效率;另一方面将蓝牙、WiFi、Zigbee 三网进行融合,当用户 WiFi 出问题,还可以使用 Zigbee 或蓝牙信道,来确保连接的稳定。HomeAI OS 4.0 还让系统功耗大幅下降,根据欧瑞博的测试,以前基于安卓的设备 CPU 饱和运行时,温度能高达 50 多度,现在基于 HomeAI OS 4.0 的设备最多 25 度左右,接近于正常的室内温度,大大延长了设备寿命,解除了设备 " 发烫、爆炸 " 的痛点。其三,既保证了软硬一体的最优化,又实现了互联互通的高度包容性。没有任何一家厂商能覆盖所有智能产品,一个居住空间里也不可能只有一个品牌的产品,如果设备互联互通的问题不解决,用户就只能选择 " 站队 ",被迫绑定一个品牌,这在 " 以用户为中心 " 的欧瑞博看来,无法接受。互联互通的关键之一在于底层协议,HomeAI OS 4.0 构建的基于强雾模型的设备接入与交互引擎—— Newton 万物引擎,兼容了 Zigbee、蓝牙、WiFi、KNX 等几乎所有的物联网通讯协议,尤其具有前瞻性的兼容了 Matter 协议。截止到目前,欧瑞博已经与全球 300 个品牌共同完成了第九次 Matter 的互联互通测试,也将是全球第一批推出支持 Matter 协议产品的品牌,这为后续的生态大繁荣,打下地基。目前,欧瑞博打造的 HADC 设备接入平台,还支持其他家居设备一站配置、多端同步、无代码接入。如此一来,用户在购买家居产品时便无需顾虑品牌限制了,多品牌也能获得 " 整齐如一 " 的协同体验。三新科技美学:看起来美,用起来爽全球建筑大师路易斯 · 巴拉干曾有句名言," 建筑是有情感的,建筑的生命就是它的美。"而颜值一直是欧瑞博的强项。山寨发布会社群主理人阳淼就因此 " 入坑 "。他告诉《财经故事荟》,两三年前,他装修新家时,曾在欧瑞博和其他品牌间纠结许久,最终,因为 " 陷于颜值 " 选了欧瑞博," 金属质感的外观,简洁的线条设计深得我心 "。但像此次发布会这样 " 大张旗鼓 " 强调科技美学,将其与操作系统作为并驾齐驱的核心理念,且一口气推出几十款极具美学诱惑的新品,对欧瑞博来说还是第一次。欧瑞博的理念是,智能家居只有冷冰冰的智能还不够,居住空间舒适体验的另一面,是家居美学。比如,新中式风格的墙面上,嵌入了一块工业科技感的屏幕,显然不美观不协调。家居美学的标准很朴素,单品高颜值不够,应与环境融为一体,展示不突兀的和谐之美,用王雄辉的话来说,智能家居要 " 像从墙面上长出来一样 "。为了让产品融入不同风格的居住空间,欧瑞博的新品支持不同配色、风格的外观选择,比如,全球首款家居装饰智慧屏 MixPad 7 UItra,搭配了 3 种质感和风格:适配中式风的胡桃木装饰面、现代简约风的烟熏绿织物装饰面、轻奢意式风的流银之铝装饰面,基本能涵盖主流家居风格;极简理性的巴赫系列智慧屏提供了 4 种经典配色:香槟金、比利时银、祖母绿、阿拉斯加白,除此外还支持 22 款配色定制服务,满足用户个性化的装饰需求;MixSwitch 戴妃系列双屏智能语音开关,考虑到性别审美差异,搭配了全套莫兰迪配色的外观,为用户提供选择空间。作为一个 " 不只是看一眼,还要与用户持续交互 " 的硬件,看起来很美不够,还要用起来爽。这背后是以用户需求为导向的千百次的调试和优化。以 MixSwitch 戴妃系列智能语音开关为例,为了追求极致舒适的按键手感,欧瑞博首创了魔性浅坑按键,前后历经 200 多次的专业调校,才找到按键触感、界面弧度等硬件交互细节的最优解,而且这种优化还在继续。不止智能屏和智能开关,还有让家居家装灵动活泼起来的灯光照明系统。欧瑞博的哲学是自然。新品苍穹灯系列能模拟阳光穿过天窗形成的阳光截止线,在 HomeAI OS 4.0 支持的精准混光算法的基础上,实现接近蓝天的混光效果。而且与过去人造自然光必须用吊顶,只能在别墅等大空间才能安装不同,欧瑞博创新性的把它变成了主灯,不需要吊顶就能安装,为用户减少限制条件。审美无终点,创新无极限,欧瑞博也在持续突破边界。四决战下半场,布局全渠道,做大朋友圈回看欧瑞博的十年跋涉,智能中控屏做对了,放弃单品路线、All in 全屋智能的战略也对了,如今站在下半场的起点,欧瑞博再次选择一条尚没人走的路:依托硬核科技美学叠加原生操作系统,在前端为用户提供 " 软硬一体 " 的极致体验,在后端为生态厂商提供互联接入。而欧瑞博的信心,来源于对宏观环境的判断和自身全方位的布局。后疫情时代,宅经济兴起,大众智能家居消费需求持续升级。据 IDC 报告,2021 中国智能家居设备市场出货量为 2.3 亿台,同比增长 14.6%;预计未来五年,中国智能家居设备市场出货量将以 21.4% 的复合增长率持续增长,2022 年智能家居市场规模可达 6515.6 亿元。处于头部的欧瑞博,水大鱼大,也能成为红利的最大受益者。2022 年 1~4 月,尽管疫情凶猛,但欧瑞博整体销售额相比去年增长了 130%。独行者疾,众行者远。而在这条道路上,欧瑞博并非单打独斗。欧瑞博的终点,也不是 " 一枝独秀 " 一家独大,而是广交朋友,做大生态。根据规划,到 2023 年欧瑞博会至少接入 100 个全新的设备品牌,HomeAI OS 也会开放给更多合作伙伴共同打造全屋智能家居场景,实现共赢共生,其中不乏索菲亚、东鹏、三菱等传统行业巨头。欧瑞博副总裁童巍告诉《财经故事荟》,欧瑞博的目标是做全屋智能操作系统和自己擅长的新派科技美学产品,并专注思考如何让用户和接入到系统的设备实现更好的交互。基于此目标,未来欧瑞博智能产品矩阵的扩充,也会从居住空间的交互与智能体验视角出发链接更多生态。同时欧瑞博正在积极拓展全渠道,完成产品落地和用户触达。据欧瑞博首席运营官李婧透露,目前欧瑞博线下体验店已有 1000 多家,而疫情这三年,也是欧瑞博开店增速最快的三年,仅 2021 年就新开 800 多家店,全部体验店中,80% 已经盈利,剩余门店也基本持平。未来三年内,欧瑞博将继续新增 10000 家线下体验店,来完成产品的落地和用户的触达。而上述门店,不仅会销售自家爆款单品,还会售卖接入操作系统生态的第三方产品,为用户提供一站式的产品体验。结语欧瑞博以 " 硬核科技美学 + 原生操作系统 " 布局全屋智能下半场,占据先发优势,同时也在内卷的行业,找到新的突破点,这不仅是欧瑞博自身进化的重大临界点,也会是全屋智能家居市场发展进程中的重要里程碑。
  • [问题求助] 基于深度学习的语音识别实验遇到unable to open file: /acoustic_model/model.h5
    基于深度学习的语音识别遇到这个问题该怎么解决?OSError: Unable to open file (unable to open file: name = './data_thchs30/acoustic_model/model.h5', errno = 2, error message = 'No such file or directory', flags = 0, o_flags = 0)
  • [问题求助] 【D2150-10-LI-PV】【语音广播/对讲】onvif rtsp 语音广播
    【功能模块】D2150-10-LI-PV 固件版本:SDC 9.0.0.SPC307【操作步骤&问题现象】1、我发起请求`Require: www.onvif.org/ver20/backchannel\r\n` 抓包看到返回了200,但是没有具体的sdp信息。没有音频流、视频流、和对讲流的sdp信息。【截图信息】正常情况请求应该返回类似下面的信息:RTSP/1.0 200 OK CSeq: 1 Content-Type: application/sdp Content-Length: xxx v=0 o= 2890842807 IN IP4 192.168.0.1 s=RTSP Session with audiobackchannel m=video 0 RTP/AVP 26 a=control:rtsp://192.168.0.1/video a=recvonly m=audio 0 RTP/AVP 0 a=control:rtsp://192.168.0.1/audio a=recvonly m=audio 0 RTP/AVP 0 a=control:rtsp://192.168.0.1/audioback a=rtpmap:0 PCMU/8000 a=sendonly【日志信息】(可选,上传日志内容或者附件)
  • [技术干货] 体验API Explore,花样玩转AI语音合成接口[转载]
    链接:https://bbs.huaweicloud.com/blogs/352647您将会学到什么您可实时访问和调用API获取语音合成结果,将输入的文字合成为音频。您需要什么硬件要求• PC电脑软件要求• Chrome浏览器需要的知识点• 熟悉常规电脑操作常识环境准备注册华为云账号、实名认证· 如果您已拥有华为账号且已通过实名认证,可直接体验。· 若您还没有通过实名认证的账号,请注册华为账号,然后完成实名认证(推荐使用“扫码认证”方式,即时完成)。· 参考如何实名认证和如何扫码认证。操作指导步骤一:访问API Explorer的AI语音合成接口点击链接进入API Explorer页面,选择【语音合成接口】,(注意:要登录自己的账号哦,没有账号请注册账号)步骤二:体验接口调试功能在text参数里随意输入想合成的文本,发起调试步骤三:将语音编码转成音频文件复制步骤二调试成功的响应体,复制按键如图所示点击【预览代码】进入新页面,并点击右上角【在CloudIDE上】打开(若未开通CloudIDE,进入CloudIDE产品页面点击【立即体验】免费开通即可)进入CloudIDE双击json文件将之前复制的响应体粘贴到json文件预置的空数组中(提示:若要拼凑多个转语音编码,可生成多个语音编码的响应体,复制到数组中,用逗号隔开)点击运行到Explorer下,选择mp3文件,右键,选择download,即可下载生成音频文件来听啦恭喜您已完成体验。华为云PaaS产品体验大本营(答疑交流群)
  • [交流分享] LTE语音是什么
    VOLTE 全称是 Voice over LTE,代表 LTE 语音,是一种全部业务承载于  4G 网络上的 IP 数据传输技术。通过 4G LTE 网络进行的语音呼叫,而不是通常使用的 2G 或 3G 连接。VoLTE 是一个面向手机和数据终端的高速无线通信标准。它基于 IP 多媒体子系统(IMS)网络,在 LTE 上使用为控制层面(Control plane)和语音服务的媒体层面(Media plane)特制的配置文件(由 GSM 协会在 PRD IR.92 中定义),这使语音服务(控制和媒体层面)作为数据流在 LTE 数据承载网络中传输,而不再需维护和依赖传统的电路交换语音网络。VoLTE 的语音和数据容量超过 3G UMTS 三倍以上,超过 2G GSM 六倍以上。因为 VoLTE 数据包信头比未优化的 VoIP/LTE 更小,它也更有效地利用了带宽。要想开启 VOLTE,首先向移动运营商开通 VOLTE 业务,其次在手机设置中,打开 VOLTE 通话功能即可。理论上来说更应该倾向于 4G 主要是关于下载,流媒体和网页浏览,实际上这主要是它到目前为止所使用的,但它也可以用来改善通话。
  • [行业资讯] 美团投放10万顶智能头盔,骑手免费使用,可语音接单
    不用掏手机,就能通话和接单;识别暗光环境,自动开启防碰撞预警;智能检测,提醒骑手戴盔……为进一步保障骑手配送安全,4月25日,美团配送宣布,今年将在北京、苏州、海口等城市新投放10万顶智能安全头盔。试点期间,头盔成本无需骑手承担,骑手接单期间须按相关规范进行佩戴。“在接单到交付的整个过程中,需要多次操作手机或接打电话,智能头盔简直是解放双手的神器。”北京骑手范铁明是第一批“尝鲜”的骑手之一,智能安全头盔的语音通话和接单功能,让范铁明感到配送安全性大幅提升。据介绍,智能头盔内置蓝牙模块,与骑手手机和App连接后,如果有来电,骑手只需单击头盔左侧快捷键就能接听。长按2秒即可拒接,若不进行操作,响铃10秒后自动接听来电。当听到接单、抢单、转单,或到店、取餐等App语音指令时,骑手也可以单击快捷键完成确认,或口头回复“确认”通过语音进行操作。头围可调,头顶透气孔可调,充电口磁吸防插反,充电2小时可用3天……除了安全保障性和功能便利性,试点期间,佩戴舒适性也受到骑手广泛认可。“蓝牙耳机外放式立体声,不用塞进耳朵,解决了耳机戴久耳朵疼问题。”骑手范铁明说。除此之外,头盔还内置有光电传感器、运动传感器,可通过加速度检测和智能监测算法,监测骑手在送单期间佩戴状态及佩戴姿势。智能头盔使用前,骑手需使用App扫码进行绑定,即可开启智能戴盔检测功能和碰撞检测功能,从而解决现实中头盔“带而不戴”的问题。骑手端App上,可显示实时佩戴状态,并记录戴盔数据。据美团智能安全头盔研发人员介绍,作为美团自主研发、拥有专利的外卖骑手专属装备,智能安全头盔经过各项严格测试,符合国家标准。在传统头盔基础上,创新研制了佩戴和碰撞检测功能、自感应尾灯、蓝牙耳机、麦克风、快捷按键等多个智能安全功能。智能安全头盔自2020年6月启动研发,2021年6月在湖南、广东、辽宁、宁夏等省批量投放试点。美团配送方面表示,今年将在北京、海口、苏州等城市新投放10万顶。“安全是配送最近的路。”美团配送智能安全头盔项目负责人表示,借助科技手段保障和提升骑手安全,是智能头盔研发初衷。此次投放的第二代美团智能安全头盔,在研发过程中更加全面地考虑骑手实际需要和工作复杂场景,在不显著增加总重量的情况下,对头盔功能进行整体优化设计,并于今年2月完成试产试用。相较传统普通头盔,智能头盔因新增智能模块、重新设计定制等,会产生额外成本。对此,美团配送方面表示,试点期间,智能头盔成本无需骑手承担。在接单期间,骑手必须按照相关规范佩戴。
  • [行业资讯] 物联卡是否有语音跟短信功能?
    最近不少小伙伴来问,怎么判断物联网卡是否支持语音跟短信功能?,有没有个人用的可以联网的物联卡呢,怎么区分纯流量卡和物联卡?下面物联卡商城以移动和联通物联网卡为例,来详细讲解一下。移动物联卡是中国移动基于公众物联网,面向物联网用户提供的移动通信接入业务,采用物联网专用号段,通过专用网元设备支持短信、无线数据和语音等基础通信服务,提供通信连接管理和终端等智能连接服务。判断物联卡是否支持语音跟短信功能,要看卡的号段。具体来说,采用以144、10647、10648开头的13位物联网专用号段,支持短信和GPRS功能,容量12亿。采用1476、1724、1789、1849开头的11位物联网专用号段,支持语音、短信、GPRS功能。物联卡和普通的手机SIM卡没有差别,在功能上,两者均可以实现无线联网、收发短信息等功能,但原则上物联卡只能在智能设备上使用,如果是用在手机上,一旦发现很容易被锁卡。目前移动和联通的专用物联卡都仅支持企业客户办理,购买渠道都只有两种方式,一是到运营商营业厅办理,二是通过物联卡代理平台办理。企业想办理物联卡业务需提供公司营业执照、组织机构代码证、经办人身份证以及单位相关授权证明。运营商营业厅对办卡数量有要求,很多企业因为规模限制用不了那么多卡就只能在正规的物联卡代理平台办理。物联卡商城作为物联网卡一站式采购平台,为企业提供更自由和更智能的网络及资费管理能力,运用大数据分析技术,提供物联卡大数据分析服务为物联网垂直行业提供完善的“一站式”API集成和管理服务,助力物联网生态快速发展。
  • [赛事资讯] 【顶会竞赛】2022 NAACL同传Workshop:千言 - 机器同传
    比赛背景 Background同声传译结合了机器翻译(MT)、自动语音识别(ASR)和文本语音合成(TTS)等人工智能技术,在国际会议、商务谈判、新闻发言、法律诉讼和医学交流等众多场景都有广泛的应用,已发展成为一个前沿的研究领域。作为一个新兴的跨学科领域,同声传译未来将面临更多挑战。Simultaneous translation, which performs translation concurrently with the source speech, is widely useful in many scenarios such as international conferences, business negotiations, press releases, legal proceedings and medical communications. It combines the AI technologies of machine translation (MT), automatic speech recognition (ASR) and text-to-speech synthesis (TTS),and is becoming a cutting-edge research field. As an emerging interdisciplinary field, Simultaneous translation will face more challenges in the future.为了促进同声传译的发展,在ACL2020和NAACL2021顶会上,百度领衔并联合Google、Facebook、清华大学、华为等顶尖机构和高校成功地举办了第一届和第二界同声传译研讨会,共邀请到10位主讲嘉宾,吸引了194名注册参与者。研讨会上同期发布的汉英同声翻译竞赛任务,共吸引了525名参赛者。该竞赛任务为参赛者提供了开放数据集:百度语音翻译语料库(BSTC),涵盖了信息技术、经济、文化、生物、艺术等多个领域的专题演讲。In order to promote the development of simultaneous interpretation, Baidu, together with Google, Facebook, Tsinghua University, Huawei and other top institutions and universities, successfully held the first and second automatic simultaneous translation workshop at ACL2020 and NAACL2021, which invited 10 keynote speakers and attracted 194 registered participants. A total of 525 participants participated in the competition. The competition task provides the participants with an open data set: Baidu speech translation corpus (BSTC), which covers the thematic speeches in the fields of information technology, economy, culture, biology, art and so on.为了进一步推动机器同传技术的发展,在NAACL 2022顶会上,汇集了机器翻译、语音处理和人类口译领域的众多研究人员和实践者,共同讨论同声传译的最新进展和当下面临的突出挑战,包括:To further promote the development of simultaneous translation, we will host the 3rd automatic simultaneous translation workshop at NAACL2022, brings together many researchers and practitioners in the field of machine translation, speech processing, and human interpretation to discuss the latest progresses and current challenges, including:· 同声传译范式: 在传统流水线(ASR-MT-TTS)或端到端(语音语音)框架下,如何构建高质量、低延迟的同传系统;· 数据资源: 如何高效运用训练同声翻译系统的大型高质量语料库;· 评价方法: 如何评价翻译质量和如何选取时间延迟指标;· 计算机辅助口译(CAI): 如何尽快提高人工翻译的效率和质量。· Simultaneous translation paradigms: traditional pipeline (ASR-MT-TTS) or end-to-end (speech-speech);· Data resources: large and high-quality corpora for training simultaneous translation systems.· Evaluation methods: metrics to evaluate the translation quality and time latency;· Computer Aided Interpretation (CAI): improve the efficiency and quality of human interpreters.参赛对象及要求 Participants and Requirements参赛对象 Participants本次竞赛面向全社会开放,不限年龄、身份、国籍,相关领域的个人、高等院校、科研机构、企业单位、初创团队等均可报名参赛。大赛主办单位中有机会提前接触赛题和数据的人员不得参加比赛,其他员工可以参与比赛排名,但不可领取任何奖项。This competition is opened to the whole society, and has no restriction on age, identity and nationality. Individuals, institutions of higher learning, research institutions, enterprises and start-up teams in related fields can register for this competition. Those who have access to the task and data in advance cannot participate in the competition. Other employees can participate in the ranking of the competition but cannot receive any award.参赛要求 Requirements支持以个人或团队形式参赛,每个参赛队伍人数最多不超过5人,允许跨单位自由组队,但每人只能参加一支队伍。Individual or team participation is supported. The maximum number of participants in each team is 5. Cross-unit team is allowed, but each person can only join one team.了解详情:https://aistudio.baidu.com/aistudio/competition/detail/148/0/introduction
  • [赛事资讯] 【精彩速递】提交倒计时|2022软挑作品提交通道已开启
    【赛事资讯】2022年3月19日-- 3月25日✨【品牌赛事】提交倒计时|2022软挑作品提交通道已开启摘要:第八届华为软件精英挑战赛报名截止到3月24日18:00已结束,3月25日9:00作品提交通道已开启。✨【热门活动】征文活动|AppCube X WeLink双剑合璧玩转轻应用征文活动摘要:WeLink不仅是一款聊天软件。它更是海量办公套件的合集,正所谓WeLink即办公。在这当中,AppCube低代码开发平台办公套件最具特色。只需拖拽、配置,即可轻松构建业务应用,就能实现企业业务的高效率、低成本创新。利用AppCube模板完成开发,部署到WeLink后,写出体验中的思路、创意、经历。或者抛开体验,写出你对低代码与办公协同方面的思考,即有机会获得600元盲盒礼包、华为无线充电器、华为定制礼品等惊喜奖品。✨【直播预告】华为云大咖带你走进华为云应用服务网格ASM摘要:本次直播为华为云云原生入门级开发者认证人才计划活动第6场直播,本直播将由华为云云原生培训工程师叶老师给大家分享应用服务网格ASM与Istio的功能特性和主要应用场景,走进华为云应用服务网格ASM!✨【前沿快讯】华为诺亚视觉团队提出业界领先的多模态事件识别和定位算法EDRNet摘要:视频及短视频逐渐成为大众日常生活中不可或缺的网络应用,仅次于即时通信类软件。相对于文字与图片描述,对于同等信息的获取,用户更加倾向于搜索对应的视频精准瞬间。通过丰富的多模态视频信息对目标内容进行精准的定位是相关产品的核心痛点。✨【技术干货】语音交互服务与应用场景摘要:语音交互服务(Speech Interaction Service,简称SIS)是一种人机交互方式,用户通过实时访问和调用API获取语音交互结果。例如用户通过语音识别功能,将口述音频或者语音文件识别成可编辑的文本,同时也支持通过语音合成功能将文本转换成逼真的语音等提升用户体验。适用场景如语音客服质检、会议记录、语音短消息、有声读物、电话回访等。往期回顾:【赛事资讯】2022年3月18日精彩速递-第八届华为软件精英挑战赛火热报名中,超全FAQ来袭!【赛事资讯】2022年3月11日精彩速递-2022华为大学生无线基站Massive MIMO创新大赛正式开启,快来报名参赛吧!【赛事资讯】2022年3月4日精彩速递-官宣!2022年第八届华为软件精英挑战赛正式启动报名
  • [技术干货] 语音交互服务与应用场景
    一、什么是语音交互服务语音交互服务(Speech Interaction Service,简称SIS)是一种人机交互方式,用户通过实时访问和调用API获取语音交互结果。例如用户通过语音识别功能,将口述音频或者语音文件识别成可编辑的文本,同时也支持通过语音合成功能将文本转换成逼真的语音等提升用户体验。适用场景如语音客服质检、会议记录、语音短消息、有声读物、电话回访等。体验:https://www.huaweicloud.com/ei/experiencespace/sis.html支持的语言支持中文普通话的识别和合成,其中语音识别还支持带方言口音的普通话识别以及方言(四川话、粤语和上海话)的识别。首次使用SIS如果您是首次使用SIS的用户,建议您学习并了解如下信息:功能介绍通过功能介绍章节的内容,了解SIS不同功能的具体介绍,主要包括实时语音识别(Real-time ASR)、一句话识别(Short Sentence Recognition)、录音文件识别(Recording File Recognition)、语音合成(Text To Speech )功能。入门使用SIS以开放API的方式提供给用户,您可以参考《快速入门》学习并使用SIS服务。使用方式如果您是一个开发工程师,熟悉代码编写,想要直接调用SIS的API或SDK使用服务,您可以参考《API参考》或《SDK参考》获取详情。由浅入深学习您可以参考成长地图,由浅入深学习使用SIS。二、语音交互服务12个应用场景语音客服质检识别客服、客户的语音,转换为文本。进一步通过文本检索,检查有没有违规、敏感词、电话号码等信息。会议记录对会议记录的音频文件,进行快速的识别,转化成文字,方便进行会议记录。语音短消息通过语音发送或者接收短消息时,将音频短消息转文字,提升阅读效率和交互体验。游戏娱乐将游戏娱乐中的语音聊天转成文字消息,提升用户阅读效率,提升用户体验。有声读物将书籍、杂志、新闻的文本内容转换成逼真的人声发音,充分解放人们的眼睛,在搭乘地铁、开车、健身等场景下获取信息、享受乐趣。电话回访在客服系统场景中,通过将回访内容转换成人声,直接使用语音和客户交流,提升用户体验。智能教育集成语音合成的教育系统可以实现中文标准朗读及带读,应用于课堂和学生自学,提升教学效率。直播实时字幕将视频直播或现场直播中的音频实时转为字幕,为观众提供更高效的观会体验,方便对直播内容进行监控。会议实时记录将视频或电话会议中的音频实时转为文字,可实时校核、修改及检索转写会议内容,提高会议效率。即时文本录入手机App上实时录音并即时提供转写的文本,例如语音输入法等。人机交互通过语音合成,实现高品质的机器人发声,使得人机交互更加自然。智能客服借助语音合成,联络中心可以用自然的声音与客户互动。
  • [问题求助] 【SIS】【SIS】语音服务不支持跨区访问OBS
    使用的北京4的SIS服务,配合北京4的OBS存放的音频文件,是没问题的。 如图 ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20223/13/1647147751549860871.png) 按帮助里说的,SIS可以支持其他区域的OBS的,只是说优先推荐使用同REGION下的OBS ["EI企业智能服务对于图片、语音等多媒体文件支持直接使用华为云OBS服务的数据处理方式,以减少服务使用成本,降低服务的响应时长,提升服务使用的体验。语音交互服务优先推荐使用同一region下OBS的音频链接作为传入音频的URL。"](https://support.huaweicloud.com/api-sis/sis_03_0047.html) 而实际上,跨区域服务是会报错的,当使用广州的OBS时,如图: ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20223/13/1647148077013562986.png)
  • [已解决问题归档] icd的默认语音调试
    问题来源】【必填】    贵州119【问题简要】【必填】   电话进线排队时无排队的语音提示,我想知道,这些默认的语音是有单独的语音包吗。   【问题类别】【必填】  icd【AICC解决方案版本】【必填】 ICDV300R008C25【期望解决时间】【选填】     尽快解决【问题现象描述】【必填】
  • [技术干货] kaldi中文语音识别---multi_cn案例整理及模型对比
    在语音识别领域,关于中文的语音识别,常用的中文开源数据集有:aishell、thchs30和multi_cn 1. aishell数据集 总共178小时,400个人讲,其中训练集340个人,测试解20个人,验证集40个人,每个人大概讲三百多句话,每个人讲的话都放在一个文件夹里面。包含400位来自中国不同口音地区的发音人语音,语聊涵盖财经、科技、体育、娱乐、时事新闻等。 AISHELL-2结构类似(1000个小时),不过总共1991人讲,每个人有500句话,每个人讲的话可能会有重复。 2. thchs-30数据集 thchs-30是清华大学公布的超过三十个小时的数据集,选取1000句来录音,都是女声。 3. multi_cn数据集 multi_cn则是一个集大成者,是六个数据集的集合:aidatatang、aishell、magicdata primewords、stcmds、thchs。 本篇文章就multi_cn案例来整理一下语音识别的流程,并将同样的语音数据在kaldi工具包中aishell和multi_cn下的解码结果做对比 #### **- multi_cn案例的流程:** *数据下载* 由于我们需要下载的数据量有点多,如果使用原下载链接速度可能较慢,所以修改一下run.sh脚本的url如下: aidatatang_url=openslr.magicdatatech.com/resources/62 aishell_url=openslr.magicdatatech.com/resources/33 magicdata_url=openslr.magicdatatech.com/resources/68 primewords_url=openslr.magicdatatech.com/resources/47 stcmds_url=openslr.magicdatatech.com/resources/38 thchs_url=openslr.magicdatatech.com/resources/18 run.sh中的dbase参数时数据集的存放位置,结合自己习惯,自行修改一下。 修改完url你会发现速度基本能在500K-1M左右,因为wget是单线程下载的 这还是不够快啊。 安装aria2c,至于这么安装自己baidu一下。 然后找到s5/local文件夹下的下面六个文件 thchs_download_and_untar.sh aidatatang_download_and_untar.sh aishell_download_and_untar.sh magicdata_download_and_untar.sh primewords_download_and_untar.sh stcmds_download_and_untar.sh 在这六个文件夹中都有如下一段代码来进行下载: cd $data if ! wget --no-check-certificate $full_url; then echo "$0: error executing wget $full_url" exit 1; fi 修改上述wget --no-check-certificate为aria2c -s 16 -x 16 OK,现在下载速度起飞。 *数据整理* 将数据整理成kaldi规定的格式,主要生成spk2utt utt2spk text wav.scp四个主要文件,并六个数据集文件整合 *语言模型训练* 采用n-gram语言模型来训练。相比深度的语言模型速度快,适用于短句的语音识别 ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20222/28/1646014164326399115.png) *特征提取* mfcc特征提取,MFCC倒谱系数 (滤波器组)就是声学特征,下图是语音特征提取的详细步骤: ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20222/28/1646014301988322736.png) *GMM-HMM声学模型训练* 单音子模型假设,一个音素的实际发音,与其左右相邻或相近的因素(上下文音素)无关。但音素的实际发音有可能受到其相邻、相近音素的影响,也可能因为其在句子中出现的位置不同而发生改变,此时就需要引入上下文相关的声学模型,不仅要考虑中心音素本身,还要考虑该音素所在位置的上下文音素。三音子建模可以实现对音素上下文更精细的建模。下图是三音子的训练流程图: ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20222/28/1646014443235895743.png) *DNN-HMM声学模型训练* 将GMM-HMM的HMM提取出来作为DNN-HMM中的HMM,GMM则用整个DNN替换。GMM-HMM训练好的帧与HMM状态的对齐相当于DNN-HMM的标注数据,有监督的训练DNN ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20222/28/1646015036471262141.png) *chain模型训练(区分性训练)* 声学模型训练一般基于ML(最大似然),只考虑正确路径的优化训练,没有考虑降低混淆路径的分数,因而识别效果并不能达到最优。而区分性训练(Discriminative Training)同时兼顾正确路径和混淆路径,目标是提高正确路径的分数,同时压低混淆路径的分数,以加大这些路径之间的打分差异,跟识别目标更匹配。 以Chain为代表的纯序列区分性训练简化了不少HMM相关的步骤,其架构跟端到端语音识别已比较接近,但又保留HMM的独特优势,达到了 综合性能的最优,因此成为工业界应用的主流框架。 *解码* 采用HCLG构图的方式进行解码 ### - 模型对比 采用同样的语音数据测试aisell和multi_cn的模型 aishell: ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20222/28/1646012033397683606.png) multi_cn ![1be420d5005fbed55eab43584980518.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20222/28/1646011751168939757.png) 结论: multi_cn的模型效果更优,泛化能力也更强。适合做预训练模型
总条数:418 到第
上滑加载中