• [其他] 语音处理系统介绍和挑战
    一个完整的语音处理系统,包括前端的信号处理、中间的语音语义识别和对话管理(更多涉及自然语言处理),以及后期的语音合成。总体来说,随着语音技术的快速发展,之前的限定条件正在不断减少:包括从小词汇量到大词汇量再到超大词汇量;从限定语境到弹性语境再到任意语境;从安静环境到近场环境再到远场嘈杂环境;从朗读环境到口语环境再到任意对话环境;从单语种到多语种再到多语种混杂,这给语音处理提出了更高的要求。 语音的前端处理涵盖几个模块。说话人声检测:有效地检测说话人声开始和结束时刻,区分说话人声与背景声;回声消除:当音箱在播放音乐时,为了不暂停音乐而进行有效的语音识别,需要消除来自扬声器的音乐干扰;唤醒词识别:人类与机器交流的触发方式,就像日常生活中需要与其他人说话时,你会先喊一下那个人的名字;麦克风阵列处理:对声源进行定位,增强说话人方向的信号、抑制其他方向的噪音信号;语音增强:对说话人语音区域进一步增强、环境噪声区域进一步抑制,有效降低远场语音的衰减。除了手持设备是近场交互外,其他许多场景(车载、智能家居等)都是远场环境。在远场环境下,声音传达到麦克风时会衰减得非常厉害,导致一些在近场环境下不值一提的问题被显著放大。这就需要前端处理技术能够克噪声、混响、回声等问题,较好地实现远场拾音。 语音识别的过程需要经历特征提取、模型自适应、声学模型、语言模型、动态解码等多个过程。除了前面提到的远场识别问题之外,还有许多前沿研究集中于解决“鸡尾酒会问题”。“鸡尾酒会问题”显示的是**人类的一种听觉能力,能在多人场景的语音/噪声混合中,追踪并识别至少一个声音,在嘈杂环境下也不会影响正常交流**。这种能力体现在两种场景下:一是人们将注意力集中在某个声音上时,比如在鸡尾酒会上与朋友交谈时,即使周围环境非常嘈杂、音量甚至超过了朋友的声音,我们也能清晰地听到朋友说的内容;二是人们的听觉器官突然受到某个刺激的时候,比如远处突然有人喊了自己的名字,或者在非母语环境下突然听到母语的时候,即使声音出现在远处、音量很小,我们的耳朵也能立刻捕捉到。而机器就缺乏这种能力,虽然当前的语音技术在识别一个人所讲的内容时能够体现出较高的精度,当说话人数为两人或两人以上时,识别精度就会大打折扣。 如果用技术的语言来描述,问题的本质其实是给定多人混合语音信号,一个简单的任务是如何从中分离出特定说话人的信号和其他噪音,而复杂的任务则是分离出同时说话的每个人的独立语音信号。在这些任务上,研究者已经提出了一些方案,但还需要更多训练数据的积累、训练过程的打磨,逐渐取得突破,最终解决“鸡尾酒会问题”。
  • [已解决问题归档] 咨询open eye通话的rtp语音流是终端之间直通还是通过msu来转发
    问题来源】【必填】    贵州110【问题简要】【必填】   open eye之间通话,rtp语音流是直连还是通过msu中转,如果直连需要放开的udp端口范围是多少,如果是msu中转,与uap之间的udp端口范围是多少,还有能否控制话机语音通话是直连,还是通过msu中转【问题类别】【必填】  OPEN Eye UAP9600 【AICC解决方案版本】【必填】  UAP V100R005C00SPC018  【期望解决时间】【选填】     尽快解决【问题现象描述】【必填】open eye之间通话,rtp语音流是直连还是通过msu中转,如果直连需要放开的udp端口范围是多少,如果是msu中转,与uap之间的udp端口范围是多少,还有能否控制话机语音通话是直连,还是通过msu中转
  • [行业资讯] ICT产业链积极行动,科技适老已成社会共识
    5月23日消息,第七次全国人口普查数据显示,我国60岁及以上人口已达2.64亿人,人口老龄化程度进一步加深。全球人口老龄化是21世纪具有决定性意义的人口趋势,“十四五”期间,我国老年人口将突破3亿人,将从轻度老龄化迈入中度老龄化,养老问题日益严峻。当大多数人享受科技进步带来的便利时,部分老年人却因为不会上网、不会使用智能手机,而无法享受科技产品与服务带来的便利,生活上遇到阻碍和困扰。如何让老年人共享科技发展的红利,已成为当下社会治理的新课题,推动科技适老已势在必行。今年世界电信和信息社会日(5月17日)的主题为“面向老年人和实现健康老龄化的数字技术”,便与科技适老紧密相关。工业和信息化部党组成员、副部长张云明在2022年世界电信和信息社会日大会上表示,2022年我国民生服务更加用心用力,数字便民实现普惠共享。科技适老成效显著,10余项适老化标准规范相继出台,375家老年人常用的网站、APP均推出适老助老功能,基础电信企业“老年人一键呼入人工客服”服务超1亿人次,科技适老已成社会共识。主动肩负央企责任,运营商助力银发一族跨越“数字鸿沟”上述成果的取得离不开ICT产业链企业的努力。“老有所养”“老有所依”是每个人的美好愿景和实际需求,作为科技适老的主力军,三大运营商主动肩负央企责任,助力银发一族跨越“数字鸿沟”。为了推动信息技术与养老服务业的融合创新,中国移动践行央企责任与使命,积极应对人口老龄化,依托自身5G+AICDE能力优势,通过构建服务新模式、搭建智慧平台、打造先进应用等形式,全方位赋能医、康、养产业升级;将居家养老服务与社区、机构、互联网医院等服务资源对接,最大程度提升老年人生活质量,让老年人尽享数字红利,为老年人健康舒适、安全便利的生活保驾护航。中国联通已挂牌成立2100个智慧助老服务中心,组织2.9万场银龄公益讲堂,65岁以上客户拨打10010直达人工服务4371万次;助老产品惠及225万老年客户,并发布了新的“银龄专享”服务计划,通过便捷服务、温情陪伴、智趣生活三大主题的10项服务举措,为老人提供更多服务。中国电信积极帮助银发一族跨越“数字鸿沟”,集中力量为老年人提供更便捷、更贴心、更优质的专属服务,全面推进各类触点适老化和无障碍改造。通过人脸识别等技术,实现“一键呼入”的远程视频客服;率先打造“爱心翼站”智能普惠服务渠道;扩大和丰富适老化终端;依托物联网、视联网等能力,提供智慧养老;实现“动动嘴、少跑腿,动动手、一键通”,让老年人享受到数字生活的幸福感、安全感。打造适老化智能终端,打通最后“一公里”智能终端是老年人接触数字世界、享受数字生活最直接的媒介。在智能手机终端方面,工信部早在2021年6月就已经发布了《移动终端适老化技术要求》《移动终端适老化测试方法》《智能电视适老化设计技术要求》三项标准,从屏幕显示、音频控制、语音交互、远程辅助、应急应用等方面,详细规定了智能终端在适老化方面的技术要求。国内主流手机品牌的多款机型基本具备无障碍模式或长辈模式,包括语音读屏、大字体、大音量播放、远程协助、SOS呼叫、健康监测、语速减慢等功能,方便老年人看得见、听得清、用得了。其中vivo、小米、OPPO相关系列的手机终端通过了测试验证,获得国内首批“移动终端适老化认证证书”。例如,OPPO的手机、智能电视和智能手表中均加入了适老化相关功能。比如:简易模式、屏幕共享、智能语音小布助手等,以此降低老年人使用智能手机的学习门槛。OPPO ColorOS 12操作系统也已内置诸多适合老年人的无障碍功能。在服务层面,OPPO通过遍布全国的线下零售网点和客户服务体系,通过企业服务网络,向老年用户展示或讲解数字化/智能化服务。截至目前,OPPO在全国各地客服中心举办的“O学堂”手机讲座已超400场。而早在2019年,vivo就推出了适合老年群体阅读、理解的《智能手机使用速成宝典》,从多个方面进行手机使用步骤拆解。同时,vivo也推出了诸多适合老年人的功能。比如:vivo手机中的“简易桌面”应用、“共享相册”模块和“老照片修复”模块,可提升老人使用手机的便捷性;而Jovi语音助手可帮老人通过语音一键传达指令并完成操作;屏幕朗读功能可以解放老人的眼睛和双手;AI字幕功能可以为老人提供实时视频翻译;无障碍应用下载专区将经过无障碍与适老化改造的、已取得信息无障碍标识的APP统一纳入专区,方便老年人、残障人士等重点受益群体下载使用。同时,在全国800多个线下服务中心,vivo均安排了专业服务人员,为前来咨询的老人提供耐心指导。没有局限于对自有产品的优化,vivo还参与建设国家政务服务平台快应用,推出老年人办事服务区等功能,让银发群体的日常数字生活更便捷。为了解决好老年人运用智能设备遇到的困难,针对“老年人看电视”这一实际需求,科大讯飞一直携手国内运营商推动语音遥控器的普及与运用。综合考虑到老年群体特点,设计上精简按键的同时还新增智能语音控制功能,让老年人可以通过语音轻松地选择自己喜欢的节目。华为联合北京老年开放大学开发了“鹤颜学堂”,利用“线上+线下”的教学模式,给老年人讲解智能手机的基础功能和反诈等简洁实用的知识。魅族手机特殊的家庭守护功能,包含了防诈骗、查找家人、远程协助、防沉迷等多个小功能。多家厂商齐行动,打造适老化APP除了智能终端外,要想享受到数字服务,离不开各种实现适老化改造的APP。为消除老年人面临的“数字鸿沟”,工信部发布了《移动互联网应用适老化通用设计规范》和《互联网应用适老化评测体系》,并开展互联网应用适老化和无障碍专项行动。阿里巴巴一直关注老年人的数字生活体验。此前,阿里巴巴曾在国内率先推出关爱老年人专项公益行动——“小棉袄计划”,通过专属热线、视频课程、线下课堂、实体手册等线上线下相结合的形式,帮助老年人跨越“数字鸿沟”。此外,围绕老年群体高频使用的生活场景,阿里旗下各APP适老化改造逐步推进:淘宝、优酷、闲鱼、饿了么等阿里旗下“国民应用”APP陆续上线“长辈模式”;继多年前的亲情账号、亲情版本后,淘宝上线“拍药瓶买药“功能,结合银发族日常网络购药需求,有针对性地扫除障碍。腾讯公司积极响应号召,对微信、微信支付、QQ、腾讯新闻、全民K歌、QQ音乐、腾讯网等产品深入推进适老化和无障碍改造工作,上线适老模式及版本、适配无障碍功能,切实解决老年人、残疾人跨越“数字鸿沟”问题。同时,通过开办银龄学堂、上线银发青松助手小程序、开展志愿者线下帮扶活动等,让更多的老年人、残疾人学习使用智能技术。例如,微信在2021年9月正式推出“关怀模式”,模式下的文字更大更清晰,色彩更强更好认,按钮更大更易用,近期还增加了“听文字消息”的功能。而百度在2020年推出了“看听模式”,“一键开启信息流看听”的功能对视力不佳的老年人十分友好。百度还在智能屏产品上推出了“长辈模式”,通过简化界面、聚合特定内容、定制专属客服等功能,帮助老年人独立、便捷地获取互联网信息和服务。相信在ICT产业链企业的积极行动和共同努力下,将有越来越多的老年人可以享受到数字世界的美好,畅享信息技术带来的红利。
  • [其他] 人工智能-语音交流
    第一个基于电子计算语音识别统出现在1952年,AT&T贝尔实验室开发了一款Audrey的语音识别系统,能够识别10个英文数字,正确率高达98%。 70年代开始出现了大规模的语音识别研究,但当时的技术还处于萌芽阶段,停留在对孤立词、小词汇量句子的识别上。 80年代是技术取得突破的时代,一个重要原因是**全球性的电传业务**积累了大量文本,这些文本可作为机读语料用于模型的训练和统计。研究的重点也逐渐转向大词汇量、非特定人的连续语音识别。那时最主要的变化来自用**基于统计的思路**替代传统的基于匹配的思路,其中的一个关键进展是隐马尔科夫模型(HMM)的理论和应用都趋于完善。工业界也出现了广泛的应用,德州仪器研发了名为Speak&Spell语音学习机,语音识别服务商SpeechWorks成立,美国国防部高级研究计划局(DARPA)也赞助支持了一系列语音相关的项目。 90年代是语音识别基本成熟的时期,主流的高斯混合模型GMM-HMM框架逐渐趋于稳定,但与实用还有一定距离,语音识别研究的进展也逐渐趋缓。由于80年代末90年代初神经网络技术的热潮,神经网络也被用于语音识别,提出了多层感知器一隐马尔科夫模型(MLP-HMM)混合模型。但是性能上无法超越GMMHMM框架。 突破的产生始于深度学习的出现。随着深度神经网络(DNN)被应用到语音的声学建模中,人们陆续在音素识别任务和大词汇量连续语音识别任务上取得突破。基于GMM-HMM的语音识别框架被基于DNN-HMM的语音识别系统所替代,而随着系统的持续改进,又出现了深层卷积神经网络和引人长短时记忆模块(LSTM)的循环神经网络(RNN),识别效果得到了进一步提升,在许多(尤其是近场)语音识别任务上达到了可以进人人们日常生活的标准。于是我们看到以Apple Siri为首的智能语音助手、以Echo为首的智能硬件人口等等。而这些应用的普及,又进一步扩充了语料资源的收集渠道,为语言和声学模型的训练储备了丰富的燃料,使得构建大规模通用语言模型和声学模型成为可能。
  • [其他] 人工智能技术的辨识
    有的时候,我们其实很难辨别某个操作是不是有人工智能的技术来完成的。 因为目前的流行的主要是工具性人工智能,并没有达到通用性人工智能的高度。 举一个例子 1920年生产的“Radio Rex”玩具狗可能是世界上最早的语音识别器,当有人喊“Rex”的时候,这只狗能够从底座上弹出来。 所以,这是采用了人工智能的技术吗? 但实际上不是,它所用到的技术并不是真正的人工智能(语音识别),而是通过一个弹簧,这个弹簧**在接收到500Hz的声音时会自动释放**,而500赫兹恰好是人们喊出“Rex”中元音的第一个共振峰。:)
  • [行业资讯] 智能家居下半场:欧瑞博原生智能物联网操作系统或成破局之道
    全屋智能的吸引力有多大?为此,比尔 · 盖茨付出的代价是数千万美元——位于西雅图郊区的世外桃源 2.0,可能是全球第一所堪称全屋智能的别墅。而早在 1995 年,比尔 · 盖茨就在其所著《未来之路》中断言," 在不远的未来,没有智能家居系统的住宅,会像不能上网的住宅一样不合潮流。"现在,如他所言,全屋智能大势已成共识,只是,如今的智能家居产品早已普惠化,欧瑞博推出的全屋智能基础版新套餐,仅需 999 元。大势汹汹之下,行业高度内卷。继欧瑞博 2018 年发布首款 MixPad,打造 "1+4+N(入口 +4 类基础环境系统产品 +N 个生态产品)" 的产品矩阵后,其他厂商相继跟进,比如 2021 年华为发布的中控屏和 "1+2+N" 全屋智能解决方案、2022 年小米发布的智能家庭屏 10、海尔旗下三翼鸟发布的智家大脑屏和 "1+3+5+N" 解决方案。据统计,从 2022 年 3 月起至今,智能家居各厂商共发布 23 块智能屏。同质化之下,反内卷变得紧迫,谁能率先破局,谁就可能突围而上。就在刚过去的 5 月 18 日,一直充当创新先锋的头部玩家欧瑞博,在发布会上宣布了新的战略方向,除了颜值审美依然在线的硬件新品外,还重点推出了独立研发的原生智能物联网操作系统 HomeAI OS 4.0。欧瑞博创始人兼 CEO 王雄辉认为," 科技美学将提升行业审美革命,操作系统将引领业态升级,开启全屋智能下半场 "。此举如同向沉寂已久的市场投下一颗重磅之石,并且可能再次引领行业新趋势。一行业内卷,操作系统破局实现场景化全屋智能的关键钥匙是什么?在各厂商青睐智能屏时,智能家居语音中控屏原创发明者欧瑞博从手机、汽车行业得到了启发。在欧瑞博的设想中,房子如同手机、汽车一样,是一体化空间,可以实现协同管理,智能操控,甚至主动洞察用户需求,以及持续升级,这才是真正的全屋智能。复盘手机和汽车行业就会发现,2007 年苹果发布了 iPhone,带来颠覆性的手机体验,终结了功能机;2008 年,特斯拉发布第一款电动汽车,引领了智能电动车的标准。他们都凭借极具设计美感的外观和其他友商无法企及的极致交互体验,赢得用户的青睐。前者要赖于审美品牌和技术能力,后者则来自于底层操作系统的支撑。而无论是苹果的 iOS,还是特斯拉的汽车中控系统,它们均放弃了原生安卓系统,分别基于 Unix 和 Linux 的内核,独立研发出符合自己交互要求的操作系统。欧瑞博想做的,正是智能家居行业的 " 苹果 " 和 " 特斯拉 ",为用户提供一体化的极致全屋智能体验,而其找到的那把关键钥匙,就是全链路优化的软硬一体化——底层操作系统必不可少。基于安卓系统进行改良曾是 " 捷径 ",这也是智能家居行业不少玩家的选择,欧瑞博早期也是如此。但安卓系统的短板也显而易见。首当其冲的是隐私安全。安卓系统难以杜绝安全隐患,一旦智能摄像头等设备遭到黑客入侵,或出现其他技术漏洞,用户数据和隐私就会遭到泄露。据第一财经发布的《2021 年智慧家居趋势报告》显示,中国超过 40% 的消费者把提升安全感,作为智能家居的首要考量因素。其次,安卓系统功耗大的短板也顽疾难愈。时间一久,系统越慢,屏幕发烫。由此,发热会影响设备寿命,增加用户成本;温度变高会影响到传感器等部件的功能,比如无法精准感知周围的温度、光线;三是安全体验,墙面中控屏的发烫,会让用户产生可能漏电等担心。一位地产企业高管曾告诉《财经故事荟》,他们采购的一批智能家居中控屏发热严重,住户入住后吐槽投诉不断," 让我们退货,换个品牌。"再者,安卓本是为手机场景而生,天然无法贴合家居场景的交互体验需要。上述局限性决定了,安卓系统并非智能家居操作系统的最优选。另外,在中美关系趋冷后,华为在芯片和系统上双双受限的前车之鉴,也值得警醒,智能家居操作系统不能过度依赖安卓。种种考虑之下,欧瑞博决定完全摆脱安卓,独立开发一个专门针对全屋智能家居场景的原创智能物联网操作系统。为此,欧瑞博组建了 200 多人的团队——接近欧瑞博全员 1/3 的人力,耗费三年时间挖空安卓,基于 Linux 微内核,重写 500 万行代码,从系统内核层、系统服务层以及应用架构做了全面优化,打造出专为全屋智能而生的原生物联网操作系统—— HomeAI OS 4.0。根据王雄辉的介绍,这个系统一共申请了 613 项专利,其中 350 项是发明专利,硬核技术直接拉满,而对原生操作系统的执着,在国内,欧瑞博是独一份儿。二掏空安卓,欧瑞博一枝独秀 " 反内卷 "目前,业内智能家居操作系统主要分为两类,一是同样摆脱安卓的华为鸿蒙 OS,二是其他大部分厂商所用的基于安卓底层的操作系统。前者固然强大,但因其服务于手机、电脑、平板、电视、无人驾驶、车联网等 " 泛 " 智能场景,难以针对全屋智能场景下的个性化需求,进行 " 大动干戈 " 的彻底优化。而后者最大的问题则是无法跳出系统变慢、屏幕发热的底层顽疾。对比可以发现,欧瑞博新发布的操作系统具备两个特性:一是摆脱了安卓限制,彻底放飞;二是专注服务于智能家居场景,更聚焦更垂直。如此大刀阔斧的 " 底层变革 ",也将刷新欧瑞博终端用户的体验和感知。其一,更人性化、更细腻的智能交互。目前,用户对智能家居设备的语音控制,大多都需唤醒词,多次操作需要重复唤醒语音助手,这不仅不符合自然语音对话方式,而且会带来 " 这么麻烦,不如我走过去用传统开关控制简单 " 的落差感。而欧瑞博基于 One Step 3.0 技术,实现了免唤醒功能,只需说 " 关灯 " 或者 " 太亮了 " 就能精准控制,实现自然流畅的人机互动。面对一个空间中多个智能中控屏响应冲突的问题,欧瑞博也花了一年时间解决,在就近唤醒 3.0 人机交互定位技术中,采用分布式混直分离声源定位叠加多重噪音抑制,只唤醒离用户最近的设备,防止多个设备 " 吵架 "。可以看出,在更人性化、更细腻的语音控制方面,欧瑞博确实下了功夫,仅语音控制技术就已拿下几十项专利。在主动智能方面,HomeAI OS 4.0 中的主动智能引擎 AISense3.0 将基础用户场景标准化后,全屋分布式的 MixPad 就能根据用户所处的时间、空间识别需求,自动执行动作,比如晚上 6:00 回家,自动开主灯,但凌晨 2:00 回家,就只开小灯,免得打扰家人,而且上述动作无需用户预先设置。另外,在对氛围影响最大的光线方面,欧瑞博研发了 Auto Light 自适应调光技术,能根据 24 小时外部阳光的变化,自动调整灯的色温和亮度,提升舒适度。其二,更安全、更稳定、更便捷、更节能的连接。普通无线连接方式存在网关单向认证设备的安全漏洞,为了解决这个问题,欧瑞博全链路在设备与网关之间设置了双向认证,如此可杜绝第三方窃听的风险。而在稳定性上,HomeAI OS 4.0 研发了木星技术和章鱼技术,一方面将交互尽可能本地化,既避免了云端控制模式下的入侵可能性,又提高了交互效率;另一方面将蓝牙、WiFi、Zigbee 三网进行融合,当用户 WiFi 出问题,还可以使用 Zigbee 或蓝牙信道,来确保连接的稳定。HomeAI OS 4.0 还让系统功耗大幅下降,根据欧瑞博的测试,以前基于安卓的设备 CPU 饱和运行时,温度能高达 50 多度,现在基于 HomeAI OS 4.0 的设备最多 25 度左右,接近于正常的室内温度,大大延长了设备寿命,解除了设备 " 发烫、爆炸 " 的痛点。其三,既保证了软硬一体的最优化,又实现了互联互通的高度包容性。没有任何一家厂商能覆盖所有智能产品,一个居住空间里也不可能只有一个品牌的产品,如果设备互联互通的问题不解决,用户就只能选择 " 站队 ",被迫绑定一个品牌,这在 " 以用户为中心 " 的欧瑞博看来,无法接受。互联互通的关键之一在于底层协议,HomeAI OS 4.0 构建的基于强雾模型的设备接入与交互引擎—— Newton 万物引擎,兼容了 Zigbee、蓝牙、WiFi、KNX 等几乎所有的物联网通讯协议,尤其具有前瞻性的兼容了 Matter 协议。截止到目前,欧瑞博已经与全球 300 个品牌共同完成了第九次 Matter 的互联互通测试,也将是全球第一批推出支持 Matter 协议产品的品牌,这为后续的生态大繁荣,打下地基。目前,欧瑞博打造的 HADC 设备接入平台,还支持其他家居设备一站配置、多端同步、无代码接入。如此一来,用户在购买家居产品时便无需顾虑品牌限制了,多品牌也能获得 " 整齐如一 " 的协同体验。三新科技美学:看起来美,用起来爽全球建筑大师路易斯 · 巴拉干曾有句名言," 建筑是有情感的,建筑的生命就是它的美。"而颜值一直是欧瑞博的强项。山寨发布会社群主理人阳淼就因此 " 入坑 "。他告诉《财经故事荟》,两三年前,他装修新家时,曾在欧瑞博和其他品牌间纠结许久,最终,因为 " 陷于颜值 " 选了欧瑞博," 金属质感的外观,简洁的线条设计深得我心 "。但像此次发布会这样 " 大张旗鼓 " 强调科技美学,将其与操作系统作为并驾齐驱的核心理念,且一口气推出几十款极具美学诱惑的新品,对欧瑞博来说还是第一次。欧瑞博的理念是,智能家居只有冷冰冰的智能还不够,居住空间舒适体验的另一面,是家居美学。比如,新中式风格的墙面上,嵌入了一块工业科技感的屏幕,显然不美观不协调。家居美学的标准很朴素,单品高颜值不够,应与环境融为一体,展示不突兀的和谐之美,用王雄辉的话来说,智能家居要 " 像从墙面上长出来一样 "。为了让产品融入不同风格的居住空间,欧瑞博的新品支持不同配色、风格的外观选择,比如,全球首款家居装饰智慧屏 MixPad 7 UItra,搭配了 3 种质感和风格:适配中式风的胡桃木装饰面、现代简约风的烟熏绿织物装饰面、轻奢意式风的流银之铝装饰面,基本能涵盖主流家居风格;极简理性的巴赫系列智慧屏提供了 4 种经典配色:香槟金、比利时银、祖母绿、阿拉斯加白,除此外还支持 22 款配色定制服务,满足用户个性化的装饰需求;MixSwitch 戴妃系列双屏智能语音开关,考虑到性别审美差异,搭配了全套莫兰迪配色的外观,为用户提供选择空间。作为一个 " 不只是看一眼,还要与用户持续交互 " 的硬件,看起来很美不够,还要用起来爽。这背后是以用户需求为导向的千百次的调试和优化。以 MixSwitch 戴妃系列智能语音开关为例,为了追求极致舒适的按键手感,欧瑞博首创了魔性浅坑按键,前后历经 200 多次的专业调校,才找到按键触感、界面弧度等硬件交互细节的最优解,而且这种优化还在继续。不止智能屏和智能开关,还有让家居家装灵动活泼起来的灯光照明系统。欧瑞博的哲学是自然。新品苍穹灯系列能模拟阳光穿过天窗形成的阳光截止线,在 HomeAI OS 4.0 支持的精准混光算法的基础上,实现接近蓝天的混光效果。而且与过去人造自然光必须用吊顶,只能在别墅等大空间才能安装不同,欧瑞博创新性的把它变成了主灯,不需要吊顶就能安装,为用户减少限制条件。审美无终点,创新无极限,欧瑞博也在持续突破边界。四决战下半场,布局全渠道,做大朋友圈回看欧瑞博的十年跋涉,智能中控屏做对了,放弃单品路线、All in 全屋智能的战略也对了,如今站在下半场的起点,欧瑞博再次选择一条尚没人走的路:依托硬核科技美学叠加原生操作系统,在前端为用户提供 " 软硬一体 " 的极致体验,在后端为生态厂商提供互联接入。而欧瑞博的信心,来源于对宏观环境的判断和自身全方位的布局。后疫情时代,宅经济兴起,大众智能家居消费需求持续升级。据 IDC 报告,2021 中国智能家居设备市场出货量为 2.3 亿台,同比增长 14.6%;预计未来五年,中国智能家居设备市场出货量将以 21.4% 的复合增长率持续增长,2022 年智能家居市场规模可达 6515.6 亿元。处于头部的欧瑞博,水大鱼大,也能成为红利的最大受益者。2022 年 1~4 月,尽管疫情凶猛,但欧瑞博整体销售额相比去年增长了 130%。独行者疾,众行者远。而在这条道路上,欧瑞博并非单打独斗。欧瑞博的终点,也不是 " 一枝独秀 " 一家独大,而是广交朋友,做大生态。根据规划,到 2023 年欧瑞博会至少接入 100 个全新的设备品牌,HomeAI OS 也会开放给更多合作伙伴共同打造全屋智能家居场景,实现共赢共生,其中不乏索菲亚、东鹏、三菱等传统行业巨头。欧瑞博副总裁童巍告诉《财经故事荟》,欧瑞博的目标是做全屋智能操作系统和自己擅长的新派科技美学产品,并专注思考如何让用户和接入到系统的设备实现更好的交互。基于此目标,未来欧瑞博智能产品矩阵的扩充,也会从居住空间的交互与智能体验视角出发链接更多生态。同时欧瑞博正在积极拓展全渠道,完成产品落地和用户触达。据欧瑞博首席运营官李婧透露,目前欧瑞博线下体验店已有 1000 多家,而疫情这三年,也是欧瑞博开店增速最快的三年,仅 2021 年就新开 800 多家店,全部体验店中,80% 已经盈利,剩余门店也基本持平。未来三年内,欧瑞博将继续新增 10000 家线下体验店,来完成产品的落地和用户的触达。而上述门店,不仅会销售自家爆款单品,还会售卖接入操作系统生态的第三方产品,为用户提供一站式的产品体验。结语欧瑞博以 " 硬核科技美学 + 原生操作系统 " 布局全屋智能下半场,占据先发优势,同时也在内卷的行业,找到新的突破点,这不仅是欧瑞博自身进化的重大临界点,也会是全屋智能家居市场发展进程中的重要里程碑。
  • [问题求助] 基于深度学习的语音识别实验遇到unable to open file: /acoustic_model/model.h5
    基于深度学习的语音识别遇到这个问题该怎么解决?OSError: Unable to open file (unable to open file: name = './data_thchs30/acoustic_model/model.h5', errno = 2, error message = 'No such file or directory', flags = 0, o_flags = 0)
  • [问题求助] 【D2150-10-LI-PV】【语音广播/对讲】onvif rtsp 语音广播
    【功能模块】D2150-10-LI-PV 固件版本:SDC 9.0.0.SPC307【操作步骤&问题现象】1、我发起请求`Require: www.onvif.org/ver20/backchannel\r\n` 抓包看到返回了200,但是没有具体的sdp信息。没有音频流、视频流、和对讲流的sdp信息。【截图信息】正常情况请求应该返回类似下面的信息:RTSP/1.0 200 OK CSeq: 1 Content-Type: application/sdp Content-Length: xxx v=0 o= 2890842807 IN IP4 192.168.0.1 s=RTSP Session with audiobackchannel m=video 0 RTP/AVP 26 a=control:rtsp://192.168.0.1/video a=recvonly m=audio 0 RTP/AVP 0 a=control:rtsp://192.168.0.1/audio a=recvonly m=audio 0 RTP/AVP 0 a=control:rtsp://192.168.0.1/audioback a=rtpmap:0 PCMU/8000 a=sendonly【日志信息】(可选,上传日志内容或者附件)
  • [技术干货] 体验API Explore,花样玩转AI语音合成接口[转载]
    链接:https://bbs.huaweicloud.com/blogs/352647您将会学到什么您可实时访问和调用API获取语音合成结果,将输入的文字合成为音频。您需要什么硬件要求• PC电脑软件要求• Chrome浏览器需要的知识点• 熟悉常规电脑操作常识环境准备注册华为云账号、实名认证· 如果您已拥有华为账号且已通过实名认证,可直接体验。· 若您还没有通过实名认证的账号,请注册华为账号,然后完成实名认证(推荐使用“扫码认证”方式,即时完成)。· 参考如何实名认证和如何扫码认证。操作指导步骤一:访问API Explorer的AI语音合成接口点击链接进入API Explorer页面,选择【语音合成接口】,(注意:要登录自己的账号哦,没有账号请注册账号)步骤二:体验接口调试功能在text参数里随意输入想合成的文本,发起调试步骤三:将语音编码转成音频文件复制步骤二调试成功的响应体,复制按键如图所示点击【预览代码】进入新页面,并点击右上角【在CloudIDE上】打开(若未开通CloudIDE,进入CloudIDE产品页面点击【立即体验】免费开通即可)进入CloudIDE双击json文件将之前复制的响应体粘贴到json文件预置的空数组中(提示:若要拼凑多个转语音编码,可生成多个语音编码的响应体,复制到数组中,用逗号隔开)点击运行到Explorer下,选择mp3文件,右键,选择download,即可下载生成音频文件来听啦恭喜您已完成体验。华为云PaaS产品体验大本营(答疑交流群)
  • [交流分享] LTE语音是什么
    VOLTE 全称是 Voice over LTE,代表 LTE 语音,是一种全部业务承载于  4G 网络上的 IP 数据传输技术。通过 4G LTE 网络进行的语音呼叫,而不是通常使用的 2G 或 3G 连接。VoLTE 是一个面向手机和数据终端的高速无线通信标准。它基于 IP 多媒体子系统(IMS)网络,在 LTE 上使用为控制层面(Control plane)和语音服务的媒体层面(Media plane)特制的配置文件(由 GSM 协会在 PRD IR.92 中定义),这使语音服务(控制和媒体层面)作为数据流在 LTE 数据承载网络中传输,而不再需维护和依赖传统的电路交换语音网络。VoLTE 的语音和数据容量超过 3G UMTS 三倍以上,超过 2G GSM 六倍以上。因为 VoLTE 数据包信头比未优化的 VoIP/LTE 更小,它也更有效地利用了带宽。要想开启 VOLTE,首先向移动运营商开通 VOLTE 业务,其次在手机设置中,打开 VOLTE 通话功能即可。理论上来说更应该倾向于 4G 主要是关于下载,流媒体和网页浏览,实际上这主要是它到目前为止所使用的,但它也可以用来改善通话。
  • [行业资讯] 美团投放10万顶智能头盔,骑手免费使用,可语音接单
    不用掏手机,就能通话和接单;识别暗光环境,自动开启防碰撞预警;智能检测,提醒骑手戴盔……为进一步保障骑手配送安全,4月25日,美团配送宣布,今年将在北京、苏州、海口等城市新投放10万顶智能安全头盔。试点期间,头盔成本无需骑手承担,骑手接单期间须按相关规范进行佩戴。“在接单到交付的整个过程中,需要多次操作手机或接打电话,智能头盔简直是解放双手的神器。”北京骑手范铁明是第一批“尝鲜”的骑手之一,智能安全头盔的语音通话和接单功能,让范铁明感到配送安全性大幅提升。据介绍,智能头盔内置蓝牙模块,与骑手手机和App连接后,如果有来电,骑手只需单击头盔左侧快捷键就能接听。长按2秒即可拒接,若不进行操作,响铃10秒后自动接听来电。当听到接单、抢单、转单,或到店、取餐等App语音指令时,骑手也可以单击快捷键完成确认,或口头回复“确认”通过语音进行操作。头围可调,头顶透气孔可调,充电口磁吸防插反,充电2小时可用3天……除了安全保障性和功能便利性,试点期间,佩戴舒适性也受到骑手广泛认可。“蓝牙耳机外放式立体声,不用塞进耳朵,解决了耳机戴久耳朵疼问题。”骑手范铁明说。除此之外,头盔还内置有光电传感器、运动传感器,可通过加速度检测和智能监测算法,监测骑手在送单期间佩戴状态及佩戴姿势。智能头盔使用前,骑手需使用App扫码进行绑定,即可开启智能戴盔检测功能和碰撞检测功能,从而解决现实中头盔“带而不戴”的问题。骑手端App上,可显示实时佩戴状态,并记录戴盔数据。据美团智能安全头盔研发人员介绍,作为美团自主研发、拥有专利的外卖骑手专属装备,智能安全头盔经过各项严格测试,符合国家标准。在传统头盔基础上,创新研制了佩戴和碰撞检测功能、自感应尾灯、蓝牙耳机、麦克风、快捷按键等多个智能安全功能。智能安全头盔自2020年6月启动研发,2021年6月在湖南、广东、辽宁、宁夏等省批量投放试点。美团配送方面表示,今年将在北京、海口、苏州等城市新投放10万顶。“安全是配送最近的路。”美团配送智能安全头盔项目负责人表示,借助科技手段保障和提升骑手安全,是智能头盔研发初衷。此次投放的第二代美团智能安全头盔,在研发过程中更加全面地考虑骑手实际需要和工作复杂场景,在不显著增加总重量的情况下,对头盔功能进行整体优化设计,并于今年2月完成试产试用。相较传统普通头盔,智能头盔因新增智能模块、重新设计定制等,会产生额外成本。对此,美团配送方面表示,试点期间,智能头盔成本无需骑手承担。在接单期间,骑手必须按照相关规范佩戴。
  • [行业资讯] 物联卡是否有语音跟短信功能?
    最近不少小伙伴来问,怎么判断物联网卡是否支持语音跟短信功能?,有没有个人用的可以联网的物联卡呢,怎么区分纯流量卡和物联卡?下面物联卡商城以移动和联通物联网卡为例,来详细讲解一下。移动物联卡是中国移动基于公众物联网,面向物联网用户提供的移动通信接入业务,采用物联网专用号段,通过专用网元设备支持短信、无线数据和语音等基础通信服务,提供通信连接管理和终端等智能连接服务。判断物联卡是否支持语音跟短信功能,要看卡的号段。具体来说,采用以144、10647、10648开头的13位物联网专用号段,支持短信和GPRS功能,容量12亿。采用1476、1724、1789、1849开头的11位物联网专用号段,支持语音、短信、GPRS功能。物联卡和普通的手机SIM卡没有差别,在功能上,两者均可以实现无线联网、收发短信息等功能,但原则上物联卡只能在智能设备上使用,如果是用在手机上,一旦发现很容易被锁卡。目前移动和联通的专用物联卡都仅支持企业客户办理,购买渠道都只有两种方式,一是到运营商营业厅办理,二是通过物联卡代理平台办理。企业想办理物联卡业务需提供公司营业执照、组织机构代码证、经办人身份证以及单位相关授权证明。运营商营业厅对办卡数量有要求,很多企业因为规模限制用不了那么多卡就只能在正规的物联卡代理平台办理。物联卡商城作为物联网卡一站式采购平台,为企业提供更自由和更智能的网络及资费管理能力,运用大数据分析技术,提供物联卡大数据分析服务为物联网垂直行业提供完善的“一站式”API集成和管理服务,助力物联网生态快速发展。
  • [赛事资讯] 【顶会竞赛】2022 NAACL同传Workshop:千言 - 机器同传
    比赛背景 Background同声传译结合了机器翻译(MT)、自动语音识别(ASR)和文本语音合成(TTS)等人工智能技术,在国际会议、商务谈判、新闻发言、法律诉讼和医学交流等众多场景都有广泛的应用,已发展成为一个前沿的研究领域。作为一个新兴的跨学科领域,同声传译未来将面临更多挑战。Simultaneous translation, which performs translation concurrently with the source speech, is widely useful in many scenarios such as international conferences, business negotiations, press releases, legal proceedings and medical communications. It combines the AI technologies of machine translation (MT), automatic speech recognition (ASR) and text-to-speech synthesis (TTS),and is becoming a cutting-edge research field. As an emerging interdisciplinary field, Simultaneous translation will face more challenges in the future.为了促进同声传译的发展,在ACL2020和NAACL2021顶会上,百度领衔并联合Google、Facebook、清华大学、华为等顶尖机构和高校成功地举办了第一届和第二界同声传译研讨会,共邀请到10位主讲嘉宾,吸引了194名注册参与者。研讨会上同期发布的汉英同声翻译竞赛任务,共吸引了525名参赛者。该竞赛任务为参赛者提供了开放数据集:百度语音翻译语料库(BSTC),涵盖了信息技术、经济、文化、生物、艺术等多个领域的专题演讲。In order to promote the development of simultaneous interpretation, Baidu, together with Google, Facebook, Tsinghua University, Huawei and other top institutions and universities, successfully held the first and second automatic simultaneous translation workshop at ACL2020 and NAACL2021, which invited 10 keynote speakers and attracted 194 registered participants. A total of 525 participants participated in the competition. The competition task provides the participants with an open data set: Baidu speech translation corpus (BSTC), which covers the thematic speeches in the fields of information technology, economy, culture, biology, art and so on.为了进一步推动机器同传技术的发展,在NAACL 2022顶会上,汇集了机器翻译、语音处理和人类口译领域的众多研究人员和实践者,共同讨论同声传译的最新进展和当下面临的突出挑战,包括:To further promote the development of simultaneous translation, we will host the 3rd automatic simultaneous translation workshop at NAACL2022, brings together many researchers and practitioners in the field of machine translation, speech processing, and human interpretation to discuss the latest progresses and current challenges, including:· 同声传译范式: 在传统流水线(ASR-MT-TTS)或端到端(语音语音)框架下,如何构建高质量、低延迟的同传系统;· 数据资源: 如何高效运用训练同声翻译系统的大型高质量语料库;· 评价方法: 如何评价翻译质量和如何选取时间延迟指标;· 计算机辅助口译(CAI): 如何尽快提高人工翻译的效率和质量。· Simultaneous translation paradigms: traditional pipeline (ASR-MT-TTS) or end-to-end (speech-speech);· Data resources: large and high-quality corpora for training simultaneous translation systems.· Evaluation methods: metrics to evaluate the translation quality and time latency;· Computer Aided Interpretation (CAI): improve the efficiency and quality of human interpreters.参赛对象及要求 Participants and Requirements参赛对象 Participants本次竞赛面向全社会开放,不限年龄、身份、国籍,相关领域的个人、高等院校、科研机构、企业单位、初创团队等均可报名参赛。大赛主办单位中有机会提前接触赛题和数据的人员不得参加比赛,其他员工可以参与比赛排名,但不可领取任何奖项。This competition is opened to the whole society, and has no restriction on age, identity and nationality. Individuals, institutions of higher learning, research institutions, enterprises and start-up teams in related fields can register for this competition. Those who have access to the task and data in advance cannot participate in the competition. Other employees can participate in the ranking of the competition but cannot receive any award.参赛要求 Requirements支持以个人或团队形式参赛,每个参赛队伍人数最多不超过5人,允许跨单位自由组队,但每人只能参加一支队伍。Individual or team participation is supported. The maximum number of participants in each team is 5. Cross-unit team is allowed, but each person can only join one team.了解详情:https://aistudio.baidu.com/aistudio/competition/detail/148/0/introduction
  • [赛事资讯] 【精彩速递】提交倒计时|2022软挑作品提交通道已开启
    【赛事资讯】2022年3月19日-- 3月25日✨【品牌赛事】提交倒计时|2022软挑作品提交通道已开启摘要:第八届华为软件精英挑战赛报名截止到3月24日18:00已结束,3月25日9:00作品提交通道已开启。✨【热门活动】征文活动|AppCube X WeLink双剑合璧玩转轻应用征文活动摘要:WeLink不仅是一款聊天软件。它更是海量办公套件的合集,正所谓WeLink即办公。在这当中,AppCube低代码开发平台办公套件最具特色。只需拖拽、配置,即可轻松构建业务应用,就能实现企业业务的高效率、低成本创新。利用AppCube模板完成开发,部署到WeLink后,写出体验中的思路、创意、经历。或者抛开体验,写出你对低代码与办公协同方面的思考,即有机会获得600元盲盒礼包、华为无线充电器、华为定制礼品等惊喜奖品。✨【直播预告】华为云大咖带你走进华为云应用服务网格ASM摘要:本次直播为华为云云原生入门级开发者认证人才计划活动第6场直播,本直播将由华为云云原生培训工程师叶老师给大家分享应用服务网格ASM与Istio的功能特性和主要应用场景,走进华为云应用服务网格ASM!✨【前沿快讯】华为诺亚视觉团队提出业界领先的多模态事件识别和定位算法EDRNet摘要:视频及短视频逐渐成为大众日常生活中不可或缺的网络应用,仅次于即时通信类软件。相对于文字与图片描述,对于同等信息的获取,用户更加倾向于搜索对应的视频精准瞬间。通过丰富的多模态视频信息对目标内容进行精准的定位是相关产品的核心痛点。✨【技术干货】语音交互服务与应用场景摘要:语音交互服务(Speech Interaction Service,简称SIS)是一种人机交互方式,用户通过实时访问和调用API获取语音交互结果。例如用户通过语音识别功能,将口述音频或者语音文件识别成可编辑的文本,同时也支持通过语音合成功能将文本转换成逼真的语音等提升用户体验。适用场景如语音客服质检、会议记录、语音短消息、有声读物、电话回访等。往期回顾:【赛事资讯】2022年3月18日精彩速递-第八届华为软件精英挑战赛火热报名中,超全FAQ来袭!【赛事资讯】2022年3月11日精彩速递-2022华为大学生无线基站Massive MIMO创新大赛正式开启,快来报名参赛吧!【赛事资讯】2022年3月4日精彩速递-官宣!2022年第八届华为软件精英挑战赛正式启动报名
  • [技术干货] 语音交互服务与应用场景
    一、什么是语音交互服务语音交互服务(Speech Interaction Service,简称SIS)是一种人机交互方式,用户通过实时访问和调用API获取语音交互结果。例如用户通过语音识别功能,将口述音频或者语音文件识别成可编辑的文本,同时也支持通过语音合成功能将文本转换成逼真的语音等提升用户体验。适用场景如语音客服质检、会议记录、语音短消息、有声读物、电话回访等。体验:https://www.huaweicloud.com/ei/experiencespace/sis.html支持的语言支持中文普通话的识别和合成,其中语音识别还支持带方言口音的普通话识别以及方言(四川话、粤语和上海话)的识别。首次使用SIS如果您是首次使用SIS的用户,建议您学习并了解如下信息:功能介绍通过功能介绍章节的内容,了解SIS不同功能的具体介绍,主要包括实时语音识别(Real-time ASR)、一句话识别(Short Sentence Recognition)、录音文件识别(Recording File Recognition)、语音合成(Text To Speech )功能。入门使用SIS以开放API的方式提供给用户,您可以参考《快速入门》学习并使用SIS服务。使用方式如果您是一个开发工程师,熟悉代码编写,想要直接调用SIS的API或SDK使用服务,您可以参考《API参考》或《SDK参考》获取详情。由浅入深学习您可以参考成长地图,由浅入深学习使用SIS。二、语音交互服务12个应用场景语音客服质检识别客服、客户的语音,转换为文本。进一步通过文本检索,检查有没有违规、敏感词、电话号码等信息。会议记录对会议记录的音频文件,进行快速的识别,转化成文字,方便进行会议记录。语音短消息通过语音发送或者接收短消息时,将音频短消息转文字,提升阅读效率和交互体验。游戏娱乐将游戏娱乐中的语音聊天转成文字消息,提升用户阅读效率,提升用户体验。有声读物将书籍、杂志、新闻的文本内容转换成逼真的人声发音,充分解放人们的眼睛,在搭乘地铁、开车、健身等场景下获取信息、享受乐趣。电话回访在客服系统场景中,通过将回访内容转换成人声,直接使用语音和客户交流,提升用户体验。智能教育集成语音合成的教育系统可以实现中文标准朗读及带读,应用于课堂和学生自学,提升教学效率。直播实时字幕将视频直播或现场直播中的音频实时转为字幕,为观众提供更高效的观会体验,方便对直播内容进行监控。会议实时记录将视频或电话会议中的音频实时转为文字,可实时校核、修改及检索转写会议内容,提高会议效率。即时文本录入手机App上实时录音并即时提供转写的文本,例如语音输入法等。人机交互通过语音合成,实现高品质的机器人发声,使得人机交互更加自然。智能客服借助语音合成,联络中心可以用自然的声音与客户互动。
总条数:375 到第
上滑加载中