• [行业资讯] 微软史上第二贵收购案获欧盟批准,欲160亿美元拿下语音巨头Nuance
    12月22日消息,欧盟委员会批准微软收购AI语音和图像识别公司Nuance Communications。这笔交易价值约160亿美元,包括债务约197亿美元。微软在2021年4月12日宣布以197亿美元或每股56美元的价格收购上市公司Nuance Communications,其目标是“加速医疗保健行业的云战略”,当时预计会在2021年底完成收购。当时微软给出了23%的溢价,作为参考,Nuance在12月21日的股价是55.2美元。该收购此前已经在美国和澳大利亚获得了反垄断批准,而这次的欧盟委员会表示“微软和Nuance提供非常不同的产品,交易不会显着减少转录软件、云服务、企业通信服务、PC 操作系统和其他产品市场的竞争。合并后的实体将继续面临来自其他参与者的强大竞争”。不过微软还要过英国反垄断监管机构竞争与市场管理局(CMA)那关,CMA在12月13日表示将调查微软收购Nuance一案,对外征求意见的时间持续到2022年1月10日。这是微软在2016年以260亿美元收购LinkedIn之后,涉及金额最高的收购案。微软本身也是“收购爱好者”,2018年以75亿美元收购GitHub,今年以75亿美元的价格拿下游戏公司B社,21年2月甚至传闻其计划收购市值540亿美元的Pinterest(但失败了),21年3月则传闻其希望以100亿美金收购Discord。图源ReutersNuance Communications的前身是1992年成立的Visioneer,总部在美国马萨诸塞州伯灵顿,业务涉及OCR、语音合成、语音识别、PDF以及技术咨询,其2016营业额为19.49亿美元。在国内,Nuance Communications并没有什么知名度,但可能大家都直接或间接用过它的技术和产品,因为它和苹果Siri也有合作。Nuance的语音识别技术非常有名,多年来一直被苹果、微软视为收购目标。Nuance是医疗的对话式人工智能和环境临床智能的头部供应商,美国77%的医院都有用它的服务,其业务涵盖交互式语音响应 (IVR)、虚拟助手以及数字和生物识别解决方案等领域,Epic、汇丰、Verizon等大量医疗保健、金融服务、电信、零售和美国政府相关企业都是它的客户。Nuance在2005年和ScanSoft(前身是施乐成像系统XIS)合并后,改名 Nuance Communications并化身“收购大师”,从2006到2018年的13年间进行了30多次收购,收购对象主要是语音识别和医学图像/文档/信息相关的公司。来源“雷锋网”作者 | 量衡原文链接 | https://www.leiphone.com/category/healthai/QErNQgTsEwk5WAyZ.html
  • [其他] 语音识别
  • [其他] daka语音识别
  • [热门活动] 【获奖结果公示啦】花样玩转AI语音合成接口赢华为自拍杆、mini小音箱、荣耀手环
    给你个AI语音合成接口,你会玩出什么花样?语音合成,是一种将文本转换成逼真语音的服务。可实时访问和调用API获取语音合成结果,将输入的文字合成为音频。支持音色选择、自定义音量、语速,为企业和个人提供个性化的发音服务即日起至2021年12月31日,体验还有好礼赢取哦奖项&玩法奖励说明简图:如何将文字转语音编码?1.1、点链接>>>访问API Explorer的AI语音合成接口(注意:要登录自己的账号哦,没有账号请注册账号):1.2、在Body里面输入相应参数,点击调试。(将调试成功后的截图(需要漏出账号部分信息)发本论坛评论区,即可获得抽华为自拍杆资格)如何将语音编码转成音频文件?2.1 复制1.2 调试成功的响应体2.2 点开链接>>>访问华为云AI合成音频模板2.3 点击预览代码2.4 用CloudIDE打开2.5 进入CloudIDE双击json文件2.6 将复制2.1复制的响应体粘贴到json文件预置的空数组中(提示:若要拼凑多个转语音编码,可生成多个语音编码的响应体,复制到数组中,用逗号隔开)2.7 点击运行2.8 到Explorer下,选择mp3文件,右键,选择download,即可下载生成音频文件来听啦(也可以将合成的音频文件通过插入音视频的方式分享到评论区来参与评奖哦)以上就是功能用法简略版的介绍了,花样玩法欢迎各位小伙伴大开脑洞,把你的想法或成果分享到本帖评论区,有机会赢迷你音箱或手环哦,也可以参照更详细版的指导手册下方附活动交流&答疑群码,欢迎进群交流~附则:论坛活动通用规则   1)请务必使用个人账号参与活动(IAM、企业账号等账号参与无效)。2)严禁灌水,严禁带有色情、政治、宗教、推广、外链广告内容,严禁抄袭、复制他人内容,一经发现,取消中奖资格。3)请确保您邀请的用户为真实有效的用户,如发现存在恶意注册、恶意邀请等行为(“恶意”是指为获取奖励资格而异常注册账号等破坏活动公平性的行为),我们将取消相关人员获奖资格。同时,将对该账号进行禁言禁止参与社区活动3个月的处罚,行为严重的将对账号进行永久封号。4)获奖用户需在华为云进行实名认证,同一身份信息只能获奖一次。5)对于严重违反活动规则的用户,将纳入社区失信黑名单,取消获奖资格,并做封号处理。6)所有参加本活动的用户,均视为认可并同意遵守《华为云用户协议》《华为云社区运营机制》。其他未尽事宜请参考:1、华为云社区常规活动规则:https://bbs.huaweicloud.com/forum/thread-5766-1-1.html2、所有参加社区活动的开发者用户,均视为认可并同意遵守《华为云开发者用户协议》,包括以援引方式纳入《华为云开发者用户协议》的《可接受的使用政策》、《法律声明》、《隐私政策声明》、相关服务等级协议(SLA),以及华为云服务网站规定的其他协议和政策(统称为“云服务协议”)的约束。云服务协议链接的网址:http://www.huaweicloud.com/declaration/sa_cua.html如您不同意以上活动规则及相关条款,请勿参加论坛相关活动。
  • [问题求助] 【Hilens产品】是否能基于Hilens Kit实现目标检测+语音提醒的功能
    各位老师,麻烦请教一下,如果想在目标检测结束后,基于检测结果去匹配字典中相关的一段文本描述,并使用语音将这段文本朗读出来(比如检测到玫瑰,然后匹配字典中玫瑰的特征描述,并朗读出来),注:假定没有事先录制好的语音可用请问,这种需求是否可以基于HiLens Kit或其他华为端侧产品来实现?或者 是否可以使用Hilens+其他第三方工具  来实现,或 有没有其他推荐的可行方案?谢谢!
  • [技术干货] XXX公司中文语音识别相关依赖的安装指导——ffmpeg的安装
    XXXX公司在北京鲲鹏测试适配遇到的问题和解决方法安装相关依赖apt-get install build-essential libgtk2.0-dev libavcodec-dev libavformat-dev libjpeg-dev libtiff5-dev git cmake libswscale-dev pkg-config -y检查安装是否成功: 安装ffmpeg步骤一:创建文件夹,用于存放编译后的文件mkdir -p /home/HwHiAiUser/ascend_ddk/arm 步骤二:下载ffmpegwget http://www.ffmpeg.org/releases/ffmpeg-4.1.3.tar.gz --no-check-certificatetar -zxvf ffmpeg-4.1.3.tar.gzcd ffmpeg-4.1.3 步骤三:安装ffmpeg./configure --enable-shared \--enable-pic \--enable-static --disable-x86asm \--prefix=/home/HwHiAiUser/ascend_ddk/armmake -j8make install  配置ffmpeg环境变量步骤一:配置profile系统文件,在末尾添加环境变量:vim /etc/profileexport PATH=$PATH:/home/HwHiAiUser/ascend_ddk/arm/bin步骤二:使配置文件生效source /etc/profile步骤三:使opencv能找到ffmpegcp /home/HwHiAiUser/ascend_ddk/arm/lib/pkgconfig/* /usr/share/pkgconfig完成 
  • [问题求助] Hilens是否支持语音朗读
    摄像一个口罩识别场景,假如识别到未戴口罩人员,想使用语音播报的方式加以提醒。问题如下:1. Hilens是否可以针对识别结果,将特定纯文本朗读为语音?2. 如果1不成立,是否可以播放事先录制好的音频?音频文件实现copy到Hilens中,还是调用云端文件? 如果是云端文件,需要再obs中?3.  Hilens kit本身采集视频时是否同步采集了音频?4. 是否可以通过HDMI在视频输出的同时同步输出音频?还是只能通过3.5mm音频输出接口输出来输出音频?5. HDMI有自己内置的音频播放器吗?还是必须输出到外置播放器。问题有点多,谢谢!
  • [问题求助] 谁有已商用的车载终端,求报价,简单说就是个GPS定位的4G/NB-iot 音响 ,
    谁有已商用的车载终端,求报价,1 接收服务端通知,根据通知内容播报语音文件2 定时上报位置数据3 支持在线更新语音文件4 支持根据文本内容动态合成语音并播放(弱网环境)简单说就是个可以定位的4G/NB-iot 音响 ,
  • [行业资讯] 老黄真成数字人,英伟达“元宇宙”格局打开
    什么是最伟大的?”“最伟大的是那些善待他人的人。”在英伟达 GTC 2021 大会上,黄仁勋的开幕演讲以一段极具哲学性和未来感的对话画上句号。回答者不是黄仁勋本人,而是以黄仁勋为原型的对话式虚拟形象——Toy Jensen。黄仁勋在开幕演讲中介绍,这一虚拟形象是基于目前训练的最大自然语言处理模型和光线追踪的精美图像而合成实时形象。“有了最近才实现的一些惊人技术,Toy-me 得以打造而成,而这些技术在以前看来几乎都是不可能实现的。”Toy Jensen 的呈现,透露了英伟达的元宇宙愿景,此外,按照惯例,英伟达还在此次GTC上推出了一系列AI技术与产品:目前为止最先进的端到端的网络平台 Quantum-2,多节点分布式推理功能的 NVIDIA Triton 推理服务器,NVIDIA A2 Tensor Core GPU加速器,全球最小、功能最强大、能效最高的下一代超级计算机NVIDIA Jetson AGX Orin 等系列产品等等。Omniverse 更新升级,加速 2D 互联网向 3D 演变在去年的 GTC 大会上,英伟达宣布推出 Omniverse,并介绍其为世界上第一个基于英伟达 RTX 的三维仿真和协作平台,融合了物理和虚拟世界,实时模拟现实并具有真实感的细节,无论是艺术家还是人工智能,都能够在不同世界使用不同的工具,共同创造一个全新的世界。经历近一年的发展,已经有 70000 多名创作者下载,500 多家公司的专业人士使用 Omniverse 公测版,宝马集团、CannonDesign、Epigraph、Ericsson、建筑公司 HKS 和 KPF、Lockheed Martin 以及 Sony Pictures Animation 都包括在内。其中,Ericsson 正在使用 Omniverse 平台创建数字孪生,模拟和可视化信号传播,以加速 5G 网络的功能开发和洞察。与此同时,Omniverse 本身也随之更新升级。Omniverse Avatar 是英伟达推出的一个能够用于生成交互式 AI 虚拟化身的技术平台,连接英伟达语音 AI、计算机视觉、自然语言理解、推荐引擎和模拟方面技术,即将 Metropolis 的感知能力、Riva 的语音识别能力、Merlin 的推荐能力、Omniverse 的动画渲染能力等交汇于一体。其中,NVIDIA Riva 语音 AI 软件新增了一项 Riva 定制语音功能,只需要 30 分钟的音频数据,就能在一天之内打造类似真人的定制语音,几乎类似于科幻爱情电影《她》中的萨曼莎,拥有斯嘉丽的迷人声线,且拥有超强的学习能力。落地到具体应用中,企业可以使用 Riva 定制语音打造专属语音的虚拟助理,开发具有辨识度的品牌语音,开发者也可以借助其创建各种各样的应用程序,为有语言障碍的人提供支持。基于 Omniverse Avatar 这一平台,原本处于 2D 状态的虚拟助手就有能力变成一个拥有常识、推理能力和生动的 3D 视觉形象,理解多种语言,且在同人类的交流中给出更加智能的回答。正如在直播中看到的那样,当英伟达的 3 位工作人员分别向 Toy Jensen 提出有关气候变化、天文学以及生物蛋白质等棘手的问题时,这个小家伙都能对答如流。再者,英伟达演示了基于对话操作台 Tokkio 基于 Omniverse Avatar 平台的应用程序,当餐厅有两位顾客同时点餐时,客户服务的虚拟化身能够同顾客进行眼神交流,并根据两位顾客的用餐需求给出推荐菜单。而 Omniverse 本身,也更新了4大功能,包括 Showroom、Farm、AR和VR。其中,Showroom 作为 Omniverse 公测版中的应用程序提供,允许非技术用户使用 Omniverse 技术演示,展示平台的实时物理和渲染技术;Farm 允许团队同时使用多个工作站或服务器,为渲染、合成数据生成或文件转换等任务提供支持;VR 推出领先的完全图像、光线追踪 VR,支持开发者在平台上构建自己的 VR 功能,最终用户可以直接享受 VR 功能;AR 同理。另外,英伟达还宣布 Omniverse Enterprise 已进入正式发布阶段。它允许跨多个软件套件工作的全球 3D 设计团队在共享虚拟空间中通过任意设备实时协作。Omniverse 的生态系统正在不断扩展。最新 Triton 推理服务器,助力实时大型语言模型开发与部署构建交流如此自如的 Toy Jensen,同样离不开强大的自然语言处理模型,其背后的技术逻辑也在此次大会上得以展现。英伟达推出了为训练具有数万亿参数的语言模型而优化的 NVIDIA NeMo Megatron 框架,为新领域和语言进行训练的可定制大型语言模型(LLM)Megatron 530B 以及具有多 GPU、多节点分布式推理能力的 NVIDIA Triton 推理服务器。而基于这些工具,不仅仅能构建 Toy Jensen,企业也可以建立自己的、特定领域的聊天机器人、个人助理以及其他 AI 应用程序,高水平理解语言中细微的差别。NVIDIA NeMo Megatron 是在 Megatron 的基础上发展起来的开源项目,由 NVIDIA 研究人员主导,研究大型转换语言模型的高效训练。Megatron 530B 是世界上最大的可定制语言模型。NeMo Megatron 框架经过优化,可以在 NVIDIA DGX SuperPOD 的大规模加速计算基础设施上进行扩展。有了大型语音模型,如何存储和运行呢?尤其是这些模型对内存的需求极大,超过单个 GPU 甚至是多个GPU 服务器所能够提供给的内存,且在实际应用中对推理实时性要求较高。NVIDIA Triton 推理服务器的出现解决这一问题,英伟达在此次大会上发布的最新 NVIDIA Triton 具有多 GPU、多节点特性,使大型语言模型推理工作负载能够实时在多个 GPU 和节点上扩展。借助 Triton 推理服务器,Megatron 530B 能在两个 NVIDIA DGX 系统上运行,将处理时间从 CPU 服务器上的 1 分钟以上缩短到 0.5 秒,令实时部署部署大型语言模型成为可能。事实上已经有不少企业在使用 NVIDIA DGX SuperPOD 构建大型复杂语言模型,SiDi、京东探索研究院和VinBrai都包括在内。其他AI新进展:Quantum-2 和 Jentson AGX Orin展望元宇宙的英伟达,在其他产品线方面也保持着持续更新。首先是推出了可进行云原生超级计算的 Quantum-2 平台,即 400Gbps 的 InfiniBand 网络平台,包括 NVIDIA Quantum-2 交换机、ConnectX-7 网卡、BlueField-3 数据处理器 DPU(数据处理器)和所有支持这种新架构的软件。这也是迄今为止最先进的端到端网络平台。ConnectX-7 将于明年1月问世。其中,Quantum-2 InfiniBand 交换机基于新的 Quantum-2 ASIC,采用台积电 7nm 节点,包含 570 亿个晶体管,超过有 540 亿晶体管的 A100 GPU。Quantum-2 InfiniBand 拥有 400Gbps 的高吞吐量,将网络速度提高 1 倍,网络端口数量增加了 3 倍。它在性能提升 3 倍的同时,还将对数据中心网络所需的交换机数量减少了 6 倍,于此同时,数据中心的能耗和空间各减少了 7%。另外,全球最小、功能强大、能效最高的新一代 AI 超级计算机 NVIDIA Jetson AGX Orin,算力高达 200TOPS ,用于机器人、自主机器、医疗器械和其他形式的边缘嵌入式计算。Jetson AGX Orin 基于 NVIDIA Ampere 架构,与其前身 Jetson AGX  Xavier 保持外形和引脚兼容性一直,不过处理能力扩大至 6 倍,每秒可提供 200 万亿次操作,它类似于支持 GPU 的服务器,但大小仅相当于人的手掌。新的 Jetson 计算机可加速完整的 NVIDIA AI 软件栈,使开发人员能够部署最大、最复杂的模型,以解决自然语言理解、3D 感知、多传感器融合等边缘 AI 和机器人任务。小结上周,英伟达市值突破7000亿美元,不少分析师称其市值上涨的背后,是元宇宙在助力,此次GT C大会上表现也确实证明,英伟达以其Omniverse平台为基础,构建了一个元宇宙愿景。不过,不要忘了,英伟达依然是一家在AI和高性能计算领域有深厚积累的科技公司,除了火热的元宇宙外,此次大会期间,也将有更多有关加速计算、深度学习领域的内容呈现。来源“雷锋网”作者 | 吴优原文链接 | https://www.leiphone.com/category/chips/1cn5sCMXQiazIZ7t.html
  • [热门活动] 华为云AI论文精读会2021第二十二期:可变长度的语音片段情感识别解读分享
    2021年11月3日上午10:00,举行华为云AI论文精读会2021第二十二期:可变长度的语音片段情感识别解读分享。本期邀请到的嘉宾是:陈城鑫,中国科学院大学信号和信息处理专业博士研究生,研究方向为多模态情感识别和语音交互。本次论文精读的领域是NLP领域,感兴趣的小伙伴点击下方的链接一起观看学习吧~华为云AI论文精读会致力于让更多人低门槛使用经典算法,助力AI开发者基于ModelArts,实现高效率论文复现和挑战!本期视频:算法链接:https://marketplace.huaweicloud.com/markets/aihub/modelhub/detail/?id=302dce12-f205-482e-a955-4a84193ae7fb华为云AI论文精读会2021·论文算法实战赛报名地址:https://competition.huaweicloud.com/information/1000041393/introduction
  • [其他] ModelArts语音内容标注
    > 由于模型训练过程需要大量有标签的视频数据,因此在模型训练之前需对没有标签的视频添加标签。通过ModelArts您可对视频添加标签,快速完成对视频的标注操作,也可以对已标注视频修改或删除标签进行重新标注。登录ModelArts管理控制台,在左侧菜单栏中选择数据管理> 数据标注,进入数据标注管理页面。在数据集列表中,基于标注类型选择需要进行标 --- 由于模型训练过程需要大量有标签的音频数据,因此在模型训练之前需对没有标签的音频添加标签。通过ModelArts您可对音频进行一键式批量添加标签,快速完成对音频的标注操作,也可以对已标注音频修改或删除标签进行重新标注。 #### 开始标注 1. 登录ModelArts管理控制台,在左侧菜单栏中选择“数据管理> 数据标注”,进入“数据标注”管理页面。 2. 在数据集列表中,基于“标注类型”选择需要进行标注的数据集,单击标注作业名称进入标注作业标注详情页。 3. 在标注作业标注详情中,展示此标注作业下全部数据。 #### 同步新数据 ModelArts会自动将数据集中新增的数据同步至标注作业,包含数据及当前标注作业支持的标注信息。 为了快速获取数据集中最新数据,可在标注作业详情页的“未标注”页签中,单击“同步新数据”,快速将数据集中的数据添加到标注作业中。 #### 标注音频 标注作业详情页中,展示了此数据集中“未标注”和“已标注”的音频,默认显示“未标注”的音频列表。 1. 在“未标注”页签左侧音频列表中,单击目标音频文件,在右侧的区域中出现音频,单击音频下方![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202110/31/224948htl5wocub603hvfj.png) ,即可进行音频播放。 2. 根据播放内容,在下方“语音内容”文本框中填写音频内容。 3. 输入内容后单击下方的“确认标注”按钮完成标注。音频将被自动移动至“已标注”页签。 **图1** 语音内容音频标注 ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202110/31/2250003rtqrxtlrplj8zl1.png) #### 查看已标注音频 在标注作业详情页,单击“已标注”页签,您可以查看已完成标注的音频列表。单击音频,可在右侧的“语音内容”文本框中了解当前音频的内容信息。 #### 修改标注 当数据完成标注后,您还可以进入“已标注”页签,对已标注的数据进行修改。 在标注作业详情页,单击“已标注”页签,然后在音频列表中选中待修改的音频。在右侧标签信息区域中修改“语音内容”文本框中的内容,单击下方的“确认标注”按钮完成修改。 #### 添加音频 除了同步新数据外,您还可以在标注详情页面中,直接添加数据,用于数据标注。 1. 在标注作业详情页面,单击“未标注”页签,然后单击左上角“添加数据”。 2. 在弹出的导入对话框中,选择数据来源、导入方式、导入路径等参数,导入数据。单击确定。 **图2** 导入数据 ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202110/31/225024gvwzrlhkfh6luuh5.png) #### 删除音频 通过数据删除操作,可将需要丢弃的音频数据快速删除。 在“未标注”或“已标注”页面中,选中需要删除的音频,然后单击左上角“删除音频”,在弹出的对话框中,根据实际情况选择是否勾选“同时删除源文件”,确认信息无误后,单击“确定”完成音频删除操作。 说明: 如果勾选了“同时删除源文件”,删除音频操作是将删除对应OBS目录下存储的音频。此操作可能会影响已使用此源文件的其他数据集或数据集版本,有可能导致展示异常或训练/推理异常。删除后,数据将无法恢复,请谨慎操作。
  • [问题求助] ivs1800 语音对讲问题
    【功能模块】ivs1800 语音对讲【操作步骤&问题现象】1、通过接口获取对讲的rtspURL,然后发送语音rtp流,设备不出声音【截图信息】设备返回的SDP信息如下:v=0o=06110883200732460101 1635421407 1635421407 IN IP4 192.168.84.145s=Playi=Play to Puu=rtsp://192.168.84.145:0/43c62e3637e411ec800010c3abfd5918.sdpc=IN IP4 192.168.84.145t=0 0m=audio 20048 RTP/AVP 8a=rtpmap:8 PCMA/8000a=control:trackID=2a=sendrecvRTSP交互成功后,往554 tcp端口传语音rtp流,设备不出声音改用UDP 方式,往设备的20048 端口传语音rtp流,设备好不出声音请问sdp中的”m=audio 20048 RTP/AVP 8“是不是表示要通过udp 20048端口送音频数据?RTSP交互中SETUP的应答消息中没有SSRC,如下:RTSP/1.0 200 OKCSeq: 3Session: 43c5a7a437e411ec800010c3abfd5918Date: Thu Oct 28 11:43:27 2021 GMTServer: HUAWEI MDU/R002C02Transport: RTP/AVP/TCP;interleaved=0-1【日志信息】(可选,上传日志内容或者附件)
  • [技术干货] 人机交互进化论:从语音助手到 “虚拟人”,谁才是引领者?
    导语:以智能手机为载体,人机交互正随着技术的发展突破不断进化。作者 | 肖漫编辑 | 李帅飞2007 年 1 月 9 日,当初代 iPhone 横空出世的时候,踌躇满志的乔布斯在演讲台上非常明确地指出:无论是Mac、iPod 还是 iPhone,它们的革命性创新都体现在人机交互方式的进化。此后,以智能手机为载体,人机交互随着技术的发展突破不断进化。比如说,在移动互联网和人工智能的融合发展浪潮中,以苹果 Siri、Google Assistant 为代表的智能语音助手成为一时之风尚,它们在触控之外,开启了一种新的交互方式——也就是更加符合人类交流方式的语音对话。这种交互方式在诞生后数年,就快速覆盖了整个行业。然而,语音助手并不是终点,人们依旧在人机交互层面寻求面向未来的进一步突破。尤其是当下,iPhone 已诞生将近 15 年,AI/AR/VR/数字媒体等技术得到飞速发展,元宇宙概念也勃然兴起。值此技术飞速变革之际,一个值得深思的问题已经摆在整个行业面前:语音助手逐渐走向普及之后,人机交互方式又该朝向什么样的方式进化?当然,这是一个需要整个行业通过实践来给出答案的问题——而在诸多答题者中,让雷锋网眼前一亮的,是凭借自身 AI 实力来践行自身对未来人机交互大方向思考的 OPPO。截至今年 8 月,ColorOS 全球月活跃用户达到了 4.6 亿,庞大的用户服务需要强大的技术能力,尤其是 AI 能力的支持。那么,OPPO 支撑全球超过 4.6 亿用户的 AI 服务是如何构建的呢?多模态交互的 "虚拟人",为什么是未来?对于人机交互的未来,真正能够代表 OPPO 自身思考和选择的,是它旗下小布助手在近日 OPPO 开发者大会上的一次重要进化。简单来说,就是将 OPPO 小布助手从以往基于语音交互的智能辅助工具形态,进化为基于虚拟人多模态交互的智能助手形态,从而将人与智能助手之间的交互演化为人与虚拟人之间的交互。这不难让人理解——毕竟,基于多模态交互的 “虚拟人”,已经成为当前人机交互探索发展的新方向,也成为整个行业参与者的共同选择。比如说,在今年 6 月,中国首个原创虚拟学生 “华智冰” 的身份以本科生的身份进入到清华大学;而设计虚拟学生 “华智冰” 的初衷,是希望她最终能像人一样思考,像人一样不断学习,理解人的想法,主动产生符合用户需求的互动,直观、全面地捕捉人类的需求——当然,“华智冰” 诞生的背后,体现的正是多模态交互的成果。除了入学,“虚拟人” 也已经在互联网上 C 位站台。比如说在 9 月份,小红书同时入驻了 20+ 虚拟偶像,她们化身潮流情报官,首发试穿诸多潮流品牌的新品,演绎不一样的潮流魅力……前不久,虚拟人 AYAYI 也成为了天猫超级品牌数字主理人,并且开了个天猫双 11 元宇宙艺术展,有趣的是,华为在今年 HDC 开发者大会上首次采用数字人全程实时手语直播。当然,放眼整个社会生活空间,“虚拟人” 的角色更是无缝融入其中。比如说,新华社和腾讯联合打造了专门面向航天主题和场景研发的数字航天员、数字记者“小诤”;日本原宿风少女数字人 imma,在 9 月初还登上了东京残奥会的闭幕式;浦发银行和百度共同发布了数字员工“小浦”;湖南卫视宣布推出了首个数字主持人小漾,而江苏卫视则直接开播了一档宣传虚拟偶像的节目《2060》……可以看到,伴随着当前人工智能、虚拟现实等数字媒体技术的不断发展,基于多模态交互的虚拟人已经从互联网和数字世界走向人类的实际社会场景,并且这已经成为大趋势——甚至有观点认为,虚拟人将会成为未来人机交互的基础模态。正是在这样一个大背景下,OPPO 也在洞察到人机交互发展大势的基础上,不失时机地实现了小布助手从语音助手到“虚拟人”的新一轮进化。OPPO 小布助手变身,同时开放 “虚拟人” 定制小布助手是国内首个月活用户数破亿的手机语音助手,当前月活已经达到 1.3 亿,是 OPPO AI应用的集中体现。作为最早以智能手机为载体的人工智能助手,小布以语音交互为主体,覆盖了 OPPO 系多个手机品牌,在后来发展过程中,它又被逐渐应用于智能手机、电视等多个品类智能终端设备。自 2018 年诞生以来,小布助手经历了多次升级,不断在功能和体验上推陈出新。 本次 OPPO 开发者大会上,OPPO 方面宣布,小布助手已经正式从纯粹的语音助手升级为多模态的智能助手,包含语音、建议、指令、识屏和扫一扫五大能力模块。多模态的需求,是智能时代智能助手的关键特征,智能助手需要兼容不同的软硬件智能场景,引入更多的AI能力,并且将它们紧密地与原有的 AI 能力结合在一起,形成综合的AI能力。今年 9 月上线的“小布虚拟人”, 也是智能助手多模态交互形态的重要呈现。作为业界首个基于虚拟人多模态交互的手机智能助手,小布虚拟人打破了交互次元方式,将人与智能助手之间的交互,演化为人与虚拟人之间的交互。据悉,在破次元人机交互的探索中,“小布虚拟人”可以实现与用户在多个场景生态下的内容服务、实时交互以及情感化交互,其首期上线的拟人化播报新闻和天气等功能便是直接体现;目前这一功能已覆盖 OPPO Reno5/6、Find X3 系列机型。同时,小布虚拟人融合了语音、语义和视觉多模态交互技术,能够提供自然流畅的虚拟数字技术交互体验。在多模态情感识别算法的加持下,小布虚拟人可以敏锐捕捉用户情绪特征,打造与用户之间的多维情感畅联。令人关注的是,OPPO 以小布助手为入口,开放了小布生态。每一位开发者都能够定制专属的小布虚拟人。它们可以拥有不同的声音、形象、性格、技能以及服务,化身为不同的角色,例如智能客服、虚拟助手、带货主播等,并搭载在多个智能终端设备上。OPPO 此番动作,不仅是赋能开发者在人机交互层面实现 "虚拟人" 的进化,从而进一步融入到整个行业的 "虚拟人" 发展大势中。究其本质,是为了面向用户提供更加智能化、个性化和自然真实的交互体验。小布变身的 “魔法弹药” ,不仅仅是 AI如果说小布的进化是一次变身,那么 AI 技术可以说是这一变身背后的核心 "魔法弹药"。实际上,“万丈高楼平地起”,无论是小布助手的蜕变升级,还是 OPPO 为开发者构建的开放平台生态,都是以 OPPO 全栈式 AI 技术生态能力为底座——毕竟,而唯有底座稳健,高楼才能拔地而起。从 OPPO 在 AI 上的投注来看,其在 AI 上的布局是具备规划、结合点面的长线思维。其中,AI 框架是 OPPO 整体 AI 能力的重点,也是其 AI 实力的一大体现。为了构建这一 AI 框架,OPPO 花了相当大的精力成本打造出 OPPO 全栈式 AI 技术生态,据了解,这一 AI 技术生态由 6 个部分组成,主要包括:计算、网络、中间件和数据库的混合云基础设施层;面向海量跨系统数据进行存储与处理的云原生数据湖层;端侧推理、模型压缩、大规模训练、AutoML 的端云一体机器学习系统;语音、NLP、知识图谱、CV、推荐搜索等基础能力的 AI 能力层;跨终端、多场景落地的业务应用层;为企业提供安全可信的 AI 安全能力层;众所周知,机器学习需要大量的数据计算和验证。OPPO当前已经进入全球50多个国家, ColorOS 月活跃用户达到了4.6亿,庞大的用户基数也为其全栈式 AI 技术生态累积了海量数据和计算资源。以季度为单位,视频云调用超过 4.2 亿次,新增照片超过 300 亿;大数据每日新增超过 10PB,合云基础设施覆盖全球八大区域。从机器学习系统来看,OPPO 全栈式 AI 技术生态提供了端侧和云侧两大部分——其中,位于端侧的端侧算法引擎、加速框架和模型雅座提供低延时的高效相应;云侧则是将上传到云端的端侧数据进行大规模训练和推理,从而反过来优化端侧算法。在海量数据和出色的算法、算力加持下,OPPO AI 不断在业内获得认可,其基于知识的大规模预训练,包括上下文理解、短文本相似度等语音语义的多项指标多次登顶行业权威评测。不仅如此,在世界顶级的计算机视觉会议 CVPR 上,OPPO 在 2020 年和 2021 年分别取得了极端超分辨率感知第一、手持设备视觉定位第一和多目标行为分析少样本分类第一的成绩。另外,从 AI 能力来看,OPPO AI 具备了语音、NLP、知识图谱、CV、推荐搜索等基础能力,其端到端生成式对话模型的人工评测满意度已超过了 85%,属于行业较高水平;而这一成果已应用在小布生成式闲聊的业务场景中。在具备强大的 AI 能力之外,安全性也是不可忽视的重要一环。雷锋网(公众号:雷锋网)了解到,OPPO AI 安全技术从应用检测、恶意防护到攻击对抗等各个方面提供了全方位的安全保障。官方数据显示,在应用检测上,累计检测 APP 超过 53 万,发现恶意 APP 超过 1 万款,浏览器每天拦截恶意下载逾300 万条,并拥有超过 15 万条隐私政策;在恶意防护上,为用户过滤恶意行为超过 1140 亿次,封禁恶意账号 280 万个。不难看出,OPPO 全栈式 AI 技术生态是 OPPO  AI 关键能力和技术优势的落地实践,为 OPPO 海量的 AI 服务提供了夯实的架构基础、更高的资源利用效率以及安全可信的隐私保障。当然,仅仅有 AI 技术能力并不够。OPPO 希望打造的 AI 生态在具备智慧之外,更重要的是有人性、有温度。因此,针对都市人群心理问题,OPPO 发布了 “AI 升温计划”,每天为超过200万人提供暖心陪伴;同时,针对手机适老化,OPPO 打造了小布助手关怀版,已经改善了 700 万老年用户的手机使用体验;针对传统文化传承,OPPO 还联合音乐人阿朵共同推出了“我是民乐守艺人”活动,全网曝光量超过 28 亿,以科技创新的形式带动民乐的传承推广。当然,在雷锋网看来,OPPO 小布助手的进化,在根本层面反映的是 OPPO 对于 AI 等基础技术的大力投入和持续积累,对于行业新概念、新趋势的积极拥抱和不断探索——但更重要的是,基于对未来人机交互形态的不断探寻,反映了 OPPO 对于每一个普通用户的实际产品体验的极端重视。从某种程度上来看,无论是语音助手,还是 “虚拟人”,真正优秀的设备使用体验,必然是建立在对用户本身的深入理解和感知之上,并且要同时用技术的力量和人文的视角将这种理解和感知体现在具体好用的软硬件产品之上,才能够直抵用户的真正需求。这也是每一个真正面向消费者的科技公司,都应该如同乔布斯一样站在科技和人文的交叉口的原因。毕竟,科技以人为本。来源“雷锋网”作者 | 肖漫编辑 | 李帅飞原文链接 | https://www.leiphone.com/category/iot/RLfMpruK0Zi1Peg2.html
  • [问题求助] 有没有识别语音中情绪的开源代码
    毕设想咨询一个问题。现在有没有识别语音中情绪的开源的技术,或者应该去哪里找?
  • [MindX SDK] sdk-中文语音理解样例
    # 1 前言 目前昇腾官网已经开放多种场景的sdk样例,但是由于部分样例是由高校开发,萌新小白可能对其案例文档存在疑惑。因此本文对中文语音理解案例做进一步介绍。针对初次接触sdk的朋友,可以先看视频[《华为云学院:MindX SDK四步快速入门》](https://education.huaweicloud.com/courses/course-v1:HuaweiX+CBUCNXA042+Self-paced/courseware/0647484a22814662811d565ea3959abe/644c61216d074e918502ff9269b0d4e6/)。若对图像处理相关案例感兴趣的朋友,可以参考[《sdk+yolov5案例》](https://bbs.huaweicloud.com/forum/thread-118598-1-1.html)。 # 2 环境要求 以x86架构Atlas800-3010环境为例,所用昇腾软件栈如下表所示,以此软件栈编译所得的软件包也可以在Atlas500-pro、Atlas500和Atlas200上运行。arm架构可如法刨制 表2-1 相关环境 | 软件 | 版本 | 说明 | |----|----|----| | mxVision | 2.0.2 | 昇腾社区sdk最新版本| | cann | 3.3.0 | 昇腾社区cann商用版3.3.0(5.0.1)| | npu驱动固件 | 3.3.0 | 昇腾社区cann商用版3.3.0(5.0.1)| |python| 3.7.5 | | |numpy|1.18.2| | |librosa|0.8.0|| 请通过pip3 install安装相关的python库,普通用户需要加上--user # 3 样例介绍 中文语音理解样例可以在[sdk样例仓](https://gitee.com/ascend/mindxsdk-referenceapps/tree/master/contrib/ASR&KWR/AutoSpeechRecognition#https://pan.baidu.com/s/1AvJ1m_olBqvIOKoxKbt3aA)中下载。样例基于MindX SDK实现了端到端的自动语音识别(Automatic speech recognition, ASR)。 ASR主要分为两个步骤: 1. 将语音转换成对应的拼音 1. 将拼音转换成对应的文字 对于第一步将语音转换为对应的拼音的声学模型用的模型是Google在2020年提出的Conformer模型:[Convolution-augmented Transformer for Speech Recognition](https://arxiv.org/pdf/2005.08100.pdf); 对于第二步语言模型采用的是transformer模型。 ## 3.1 模型转化 gitee中提供了pb模型以及om模型。当前使用atc+pb模型得到的om模型存在问题,而直接使用gitee中的om模型是可以运行成功。建议各位直接下载om模型。 ## 3.2 查看脚本 脚本run.sh中代码如下,需要根据实际情况设置MX_SDK_HOME以及LD_LIBRARY_PATH中ascend-toolkit的动态库路径 ``` set -e # Simple log helper functions info() { echo -e "\033[1;34m[INFO ][MxStream] $1\033[1;37m" ; } warn() { echo >&2 -e "\033[1;31m[WARN ][MxStream] $1\033[1;37m" ; } export LD_LIBRARY_PATH=${MX_SDK_HOME}/lib:${MX_SDK_HOME}/opensource/lib:${MX_SDK_HOME}/opensource/lib64:/usr/local/Ascend/ascend-toolkit/latest/acllib/lib64:${LD_LIBRARY_PATH} export GST_PLUGIN_SCANNER=${MX_SDK_HOME}/opensource/libexec/gstreamer-1.0/gst-plugin-scanner export GST_PLUGIN_PATH=${MX_SDK_HOME}/opensource/lib/gstreamer-1.0:${MX_SDK_HOME}/lib/plugins #to set PYTHONPATH, import the StreamManagerApi.py export PYTHONPATH=$PYTHONPATH:${MX_SDK_HOME}/python python3.7 main.py exit 0 ``` ## 3.3 运行脚本 ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202110/25/112038ft6hbc2zetzwlyqn.png) # 4细节介绍 通过第三步,获得wav文件对应的文本结果。下面进一步分析案例细节内容 ## 4.1 conformer模型 conformer结合了cnn获取局部信息能力,以及self-attention获取文本整体内容的能力,是一个end-to-end的语音理解模型。 从下图中可以看到,Conformer Block结构前后为FFN模块,中间夹着MHSA和Convolution Block,类似一个三明治模型。同时还有残差连接。 ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202110/25/112929qllmsyqjhdptiwvf.png) 对应tf代码见[conformerBlock](https://github.com/Z-yq/TensorflowASR/blob/bcc99541d0a55ecf37e888068acc673a07b3dcaa/AMmodel/conformer_blocks.py#L237) ## 4.2 pipeline与main 案例有两步推理,wav数据经过预处理后得到张量数据,数据进入am模型得到文本特征,再进入lm模型得到结果文本。因此,可以使用mxpi_tensorinfer插件进行推理 ### 4.2.1 pipeline内容 整个插件内容如下(使用时需要将删除注释与多余空格) ``` { "speech_recognition": { "stream_config": { "deviceId": "3" # 设置npu设备号 }, "appsrc0": { "props": { "blocksize": "320324" }, "factory": "appsrc", # 数据入口,从main.py中传送预处理后的数据 "next": "mxpi_tensorinfer0" }, "mxpi_tensorinfer0": { "props": { "dataSource": "appsrc0", "modelPath": "model/am_conform_batch_one.om" # 推理得到文本特征 }, "factory": "mxpi_tensorinfer", "next": "mxpi_tensorinfer1" }, "mxpi_tensorinfer1": { "props": { "dataSource": "mxpi_tensorinfer0", "modelPath": "model/lm_transform_batch_one.om" # 得到最终结果 }, "factory": "mxpi_tensorinfer", "next": "mxpi_dataserialize0" }, "mxpi_dataserialize0": { "props": { "outputDataKeys": "mxpi_tensorinfer1" }, "factory": "mxpi_dataserialize", "next": "appsink0" }, "appsink0": { "factory": "appsink" } } } ``` ### 4.2.2 main.py 1. 初始化流管理器,加载pipeline。 1. 由于模型直接输入张量数据,因此使用sendprotobuf与getprotobuf接口进行数据发送与接收。 1. 接受模型输出张量,进行后处理得到文本。 #### 张量数据结构定义 ``` # 创建MxpiTensorPackageList,由于传入的是张量数据,而不是图片数据,因此可以用此接口 mxpi_tensor_package_list = MxpiDataType.MxpiTensorPackageList() tensor_package_vec = mxpi_tensor_package_list.tensorPackageVec.add() # 固定写法,插入tensorPackageVec # 固定写法,往packageVec中插入tensorVec,tensorVec为内置结构体 # 详情见(MxpiTensor):https://support.huawei.com/enterprise/zh/doc/EDOC1100207070/d71c9c39 tensorVec = tensor_package_vec.tensorVec.add() tensorVec.memType = 1 tensorVec.deviceId = 0 tensorVec.tensorDataSize = int(feat_data.shape[1]*feat_data.shape[2]*4) tensorVec.tensorDataType = 0 # float32 for i in feat_data.shape: tensorVec.tensorShape.append(i) tensorVec.dataStr = feat_data.tobytes() # 插入第二个输入。此模型需要2个输入。同样是往tensor package vec中插入tensor vec tensorVec2 = tensor_package_vec.tensorVec.add() tensorVec2.memType = 1 tensorVec2.deviceId = 0 tensorVec2.tensorDataSize = int(4) # bytes of length data. tensorVec2.tensorDataType = 3 # int32 for i in len_data.shape: tensorVec2.tensorShape.append(i) tensorVec2.dataStr = len_data.tobytes() ``` #### protobuf结构定义 ``` protobuf_vec = InProtobufVector() # 创建protobufVec,保存所有protobuf # 创建每一个protobuf,并插入protobufVec中 protobuf = MxProtobufIn() protobuf.key = b'appsrc0' # pipeline中通过appsrc0接受数据,因此这里写appsrc0在,注意需要二进制类型字符串 # 数据类型为tensorPackageList,这里需要与前面定义的对应起来 protobuf.type = b'MxTools.MxpiTensorPackageList' protobuf.protobuf = mxpi_tensor_package_list.SerializeToString() # 固定写法 protobuf_vec.push_back(protobuf) ``` #### 发送数据 ``` unique_id = stream_manager.SendProtobuf(stream_name, in_plugin_id, protobuf_vec) ``` #### 接受推理结果 ``` key_vec = StringVector() key_vec.push_back(b'mxpi_tensorinfer1') # 需要第二个模型输出结果,因此写mxpi_tensorinfer1 infer_result = stream_manager.GetProtobuf(stream_name, in_plugin_id, key_vec) # getProtobuf接口获取protobuf结构体 ``` #### 解析protobuf ``` # 错误检验代码略 # 模型输出个数对应infer_result长度,(这里为1个输出,yolov3则为3个) print("key:" + str(infer_result[0].messageName)) # 发送的是MxpiTensorPackageList类型,接受的也是同样类型 result = MxpiDataType.MxpiTensorPackageList() result.ParseFromString(infer_result[0].messageBuf) # 固定写法,解析获得messageBuf # 由于定义输入的流程为MxpiTensorPackageList->tensorPackageVec->tensorVec(dataStr保存数据) # 因此解析如下。ids即为模型输出的张量结果 ids = np.frombuffer(result.tensorPackageVec[0].tensorVec[0].dataStr, dtype=np.int32) ``` # 5 华为云环境
总条数:418 到第
上滑加载中