语音通话 VoiceCall_标签_开发者

博客(300)
视频(7)
论坛(375)
云声(15)
代码示例(0)

[云上求助] 智能语音导航交互过程中IVR播放的语音不是机器人传给IVR要播放的语音文件名称

【问题来源】跨越速运【问题简要】智能语音导航交互过程中，有时会出现客户听到IVR播放的语音，不是机器人传给IVR的语音文件，而是另外一通电话的语音，。【问题类别】智能语音导航【AICC解决方案版本】【必填】CloudUSM V600R006C10SPC300USM版本：USM6.1CTI版本：CRSV300R006C88SPC100【期望解决时间】影响客户体验，业务部门非常着急，希望尽快解决。【问题现象描述】分析了科大讯飞智能导航业务流程日志，传给华为IVR要播放的语音文件名称，跟华为平台文件服务器上的语音文件内容是对应的。但是客户听到的却是其他语音，最近上了中继并线录音系统，客户通过录音系统，找到另外一通时间相近的录音，里面的通话内容，就有出现问题这通电话听到的语音，这种情况是什么原因。已经开启华为IVR trace日志跟踪。【日志或错误截图】见邮件附件【附件】

小华仔 发表于2021-04-18 10:36:49 2021-04-18 10:36:49 最后回复联络中心_客服_王韦 2021-04-19 09:36:46
3270 1

语音通话 VoiceCall 机器人
[其他] 人工智能趋势：语音识别发展前景广阔

当今，用“炙手可热”来形容AI人工智能再恰当不过，其也令全球科技界趋之若鹜，诸如谷歌、微软、苹果、IBM、Facebook、英特尔、中国的BAT、华为等都将人工智能视为下一个技术引爆点，纷纷砸入巨额投资展开研发与竞争。尤其在近几年来，深度学习+大数据+并行计算共同推动了人工智能技术实现跨越式发展。“人工智能+”应用已开始落地开花，从智能安防，到智能客服，再到智慧教育和智慧医疗等等。基于人工智能技术的各种产品在各个领域代替人类从事简单重复的体力或脑力劳动，大大提升了生产效率和生活质量，也促进了各个行业的发展和变革。人工智能产业链的主要包含三个核心环节——基础技术、人工智能技术和人工智能应用。其中，基础技术主要包括数据平台、数据存储以及数据挖掘等，人工智能技术包括语音识别、自然语言处理、图像识别和生物识别等，人工智能应用有工业4.0、无人驾驶汽车、智能家居、智能金融、智慧医疗、智能营销、智能教育以及智能农业等。人工智能趋势分析，语音识别领域突飞猛进发展前景广阔人工智能产业链结构科技企业对开源技术和深度学习等方面的推动，人工智能技术不断突破。交通、医疗、教育、制造业等场景的应用需求和切合确定场景的商业模式出现推动人工智能快速发展。随着人工智能在我国移动互联网、智能家居等领域的发展，我国人工智能产业将持续高速成长。前瞻产业研究院预计到2022年，国内中国人工智能行业市场规模将达到680亿元。前瞻产业研究院也对中国人工智能行业的发展趋势进行了深入分析：1、新一轮的开源化将成为人才争夺主战场两年来，以谷歌为代表的巨头公司纷纷开始开源化自身核心产品。不仅有机器学习软件平台，还有相关硬件平台和完整软件源代码。开放源代码可以吸引外部人才参与项目协作，并改进相关技术。2、语音识别领域将快速实现商业化部署通过利用机器学习技术进行自然语言的的深度理解，一直是工业和学术界关注的焦点。在人工智能的各项领域中，自然语言处理是最为成熟的技术，由此引来各大企业纷纷进军布局。在未来3年内，成熟化的语音产品将通过云平台和智能硬件平台快速实现商业化部署，前景十分广阔。这一领域，轻松呼已率先入局，其基于AI智能语音技术所研发并推向市场的“轻松呼智能电话机器人”已得到了广泛应用，覆盖了包括网络电商、金融、房地产、广告、汽车、保险、教育等十几个行业领域，目前全国累积用户数达800+，取得了良好的市场反响。可以说，轻松呼利用自身在智能语音技术上的优势，有力地推动了人工智能与传统电销的深度融合发展。人工智能趋势分析，语音识别领域突飞猛进发展前景广阔3、人工智能产业将与智慧城市建设协同发展智慧城市的发展将在安防、交通监控、医疗、智能社区等多个领域全面刺激人工智能产业发展。未来，各行业的应用需求以及消费者升级发展的需要将有效激活人工智能产品的活跃度，促进人工智能技术和产业发展。4、中国人工智能应用将在服务机器人领域迎来突破2015年已经有大量企业在服务机器人领域展开相关布局。从中国人工智能市场结构上看，服务机器人市场规模达到60亿元，占比29.4%，服务机器人基于日常生活中的广泛需求，有着广阔的市场空间。人工智能趋势分析，语音识别领域突飞猛进发展前景广阔可以看到，未来中国人工智能行业整体的发展趋势一片大好，而在前不久召开的十三届全国政协第一次双周协商座谈会上对于人工智能有如下的盘点和建议——我国人工智能的成绩单亮眼：论文专利数量跻身世界前列，部分技术已经世界领先。而且，智能产品和应用大量涌现，一批领军企业快速成长……不过，在委员和专家看来，仍要重视我国人工智能发展中存在的问题与不足，尽快抢占科技制高点，才能在这场“马拉松”中立于不败之地。转载自csdn 编程大乐趣

运气男孩 发表于2021-04-17 23:49:30 2021-04-17 23:49:30 最后回复泽宇-Li 2021-05-03 12:27:24
1252 4

语音通话 VoiceCall 人工智能机器人
[入驻式求助] 怎么获取当前排队数并且通过语音播报出来

【问题简要】获取当前队列排队数【问题类别】IVR 【可选问题类别：座席，话单，IVR(gsl / vxml1.0 / vxml2.0 / vxml2.1)，智能外呼，话机，运营管理，离线质检等】【IPCC解决方案版本】ICD 300R006C60 IVR流程中添加了一个队列状态的cell，不知道怎么获取到当前队列的排队数，此技能组当前排队客户数，IVR语音播报“坐席忙，前面有n位客户等待”，通过队列这个状态cell怎么获取到当前等待呼叫数目，怎么播报出来。

流程小白 发表于2021-04-13 14:15:29 2021-04-13 14:15:29 最后回复联络中心_客服_王韦 2021-04-14 09:17:35
3874 4

语音通话 VoiceCall
[问题求助] 【Atlas 200 dk】【mic功能】环境已搭建，想通过开发板mic做一个语音输入模块，求指导。

【功能模块】【操作步骤&问题现象】1、环境已搭建，想通过开发板mic做一个语音输入模块。不知道怎么入手，求相关程序和配置方法。2、【截图信息】【日志信息】（可选，上传日志内容或者附件）

ocean10110 发表于2021-04-02 18:04:25 2021-04-02 18:04:25 最后回复久违wy 2021-04-02 18:31:32
519 2

语音通话 VoiceCall 硬件开发
[调试调优] 【MindSpore】【语音识别】DFCNN网络训练loss不收敛

我参考了Model Arts的例子想要用MindSpore也实现语音识别，根据脚本迁移了网络。网络最后是调通了，但是Loss不收敛，训练得到的模型推理结果比预期长了一段。请问有专家可以帮忙看看问题出在哪里吗？附加一些说明，也许可以更好解决我遇到的问题Model Arts上，是用两个网络组合完成语音识别的任务的：DFCNN+Transformer首先构造了数据集get_data，可以把读取音频文件和标注的文本。思路是先得到声音的时域信息，就是像如下的波形图然后compute_fbank做傅里叶变换，转换为语谱图。用这个代码可以把数据可视化，我在附件里提供了代码，注释掉了。frame_time = [i * 0.025 for i in range(x.shape[1])] frequency_scale = [i *40 for i in range(200)] print(frame_time) print(frequency_scale) plt.pcolormesh(frame_time, frequency_scale, x.squeeze().T) plt.colorbar() plt.show()这样可以把ASR的任务转换成CV的任务。DFCNN的目的就是根据这个语谱图，识别其中的语音信息，得到拼音序列。Transformer是NLP的网络，可以把拼音序列转成文字。我主要是迁移了DFCNN的部分，本质还是CV类的网络，不过使用的损失函数是P.CTCLoss，是对整个序列求Loss值。可能问题出在这里，因为原来的脚本是keras写的，好像这个ctcloss的入参不一致。问题现象：训练我没有用全部的数据集，就拿了一个音频文件，想看看效果，但是Loss值到140左右就不动了。loss值177.98982，175.98216， 175.95705，……，146.96646，147.22882，147.1331验证我也是用同样的那个音频，推理后还需要解码，我调用了P.CTCGreedyDecoder。这个推理得到的是拼音，我直接用匹配汉字的方法，输出的结果，前面对的上，后面跟了一段尾巴。绿是阳春烟景大块文章的底色四月的林峦更是绿得鲜活秀媚诗意盎然（这个后面就是多出来的）月月阳绿底林盎景盎的然意......因为我使用keras的那个脚本，是可以训练收敛的，想知道是哪里对不上了。使用的环境：由于P.CTCGreedyDecoder只支持Ascend，脚本要在Ascend上执行。如果不推理只训练，可以用GPU。mindspore版本1.0以上好像都可以。我还有几个建议1.能不能提供一些供语音处理的算子，比如计算mfcc, spectrogram等，不然音频数据处理用python还是效率挺低的。2.CTCGreedyDecoder，CTCLoss希望GPU，CPU都支持更好，比如我训练好，用自己电脑可以直接做推理。3.mindspore是否可以提供读取音频文件的接口，像图片，文本都支持挺好，语音这块的能力希望也能补上。脚本，训练数据见附件，解压后有三个文件wav是音频文件，我就用一个试着训练dfcnn.py是我的脚本，里面一些路径设置，还要麻烦改一下data.txt是音频的标注文件。这个是从华为云上拿下来的，已经整理好的标注数据全集，不过如果只训练一个，只会读取一条，可以用head -n 1 data.txt看一下，第一句就是我希望得到的识别结果。

Daniel46010140 发表于2021-04-01 22:45:18 2021-04-01 22:45:18 最后回复 c34 2021-04-07 15:29:16
1719 3

语音通话 VoiceCall 网络机器学习
[问题求助] NPU是否支持傅里叶变换

请问目前咱们的NPU是否支持语音的傅里叶和短时傅里叶的变换？客户目前有语音输入前对数据预处理的需求，由于数据较大，无法在CPU上进行处理。

半生少年 发表于2021-03-26 11:26:28 2021-03-26 11:26:28 最后回复宋永明 2021-03-27 18:22:24
836 1

语音通话 VoiceCall
[云桌面百科] 【uos桌面使用小知识】如何设置文本文档的语音朗读、语音听写

1、在桌面上打开文本文档---选择文字右键然后发现语音朗读、语音听写是置灰状态下2、这时我们返回控制中心找到辅助功能---打开语音听写、语音朗读按钮即可。3、然后发现这两个功能可以使用了

梁子林 发表于2021-03-25 16:35:24 2021-03-25 16:35:24 最后回复梁子林 2021-03-25 16:35:24
1167 0

机器翻译语音通话 VoiceCall
[云桌面百科] 【uos桌面使用小知识】如何设置语音助手唤醒 "小华"同学

现在的语音助手给我们带来了极大的方便使用手机功能以及一些智能家居，在这里我想介绍下我们也有自己语音助手伙伴，它就是"小华"。下面我介绍下在uos系统中如何召唤"小华"同学，在平时的工作或者生活中可以通过语音助手帮您处理各项事物，如查看天气，新建日程等。1、打开控制面板--选择辅助功能就会看到桌面智能助手，打开即可。

梁子林 发表于2021-03-25 16:12:08 2021-03-25 16:12:08 最后回复梁子林 2021-03-25 16:12:08
1140 0

语音通话 VoiceCall
[其他] 纯PyTorch语音工具包SpeechBrain开源

Mirco Ravanelli 宣布打造新的语音工具包过去了一年多，SpeechBrain 真的如期而至。语音处理技术的进步，是人工智能改变大众的生活的重要一环。深度学习技术的兴起，也让这一领域近年来得到了长足的发展。在过往，该领域的主要方法是为不同的任务开发不同的工具包，对于使用者来说，学习各个工具包需要大量时间，还可能涉及到学习不同的编程语言，熟悉不同的代码风格和标准等。现在，这些任务大多可以用深度学习技术来实现。此前，开发者常用的语音工具有 Kaldi、ESPNet、CMU Sphinx、HTK 等，它们各有各的不足之处。以 Kaldi 为例，它依赖大量的脚本语言，而且核心算法使用 C++ 编写，再加上可能需要改变各种神经网络的结构。即便是拥有丰富经验的工程师，在调试的时候也会经历巨大的痛苦。秉承着让语音开发者更轻松的原则，Yoshua Bengio 团队成员 Mirco Ravanelli 等人曾经开发了一个试图继承 Kaldi 的效率和 PyTorch 的灵活性的开源框架——PyTorch-Kaldi，但据开发成员本人认为「还不够完善」。所以，在一年多前， Mirco Ravanelli 宣布要打造一款新的一体化语音工具包 SpeechBrain。该项目于近日正式开源，鉴于上述背景，SpeechBrain 诞生的主要宗旨是：够简单、够灵活、对用户友好。作为一个基于 PyTorch 的开源一体化语音工具包，SpeechBrain 可用于开发最新的语音技术，包括语音识别、说话者识别、语音增强、多麦克风信号处理和语音识别系统等，且拥有相当出色的性能。团队将其特征概况为「易于使用」、「易于定制」、「灵活」、「模块化」等。对于机器学习研究者来说，SpeechBrain 可轻松嵌入其他模型，促进语音技术的相关研究；对于初学者来说，SpeechBrain 也不难掌握，根据测试，一般开发者仅需要几个小时就能熟悉该工具包的使用。此外，开发团队也发布了很多教程以供参考（https://speechbrain.github.io/tutorial_basics.html）。转发自https://www.jiqizhixin.com/

QGS 发表于2021-03-23 23:28:35 2021-03-23 23:28:35 最后回复窗台 2021-03-28 22:53:50
1154 3

语音通话 VoiceCall pytorch
[技术干货] AC

无线控制器无线控制器（Wireless Access Point Controller）是一种网络设备，用来集中化控制无线AP，是一个无线网络的核心，负责管理无线网络中的所有无线AP，对AP管理包括：下发配置、修改相关配置参数、射频智能管理、接入安全控制等。中文名无线网络控制器外文名Wireless Access Point Controller特点安全；可靠用途通信；计算机网络；无线通信目录1 定义2 特点3 应用定义编辑传统的无线局域网由于存在着局限性，已经不能满足那些无线网络规模比较大，而且非常依赖无线业务的高级用户。这些高级的企业用户对新一代的无线网络提出了新的特性要求。首先，无线网络需要的是整体解决方案，能够统一管理的系统；其次，无线网络实施要简单，如能够通过工具自动地得出在什么位置放置AP最好、使用哪个频段最佳等；再有，无线网络一定是安全的无线网络，这是最重要的；另外，无线网络要能够支持语音和多业务。基于这种需求，诞生了新一代的基于无线控制器的解决方案。特点编辑[1] 主要特点：　　运营级模块化机架结构、适合大中型无线网络、支持大数量AP环境、支持最多大数量的并发用户、支持CAPWAP协议、支持用户计费及认证功能、支持机内板块1+1，N+1备份。传统的无线网络里面，没有集中管理的控制器设备，所有的AP都通过交换机连接起来，每个AP分单独负担RF、通讯、身份验证、加密等工作，因此需要对每一个AP进行独立配置，难以实现全局的统一管理和集中的RF、接入和安全策略设置。而在基于无线控制器的新型解决方案中，无线控制器能够出色地解决这些问题，在该方案中，所有的AP都减肥了（Fit AP），每个AP只单独负责RF和通讯的工作，其作用就是一个简单的，基于硬件的RF底层传感设备，所有Fit AP接收到的RF信号，经过802.11的编码之后，随即通过不同厂商制定的加密隧道协议穿过以太网络并传送到无线控制器，进而由无线控制器集中对编码流进行加密、验证、安全控制等更高层次的工作。因此，基于Fit AP和无线控制器的无线网络解决方案，具有统一管理的特性，并能够出色地完成自动RF规划、接入和安全控制策略等工作。方案传统无线方案方案基于无线控制器方案技术模式传统主流新生方式，增强型管理安全性传统加密、认证方式，普通安全性增加射频环境监控，基于用户位置安全策略，高安全性网络管理对每AP下发配置文件无线交换机上配置好文件，AP本身零配置用户管理类似有线，根据AP接入的有线端口区分权限无线专门虚拟专用组方式，根据用户名区分权限WLAN组网规模二层**，适合小规模组网，成本较低二层、三层**，拓扑无关性，适合大规模组网，成本较高增值业务能力仅实现简单数据接入可扩展语音等丰富业务（1）灵活的组网方式和优秀的扩展性采用Fit AP+无线控制器解决方案，无线用户的传输是通过Fit AP 内已建立的GRE隧道和无线控制器互连的，因此Fit AP无需和无线控制器直接相连，无线Fit可以通过网络部署在需要覆盖的任意地方，比如你把一个Fit AP部署在每一个员工的家里，然后通过VPN连接到企业内部的无线控制器，把企业的无线网络扩充到每一个企业成员的家庭里面。无线控制有高度的可扩展性，一般的无线控制器都可以处理多个Fit AP，而且通过硬件升级或者堆叠技术，可以不断地扩充支持Fit AP的数目，从而实现无线网络的不断延伸。具有极高的投资保护价值。（2）智能的RF管理功能，自动部署和故障恢复无线控制器能够自动设定Fit AP的RF工作状态，解决了在传统无线网络解决方案里面，难以确定复杂环境内每一个AP的工作状态的问题，强大的RF自动管理功能，使得这种新型的无线解决方案可以在任意复杂的使用环境里轻松的部署AP通过厂家提供的专门RF管理模块，我们可以根据用户的建筑设计图，初步估计Fit AP的部署，并能在实际的调试过程中，计算无线终端的平均带宽，AP和AP之间覆盖面等。通过RF管理软件的计算，安装人员就可以根据建筑图纸上所显示的位置安装AP，在无线网安装完成后，网管人员通过RF 规划自动校准功能，无线控制器可以自动调节无线网上所有FitAP的频道与功率参数以达到一个最优性能的运行状态。在无线局域网系统投入运行后，网管人员更可通过RF 管理模块随时监测网内的每个AP的无线电波实际的运行状态，及时掌握每个AP的工作状态和故障诊断，及时做出调整策略。（3）集中的网络管理Fit AP和无线控制器系统有非常强大的集中管理功能，所有的关于无线网络的配置都可以通过配置无线控制器器统一完成。例如开通、管理、维护所有AP设备以及移动终端，包括无线电波频谱、无线安全、接入认证、移动**以及接入用户等所有功能。另外无线控制器还可以通过堆叠技术不断进行升级，增加可以管理的Fit AP 的数量。（4）强大的**功能支持无线控制器以Fit AP作为边界结合快速的RF管理系统，大大减少了无线客户端和AP的关连时间，可以实现如PDA，手持终端，笔记本电脑等无线适配器在无线网络里面进行快速的切换，进而实现快速**的功能，而无需要安装客户端软件。事实上，在RF管理系统的作用下，为了避免同频干扰的入侵，每个AP的实时工作频率有可能发生变化的，RF系统不停扫描各个可用信道，根据扫描结果自动定义Fit AP的实时工作频率，这使得无线适配器必须在不同的时刻都通过工作在统一信道的的不同的Fit AP进行关连。也就是说，在无线控制器以Fit AP的系统里，无线适配器一直工作在同一系统的不同的AP里，这种设计初衷使得整个系统同时获得强大的**支持。（5）负载均衡Fit AP和无线控制器系统可在一个Fit AP的覆盖范围内把无线用户或终端分散连接到附近的Fit AP上。在一个Fit AP的覆盖范围内，无线连接的带宽是共享，即无线终端数目越多，每个终端所能分享的带宽就越小。要确保每个无线终端的传输就必须能限制一个AP上无线终端的数量或AP带宽传输总和或和每个无线终端带宽上限。在视频应用中，负载均衡功能可以有效的缓解单个AP的负担，有效的利用临近的AP 做接入，从而确保视频应用的质量得到保证。（6）无线终端定位，快速定位故障点和入侵检测无线控制器结合RF管理工具及传感器，Fit AP和无线控制器系统可以跟踪和定位无线终端的位置，诸如无线接入的电脑、PDA和 Wi-Fi手机等。系统通常采用三角模式的定位技术，无线定位的准确性可达到2.5米以内，无线定位的条件是所寻找的无线终端附近须有最少三个专门的传感器的存在。此功能有利于无线网络快速定位入侵源和故障点，而且还可以结合一些应用程序作二次开发应用。（7）强大的接入和安全策略控制基于无线控制器的无线网络解决方案所提供的强大的接入可以控制策略包括以下个方面的内容。首先，系统可以提供多标识的用户的接入验证功能，当无线用户进入无线网络以后，一般情况都不能直接拿到一个可以访问网络的权限，在无线用户要取得接入网络的权限的时候，系统必须验证用户的身份，无线系统支持各种用户认证的方式802.1、WEB认证、MAC、SSID、VPN多种标识的认证方式，配置非常灵活，而且可以集中配置。其次，系统可以提供统一的加密功能，系统能提供的加密功能包括WEP、WPA、WPA-PSK、WPA2等多种加密方式，而且所有的配置都可以通过无线控制器全局配置。Fit AP和无线控制器系统保证了所有无线用户在不同的VLAN（Layer3）或者在不同的AP上**时不需要进行重新认证及重新初始化加密进程，可靠实现安全的无缝**。再次，无线控制器提供强大的访问列表功能，结合内部的验证数据库，可以为不同的组/用户，以不同的验证方式为基础，赋予不同的访问功能。在传统的网络中，有线局域网络和无线局域网是两个相对独立的系统，因此是无办法实现基于无线用户的访问列表控制的。而无线控制器作为连接无线网络和有线网络的桥梁，通过其自身的网关作用，可以实现灵活多样的有线和无线用户的互相访问控制，配置相当灵活。（8）Qos支持，优化WIFI语音及关键应用Fit AP和无线交换系统可在每个用户的权限限制内用户无线连接的最高带宽。对于不同的IP服务，系统亦可透过无线交换机模块设置定义不同的QoS队列。例如无线语音的应用，SIP和RTP协议可设定在高的队列，而一般应用如http、ftp则可设定在低的队列。众所周知，无线网络的致命缺点是带宽有限，并且系统带宽会随着接入的用户增加而相对减少，经过Qos优化，在整个无线网络内部可以实现WIFI语音的优化，更可以保证关键应用的流畅运行。如今的WIFI网络覆盖，多采用AC+AP的覆盖方式，无线网络中一个AC（无线控制器），多个AP（收发信号），此模式应用于大中型企业中，有利于无线网络的集中管理，多个无线发射器能统一发射一个信号（SSID），并且支持无缝**、和AP射频的智能管理。相比于传统的覆盖模式，有本质的提升。（支持无缝**：通俗定义，用户处于无线网络中，从A点到B点经过了一定距离，传统覆盖模式因为信号不好必定会断开，而无缝**技术，可以将多个AP统一管理，从A点到B点中，尽管用户经过了多个AP的信号，但信号间无缝的切换，让用户感觉不到信号的转移，勘测数据中丢包率小于1%，从而很好的对一个大区域的不中断的无线覆盖）AC+AP的覆盖模式，顺应了无线通讯智能终端的发展趋势，随着Iphone、Ipod等移动智能终端设备的普及，无线WIFI的需求不可或缺。转自：百度百科

sangjunke 发表于2021-03-20 22:24:11 2021-03-20 22:24:11 最后回复多米诺的古牌 2021-03-21 20:13:08
927 2

语音通话 VoiceCall 网络
[其他] 整合不同智能语音助理服务成为趋势?

2017年8月30日，微软和亚马逊就曾经宣布，双方达成智能语音助理合作协议，直到2018年8月，微软Cortana和亚马逊Alexa才真正完全整合的工作。未来Alexa和Cortana的用户可以相互唤醒对方语音助理功能，进而达到在家或在工作上无间隙的体验。例如，用户可以打开亚马逊Echo智能音箱，进而说出“Alexa，打开Cortana”，这时家中的Windows 10装置或Harman Kardon Cortana智能音箱就可被唤醒。通过这次整合，Alexa用户可以透过Cortana做出一些特有功能，包含：预订会议，了解工作日历，提醒用户注意事项，或阅读工作电子邮件等。简单来说，这些所有功能都可以通过语音来完成。反之亦然，Cortana用户可以通过Alexa来控制家中的智能装置，甚至在亚马逊网站上进行购物，以及使用在Alexa平台上开发出的应用程序与技能等。从这些合作可以看得出来，亚马逊正在利用与微软合作来面对未来更严峻的挑战。毕竟，根据许多测试都一再显示，苹果Siri和谷歌的Assistant都比起Alexa还要来得更智慧化。对于科技大厂来说，其布局语音助理的动机都不同，所以采取的解决方案也不同。例如：谷歌是透过其在搜索引擎和安卓操作系统的优势，来强化谷歌助理的智慧化，进而提供回答问题与个性化服务。至于拥有Siri的苹果公司，这是专注于音质与Apple Music服务，让HomePod成为家庭中的智能音箱。预计未来也将帮助其HomeKit的布局。研究公司Gartner表示，微软和亚马逊之间的合作伙伴关系，将两家的优势服务整合在一起，形成一种互补性服务。微软的Windows 10是在工作场所具有优势的平台，这是亚马逊无法涉及的市场。可是亚马逊的Echo是消费性家庭的智能平台，这也是微软无法涉及的领域。因而，两家公司的合作都能够帮助其服务做出进一步的延伸。不过，两家公司的这项合作，并无法让Alexa与Cortana互相访问对方的数据。也就是说，语音助理收集数据的本质与方式将由各自的公司控制，并且各自保护消费者的隐私。因此，本质上来说，亚马逊与微软将用户引用到彼此的语音助理服务而不是分享语音助理的运作模式。目前，亚马逊和微软的这项整合性的应用服务仅仅针对美国用户推出而已，未来将透过搜集用户反馈，来改善这一功能，进而推广至全球。来源：物联之家网

andyleung 发表于2021-03-20 13:03:52 2021-03-20 13:03:52 最后回复小强鼓掌 2021-03-21 18:10:34
1039 3

语音通话 VoiceCall 一句话识别
[其他] AI语音助理商机不断热烧　智能音箱软硬件大跃进

图片来源：https://pixabay.com/photo-222787/智能音箱在2018年延续前两年的热潮，不过音箱本身并不能创造很大的经济价值，发展产业链才是未来胜出的重点，智能麦克风与语音处理器是跨产品型态的关键零组件，利基型的应用、中文自然语言处理与边缘运算是我们厂商值得关注的重点。 2014年电商龙头亚马逊(Amazon)推出智能音箱Echo之后，经过几年的经营，在2016、2017年大放异彩，引发一股智能音箱开发风潮，也带动沉寂已久的智能家居商机，除了Amazon，包括Google、Microsoft、Apple、Samsung、Sony、Line，还有京东、联想、阿里巴巴、小米等一线大厂都陆续推出智能音箱，不仅如此，更多二线品牌厂商也赶上这波热潮，保守估计目前市场上应该有数十款智能音箱品牌，布局并抢食智能语音应用背后带动的庞大商机。智能音箱包括三大部分：硬件、软件服务、系统平台。工研院IEK产业分析师陈右怡说明，硬件规格大致包括开关、灯光、语音处理芯片、麦克风数组、喇叭、电池、Wi-Fi/蓝牙无线通信模块、显示面板等，其中语音处理器与麦克风数组攸关语音输入质量，也是这波发展过程中较受瞩目的关键零组件。而软件服务则是智能音箱的灵魂--智能语音助理，搭配技能(Skills)，结合云端的系统平台，形成一个完整的产业生态系，以带动后续的商业模式。智能音箱投入者众根据市场研究机构Strategy Analytics研究指出，2018年智能音箱出货量接近4,000万台，2019年将挑战6,000万台，2022年还要进一步成长至1亿6,000万台左右，每年都是两位数的成长率。Samsung继去年与Microsoft合作推出的Invoke智能音箱后，2018年8月发表自有产品Galaxy Home(图1)，音箱里有六组扩音喇叭及低音炮，用来提供环绕的播放音效；并内建八组远场麦克风，可在较大的范围内接收语音指令，语音助理就是自家的Bixby，不过发表会上摆满的产品都跟Apple Homepod一样不能运作，正式上市时间要再等等。图1 Samsung 2018年8月发表搭载Bixby智能音箱Galaxy Home，并内建八组远场麦克风，可在较大的范围内接收语音指令。整体而言，智能音箱的发展，产品本身并不是最重要的，Amazon Echo最早就定位是中低价产品，99美元的售价到后来衍生的多种产品都不走高价路线，以其现阶段市场领导者的身分，也发挥市场带动的效果，Amazon以电商的角色，不断扩展产业生态体系，并成为多数厂商仿效的对象。陈右怡表示，Amazon Echo串连了开发者社群、汽车服务业、智能装置、日用品服务、共享/外送服务业、音乐串流服务业等。语音指令在搜寻上，显然比现有的文字输入便利，跟据市调机构Gartner的研究，未来50%的各类搜寻，将会利用语音指令的方式呈现。图2 鑫创科技产品经理曾建统认为，通用型的智能音箱主要扮演智能家居控制中枢，需要完整的系统平台与产业生态系配合。以可以执行的技能而言，Alexa目前高达17,650项，Google Assistant仅有468项，Microsoft Cortana更只有174项。根据OC&C Strategy Consultants调查，拥有智能音箱的美国家庭中62%会使用智能音箱进行语音购物，2017年美国语音购物市场规模约20亿美元，预估2022年将达400亿美元，5年内翻20倍。由此可知，智能音箱拥有多少“技能”、能否带动商业模式的发展，才是其成功的关键，这些品牌大厂自然深知要努力将自己的商业模式，转换延伸到语音应用，并能提供更新、更多的价值才是发展重点。经过这几年的发展，智能音箱已经出现更为细致的分众区隔之路，鑫创科技产品经理曾建统(图2)认为，通用型的智能音箱主要目的就在扮演智能家居控制中枢，除了丰富的技能之外，更需要完整的系统平台与产业生态系加以配合，带动商业模式的发展，这部分只有资源丰富的大厂具备参赛权。另外，在区域市场与应用上，也发展出许多功能较为单纯，但满足特殊需求的智能音箱，如厨房针对做菜、车上影音娱乐/唱歌需求的产品，适合中小型厂商切入。智能麦克风设计眉角多近来有部分人士指出，智能音箱是过渡型的产品，就像电子书阅读器一样昙花一现，不过就实际的发展来看，智能音箱目前呈现百花齐放的状况，未来不管产品是否持续发展，语音识别成为重要的人机接口已是不争的事实，因此不管终端产品型态是甚么，绝对都少不了智能麦克风与语音处理器，这两个组件的技术与发展就值得更加深入的观察。一般而言，MEMS麦克风由背板(Back Plate)、氮化硅薄膜(Membrane)、1微米宽的空气隙(Air Gap)组成，其中薄膜要求低应力且柔软，能够灵敏地感测环境音压的改变。现行的MEMS麦克风技术均采用声波致动薄膜和静态背板，英飞凌(Infineon)提出一个较复杂的双背板架构，在两个背板之间嵌入薄膜，也有两个空气隙，因此能产生更好的讯号质量，讯噪比(SNR)达70dB，进一步获得更佳的高频抗扰性，实现更出色的音频讯号处理，并将10%总谐波失真(THD)的声学过载点提升到135dB声压位准(SPL)。智能麦克风除了采用模拟微机电的制程之外，还有采用数字CMOS制程的麦克风，不管是采用MEMS或是CMOS都是利用半导体制程产生震膜以搜集声压，曾建统说明，除了传统的单背板/单薄膜之外，双背板/单薄膜、单背板/双薄膜等改良型的架构都有厂商提出，目的全是为了强化收音效率的讯噪比。而在系统的设计上，Amazon Echo带动的多颗麦克风数组设计已成风潮，但效果还是有很大的差异性。曾建统提醒，智能语音助理硬件的设计，尤其是麦克风数组，并不是硬件照抄就好，在设计时间要针对机构与收音麦克风进行数组算法的调适，同时生产阶段也必须提高机构精准度的要求，这两个重点对语音助理装置最终量产结果有很大的影响。就像通用型的Echo使用场景大部分是在客厅，类似的麦克风数组设计套用到车用产品就不会得到最佳收音质量；而机构生产与组装若不够精准，会持续削弱麦克风的讯噪比，原本70dB的产品可能于终端产品仅表现出35dB的效能。关键组件整合设计取得效能表现优化而在语音处理器部分，最主要是处理声音的数字化与去除噪声的讯号纯化，由于智能语音助理的工作是透过AI算法，将输入的语音讯号进行语音识别与自然语言处理，担负重要的人机接口工作，也是用户经验优劣的关键，因此语音处理器的几个主要功能包括噪音抑制(Noise Suppression)、回音消除(Echo Cancellation)、语音识别(Voice Recognition Assistance)、远距收音(Far-field Pickup)、清晰语音沟通(Clear Voice Communication)等就显得非常重要。语音处理器技术发展已有满长的一段时间，其实技术已经相当成熟，不过由于智能音箱将语音变成最主要的人机接口，声音整体处理效能要求比过去更高，对噪音抑制的压噪技术而言，环境声音如车辆、旁边人的说话声音都算是一种噪音，如何找出正确的噪音来源，并保留最大的原音是这部分的挑战。一般噪音分成稳态与非稳态噪音，机器运作固定频率的声音是稳态噪音，比较容易消除；非稳态噪音就是非预期出现的声音如旁人说话的声音，也比较难消除。 Samsung甫发表的Galaxy Home，为了收音效果特别采用八颗远场麦克风，远距收音的功能就是较远的距离之下一样能收到清晰的声音，做法就是首先侦测人声，并放大人声，但不放大噪音。曾建统认为，若要提升收音效能的表现，麦克风与语音处理器整合性设计非常重要，除了远场麦克风、扩大MEMS麦克风芯片尺寸、采用整合模拟数字转换器(Analog-to-digital Converter, ADC)的数字麦克风(Digital Mic)等做法都有，甚么设计才能在效能与成本上取得最佳表现，目前其实没有标准答案，建议还是回归到产品需求，并进行深入的软件仿真与效能测试，才有机会开发出令市场惊艳的产品。智能音箱的使用近期也因为网络的便利性与不设防，产生多起网络安全事件，所以语音处理器的安全机制逐渐被重视，恩智浦半导体大中华区微处理器及微控制器产品营销经理张小平(图3)表示，保护隐私信息不轻易被入侵，需要内建安全装置的解决方案，除了保护用户信息，透过整合的SDK实现算法加速，满足语音、影音和音频的需求，可整合A/V与机器学习，满足工程师对于统一平台的要求，便于打造语音指令控制的联网产品。恩智浦i.MX8M系列应用处理器，兼具处理技术和边缘运算能力，能够有效管理并缩短智能互联装置响应命令和询问的时间。张小平指出，该系列产品可用于智能电视、电视订阅服务、条形音箱与其他智能音箱，以及媒体播放器和DVR/PVR。此外，该系列处理器也适合管理照明、恒温器、门锁、居家安全、智能洒水器等各类系统与设备，能够让使用者享受直觉简单、迅速响应的智能家居体验。如：仅需发出语音指令即可播放特定的电视剧集，如果对其中的演员感兴趣，直接口头询问相关问题，屏幕上就会进行搜索并显示结果，整个过程都不会影响电视剧情的播放等。语音助理为智能音箱灵魂在基础的硬件之外，具备AI功能的智能语音助理显然是智能音箱产业链能否顺利发展的关键，Alexa的跨平台支持与技能多样性，目前遥遥领先Google Assistant与Microsoft Cortana，陈右怡表示，智能语音助理的生态系发展难度更高，核心的技术包括AI深度学习算法、情境感知、自动化控制、大数据分析应用、云端存取等；发展策略上，可透过开放式AI API发展第三方开发，扩展语音助理的技能，也透过定价/收费/分润机制让生态系更成熟；最后就是不断强大生态系的规模与服务的多样性与便利性，就像当年的App Store一样。而语音助理的服务包罗万象，所谓“万能”的智能语音助理应该不存在，以目前四大语音助理来看，Google专长在搜寻、Siri专长在音乐、Alexa专长在购物、Cortana则是专精于商务，厂商的产业链发展也有所侧重，陈右怡相信，过几年不同领域的语音助理霸主将越来越明确。而语言与在地化的经营则是另一个重点，目前英语系的语音识别与自然语言处理技术上已经颇有突破，发展较为迅速；相较之下，中文的自然语言处理则有相当大的瓶颈，也是我们厂商可以深入发展并保有优势的地方。掌握特殊应用与边缘运算趋势从硬件终端产品来看，大厂会投入更多资源发展通用型的智能音箱，产品型态也将更加多样，整合于智能手机、笔电、各式家电等的状况会更加普遍。我们厂商在软硬件的发展上，应该投入利基型的硬件产品与服务，曾建统建议，特殊应用的智能音箱结合在地化语音技术发展，是我们厂商的机会。中文AI化的困难性为厂商带来蓝海的商机，只要深入累积语言分析与在地化语料，就可以建立竞争门坎，搭配我们原先就具备深厚基础的硬件技术能力，可以在智能音箱市场走出一条自己的路。人机接口发展到语音是一大进步，不过未来视觉、触觉与念力都是下一波发展的方向，现在的语音AI技术也有布局未来人机接口的味道。以AI为核心的这些应用，开发的范围与需求的资源都较过去更大，诉求利基市场也不见得是单一厂商就能负担所有技术开发，需要与更多产业链上下游的厂商合作；智能音箱也是典型的边缘运算装置，未来会将更多AI功能转移到终端装置，直接在边缘进行处理，对于云端架构规模不如国外大厂的厂而言，采用较小的云端架构，并透过终端处理部分AI运算，更适合我们厂商发展。来源：物联之家网

andyleung 发表于2021-03-20 13:02:33 2021-03-20 13:02:33 最后回复 andyleung 2021-03-20 13:02:33
1242 0

语音通话 VoiceCall 人工智能深度学习
[其他] 智能居家装置高成长推动组装厂出货扬升

图片来源：https://www.maxpixel.net/photo-3317440市调机构IDC估计，全球智能居家装置将有爆炸性成长，各类智能居家产品未来五年的出货量，都将出现两位数成长，其中以智能音箱成长最快。包括广达、仁宝、和硕与英业达等组装厂，均可望受惠。目前在智能音箱的代工阵营，亚马逊Echo系列的主力代工厂为鸿海与仁宝，Google Home智能音箱主要代工厂为广达与和硕，至于英业达主要代工苹果智能音箱HomePod。 IDC预估，全球智能居家装置出货量，2018年将提高31%至6.4亿台，2022年出货量续升至接近13亿台，五年的年均复合成长率（CAGR）为20.8%。至于各类智能居家装置中，IDC预料，智能音箱出货量的年均复合成长率最高，达39.1%；估计智能音箱出货量将从2018年的将近1亿台，2022年升至2.3亿台。若根据调研公司Canalys的数据显示，到2018年年底，全球智能音箱的数量将会达到1亿台，而2017年仅有4,000万台；四年后，这个数字可能还会进一步增长至2.25亿台。若是从市占率来看，目前占据首位的是Echo系列为代表的亚马逊智能音箱，到2018年年底，预计亚马逊将会占据约50%的市占率；其次则是Google Home系列，有30%左右的市占率。这也意味着，亚马逊和Google两家巨擘，已经占据了现在全球80%左右的智能音箱市场。虽然亚马逊和Google是最早进入智能音箱市场的两位巨头，但这也多亏了亚马逊Alexa和Google Assistant语音助手的成熟表现。现在排在第3名的苹果HomePod，它仅占据市场总量的4%。考虑到Home Pod从正式上市到现在仅半年时间，所以这个比率还不算太糟糕；根据Canalys的预测，到2022年，苹果Home Pod的市场占有率也仅有10%左右，还是不看好这个苹果新品项的前景。不过，到了2022年，智能音箱在整体智能居家装置的市占率，只会排名第三、达18.2%。IDC资深研究分析师Jitesh Ubrani说，智能音箱市场已经出现明显变化，许多居家内外的新商品，都内建语音助理。 IDC估计，2022年智能居家装置市占率最高的产品是影音娱乐（Video Entertainment）、达36.2%。影音娱乐包括智能电视和数字媒体转接器（digital media adapter），例如Google Chromecast、Apple TV、Fire TV等。2022年出货量将达4.6亿个，五年的年均复合成长率为10.9%。来源：物联之家网

andyleung 发表于2021-03-20 13:00:53 2021-03-20 13:00:53 最后回复 andyleung 2021-03-20 13:00:53
925 0

语音通话 VoiceCall
[其他] 中国会成为下一个智能喇叭产品的爆发点吗？

图片来源：https://pixabay.com/photo-2937627/ 在这次的CES展中，阿里巴巴、京东商城与百度都展示出自己品牌的智能喇叭产品。这让许多人都产生一个疑问，中国是否能够成为继美国之后成为智能喇叭下一个爆发的市场？毕竟，以目前美国在智能喇叭的火热程度，让许多厂商都期望能够寻找到下一个类似智能手机的商机，智能喇叭似乎就是一个观察指标。智能喇叭通常被称为家庭语音虚拟助理，可以帮助用户叫车、订购披萨、更新天气预报，甚至在线订购礼物等。但是对于中国的主要互联网公司来说，智能喇叭不仅可以帮助其搜集用户偏好和语音模式等数据，还可以确保用户在其服务生态系统之中，对于京东和阿里巴巴等电子商务更棒的服务。 IDC 预测，智能喇叭将是中国下一个重大的消费电子趋势。因此，中国可望成为继美国之后，成为第二大智能喇叭市场。在中国， 2016年是属于无人机当道的一年，到了2017年虚拟和扩增实境的话题与商机不断发烧，现在到了2018年，将换成智能喇叭一枝独秀的局面。 IDC认为，中国的消费者仍习惯于通过手机和社交网络做许多事情，这也让他们暂时不能接受智能语音的新生活型态。另外，中国的智能喇叭生态系统还不像美国那样成熟和全面。在线零售商京东可以算是中国智能喇叭市场的早期成员之一。其与2016年透过人工智能公司iFlytek合资成立的公司推出第一台智能喇叭叮咚音箱。在2018年初的CES上，京东推出了一款名为DingDong Play的8吋屏幕智能喇叭产品。这部新产品能够让用户直接从该公司的在线零售平台购买产品。此外，该装置还具有摄影头，脸部识别系统和视频通话功能。至于百度，则在CES展推出了三款具有不同核心功能的语音声控智能喇叭。其根据DuerOS 2.0平台，推出了百度自家的硬件产品，分别是一款像亚马逊Echo Show的智能喇叭、一盏智能灯以及一款整合智能喇叭与投影器于一身的智能产品，而且这些产品都可以与用户的其他智能家庭装置整合在一起。阿里巴巴更是宣布与半导体公司联发科技合作开放连接协议。借助该系统，其他智能装置可以自动配对阿里巴巴的天猫Genie X1智能音箱和未来的天猫精灵机型。虽然研究公司Canalys预测2018年中国的智能喇叭出货量将达到440万台，但是业界人士更看好其能够超越500万台。来源：物联之家网

andyleung 发表于2021-03-20 12:57:21 2021-03-20 12:57:21 最后回复 andyleung 2021-03-20 12:57:21
2140 0

语音通话 VoiceCall
[其他] 一张嘴遥控世界声控商机大爆发

图片来源：https://pxhere.com/zh/photo/1170516 基于自然语言处理(NLP)技术成熟，AI语音成为智能音箱的核心且被大量应用在各种装置或服务上，成为一种最热门的人机接口，并导入连接手机、机器人、家电、自驾车、导航等服务或终端装置。然而事实上，AI人工智能的感测来源很多元，涵盖语音、图像、视觉、生物辨识、手势、自然现象等等。结合AI人工智能或AI语音助理，2018年CES看见许多新应用产品，例如：三星及LG分别将AI导入OLED或超高清电视，似乎就是要与其他电视或面板业者作出市场区隔。三星抢先推出搭载AI的电视，同时也导入其语音助理Bixby，让用户可以直接声控。所谓AI电视，主要是透过OLED电视内的数据库，研究分析数百万个图像，透过AI将低分辨率的内容转换为高分辨率，同时可将内容参数依场景进行分类、降噪及增强等功能。 LG发表搭载AI电视或称ThinQ人工智能，导入先进图像处理器的新款 OLED 与 SUPER UHD TV系列。也就是说，透过LG电视内建的AI功能，搭载Amazon Alexa语音接口，消费者可直接对遥控器说话、下指令。LG ThinQ 电视更可同时身兼智慧家庭控制中心，透过Wi-Fi或蓝牙让电视与智能家电进行链接，例如：清洁机器人、冷气机、空气清净机、智能照明、智能音响等。LG的ThinQ AI运用自然语言处理正是LG自家研发的深度学习技术 DeepThinQ，当ThinQ AI执行智能语音命令与链接于其旗下OLED及SUPER UHD TV 系列TV产品的互动体验，同时可快速地向外链接游戏主机与音响。自驾车及AI智能产品都须依赖5G技术，汽车厂推出最新的自驾车与电动车技术。日本汽车大厂丰田发表自驾电动概念车「e-Palette」为物流业提供无人车送货系统，同时也提供共享搭乘服务。日产汽车发表脑波驾驶技术(Brain to Vehicle)，开发一款脑波头戴装置，遭遇危急状况可加快0.2至0.5秒反应时间。在今年CES大展新创团队与公司参与Eureka Park更为积极，总计有 42 个国家的 900多家新创公司展示相关新兴技术、产品与服务，参展家数并较 2017 年成长近50%。其中，针对新创公司AiPoly展示**走路型态及关节距离辨识技术，应用于无人或零售商店，可全程纪录消费者偏好但又可解决隐私被**的议题。新创公司FoldiMat展示自动折衣机，能一件一件放衣服进去折衣。Samsung旗下新创公司Relumino展示智能视觉辅助眼镜，协助视障者阅读/看见物体。由智能手机处理来自于眼镜摄影机所投射的影像，并将处理后的影像传送到Relumino眼镜的显示器，协助佩戴者看得更清楚。还有，意大利新创公司Yape推出的送货机器人，两个轮子跟电池整合在一起，前端摄影机可导航路径, 因导入陀螺仪技术，车开起来较稳定。智慧城市也是今年CES重要主题之一。未来，全球人口75%往城市聚集，智慧城市必须解决『人与环境』的问题，但涵盖范围太广泛且琐碎，所以未来智慧城市应用解决方案是由中小型公司或新创公司所提出，而且智慧城市需要许多技术整合，未来新兴产品有新创公司参与，但技术整合者也渐冒出头来。未来，AI结合5G将翻转所有产业并加速整个产业环境迈入下一时代，走向AI智慧化社会。最近，美国电信Verizon与三星合作计划在2018年底前推出3到5个5G商转的城市。

andyleung 发表于2021-03-20 12:56:25 2021-03-20 12:56:25 最后回复 andyleung 2021-03-20 12:56:25
617 0

语音通话 VoiceCall 人工智能

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript