• [网络迁移] 使用atc工具转换onnx到om,onnx模型里有LSTM算子。
    使用如下命令转换:atc --framework=5 --output=./output/encoder_static --input_format=ND --soc_version=${SOC_VERSION} --model=./output/encoder_modify.onnx --input_shape="sequences:${batch_size},${seq_len};sequence_lengths:${batch_size}" --out_nodes="" --output_type=""出现以下问题: 请问这种情况是需要自定义算子吗?有没有具体的文档来解决这种问题呢?
  • [问题求助] 语音合成 VITS pytoch框架转 ONNX 报错 ,长虹企业重要客户,重点项目
    [ERROR] TBE(8520,atc.bin):2022-09-02-15:18:16.121.452 [util.cc:103][OP_PROTO] CheckTwoInputDtypeSame:103 OpName:[Mul_3865] "The Mul_3865 op dtype is not same, type1:DT_INT32, type2:DT_INT64"
  • [问题求助] 语音合成 VITS 转onnx报错
    [ERROR] TBE(8520,atc.bin):2022-09-02-15:18:16.121.452 [util.cc:103][OP_PROTO] CheckTwoInputDtypeSame:103 OpName:[Mul_3865] "The Mul_3865 op dtype is not same, type1:DT_INT32, type2:DT_INT64"
  • [技术干货] 定制语音合成电脑app
    定制语音合成电脑app我利用华为云提供的api开发了一款定制语音合成app。默认保存方式是wav,操作完成后改名为mp3,mp4,再剪影是可以正常使用的。点击免费朗读使用的是我默认的sk和ak,你也可以使用自己的ak和sk。不放心就免费朗读就好了。一次限制500个字,是华为云的限制和我没关系。我想吐糟一下,北京4的定制语音合成服务器是朕的垃圾。有时候要连续好几次。才能上传文件成功。导致软件体验也是非常慢。没跑了下载地址放百度云盘吧 链接:https://pan.baidu.com/s/1vhSNR_UjkBzb5u4oPbZhjQ 提取码:8888 复制这段内容后打开百度网盘手机App,操作更方便哦 
  • [技术干货] 语音交互机器狗demo
    1. 解决问题与挑战:1.1 业务场景:        一款具备语音交互的机器狗,对机器狗科研demo样机搭载语音识别ASR、自然语言处理NLP、语音合成TTS服务实现语音交互的功能,实现语音运动控制、语音智能交互、智能提醒等智能语音服务。解决问题:实现准确快速的语音识别、多音色富有情感的语音合成等功能1.2 挑战:        伴随5G技术的发展、互联网基础设施的完善,采用API访问云端实现一些例如语音识别、语音合成模块功能,逐渐可以简化或者取代一些复杂的本地资源部署,快速实现相应的功能。在过去,对于一些语音交互科研机器人,语音服务经常面临本地部署设备数目少、部署成本高、维护麻烦等问题,寻求低成本、部署方便、语音合成迅速的语音交互服务模块在很长一段时间内,成为我设计语音交互机器人设计关键瓶颈难题。1.3 使用服务:语音识别ASR/ 语音合成TTS/ 自然语言处理NLP1.4 如何解决:在本地设备部署语音唤醒服务,设备语音唤醒后,将录音片段通过华为云的语音识别接口传至华为云进行语音识别处理。将华为云返回的语音识别文字信息在本地进行自然语言处理或运用华为云的自然语言处理模块进行自然语言处理得到相应的语义、控制指令信息。将需要语音合成的文字通过华为云的语音合成接口传至华为云,得到相应的音频信息。2. 使用场景:    语音交互机器人控制指令识别:通过语音识别服务,在本地通过正则匹配,数据库对比等操作,得到语音信息中的控制指令信息,用于机器人的语音控制。    语音交互机器人对话语音的语音转写:运用语音识别服务,获取语音信息中相应的文字信息,用于自然语言处理模块的文本输入,或者对话机器人api的输入。    语音交互机器人自然语言处理:通过华为云的自然语言处理服务,得到相应的回复语言,用于智能对话、智能提醒等功能。    语音交互机器人语音合成功能:运用华为云的语音合成服务实现对答文本的语音合成服务。3. 业务架构图/方案截图:4. 使用规模:        语音识别:500次/月 语音合成:500次/月5.使用收益:        简化了语音交互模块的配置:学生可以轻松通过API调用的方式实现语音识别、语音合成等服务,简单便捷。        提升了语音交互的质量:得益于华为云低延时高速的特性,让在线服务可以与本地服务媲美,语音识别准确率很高,同时语音合成提供了多种语音交互音色供开发者使用。6.意见/建议:对于长语音的识别速度可否进一步优化 。对于语音合成可以考虑例如中英语音的合成,提升中英语音合成的情感度,衔接的自然度。有些音色在中英混合语音合成时,中文语音合成情感比较充足,但英文就显得很生硬。  建议增添音色选项。对比阿里云、腾讯云、京东云等语音合成服务,他们可配置音色相比会更多些。如有条件适宜,可否考虑提升服务器的部署分布,现在语音合成语音识别仅有北京四的服务器可供选择,能否增设一些南方地区的语音服务的服务器。服务指南通俗易懂,配置简单。但对一些小白用户可能存在门槛,如条件适宜,可否会像思必驰、讯飞等平台提供一些入门指导教程参考。不过对于多数开发展,当前服务指导书足够的。对于在校学生、或者科研团队,可否提供一些特殊套餐供学生选用。降低学生使用成本。
  • [问题求助] 定制语音合成
    在电脑网站上购买了定制语音合成,该如何使用?