SIS_标签_开发者_华为云

博客(19)
视频(0)
论坛(6)
云声(0)
代码示例(8)

新手语音入门(一)：认识词错率WER与字错率CER ｜编辑距离｜莱文斯坦距离｜动态规划
介绍了词错率WER和字错率CER的概念，引入了编辑距离的概念与计算方法，从而推导得到词错率或字错率的计算方法。

黄辣鸡
发表于2021-12-14 06:09:42
11591 2 2

11.5k 2 2

介绍了词错率WER和字错率CER的概念，引入了编辑距离的概念与计算方法，从而推导得到词错率或字错率的计算方法。
人工智能 EI企业智能 EI智能体 SIS
你真的懂语音特征背后的原理吗？
语音数据常被用于人工智能任务，但语音数据往往不能像图像任务那样直接输入到模型中训练，其在长时域上没有明显的特征变化，很难学习到语音数据的特征，加之语音的时域数据通常由16K采样率构成，即1秒16000个采样点，直接输入时域采样点训练数据量大且很难有训练出实际效果。因此语音任务通常是将语音数据转化为声学特征作为模型的输入或者输出。因此本文指在详细介绍语音转化声学特征的过程，并详细介绍不同声...

白马过平川
发表于2021-07-31 10:11:33
7972 0 0

7.9k 0 0

语音数据常被用于人工智能任务，但语音数据往往不能像图像任务那样直接输入到模型中训练，其在长时域上没有明显的特征变化，很难学习到语音数据的特征，加之语音的时域数据通常由16K采样率构成，即1秒16000个采样点，直接输入时域采样点训练数据量大且很难有训练出实际效果。因此语音任务通常是将语音数据转化为声学特征作为模型的输入或者输出。因此本文指在详细介绍语音转化声学特征的过程，并详细介绍不同声...
实时语音识别语音合成 SIS
Elastic Search入门（一）：简介，安装，运行第一条Hello World搜索命令
弹性搜索的简介，安装与Hello World

黄辣鸡
发表于2021-12-30 20:54:08
9762 0 0

9.7k 0 0

弹性搜索的简介，安装与Hello World
EI智能体 Elasticsearch SIS
新手语音入门（四）：传统语音识别技术简介 | 隐马尔可夫链 | 声学/语言模型 | WFST解码
从上一篇简化的贝叶斯公式出发，将语音识别的问题转化为求概率的问题。引入隐马尔可夫链模型用于解决输入输出序列不定长的建模。并推导使用GMM或DNN来表示概率，从而建立声学模型。之后介绍了n元法和RNN用于语言模型的表示。最后介绍了加权有限状态转换机WSFT用于找出最优概率。

黄辣鸡
发表于2021-12-27 19:37:34
10228 0 0

10.2k 0 0

从上一篇简化的贝叶斯公式出发，将语音识别的问题转化为求概率的问题。引入隐马尔可夫链模型用于解决输入输出序列不定长的建模。并推导使用GMM或DNN来表示概率，从而建立声学模型。之后介绍了n元法和RNN用于语言模型的表示。最后介绍了加权有限状态转换机WSFT用于找出最优概率。
人工智能 EI企业智能 EI智能体语音通话 VoiceCall SIS
新手语音入门（三）：语音识别ASR算法初探 | 编码与解码 | 声学模型与语音模型 | 贝叶斯公式 | 音素
语音转写文字ASR技术的基本概念与数学原理简介。

黄辣鸡
发表于2021-12-27 15:11:12
15900 0 1

15.9k 0 1

语音转写文字ASR技术的基本概念与数学原理简介。
人工智能 EI智能体语音通话 VoiceCall SIS
WeNet云端推理部署代码解析（下）
《WeNet云端推理部署代码解析（上）》一文对WeNet云端推理代码进行探索，介绍了代码结构、前端和解码器部分代码。在本文中，笔者将继续解析WeNet云端部署代码，由于流式ASR服务需要在客户端和服务端之间进行双向的流式数据传输，WeNet实现了两种支持双向流式通信的服务化接口，分别基于WebSocket和gRPC。

xiaoye0829
发表于2021-12-12 15:00:14
9269 0 1

9.2k 0 1

《WeNet云端推理部署代码解析（上）》一文对WeNet云端推理代码进行探索，介绍了代码结构、前端和解码器部分代码。在本文中，笔者将继续解析WeNet云端部署代码，由于流式ASR服务需要在客户端和服务端之间进行双向的流式数据传输，WeNet实现了两种支持双向流式通信的服务化接口，分别基于WebSocket和gRPC。
websocket SIS
语境偏移如何解决？专有领域端到端ASR之路（三）
前两篇文章都是从Encoder-Decoder的模型入手，这篇文章我们介绍一个结合CTC与WFST (weighted finite-state transducers) 的工作：《EESEN: END-TO-END SPEECH RECOGNITION USING DEEP RNN MODELS AND WFST-BASED DECODING》。

xiaoye0829
发表于2021-06-25 20:17:09
7131 0 1

7.1k 0 1

前两篇文章都是从Encoder-Decoder的模型入手，这篇文章我们介绍一个结合CTC与WFST (weighted finite-state transducers) 的工作：《EESEN: END-TO-END SPEECH RECOGNITION USING DEEP RNN MODELS AND WFST-BASED DECODING》。
SIS
语境偏移如何解决？专有领域端到端ASR之路（一）
本文从《Shallow-Fusion End-to-End Contextual Biasing》入手，探索解决专有领域的端到端ASR。

xiaoye0829
发表于2021-05-25 18:37:35
11442 0 1

11.4k 0 1

本文从《Shallow-Fusion End-to-End Contextual Biasing》入手，探索解决专有领域的端到端ASR。
SIS
GlusterFS安装与维护
GlusterFS的安装与维护

ASR-beginer
发表于2022-05-30 17:52:48
5079 0 0

5.0k 0 0

GlusterFS的安装与维护
EI企业智能 EI智能体 SIS
wenet onnxruntime推理内存泄露排查
wenet语音识别onnxruntime内存泄露定位

ASR-beginer
发表于2022-05-30 17:13:01
11245 1 1

11.2k 1 1

wenet语音识别onnxruntime内存泄露定位
EI企业智能 EI智能体 SIS
音频处理神器 FFmpeg安装与使用
音频处理神器 FFmpeg安装与使用

ASR-beginer
发表于2022-03-23 17:40:06
6062 0 0

6.0k 0 0

音频处理神器 FFmpeg安装与使用
EI企业智能 EI智能体 SIS
端到端ASR神器 WeNet系列前沿讲解之CMake
端到端ASR神器 WeNet系列之前沿知识 CMake语法

ASR-beginer
发表于2022-03-23 17:35:54
7018 0 0

7.0k 0 0

端到端ASR神器 WeNet系列之前沿知识 CMake语法
EI企业智能 EI智能体 SIS
新手语音入门（五）：端到端语音识别技术简介 | 卷积神经网络 | CTC损失函数 | 注意力机制
因为语音和文字之间序列不一一对应，因此我们在前面博文中并未直接使用语料去端到端训练语音识别模型，但是如果能找到一个比较合适的数学形式来表示输入输出，则可以端对端实现语音识别。本文介绍了常见的几种端对端结构的语音识别模型，包括CTC和注意力机制等。

黄辣鸡
发表于2021-12-27 20:05:28
10773 0 0

10.7k 0 0

因为语音和文字之间序列不一一对应，因此我们在前面博文中并未直接使用语料去端到端训练语音识别模型，但是如果能找到一个比较合适的数学形式来表示输入输出，则可以端对端实现语音识别。本文介绍了常见的几种端对端结构的语音识别模型，包括CTC和注意力机制等。
人工智能 EI智能体神经网络语音通话 VoiceCall SIS
新手语音入门（二）：声音检测VAD与话者分离技术简述｜检测错误率 | 准确率 | 召回率 | 分离错误率DER
语音技术里面声音检测VAD和话者分离模块非常基础，因此本文将整理这两个模块相关的概念和衡量指标。

黄辣鸡
发表于2021-12-27 05:08:15
15080 0 1

15.0k 0 1

语音技术里面声音检测VAD和话者分离模块非常基础，因此本文将整理这两个模块相关的概念和衡量指标。
EI企业智能 EI智能体语音通话 VoiceCall SIS
什么？语音合成开源代码不会跑，我来教你跑Tacotron2
Tacotron-2: TTS论文大全： https://github.com/lifefeel/SpeechSynthesis DeepMind的Tacotron-2的Tensorflow实现。本文描述的深度神经网络模型结构：: Natural TTS synthesis by conditioning Wavenet on MEL spectogram predictionsgi...

白马过平川
发表于2021-07-31 10:50:30
8687 0 0

8.6k 0 0

Tacotron-2: TTS论文大全： https://github.com/lifefeel/SpeechSynthesis DeepMind的Tacotron-2的Tensorflow实现。本文描述的深度神经网络模型结构：: Natural TTS synthesis by conditioning Wavenet on MEL spectogram predictionsgi...
语音合成 SIS

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript