- 开发者
- SIS
#SIS#
- 介绍了词错率WER和字错率CER的概念,引入了编辑距离的概念与计算方法,从而推导得到词错率或字错率的计算方法。 介绍了词错率WER和字错率CER的概念,引入了编辑距离的概念与计算方法,从而推导得到词错率或字错率的计算方法。
- 语音数据常被用于人工智能任务,但语音数据往往不能像图像任务那样直接输入到模型中训练,其在长时域上没有明显的特征变化,很难学习到语音数据的特征,加之语音的时域数据通常由16K采样率构成,即1秒16000个采样点,直接输入时域采样点训练数据量大且很难有训练出实际效果。因此语音任务通常是将语音数据转化为声学特征作为模型的输入或者输出。因此本文指在详细介绍语音转化声学特征的过程,并详细介绍不同声... 语音数据常被用于人工智能任务,但语音数据往往不能像图像任务那样直接输入到模型中训练,其在长时域上没有明显的特征变化,很难学习到语音数据的特征,加之语音的时域数据通常由16K采样率构成,即1秒16000个采样点,直接输入时域采样点训练数据量大且很难有训练出实际效果。因此语音任务通常是将语音数据转化为声学特征作为模型的输入或者输出。因此本文指在详细介绍语音转化声学特征的过程,并详细介绍不同声...
- 弹性搜索的简介,安装与Hello World 弹性搜索的简介,安装与Hello World
- 从上一篇简化的贝叶斯公式出发,将语音识别的问题转化为求概率的问题。引入隐马尔可夫链模型用于解决输入输出序列不定长的建模。并推导使用GMM或DNN来表示概率,从而建立声学模型。之后介绍了n元法和RNN用于语言模型的表示。最后介绍了加权有限状态转换机WSFT用于找出最优概率。 从上一篇简化的贝叶斯公式出发,将语音识别的问题转化为求概率的问题。引入隐马尔可夫链模型用于解决输入输出序列不定长的建模。并推导使用GMM或DNN来表示概率,从而建立声学模型。之后介绍了n元法和RNN用于语言模型的表示。最后介绍了加权有限状态转换机WSFT用于找出最优概率。
- 语音转写文字ASR技术的基本概念与数学原理简介。 语音转写文字ASR技术的基本概念与数学原理简介。
- 《WeNet云端推理部署代码解析(上)》一文对WeNet云端推理代码进行探索,介绍了代码结构、前端和解码器部分代码。在本文中,笔者将继续解析WeNet云端部署代码,由于流式ASR服务需要在客户端和服务端之间进行双向的流式数据传输,WeNet实现了两种支持双向流式通信的服务化接口,分别基于WebSocket和gRPC。 《WeNet云端推理部署代码解析(上)》一文对WeNet云端推理代码进行探索,介绍了代码结构、前端和解码器部分代码。在本文中,笔者将继续解析WeNet云端部署代码,由于流式ASR服务需要在客户端和服务端之间进行双向的流式数据传输,WeNet实现了两种支持双向流式通信的服务化接口,分别基于WebSocket和gRPC。
- 前两篇文章都是从Encoder-Decoder的模型入手,这篇文章我们介绍一个结合CTC与WFST (weighted finite-state transducers) 的工作:《EESEN: END-TO-END SPEECH RECOGNITION USING DEEP RNN MODELS AND WFST-BASED DECODING》。 前两篇文章都是从Encoder-Decoder的模型入手,这篇文章我们介绍一个结合CTC与WFST (weighted finite-state transducers) 的工作:《EESEN: END-TO-END SPEECH RECOGNITION USING DEEP RNN MODELS AND WFST-BASED DECODING》。
- 本文从《Shallow-Fusion End-to-End Contextual Biasing》入手,探索解决专有领域的端到端ASR。 本文从《Shallow-Fusion End-to-End Contextual Biasing》入手,探索解决专有领域的端到端ASR。
- GlusterFS的安装与维护 GlusterFS的安装与维护
- wenet语音识别onnxruntime内存泄露定位 wenet语音识别onnxruntime内存泄露定位
- 音频处理神器 FFmpeg安装与使用 音频处理神器 FFmpeg安装与使用
- 端到端ASR神器 WeNet系列之前沿知识 CMake语法 端到端ASR神器 WeNet系列之前沿知识 CMake语法
- 因为语音和文字之间序列不一一对应,因此我们在前面博文中并未直接使用语料去端到端训练语音识别模型,但是如果能找到一个比较合适的数学形式来表示输入输出,则可以端对端实现语音识别。本文介绍了常见的几种端对端结构的语音识别模型,包括CTC和注意力机制等。 因为语音和文字之间序列不一一对应,因此我们在前面博文中并未直接使用语料去端到端训练语音识别模型,但是如果能找到一个比较合适的数学形式来表示输入输出,则可以端对端实现语音识别。本文介绍了常见的几种端对端结构的语音识别模型,包括CTC和注意力机制等。
- 语音技术里面声音检测VAD和话者分离模块非常基础,因此本文将整理这两个模块相关的概念和衡量指标。 语音技术里面声音检测VAD和话者分离模块非常基础,因此本文将整理这两个模块相关的概念和衡量指标。
- Tacotron-2: TTS论文大全: https://github.com/lifefeel/SpeechSynthesis DeepMind的Tacotron-2的Tensorflow实现。 本文描述的深度神经网络模型结构:: Natural TTS synthesis by conditioning Wavenet on MEL spectogram predictionsgi... Tacotron-2: TTS论文大全: https://github.com/lifefeel/SpeechSynthesis DeepMind的Tacotron-2的Tensorflow实现。 本文描述的深度神经网络模型结构:: Natural TTS synthesis by conditioning Wavenet on MEL spectogram predictionsgi...
上滑加载中
推荐直播
-
华为云IoT开源专家实践分享:开源让物联网平台更开放、易用
2024/05/22 周三 16:30-18:00
张俭 华为云IoT DTSE技术布道师
开源,意味着开放、共享、互助、共赢。作为万物上云及各行业数字化的物联网底座,华为云IoT积极拥抱开源,借助行业开源的最佳实践,构建可靠、易用的物联网平台,并通过开放南北向SDK,助力开发者快速构建物联网应用。本期直播,华为云IoT开源专家、物联网平台资深“程序猿”张俭,带你了解华为云IoT的开源生态,并手把手教你玩转开源社区!
去报名 -
华为云开发者日·广州站
2024/05/23 周四 14:30-17:30
华为云专家团
华为云开发者日HDC.Cloud Day是面向全球开发者的旗舰活动,汇聚来自千行百业、高校及科研院所的开发人员。致力于打造开发者专属的技术盛宴,全方位服务与赋能开发者围绕华为云生态“知、学、用、创、商”的成长路径。通过前沿的技术分享、场景化的动手体验、优秀的应用创新推介,为开发者提供沉浸式学习与交流平台。开放创新,与开发者共创、共享、共赢未来。
去报名
热门标签