- 开发者
- SIS
#SIS#
- 介绍了词错率WER和字错率CER的概念,引入了编辑距离的概念与计算方法,从而推导得到词错率或字错率的计算方法。 介绍了词错率WER和字错率CER的概念,引入了编辑距离的概念与计算方法,从而推导得到词错率或字错率的计算方法。
- 语音数据常被用于人工智能任务,但语音数据往往不能像图像任务那样直接输入到模型中训练,其在长时域上没有明显的特征变化,很难学习到语音数据的特征,加之语音的时域数据通常由16K采样率构成,即1秒16000个采样点,直接输入时域采样点训练数据量大且很难有训练出实际效果。因此语音任务通常是将语音数据转化为声学特征作为模型的输入或者输出。因此本文指在详细介绍语音转化声学特征的过程,并详细介绍不同声... 语音数据常被用于人工智能任务,但语音数据往往不能像图像任务那样直接输入到模型中训练,其在长时域上没有明显的特征变化,很难学习到语音数据的特征,加之语音的时域数据通常由16K采样率构成,即1秒16000个采样点,直接输入时域采样点训练数据量大且很难有训练出实际效果。因此语音任务通常是将语音数据转化为声学特征作为模型的输入或者输出。因此本文指在详细介绍语音转化声学特征的过程,并详细介绍不同声...
- 弹性搜索的简介,安装与Hello World 弹性搜索的简介,安装与Hello World
- 从上一篇简化的贝叶斯公式出发,将语音识别的问题转化为求概率的问题。引入隐马尔可夫链模型用于解决输入输出序列不定长的建模。并推导使用GMM或DNN来表示概率,从而建立声学模型。之后介绍了n元法和RNN用于语言模型的表示。最后介绍了加权有限状态转换机WSFT用于找出最优概率。 从上一篇简化的贝叶斯公式出发,将语音识别的问题转化为求概率的问题。引入隐马尔可夫链模型用于解决输入输出序列不定长的建模。并推导使用GMM或DNN来表示概率,从而建立声学模型。之后介绍了n元法和RNN用于语言模型的表示。最后介绍了加权有限状态转换机WSFT用于找出最优概率。
- 语音转写文字ASR技术的基本概念与数学原理简介。 语音转写文字ASR技术的基本概念与数学原理简介。
- 《WeNet云端推理部署代码解析(上)》一文对WeNet云端推理代码进行探索,介绍了代码结构、前端和解码器部分代码。在本文中,笔者将继续解析WeNet云端部署代码,由于流式ASR服务需要在客户端和服务端之间进行双向的流式数据传输,WeNet实现了两种支持双向流式通信的服务化接口,分别基于WebSocket和gRPC。 《WeNet云端推理部署代码解析(上)》一文对WeNet云端推理代码进行探索,介绍了代码结构、前端和解码器部分代码。在本文中,笔者将继续解析WeNet云端部署代码,由于流式ASR服务需要在客户端和服务端之间进行双向的流式数据传输,WeNet实现了两种支持双向流式通信的服务化接口,分别基于WebSocket和gRPC。
- 前两篇文章都是从Encoder-Decoder的模型入手,这篇文章我们介绍一个结合CTC与WFST (weighted finite-state transducers) 的工作:《EESEN: END-TO-END SPEECH RECOGNITION USING DEEP RNN MODELS AND WFST-BASED DECODING》。 前两篇文章都是从Encoder-Decoder的模型入手,这篇文章我们介绍一个结合CTC与WFST (weighted finite-state transducers) 的工作:《EESEN: END-TO-END SPEECH RECOGNITION USING DEEP RNN MODELS AND WFST-BASED DECODING》。
- 本文从《Shallow-Fusion End-to-End Contextual Biasing》入手,探索解决专有领域的端到端ASR。 本文从《Shallow-Fusion End-to-End Contextual Biasing》入手,探索解决专有领域的端到端ASR。
- GlusterFS的安装与维护 GlusterFS的安装与维护
- wenet语音识别onnxruntime内存泄露定位 wenet语音识别onnxruntime内存泄露定位
- 音频处理神器 FFmpeg安装与使用 音频处理神器 FFmpeg安装与使用
- 端到端ASR神器 WeNet系列之前沿知识 CMake语法 端到端ASR神器 WeNet系列之前沿知识 CMake语法
- 因为语音和文字之间序列不一一对应,因此我们在前面博文中并未直接使用语料去端到端训练语音识别模型,但是如果能找到一个比较合适的数学形式来表示输入输出,则可以端对端实现语音识别。本文介绍了常见的几种端对端结构的语音识别模型,包括CTC和注意力机制等。 因为语音和文字之间序列不一一对应,因此我们在前面博文中并未直接使用语料去端到端训练语音识别模型,但是如果能找到一个比较合适的数学形式来表示输入输出,则可以端对端实现语音识别。本文介绍了常见的几种端对端结构的语音识别模型,包括CTC和注意力机制等。
- 语音技术里面声音检测VAD和话者分离模块非常基础,因此本文将整理这两个模块相关的概念和衡量指标。 语音技术里面声音检测VAD和话者分离模块非常基础,因此本文将整理这两个模块相关的概念和衡量指标。
- Tacotron-2: TTS论文大全: https://github.com/lifefeel/SpeechSynthesis DeepMind的Tacotron-2的Tensorflow实现。 本文描述的深度神经网络模型结构:: Natural TTS synthesis by conditioning Wavenet on MEL spectogram predictionsgi... Tacotron-2: TTS论文大全: https://github.com/lifefeel/SpeechSynthesis DeepMind的Tacotron-2的Tensorflow实现。 本文描述的深度神经网络模型结构:: Natural TTS synthesis by conditioning Wavenet on MEL spectogram predictionsgi...
上滑加载中
推荐直播
-
华为云云原生FinOps解决方案,为您释放云原生最大价值
2024/04/24 周三 16:30-18:00
Roc 华为云云原生DTSE技术布道师
还在对CCE集群成本评估感到束手无策?还在担心不合理的K8s集群资源申请和过度浪费?华为云容器服务CCE全新上线云原生FinOps中心,为用户提供多维度集群成本可视化,结合智能规格推荐、混部、超卖等成本优化手段,助力客户降本增效,释放云原生最大价值。
回顾中 -
鲲鹏开发者创享日·江苏站暨数字技术创新应用峰会
2024/04/25 周四 09:30-16:00
鲲鹏专家团
这是华为推出的旨在和众多技术大牛、行业大咖一同探讨最前沿的技术思考,分享最纯粹的技术经验,进行最真实的动手体验,为开发者提供一个深度探讨与交流的平台。
回顾中
热门标签