实时语音识别_标签_开发者_华为云

博客(25)
视频(0)
论坛(0)
云声(9)
代码示例(0)

DFCNN + Transformer模型完成中文语音识别（三）
10.语言模型训练准备训练参数及数据def language_model_hparams(): params = HParams( num_heads = 8, num_blocks = 6, input_vocab_size = 50, label_vocab_size = 50, max_length = 10...

HWCloudAI
发表于2022-12-19 11:41:11
6079 0 0

6.0k 0 0

10.语言模型训练准备训练参数及数据def language_model_hparams(): params = HParams( num_heads = 8, num_blocks = 6, input_vocab_size = 50, label_vocab_size = 50, max_length = 10...
人工智能 AI开发平台ModelArts 实时语音识别机器学习
DFCNN + Transformer模型完成中文语音识别（二）
7.声学模型训练准备训练参数及数据为了本示例演示效果，参数batch_size在此仅设置为1，参数data_length在此仅设置为20。若进行完整训练，则应注释data_args.data_length = 20，并调高batch_size。def data_hparams(): params = HParams( data_path = './speech_reco...

HWCloudAI
发表于2022-12-19 11:40:17
5991 0 0

5.9k 0 0

7.声学模型训练准备训练参数及数据为了本示例演示效果，参数batch_size在此仅设置为1，参数data_length在此仅设置为20。若进行完整训练，则应注释data_args.data_length = 20，并调高batch_size。def data_hparams(): params = HParams( data_path = './speech_reco...
人工智能 AI开发平台ModelArts 实时语音识别
DFCNN + Transformer模型完成中文语音识别（一）
DFCNN + Transformer模型完成中文语音识别语音识别，通常称为自动语音识别，（Automatic Speech Recognition，ASR），主要是将人类语音中的词汇内容转换为计算机可读的输入，一般都是可以理解的文本内容，也有可能是二进制编码或者字符序列。但是，我们一般理解的语音识别其实都是狭义的语音转文字的过程，简称语音转文本识别（ Speech To Text, ST...

HWCloudAI
发表于2022-12-19 11:37:26
11289 0 1

11.2k 0 1

DFCNN + Transformer模型完成中文语音识别语音识别，通常称为自动语音识别，（Automatic Speech Recognition，ASR），主要是将人类语音中的词汇内容转换为计算机可读的输入，一般都是可以理解的文本内容，也有可能是二进制编码或者字符序列。但是，我们一般理解的语音识别其实都是狭义的语音转文字的过程，简称语音转文本识别（ Speech To Text, ST...
人工智能 AI开发平台ModelArts 实时语音识别
espnet中的transformer和LSTM语言模型对比---以aishell为例
NLP特征提取器简介 - RNN和Transformer近年来，深度学习在各个NLP任务中都取得了SOTA结果，我们先了解一下现阶段在自然语言处理领域最常用的特征抽取结构。长短期记忆网络(LSTM)传统RNN的做法是将的所有知识全部提取出来，不作任何处理的输入到下一个时间步进行迭代。就像参加考试一样，如果希望事先把书本上的所有知识都记住，到了考试的时候，早期的知识恐怕已经被近期的知识完全覆...

可爱又积极
发表于2022-03-29 09:33:02
8673 0 0

8.6k 0 0

NLP特征提取器简介 - RNN和Transformer近年来，深度学习在各个NLP任务中都取得了SOTA结果，我们先了解一下现阶段在自然语言处理领域最常用的特征抽取结构。长短期记忆网络(LSTM)传统RNN的做法是将的所有知识全部提取出来，不作任何处理的输入到下一个时间步进行迭代。就像参加考试一样，如果希望事先把书本上的所有知识都记住，到了考试的时候，早期的知识恐怕已经被近期的知识完全覆...
人工智能 Shell 实时语音识别深度学习神经网络
kaldi中librispeech例子的rnn语言模型重打分
先来简单回顾一下神经网络语言模型。语言模型 (Language Models) 是语音识别系统中的重要组成部分，语音识别的核心公式如下这可进一步表示为一系列单个词的条件概率的乘积，这些条件概率取决于它们各自的前文序列。这也是当前统计语言模型的核心公式，在大规模训练语料库中用合适的模型统计分析得到词与词之间的关系依赖，即语义信息。n 元语法模型就是用马尔科夫假设限制了前文的长度，然后用频率近似...

可爱又积极
发表于2022-03-16 16:52:52
11095 0 0

11.0k 0 0

先来简单回顾一下神经网络语言模型。语言模型 (Language Models) 是语音识别系统中的重要组成部分，语音识别的核心公式如下这可进一步表示为一系列单个词的条件概率的乘积，这些条件概率取决于它们各自的前文序列。这也是当前统计语言模型的核心公式，在大规模训练语料库中用合适的模型统计分析得到词与词之间的关系依赖，即语义信息。n 元语法模型就是用马尔科夫假设限制了前文的长度，然后用频率近似...
实时语音识别机器学习深度学习神经网络
kaldi中的chain model详解
chain model的结构chain model实际上是借鉴了CTC的思想，引入了blank用来吸收不确定的边界。但CTC只有一个blank，而chain model中每一个建模单元都有自己的blank。如下图所示：对应kaldi中的结构定义为：在kaldi中，把Sp和Sb看做同一个状态(都对应state 0)，只是pdfclass不同。ForwardPdfClass表示Sp，SelfLo...

可爱又积极
发表于2022-03-17 17:19:58
7066 0 0

7.0k 0 0

chain model的结构chain model实际上是借鉴了CTC的思想，引入了blank用来吸收不确定的边界。但CTC只有一个blank，而chain model中每一个建模单元都有自己的blank。如下图所示：对应kaldi中的结构定义为：在kaldi中，把Sp和Sb看做同一个状态(都对应state 0)，只是pdfclass不同。ForwardPdfClass表示Sp，SelfLo...
实时语音识别机器学习深度学习神经网络
kaldi中DNN网络结构解析
网络结构可以被认为是另外需要确定的参数。既然每层可以被认为是前一层的特征抽取器，每层节点的数量应该足够大以获取本质的模式。这在模型低层是特别重要的,因为开始层的特征变化更大，它需要比其他层更多的节点来模拟特征模式。然而，如果每层节点太大，它容易在训练数据上过拟合。一般来说，宽且浅的模型容易过拟合，深且窄的模型谷易欠拟合。事实上，如果有一层很小(通常称为瓶颈),模型性能将有重大的下降，特别是瓶...

可爱又积极
发表于2021-11-30 11:58:22
12396 0 0

12.3k 0 0

网络结构可以被认为是另外需要确定的参数。既然每层可以被认为是前一层的特征抽取器，每层节点的数量应该足够大以获取本质的模式。这在模型低层是特别重要的,因为开始层的特征变化更大，它需要比其他层更多的节点来模拟特征模式。然而，如果每层节点太大，它容易在训练数据上过拟合。一般来说，宽且浅的模型容易过拟合，深且窄的模型谷易欠拟合。事实上，如果有一层很小(通常称为瓶颈),模型性能将有重大的下降，特别是瓶...
实时语音识别深度学习神经网络
kaldi中nnet3解码实践
Kaldi的nnet3网络结构。xconfig: 类似于keras，简洁的网络定义，xconfig覆盖了大部分常用的神经网络layerconfig: kaldi实际使用的config，基于node定义网络结构，如果xconfig无法满足需求，可在config层实现。C++: 如果某些网络无法用config构建，或者想提高效率，则可以在C++层实现。(Kaldi本身的LSTM可以通过conf...

可爱又积极
发表于2021-11-03 16:23:56
8155 0 0

8.1k 0 0

Kaldi的nnet3网络结构。xconfig: 类似于keras，简洁的网络定义，xconfig覆盖了大部分常用的神经网络layerconfig: kaldi实际使用的config，基于node定义网络结构，如果xconfig无法满足需求，可在config层实现。C++: 如果某些网络无法用config构建，或者想提高效率，则可以在C++层实现。(Kaldi本身的LSTM可以通过conf...
实时语音识别机器学习深度学习神经网络自然语言处理基础
GMM(高斯混合模型)
GMM(Gaussian mixture model)，高斯混合模型，也可以简写成MOG.高斯模型就是用高斯概率密度函数(正态分布曲线)精确地量化事物，将一个事物分解为若干的基于高斯概率密度函数（正态分布曲线）形成的模型。GMM已经在数值逼近、语音识别、图像分类、图像去噪、图像重构、故障诊断、视频分析、邮件过滤、密度估计、目标识别与跟踪等领域取得了良好的效果。实际上，GMM的目的就是找到一个...

可爱又积极
发表于2021-09-23 10:25:55
9844 0 0

9.8k 0 0

GMM(Gaussian mixture model)，高斯混合模型，也可以简写成MOG.高斯模型就是用高斯概率密度函数(正态分布曲线)精确地量化事物，将一个事物分解为若干的基于高斯概率密度函数（正态分布曲线）形成的模型。GMM已经在数值逼近、语音识别、图像分类、图像去噪、图像重构、故障诊断、视频分析、邮件过滤、密度估计、目标识别与跟踪等领域取得了良好的效果。实际上，GMM的目的就是找到一个...
实时语音识别自然语言处理基础
语音识别-声学模型
关于声学模型，主要有两个问题，分别是特征向量序列的可变长和音频信号的丰富变化性。可变长特征向量序列问题在学术上通常有动态时间规划（Dynamic Time Warping, DTW）和隐马尔科夫模型（Hidden Markov Model, HMM）方法来解决。而音频信号的丰富变化性是由说话人的各种复杂特性或者说话风格与语速、环境噪声、信道干扰、方言差异等因素引起的。声学模型需要足够的鲁棒性...

可爱又积极
发表于2021-09-07 14:46:06
8511 0 0

8.5k 0 0

关于声学模型，主要有两个问题，分别是特征向量序列的可变长和音频信号的丰富变化性。可变长特征向量序列问题在学术上通常有动态时间规划（Dynamic Time Warping, DTW）和隐马尔科夫模型（Hidden Markov Model, HMM）方法来解决。而音频信号的丰富变化性是由说话人的各种复杂特性或者说话风格与语速、环境噪声、信道干扰、方言差异等因素引起的。声学模型需要足够的鲁棒性...
实时语音识别机器学习神经网络
以kaldi中的yesno为例谈谈transition
在基于GMM-HMM的传统语音识别里，比音素（phone）更小的单位是状态（state）。一般每个音素由三个状态组成，特殊的是静音（SIL）由五个状态组成。这里所说的状态就是指HMM里的隐藏的状态，而每帧数据就是指HMM里的观测值。每个状态可以用一个GMM模型表示（这个GMM模型的参数是通过训练得到的）。在识别时把每帧数据对应的特征值放进每个状态的GMM里算概率，概率最大的那个就是这帧对应的...

可爱又积极
发表于2021-09-07 14:35:48
7873 0 0

7.8k 0 0

在基于GMM-HMM的传统语音识别里，比音素（phone）更小的单位是状态（state）。一般每个音素由三个状态组成，特殊的是静音（SIL）由五个状态组成。这里所说的状态就是指HMM里的隐藏的状态，而每帧数据就是指HMM里的观测值。每个状态可以用一个GMM模型表示（这个GMM模型的参数是通过训练得到的）。在识别时把每帧数据对应的特征值放进每个状态的GMM里算概率，概率最大的那个就是这帧对应的...
实时语音识别机器学习
N-gram语言模型的平滑算法全解析
平滑技术用于解决N-gram语言模型训练过程中存在的数据稀疏或零概率问题，是提高语言模型性能的核心技术。本文介绍了几种常用的平滑算法，并对SRILM的平滑参数及ARPA格式的语言模型进行了解析。

tudousi
发表于2020-07-30 20:00:54
13153 0 0

13.1k 0 0

平滑技术用于解决N-gram语言模型训练过程中存在的数据稀疏或零概率问题，是提高语言模型性能的核心技术。本文介绍了几种常用的平滑算法，并对SRILM的平滑参数及ARPA格式的语言模型进行了解析。
一句话识别实时语音识别 EI企业智能 EI智能体 SIS
语言模型重打分
图1语音识别中的语言模型重打分从公式 (1) 中可以看出，语言模型在语音识别任务中是作为一个先验项的，在贝叶斯公式中也确然如此。声学模型是为了找出能产生声学信号的最有可能的，但是在隐马尔科夫模型中我们可知实际上声学模型找到的是每一帧语音对应的最大概率的文本，因此只用声学模型得到文本序列是不考虑语义信息的，由于同音字词的存在识别结果往往很差；而语言模型就是在正常语料上训练，在声...

可爱又积极
发表于2022-03-16 17:24:01
11319 0 0

11.3k 0 0

图1语音识别中的语言模型重打分从公式 (1) 中可以看出，语言模型在语音识别任务中是作为一个先验项的，在贝叶斯公式中也确然如此。声学模型是为了找出能产生声学信号的最有可能的，但是在隐马尔科夫模型中我们可知实际上声学模型找到的是每一帧语音对应的最大概率的文本，因此只用声学模型得到文本序列是不考虑语义信息的，由于同音字词的存在识别结果往往很差；而语言模型就是在正常语料上训练，在声...
实时语音识别深度学习语音通话 VoiceCall
espnet安装--kaldi安装
一、Ubuntu镜像上传到集群1.下载镜像代码如下（示例）： docker pull ecpe4s/ubuntu20.04-spack2.查看镜像是否下载完成代码如下（示例）：docker images3.更改镜像名称代码如下（示例）：docker tag tensorflow/ecpe4s/ubuntu20.04-spack 211.82.236.15:8888/liu2yang/ubun...

可爱又积极
发表于2021-11-18 15:40:33
7693 0 0

7.6k 0 0

一、Ubuntu镜像上传到集群1.下载镜像代码如下（示例）： docker pull ecpe4s/ubuntu20.04-spack2.查看镜像是否下载完成代码如下（示例）：docker images3.更改镜像名称代码如下（示例）：docker tag tensorflow/ecpe4s/ubuntu20.04-spack 211.82.236.15:8888/liu2yang/ubun...
实时语音识别神经网络镜像服务 IMS
人工智能基础概述

Tianyi_Li
发表于2021-06-16 10:25:10
11270 0 1

11.2k 0 1

人工智能内容审核-文本实时语音识别机器学习深度学习

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript