• [技术干货] 【AI实战营】第八章语音识别延伸学习材料
    1.参考文章:语音识别概述:https://blog.csdn.net/shichaog/article/details/72528637论语音识别三大关键技术:https://blog.csdn.net/qq_34231800/article/details/80189617一文读懂语音识别技术原理:https://zhuanlan.zhihu.com/p/990440501.1语音与语音识别方向介绍语音识别技术是指机器自动将人的语音的内容转成文字,又称 Automatic Speech Recognition,即ASR技术。语音识别是一门交叉的、非常复杂的学科,需要具备生理学、声学、信号处理、计算机科学、模式识别、语言学、心理学等相关学科的知识。1.2发展简史1971年美国国防部研究所(DARPA)赞助了五年期限的语音理解研究项目,推动了语音识别的一次**展。1990年,大词汇量连续词识别持续进步,提出了区分性的模型训练方法MCE和MMI,使得语音识别的精确度日益提高。与此同时,还提出了模型自适应方法MAP和MLLR。在工业方面,剑桥推出首个开源的语音识别训练工具HTK。在商业方面,Nuance发布了首个消费级产品Dragon Dictate。到了21世纪,随着深度学习的不断发展,神经网络之父Hinton提出深度置信网络( DBN )2009年, Hinton和学生Mohamed将深度神经网络应用于语音识别,在小词汇量连续语音识别任务TIMIT上获得成功。1.3未来发展方向研究方向一:更有效的序列到序列直接转换的模型语音识别实际上是把语音信号的序列转化为文字或词的序列,所以很多人认为要解决这个问题,找到一个行之有效、序列到序列的转换模型就可以了。研究方向二:鸡尾酒会问题在安静环境下的语音识别系统已经接近了人类的水平。目前也有很多实际的应用,但目前的语音识别系统在强噪声干扰情况下还很难达到实用化要求。对于人类的听觉系统则有一种“鸡尾酒会效应”,我们在具有背景噪声干扰的情况下,可以将注意力集中在某一个人的谈话之中,而这种人类听觉系统的功能目前语音识别系统还很难实现。研究方向三:持续预测与适应的模型在语音识别领域,能否建造一个持续做预测系统呢?这样可以不断根据已有的识别结果来为下一次识别进行改进。研究方向四:前后端联合优化传统来讲,前端的信号处理技术一般只用到当前状态下的语音的信号信息。而机器学习方法用到很多的训练器里学到的信息,但是很少用到当前帧的信息,它不进行数据建模,所以我们有没有办法把这两种方法比较好地融合在一起,这是目前很多研究组织发力的一个方向。 2.项目代码推荐:kaldi :使用广泛的语音工具包 https://github.com/kaldi-asr/kaldi语音识别与合成Speech-Recognition-And-Synthesis:https://github.com/JustFollowUs/Speech-Recognition-And-SynthesisA PyTorch Implementation of End-to-End Models for Speech-to-Text 端到端语音识别 PyTorch实现:https://github.com/awni/speechTacotron 2 - PyTorch implementation with faster-than-realtime inference 语音合成 Tacotron2 PyTorch实现:https://github.com/NVIDIA/tacotron23.算法模型:深度学习与语音识别—常用声学模型简介:https://blog.csdn.net/dujiajiyi_xue5211314/article/details/53943313GMM-HMM语音识别模型https://blog.csdn.net/abcjennifer/article/details/27346787 4.数据集与比赛:4.1数据集几个最新免费开源的中文语音数据集:https://zhuanlan.zhihu.com/p/50470001THCHS30:THCHS30是一个很经典的中文语音数据集了,包含了1万余条语音文件,大约40小时的中文语音数据,内容以文章诗句为主,全部为女声。它是由清华大学语音与语言技术中心(CSLT)出版的开放式中文语音数据库。ST-CMDS:ST-CMDS是由一个AI数据公司冲浪科技发布的中文语音数据集,包含10万余条语音文件,大约100余小时的语音数据。数据内容以平时的网上语音聊天和智能语音控制语句为主,855个不同说话者,同时有男声和女声,适合多种场景下使用。AISHELL开源版:AISHELL是由北京希尔公司发布的一个中文语音数据集,其中包含178小时的开源版数据。该数据集包含400个来自中国不同地区、具有不同的口音的人的声音。LibriSpeech:包含文本和语音的有声读物数据集,由近500小时的多人朗读的清晰音频组成,且包含书籍的章节结构。地址:http://www.openslr.org/12/VoxForge:带口音的语音清洁数据集,对测试模型在不同重音或语调下的鲁棒性非常有用。地址:http://www.voxforge.org/CHIME:包含环境噪音的语音识别挑战赛数据集。该数据集包含真实、模拟和清洁的语音录音,具体来说,包括4个扬声器在4个有噪音环境下进行的将近9000次录音,模拟数据是将多个环境组合及在无噪音环境下记录的数据。地址:http://spandh.dcs.shef.ac.uk/chime_challenge/data.htmlTED-LIUM:TED Talk 的音频数据集,包含1495个TED演讲的录音及全文的文字稿。地址:http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus4.2比赛CHiME2018主页:http://spandh.dcs.shef.ac.uk/chime_workshop/简介:CHiME(Computational Hearing in Multisource Environments)比赛的目的是希望学术界和工业届针对高噪声和混响等现象影响下的实际场景提出全新的语音识别解决方案,以进一步提升语音识别的实用性和普适性,属于国际语音识别评测中的高难度比赛。国际音频检索评测大赛(MIREX)主页:http://www.music-ir.org/mirex/wiki/MIREX_HOME简介:MIREX比赛,是由美国伊利诺依大学厄本那-香槟分校(UIUC)国际音乐信息检索系统评估实验(ISMIRSEL)主办,是音乐信息检索领域顶级研究型竞赛。说话人识别比赛NIST SRE 主页:https://www.nist.gov/itl/iad/mig/speaker-recognition简介:作为国际上规模与影响力最大、由NIST(美国国家标准技术研究院)从1997年开始举办的历届说话人识别评测大赛,都是国际一流的科研单位和企业角逐说话人识别技术桂冠的竞技平台。语音合成比赛Blizzard Challenge 主页:http://www.festvox.org/index.html简介:Blizzard Challenge国际英文合成比赛是英语语音合成领域最具权威性、广泛性的国际评测比赛。5.论文:Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups(2012年,Hinton,语音识别的突破)Speech recognition with deep recurrent neural networks(2013年,RNN在语音识别的应用)Towards End-To-End Speech Recognition with Recurrent Neural Networks(2014年)Fast and accurate recurrent neural network acoustic models for speech recognition(2015年,Google)Achieving Human Parity in Conversational Speech Recognition(2016年,Microsoft)
  • [AI实战营] 积分兑奖活动已结束【作业打卡帖】华为云2020 AI实战营 第八章 语音识别
    注意:本帖严禁水贴,如发现水贴,情节严重,取消报名资格【打卡方法说明】实战营总共有8章课程,每章课程的打卡内容都不一样,请仔细阅读以下打卡说明,并严格按照给出的打卡样例进行打卡,才可获得打卡积分因打卡不符合规范的同学,请注意要将所有截图重新发帖,在原帖基础上进行修改无效!!!打卡的目的是督促大家按时完成课程的学习,请如实根据自己的学习完成情况进行打卡,不要做虚假打卡获得积分,如发现作假,则会将该学员在本章课程的打卡积分清零。☞学AI,就上  huaweicloud.ai !☜
  • [AI实战营] 积分兑奖活动已结束【课程打卡帖】华为云2020 AI实战营 第八章 语音识别
    注意:本帖严禁水贴,如发现水贴,情节严重,取消报名资格【打卡方法说明】实战营总共有8章课程,每章课程的打卡内容都不一样,请仔细阅读以下打卡说明,并严格按照给出的打卡样例进行打卡,才可获得打卡积分因打卡不符合规范的同学,请注意要将所有截图重新发帖,在原帖基础上进行修改无效!!!打卡的目的是督促大家按时完成课程的学习,请如实根据自己的学习完成情况进行打卡,不要做虚假打卡获得积分,如发现作假,则会将该学员在本章课程的打卡积分清零。☞学AI,就上  huaweicloud.ai !☜
  • [技术干货] 语音交互机器狗demo
    1. 解决问题与挑战:1.1 业务场景:        一款具备语音交互的机器狗,对机器狗科研demo样机搭载语音识别ASR、自然语言处理NLP、语音合成TTS服务实现语音交互的功能,实现语音运动控制、语音智能交互、智能提醒等智能语音服务。解决问题:实现准确快速的语音识别、多音色富有情感的语音合成等功能1.2 挑战:        伴随5G技术的发展、互联网基础设施的完善,采用API访问云端实现一些例如语音识别、语音合成模块功能,逐渐可以简化或者取代一些复杂的本地资源部署,快速实现相应的功能。在过去,对于一些语音交互科研机器人,语音服务经常面临本地部署设备数目少、部署成本高、维护麻烦等问题,寻求低成本、部署方便、语音合成迅速的语音交互服务模块在很长一段时间内,成为我设计语音交互机器人设计关键瓶颈难题。1.3 使用服务:语音识别ASR/ 语音合成TTS/ 自然语言处理NLP1.4 如何解决:在本地设备部署语音唤醒服务,设备语音唤醒后,将录音片段通过华为云的语音识别接口传至华为云进行语音识别处理。将华为云返回的语音识别文字信息在本地进行自然语言处理或运用华为云的自然语言处理模块进行自然语言处理得到相应的语义、控制指令信息。将需要语音合成的文字通过华为云的语音合成接口传至华为云,得到相应的音频信息。2. 使用场景:    语音交互机器人控制指令识别:通过语音识别服务,在本地通过正则匹配,数据库对比等操作,得到语音信息中的控制指令信息,用于机器人的语音控制。    语音交互机器人对话语音的语音转写:运用语音识别服务,获取语音信息中相应的文字信息,用于自然语言处理模块的文本输入,或者对话机器人api的输入。    语音交互机器人自然语言处理:通过华为云的自然语言处理服务,得到相应的回复语言,用于智能对话、智能提醒等功能。    语音交互机器人语音合成功能:运用华为云的语音合成服务实现对答文本的语音合成服务。3. 业务架构图/方案截图:4. 使用规模:        语音识别:500次/月 语音合成:500次/月5.使用收益:        简化了语音交互模块的配置:学生可以轻松通过API调用的方式实现语音识别、语音合成等服务,简单便捷。        提升了语音交互的质量:得益于华为云低延时高速的特性,让在线服务可以与本地服务媲美,语音识别准确率很高,同时语音合成提供了多种语音交互音色供开发者使用。6.意见/建议:对于长语音的识别速度可否进一步优化 。对于语音合成可以考虑例如中英语音的合成,提升中英语音合成的情感度,衔接的自然度。有些音色在中英混合语音合成时,中文语音合成情感比较充足,但英文就显得很生硬。  建议增添音色选项。对比阿里云、腾讯云、京东云等语音合成服务,他们可配置音色相比会更多些。如有条件适宜,可否考虑提升服务器的部署分布,现在语音合成语音识别仅有北京四的服务器可供选择,能否增设一些南方地区的语音服务的服务器。服务指南通俗易懂,配置简单。但对一些小白用户可能存在门槛,如条件适宜,可否会像思必驰、讯飞等平台提供一些入门指导教程参考。不过对于多数开发展,当前服务指导书足够的。对于在校学生、或者科研团队,可否提供一些特殊套餐供学生选用。降低学生使用成本。
  • [问题求助] 【物联网知识竞赛】+LD3320语音识别模块
    LD3320语音识别模块通过哪些信号线通信?支持多少个识别条目?
  • [其他] 【人工智能相关知识分享】语音识别的性能指标
    语音识别系统的性能指标主要有四项。①词汇表范围:这是指机器能识别的单词或词组的范围,如不作任何限制,则可认为词汇表范围是无限的。②说话人限制:是仅能识别指定发话者的语音,还是对任何发话人的语音都能识别。③训练要求:使用前要不要训练,即是否让机器先“听”一下给定的语音,以及训练次数的多少。④正确识别率:平均正确识别的百分数,它与前面三个指标有关。
  • [其他] 【人工智能相关知识分享】语音识别的较新进展
    近几年来,特别是2009年以来,借助机器学习领域深度学习研究的发展,以及大数据语料的积累,语音识别技术得到突飞猛进的发展。 1、技术新发展 1)将机器学习领域深度学习研究引入到语音识别声学模型训练,使用带RBM预训练的多层神经网络,极大提高了声学模型的准确率。在此方面,微软公司的研究人员率先取得了突破性进展,他们使用深层神经网络模型(DNN)后,语音识别错误率降低了30%,是近20年来语音识别技术方面最快的进步。 2)目前大多主流的语音识别解码器已经采用基于有限状态机(WFST)的解码网络,该解码网络可以把语言模型、词典和声学共享音字集统一集成为一个大的解码网络,大大提高了解码的速度,为语音识别的实时应用提供了基础。 3)随着互联网的快速发展,以及手机等移动终端的普及应用,目前可以从多个渠道获取大量文本或语音方面的语料,这为语音识别中的语言模型和声学模型的训练提供了丰富的资源,使得构建通用大规模语言模型和声学模型成为可能。在语音识别中,训练数据的匹配和丰富性是推动系统性能提升的最重要因素之一,但是语料的标注和分析需要长期的积累和沉淀,随着大数据时代的来临,大规模语料资源的积累将提到战略高度。 2、技术新应用 近期,语音识别在移动终端上的应用最为火热,语音对话机器人、语音助手、互动工具等层出不穷,许多互联网公司纷纷投入人力、物力和财力展开此方面的研究和应用,目的是通过语音交互的新颖和便利模式迅速占领客户群。 目前,国外的应用一直以苹果的siri为龙头。 而国内方面,科大讯飞、云知声、盛大、捷通华声、搜狗语音助手、紫冬口译、百度语音等系统都采用了最新的语音识别技术,市面上其他相关的产品也直接或间接嵌入了类似的技术。
  • [其他] 【人工智能相关知识分享】语音识别系统的适应强健
    语音识别系统的性能受许多因素的影响,包括不同的说话人、说话方式、环境噪音、传输信道等等。提高系统鲁棒性,是要提高系统克服这些因素影响的能力,使系统在不同的应用环境、条件下性能稳定;自适应的目的,是根据不同的影响来源,自动地、有针对性地对系统进行调整,在使用中逐步提高性能。以下对影响系统性能的不同因素分别介绍解决办法。 解决办法按针对语音特征的方法(以下称特征方法)和模型调整的方法(以下称模型方法)分为两类。前者需要寻找更好的、高鲁棒性的特征参数,或是在现有的特征参数基础上,加入一些特定的处理方法。后者是利用少量的自适应语料来修正或变换原有的说话人无关(SI)模型,从而使其成为说话人自适应(SA)模型。 说话人自适应的特征方法有说话人规一化和说话人子空间法,模型方法有贝叶斯方法、变换法和模型合并法。 语音系统中的噪声,包括环境噪声和录音过程加入的电子噪声。提高系统鲁棒性的特征方法包括语音增强和寻找对噪声干扰不敏感的特征,模型方法有并行模型组合PMC方法和在训练中人为加入噪声。信道畸变包括录音时话筒的距离、使用不同灵敏度的话筒、不同增益的前置放大和不同的滤波器设计等等。特征方法有从倒谱矢量中减去其长时平均值和RASTA滤波,模型方法有倒谱平移。
  • [其他] 【人工智能相关知识分享】语音识别系统实现
    语音识别系统选择识别基元的要求是,有准确的定义,能得到足够数据进行训练,具有一般性。英语通常采用上下文相关的音素建模,汉语的协同发音不如英语严重,可以采用音节建模。系统所需的训练数据大小与模型复杂度有关。模型设计得过于复杂以至于超出了所提供的训练数据的能力,会使得性能急剧下降。 听写机:大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构。训练时对每个基元用前向后向算法获得模型参数,识别时,将基元串接成词,词间加上静音模型并引入语言模型作为词间转移概率,形成循环结构,用Viterbi算法进行解码。针对汉语易于分割的特点,先进行分割再对每一段进行解码,是用以提高效率的一个简化方法。 对话系统:用于实现人机口语对话的系统称为对话系统。受目前技术所限,对话系统往往是面向一个狭窄领域、词汇量有限的系统,其题材有旅游查询、订票、数据库检索等等。其前端是一个语音识别器,识别产生的N-best候选或词候选网格,由语法分析器进行分析获取语义信息,再由对话管理器确定应答信息,由语音合成器输出。由于目前的系统往往词汇量有限,也可以用提取关键词的方法来获取语义信息。
  • [其他] 【人工智能相关知识分享】语音识别的搜索
    连续语音识别中的搜索,就是寻找一个词模型序列以描述输入语音信号,从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中,往往要依据经验给语言模型加上一个高权重,并设置一个长词惩罚分数。 Viterbi:基于动态规划的Viterbi算法在每个时间点上的各个状态,计算解码状态序列对观察序列的后验概率,保留概率最大的路径,并在每个节点记录下相应的状态信息以便最后反向获取词解码序列。Viterbi算法在不丧失最优解的条件下,同时解决了连续语音识别中HMM模型状态序列与声学观察序列的非线性时间对准、词边界检测和词的识别,从而使这一算法成为语音识别搜索的基本策略。 由于语音识别对当前时间点之后的情况无法预测,基于目标函数的启发式剪枝难以应用。由于Viterbi算法的时齐特性,同一时刻的各条路径对应于同样的观察序列,因而具有可比性,束Beam搜索在每一时刻只保留概率最大的前若干条路径,大幅度的剪枝提高了搜索的效率。这一时齐Viterbi- Beam算法是当前语音识别搜索中最有效的算法。N-best搜索和多遍搜索:为在搜索中利用各种知识源,通常要进行多遍搜索,第一遍使用代价低的知识源,产生一个候选列表或词候选网格,在此基础上进行使用代价高的知识源的第二遍搜索得到最佳路径。此前介绍的知识源有声学模型、语言模型和音标词典,这些可以用于第一遍搜索。为实现更高级的语音识别或口语理解,往往要利用一些代价更高的知识源,如4阶或5阶的N-Gram、4阶或更高的上下文相关模型、词间相关模型、分段模型或语法分析,进行重新打分。最新的实时大词表连续语音识别系统许多都使用这种多遍搜索策略。 N-best搜索产生一个候选列表,在每个节点要保留N条最好的路径,会使计算复杂度增加到N倍。简化的做法是只保留每个节点的若干词候选,但可能丢失次优候选。一个折衷办法是只考虑两个词长的路径,保留k条。词候选网格以一种更紧凑的方式给出多候选,对N-best搜索算法作相应改动后可以得到生成候选网格的算法。 前向后向搜索算法是一个应用多遍搜索的例子。当应用简单知识源进行了前向的Viterbi搜索后,搜索过程中得到的前向概率恰恰可以用在后向搜索的目标函数的计算中,因而可以使用启发式的A算法进行后向搜索,经济地搜索出N条候选。
  • [其他] 【人工智能相关知识分享】语音识别语言模型
    语言模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律,其中N-Gram简单有效,被广泛使用。N-Gram:该模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。语言模型的性能通常用交叉熵和复杂度(Perplexity)来衡量。交叉熵的意义是用该模型对文本识别的难度,或者从压缩的角度来看,每个词平均要用几个位来编码。复杂度的意义是用该模型表示这一文本平均的分支数,其倒数可视为每个词的平均概率。平滑是指对没观察到的N元组合赋予一个概率值,以保证词序列总能通过语言模型得到一个概率值。通常使用的平滑技术有图灵估计、删除插值平滑、Katz平滑和Kneser-Ney平滑。
  • [其他] 【人工智能相关知识分享】语音识别声学模型
    语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。本节和下一节分别介绍声学模型和语言模型方面的技术。 HMM声学建模:马尔可夫模型的概念是一个离散时域有限状态自动机,隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值。对语音识别系统,输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设,一是内部状态的转移只与上一状态有关,另一是输出值只与当前状态(或当前的状态转移)有关,这两个假设大大降低了模型的复杂度。HMM的打分、解码和训练相应的算法是前向算法、Viterbi算法和前向后向算法。 语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模,一个音素就是一个三至五状态的HMM,一个词就是构成词的多个音素的HMM串行起来构成的HMM,而连续语音识别的整个模型就是词和静音组合起来的HMM。 上下文相关建模:协同发音,指的是一个音受前后相邻音的影响而发生变化,从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变,从而使得后一个音的频谱与其他条件下的频谱产生差异。上下文相关建模方法在建模时考虑了这一影响,从而使模型能更准确地描述语音,只考虑前一音的影响的称为Bi- Phone,考虑前一音和后一音的影响的称为Tri-Phone。 英语的上下文相关建模通常以音素为基元,由于有些音素对其后音素的影响是相似的,因而可以通过音素解码状态的聚类进行模型参数的共享。聚类的结果称为senone。决策树用来实现高效的triphone对senone的对应,通过回答一系列前后音所属类别(元/辅音、清/浊音等等)的问题,最终确定其HMM状态应使用哪个senone。分类回归树CART模型用以进行词到音素的发音标注。
  • [其他] 【人工智能相关知识分享】语音识别声学特征
    LPC 线性预测分析从人的发声机理入手,通过对声道的短管级联模型的研究,认为系统的传递函数符合全极点数字滤波器的形式,从而n 时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小LMS,即可得到线性预测系数LPC。对 LPC的计算方法有自相关法(德宾Durbin法)、协方差法、格型法等等。计算上的快速有效保证了这一声学特征的广泛使用。与LPC这种预测参数模型类似的声学特征还有线谱对LSP、反射系数等等。 CEP 利用同态处理方法,对语音信号求离散傅立叶变换DFT后取对数,再求反变换iDFT就可得到倒谱系数。对LPC倒谱(LPCCEP),在获得滤波器的线性预测系数后,可以用一个递推公式计算得出。实验表明,使用倒谱可以提高特征参数的稳定性。 Mel 不同于LPC等通过对人的发声机理的研究而得到的声学特征,Mel倒谱系数MFCC和感知线性预测 PLP是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现,当两个频率相近的音调同时发出时,人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界,当两个音调的频率差小于临界带宽时,人就会把两个音调听成一个,这称之为屏蔽效应。Mel刻度是对这一临界带宽的度量方法之一。 MFCC 首先用FFT将时域信号转化成频域,之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换DCT,取前N个系数。PLP仍用德宾法去计算LPC参数,但在计算自相关参数时用的也是对听觉激励的对数能量谱进行DCT的方法。
  • [其他] 【人工智能相关知识分享】语音识别的主要问题
    语音识别主要有以下五个问题: ⒈对自然语言的识别和理解。首先必须将连续的讲话分解为词、音素等单位,其次要建立一个理解语义的规则。 ⒉语音信息量大。语音模式不仅对不同的说话人不同,对同一说话人也是不同的,例如,一个说话人在随意说话和认真说话时的语音信息是不同的。一个人的说话方式随着时间变化。 ⒊语音的模糊性。说话者在讲话时,不同的词可能听起来是相似的。这在英语和汉语中常见。 ⒋单个字母或词、字的语音特性受上下文的影响,以致改变了重音、音调、音量和发音速度等。 ⒌环境噪声和干扰对语音识别有严重影响,致使识别率低。
  • [其他] 【人工智能相关知识分享】语音识别的分类应用
    根据识别的对象不同,语音识别任务大体可分为3类,即孤立词识别(isolated word recognition),关键词识别(或称关键词检出,keyword spotting)和连续语音识别。其中,孤立词识别 的任务是识别事先已知的孤立的词,如“开机”、“关机”等;连续语音识别的任务则是识别任意的连续语音,如一个句子或一段话;连续语音流中的关键词检测针对的是连续语音,但它并不识别全部文字,而只是检测已知的若干关键词在何处出现,如在一段话中检测“计算机”、“世界”这两个词。 根据针对的发音人,可以把语音识别技术分为特定人语音识别和非特定人语音识别,前者只能识别一个或几个人的语音,而后者则可以被任何人使用。显然,非特定人语音识别系统更符合实际需要,但它要比针对特定人的识别困难得多。 另外,根据语音设备和通道,可以分为桌面(PC)语音识别、电话语音识别和嵌入式设备(手机、PDA等)语音识别。不同的采集通道会使人的发音的声学特性发生变形,因此需要构造各自的识别系统。 语音识别的应用领域非常广泛,常见的应用系统有:语音输入系统,相对于键盘输入方法,它更符合人的日常习惯,也更自然、更高效;语音控制系统,即用语音来控制设备的运行,相对于手动控制来说更加快捷、方便,可以用在诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多领域;智能对话查询系统,根据客户的语音进行操作,为用户提供自然、友好的数据库检索服务,例如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等等。
总条数:53 到第
上滑加载中