- 目录 什么是拼音转换拼音转换输出音调输出声调输出声母输出韵母 处理数字拼音 什么是拼音转换 在我们学习语言之前,我们一般会学习拼音来认识汉字,并学会如何读汉字。所以,拼音在对于我们语言的重要性不言而喻。 而拼音转换指的是将汉字转为拼音的过程。但是,我们中文博大精深,一般来说某个字并不仅仅只有一个读音,比如“翟”,它作为姓氏可以读作zhái,作为其他... 目录 什么是拼音转换拼音转换输出音调输出声调输出声母输出韵母 处理数字拼音 什么是拼音转换 在我们学习语言之前,我们一般会学习拼音来认识汉字,并学会如何读汉字。所以,拼音在对于我们语言的重要性不言而喻。 而拼音转换指的是将汉字转为拼音的过程。但是,我们中文博大精深,一般来说某个字并不仅仅只有一个读音,比如“翟”,它作为姓氏可以读作zhái,作为其他...
- 目录 前言安装HanLP库词典的加载 前言 目前开源的自然语言处理工具有NLTK,CoreNLP,LTP,HanLP。对于我们中国的程序员来说,一般使用哈工大的LTP,或者使用开源的HanLP。 我们后续的讲解都是基于HanLP工具,它具有词法分析,句法分析,关键词提取以及文本分析等。优点是运行特别快,省内存,精度准且免费的特性。 安装HanLP库 ... 目录 前言安装HanLP库词典的加载 前言 目前开源的自然语言处理工具有NLTK,CoreNLP,LTP,HanLP。对于我们中国的程序员来说,一般使用哈工大的LTP,或者使用开源的HanLP。 我们后续的讲解都是基于HanLP工具,它具有词法分析,句法分析,关键词提取以及文本分析等。优点是运行特别快,省内存,精度准且免费的特性。 安装HanLP库 ...
- Python自然语言处理专栏目录 初体验HanLP—Python自然语言处理(1)切分算法—Python自然语言处理(2)字典树—Python自然语言处理(3)停用词过滤—Python自然语言处理(4)简繁体转换—Python自然语言处理(5)拼音转换—Python自然语言处理(6)语料库标注与训练模型—Python自然语言处理(7)预测分词—Python自然语言处理... Python自然语言处理专栏目录 初体验HanLP—Python自然语言处理(1)切分算法—Python自然语言处理(2)字典树—Python自然语言处理(3)停用词过滤—Python自然语言处理(4)简繁体转换—Python自然语言处理(5)拼音转换—Python自然语言处理(6)语料库标注与训练模型—Python自然语言处理(7)预测分词—Python自然语言处理...
- 目录 什么是字典树DoubleArrayTrieSegmentAhoCorasickDoubleArrayTrieSegment 什么是字典树 在自然语言处理中,字符串集合常用字典树存储,这是一种字符串上的树形数据结构。字典树中每条边都对应一个字,从根节点往下的路径构成一个个字符串。 字典树并不直接在节点上存储字符串,而是将词语视作根节点到某节点之间的... 目录 什么是字典树DoubleArrayTrieSegmentAhoCorasickDoubleArrayTrieSegment 什么是字典树 在自然语言处理中,字符串集合常用字典树存储,这是一种字符串上的树形数据结构。字典树中每条边都对应一个字,从根节点往下的路径构成一个个字符串。 字典树并不直接在节点上存储字符串,而是将词语视作根节点到某节点之间的...
- 目录 前言完全切分正向最长匹配逆向最长匹配双向最长匹配 前言 我们需要分析某句话,就必须检测该条语句中的词语。 一般来说,一句话肯定包含多个词语,它们互相重叠,具体输出哪一个由自然语言的切分算法决定。常用的切分算法有完全切分、正向最长匹配、逆向最长匹配以及双向最长匹配。 本篇博文将一一介绍这些常用的切分算法。 完全切分 完全切分是指,找出一段文本... 目录 前言完全切分正向最长匹配逆向最长匹配双向最长匹配 前言 我们需要分析某句话,就必须检测该条语句中的词语。 一般来说,一句话肯定包含多个词语,它们互相重叠,具体输出哪一个由自然语言的切分算法决定。常用的切分算法有完全切分、正向最长匹配、逆向最长匹配以及双向最长匹配。 本篇博文将一一介绍这些常用的切分算法。 完全切分 完全切分是指,找出一段文本...
- 目录 简体繁体转换使用CharTable进行简繁体转换多种繁简之间的转换 简体繁体转换 如今,世界上存在两种中文,一种是中文简体,一种是中文繁体。如果要完全掌握中文语言的自然语言处理,那么简繁都不可避免。所以,掌握了简体与繁体的转换,往往能够事半功倍。 而HanLP也提供了简繁转换的类:CharTable,用它来执行字符正规化。比如简体转换繁体,全角转... 目录 简体繁体转换使用CharTable进行简繁体转换多种繁简之间的转换 简体繁体转换 如今,世界上存在两种中文,一种是中文简体,一种是中文繁体。如果要完全掌握中文语言的自然语言处理,那么简繁都不可避免。所以,掌握了简体与繁体的转换,往往能够事半功倍。 而HanLP也提供了简繁转换的类:CharTable,用它来执行字符正规化。比如简体转换繁体,全角转...
- 自然语言处理实例 数据简介: Disasters on social media 社交媒体上有些讨论是关于灾难,疾病,暴乱的,有些只是开玩笑或者是电影情节,我们该如何让机器能分辨出这两种讨论呢? import keras import nltk import pandas as pd import numpy as np import re import co... 自然语言处理实例 数据简介: Disasters on social media 社交媒体上有些讨论是关于灾难,疾病,暴乱的,有些只是开玩笑或者是电影情节,我们该如何让机器能分辨出这两种讨论呢? import keras import nltk import pandas as pd import numpy as np import re import co...
- 数据简介: Disasters on social media 美国政客的社交媒体消息分类 内容:收集了来自美国参议员和其他美国政客的数千条社交媒体消息,可按内容分类为目标群众(国家或选民)、政治主张(中立/两党或偏见/党派)和实际内容(如攻击政敌等) 社交媒体上有些讨论是关于灾难,疾病,暴乱的,有些只是开玩笑或者是电影情节,我们该如何让机器能分辨出这两种讨论呢? ... 数据简介: Disasters on social media 美国政客的社交媒体消息分类 内容:收集了来自美国参议员和其他美国政客的数千条社交媒体消息,可按内容分类为目标群众(国家或选民)、政治主张(中立/两党或偏见/党派)和实际内容(如攻击政敌等) 社交媒体上有些讨论是关于灾难,疾病,暴乱的,有些只是开玩笑或者是电影情节,我们该如何让机器能分辨出这两种讨论呢? ...
- 深度学习在自然语言处理中的应用 自然语言处理是教会机器如何去处理或者读懂人类语言的系统,主要应用领域: 对话系统 情感分析 图文映射 机器翻译 语音识别 词向量模型 计算机可只认识数字! 我们可以将一句话中的每一个词都转换成一个向量 你可以将输入数据看成是一个 16*D 的一个矩阵。 词向量是具有空间意义的并不是简单的映射!例如,我们希望... 深度学习在自然语言处理中的应用 自然语言处理是教会机器如何去处理或者读懂人类语言的系统,主要应用领域: 对话系统 情感分析 图文映射 机器翻译 语音识别 词向量模型 计算机可只认识数字! 我们可以将一句话中的每一个词都转换成一个向量 你可以将输入数据看成是一个 16*D 的一个矩阵。 词向量是具有空间意义的并不是简单的映射!例如,我们希望...
- 什么是Gensim Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的API接口 补充一些概念: 语料(Corpus):一组原始文本的集合,用于无监督... 什么是Gensim Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的API接口 补充一些概念: 语料(Corpus):一组原始文本的集合,用于无监督...
- from nltk.corpus import reuters #加载路透语料库 files = reuters.fileids() print(len(files)) # 10788 words16097 = reuters.words(['test/16097']) print(words16097) 12345 什么是语料 就是一个个txt,一个txt就是一个... from nltk.corpus import reuters #加载路透语料库 files = reuters.fileids() print(len(files)) # 10788 words16097 = reuters.words(['test/16097']) print(words16097) 12345 什么是语料 就是一个个txt,一个txt就是一个...
- python字符串的简单使用 namesList = ['Tuffy','Ali','Nysha','Tim' ] sentence = 'My dog sleeps on sofa' names = ';'.join(namesList) print(type(names), ':', names) wordList = sentence.split(' ') p... python字符串的简单使用 namesList = ['Tuffy','Ali','Nysha','Tim' ] sentence = 'My dog sleeps on sofa' names = ';'.join(namesList) print(type(names), ':', names) wordList = sentence.split(' ') p...
- 参考: http://www.pianshen.com/article/8433287443/ http://nlp.stanford.edu:8080/corenlp/ Stanford NLP提供了一系列自然语言分析工具。 它能够给出基本的 词形,词性,不管是公司名还是人名等,格式化的日期,时间,量词, 并且能够标记句子的结构,语法形式和字词依赖,指明那... 参考: http://www.pianshen.com/article/8433287443/ http://nlp.stanford.edu:8080/corenlp/ Stanford NLP提供了一系列自然语言分析工具。 它能够给出基本的 词形,词性,不管是公司名还是人名等,格式化的日期,时间,量词, 并且能够标记句子的结构,语法形式和字词依赖,指明那...
- NLP(1) | 词向量one hot编码词向量编码思想 NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词 什么是Seq2Seq网络? 在Seq2Seq模型中采用了这种 Encoder-Decoder架构,其中 Encoder 是一个RNNCell(RNN ,GRU,LSTM 等) 结构,四层的LSTM结构使得能够提取足够多的特征,使得decode的模型... NLP(1) | 词向量one hot编码词向量编码思想 NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词 什么是Seq2Seq网络? 在Seq2Seq模型中采用了这种 Encoder-Decoder架构,其中 Encoder 是一个RNNCell(RNN ,GRU,LSTM 等) 结构,四层的LSTM结构使得能够提取足够多的特征,使得decode的模型...
- ChemDataExtractor简介 ChemDataExtractor是一种从科学文档中自动提取化学信息的工具。给它一篇期刊文章,它将从文本中提取化学名称、属性和光谱,以便将它们导入数据库或电子表格。 ChemDataExtractor官网 ChemDataExtractor特点 自然语言处理 ChemDataExtractor使用最先进的自然语言处理算法来解释... ChemDataExtractor简介 ChemDataExtractor是一种从科学文档中自动提取化学信息的工具。给它一篇期刊文章,它将从文本中提取化学名称、属性和光谱,以便将它们导入数据库或电子表格。 ChemDataExtractor官网 ChemDataExtractor特点 自然语言处理 ChemDataExtractor使用最先进的自然语言处理算法来解释...
上滑加载中
推荐直播
-
昇腾AI算法挑战赛-核心算子如何优化?专家带你深度解析2025/11/17 周一 16:00-17:00
王老师 华为算子专家
昇腾AI算法挑战赛进阶赛战鼓催征!本期直播间,我们特邀华为算子专家王老师,为你深度剖析Matmul、wholereducesum等核心算子的底层原理与优化技巧,直击赛题核心。想提升代码效率、冲击更高排名?锁定直播,带你破局!
回顾中 -
AI编码实干派,“码”力全开2026/02/26 周四 15:00-16:30
谈宗玮/于邦旭/丁俊卿/陈云亮/王一男
【中国,深圳,2026年2月26日】,以“AI编码实干派,码力全开”为主题的华为云码道(CodeArts)代码智能体新春发布会在线上成功召开。华为云码道公测版正式发布,为开发者和企业提供具备工程化能力的智能编码解决方案。
回顾中 -
华为云码道-玩转OpenClaw,开启在线养虾模式2026/03/11 周三 19:00-20:00
刘昱,华为云高级工程师/谈心,华为云技术专家/李海仑,上海圭卓智能科技有限公司CEO
OpenClaw 火爆开发者圈,华为云码道最新推出 Skill ——开发者只需输入一句口令,即可部署一个功能完整的「小龙虾」智能体。直播带你玩转华为云码道,玩转OpenClaw
回顾中
热门标签