- 目录 前言安装HanLP库词典的加载 前言 目前开源的自然语言处理工具有NLTK,CoreNLP,LTP,HanLP。对于我们中国的程序员来说,一般使用哈工大的LTP,或者使用开源的HanLP。 我们后续的讲解都是基于HanLP工具,它具有词法分析,句法分析,关键词提取以及文本分析等。优点是运行特别快,省内存,精度准且免费的特性。 安装HanLP库 ... 目录 前言安装HanLP库词典的加载 前言 目前开源的自然语言处理工具有NLTK,CoreNLP,LTP,HanLP。对于我们中国的程序员来说,一般使用哈工大的LTP,或者使用开源的HanLP。 我们后续的讲解都是基于HanLP工具,它具有词法分析,句法分析,关键词提取以及文本分析等。优点是运行特别快,省内存,精度准且免费的特性。 安装HanLP库 ...
- Python自然语言处理专栏目录 初体验HanLP—Python自然语言处理(1)切分算法—Python自然语言处理(2)字典树—Python自然语言处理(3)停用词过滤—Python自然语言处理(4)简繁体转换—Python自然语言处理(5)拼音转换—Python自然语言处理(6)语料库标注与训练模型—Python自然语言处理(7)预测分词—Python自然语言处理... Python自然语言处理专栏目录 初体验HanLP—Python自然语言处理(1)切分算法—Python自然语言处理(2)字典树—Python自然语言处理(3)停用词过滤—Python自然语言处理(4)简繁体转换—Python自然语言处理(5)拼音转换—Python自然语言处理(6)语料库标注与训练模型—Python自然语言处理(7)预测分词—Python自然语言处理...
- 目录 什么是字典树DoubleArrayTrieSegmentAhoCorasickDoubleArrayTrieSegment 什么是字典树 在自然语言处理中,字符串集合常用字典树存储,这是一种字符串上的树形数据结构。字典树中每条边都对应一个字,从根节点往下的路径构成一个个字符串。 字典树并不直接在节点上存储字符串,而是将词语视作根节点到某节点之间的... 目录 什么是字典树DoubleArrayTrieSegmentAhoCorasickDoubleArrayTrieSegment 什么是字典树 在自然语言处理中,字符串集合常用字典树存储,这是一种字符串上的树形数据结构。字典树中每条边都对应一个字,从根节点往下的路径构成一个个字符串。 字典树并不直接在节点上存储字符串,而是将词语视作根节点到某节点之间的...
- 目录 前言完全切分正向最长匹配逆向最长匹配双向最长匹配 前言 我们需要分析某句话,就必须检测该条语句中的词语。 一般来说,一句话肯定包含多个词语,它们互相重叠,具体输出哪一个由自然语言的切分算法决定。常用的切分算法有完全切分、正向最长匹配、逆向最长匹配以及双向最长匹配。 本篇博文将一一介绍这些常用的切分算法。 完全切分 完全切分是指,找出一段文本... 目录 前言完全切分正向最长匹配逆向最长匹配双向最长匹配 前言 我们需要分析某句话,就必须检测该条语句中的词语。 一般来说,一句话肯定包含多个词语,它们互相重叠,具体输出哪一个由自然语言的切分算法决定。常用的切分算法有完全切分、正向最长匹配、逆向最长匹配以及双向最长匹配。 本篇博文将一一介绍这些常用的切分算法。 完全切分 完全切分是指,找出一段文本...
- 目录 简体繁体转换使用CharTable进行简繁体转换多种繁简之间的转换 简体繁体转换 如今,世界上存在两种中文,一种是中文简体,一种是中文繁体。如果要完全掌握中文语言的自然语言处理,那么简繁都不可避免。所以,掌握了简体与繁体的转换,往往能够事半功倍。 而HanLP也提供了简繁转换的类:CharTable,用它来执行字符正规化。比如简体转换繁体,全角转... 目录 简体繁体转换使用CharTable进行简繁体转换多种繁简之间的转换 简体繁体转换 如今,世界上存在两种中文,一种是中文简体,一种是中文繁体。如果要完全掌握中文语言的自然语言处理,那么简繁都不可避免。所以,掌握了简体与繁体的转换,往往能够事半功倍。 而HanLP也提供了简繁转换的类:CharTable,用它来执行字符正规化。比如简体转换繁体,全角转...
- 自然语言处理实例 数据简介: Disasters on social media 社交媒体上有些讨论是关于灾难,疾病,暴乱的,有些只是开玩笑或者是电影情节,我们该如何让机器能分辨出这两种讨论呢? import keras import nltk import pandas as pd import numpy as np import re import co... 自然语言处理实例 数据简介: Disasters on social media 社交媒体上有些讨论是关于灾难,疾病,暴乱的,有些只是开玩笑或者是电影情节,我们该如何让机器能分辨出这两种讨论呢? import keras import nltk import pandas as pd import numpy as np import re import co...
- 数据简介: Disasters on social media 美国政客的社交媒体消息分类 内容:收集了来自美国参议员和其他美国政客的数千条社交媒体消息,可按内容分类为目标群众(国家或选民)、政治主张(中立/两党或偏见/党派)和实际内容(如攻击政敌等) 社交媒体上有些讨论是关于灾难,疾病,暴乱的,有些只是开玩笑或者是电影情节,我们该如何让机器能分辨出这两种讨论呢? ... 数据简介: Disasters on social media 美国政客的社交媒体消息分类 内容:收集了来自美国参议员和其他美国政客的数千条社交媒体消息,可按内容分类为目标群众(国家或选民)、政治主张(中立/两党或偏见/党派)和实际内容(如攻击政敌等) 社交媒体上有些讨论是关于灾难,疾病,暴乱的,有些只是开玩笑或者是电影情节,我们该如何让机器能分辨出这两种讨论呢? ...
- 深度学习在自然语言处理中的应用 自然语言处理是教会机器如何去处理或者读懂人类语言的系统,主要应用领域: 对话系统 情感分析 图文映射 机器翻译 语音识别 词向量模型 计算机可只认识数字! 我们可以将一句话中的每一个词都转换成一个向量 你可以将输入数据看成是一个 16*D 的一个矩阵。 词向量是具有空间意义的并不是简单的映射!例如,我们希望... 深度学习在自然语言处理中的应用 自然语言处理是教会机器如何去处理或者读懂人类语言的系统,主要应用领域: 对话系统 情感分析 图文映射 机器翻译 语音识别 词向量模型 计算机可只认识数字! 我们可以将一句话中的每一个词都转换成一个向量 你可以将输入数据看成是一个 16*D 的一个矩阵。 词向量是具有空间意义的并不是简单的映射!例如,我们希望...
- 什么是Gensim Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的API接口 补充一些概念: 语料(Corpus):一组原始文本的集合,用于无监督... 什么是Gensim Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的API接口 补充一些概念: 语料(Corpus):一组原始文本的集合,用于无监督...
- from nltk.corpus import reuters #加载路透语料库 files = reuters.fileids() print(len(files)) # 10788 words16097 = reuters.words(['test/16097']) print(words16097) 12345 什么是语料 就是一个个txt,一个txt就是一个... from nltk.corpus import reuters #加载路透语料库 files = reuters.fileids() print(len(files)) # 10788 words16097 = reuters.words(['test/16097']) print(words16097) 12345 什么是语料 就是一个个txt,一个txt就是一个...
- python字符串的简单使用 namesList = ['Tuffy','Ali','Nysha','Tim' ] sentence = 'My dog sleeps on sofa' names = ';'.join(namesList) print(type(names), ':', names) wordList = sentence.split(' ') p... python字符串的简单使用 namesList = ['Tuffy','Ali','Nysha','Tim' ] sentence = 'My dog sleeps on sofa' names = ';'.join(namesList) print(type(names), ':', names) wordList = sentence.split(' ') p...
- 参考: http://www.pianshen.com/article/8433287443/ http://nlp.stanford.edu:8080/corenlp/ Stanford NLP提供了一系列自然语言分析工具。 它能够给出基本的 词形,词性,不管是公司名还是人名等,格式化的日期,时间,量词, 并且能够标记句子的结构,语法形式和字词依赖,指明那... 参考: http://www.pianshen.com/article/8433287443/ http://nlp.stanford.edu:8080/corenlp/ Stanford NLP提供了一系列自然语言分析工具。 它能够给出基本的 词形,词性,不管是公司名还是人名等,格式化的日期,时间,量词, 并且能够标记句子的结构,语法形式和字词依赖,指明那...
- NLP(1) | 词向量one hot编码词向量编码思想 NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词 什么是Seq2Seq网络? 在Seq2Seq模型中采用了这种 Encoder-Decoder架构,其中 Encoder 是一个RNNCell(RNN ,GRU,LSTM 等) 结构,四层的LSTM结构使得能够提取足够多的特征,使得decode的模型... NLP(1) | 词向量one hot编码词向量编码思想 NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词 什么是Seq2Seq网络? 在Seq2Seq模型中采用了这种 Encoder-Decoder架构,其中 Encoder 是一个RNNCell(RNN ,GRU,LSTM 等) 结构,四层的LSTM结构使得能够提取足够多的特征,使得decode的模型...
- ChemDataExtractor简介 ChemDataExtractor是一种从科学文档中自动提取化学信息的工具。给它一篇期刊文章,它将从文本中提取化学名称、属性和光谱,以便将它们导入数据库或电子表格。 ChemDataExtractor官网 ChemDataExtractor特点 自然语言处理 ChemDataExtractor使用最先进的自然语言处理算法来解释... ChemDataExtractor简介 ChemDataExtractor是一种从科学文档中自动提取化学信息的工具。给它一篇期刊文章,它将从文本中提取化学名称、属性和光谱,以便将它们导入数据库或电子表格。 ChemDataExtractor官网 ChemDataExtractor特点 自然语言处理 ChemDataExtractor使用最先进的自然语言处理算法来解释...
- NLP(1) | 词向量one hot编码词向量编码思想 NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词 NLP(3)| seq to seq 模型 NLP(4) | 用词向量技术简单分析红楼梦人物关系用n-gramma生成词向量word2vect进行模型训练 为什么需要实体识别 普通的工具如hanlp,htp,不能识别特定领域的专有名词,所以需... NLP(1) | 词向量one hot编码词向量编码思想 NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词 NLP(3)| seq to seq 模型 NLP(4) | 用词向量技术简单分析红楼梦人物关系用n-gramma生成词向量word2vect进行模型训练 为什么需要实体识别 普通的工具如hanlp,htp,不能识别特定领域的专有名词,所以需...
上滑加载中
推荐直播
-
华为云IoT开源专家实践分享:开源让物联网平台更开放、易用
2024/05/14 周二 16:30-18:00
张俭 华为云IoT DTSE技术布道师
开源,意味着开放、共享、互助、共赢。作为万物上云及各行业数字化的物联网底座,华为云IoT积极拥抱开源,借助行业开源的最佳实践,构建可靠、易用的物联网平台,并通过开放南北向SDK,助力开发者快速构建物联网应用。本期直播,华为云IoT开源专家、物联网平台资深“程序猿”张俭,带你了解华为云IoT的开源生态,并手把手教你玩转开源社区!
去报名 -
企业级数仓迁移工具助您轻松上云
2024/05/21 周二 16:30-18:00
Nick 华为云数仓GaussDB(DWS)研发专家
随着云时代的到来,传统数仓已无法满足企业的需求,越来越多的企业选择从传统数仓迁移到云数据仓库,云数仓为企业提供了更低的成本、更灵活极致的体验。本期直播将为您带来企业级数仓搬迁的解决方案,带您一览华为云数仓GaussDB(DWS)提供了哪些迁移方案助力用户实现数据迁移,如何保障迁移后数据的一致性。
去报名 -
华为云开发者日·广州站
2024/05/23 周四 14:30-17:30
华为云专家团
华为云开发者日HDC.Cloud Day是面向全球开发者的旗舰活动,汇聚来自千行百业、高校及科研院所的开发人员。致力于打造开发者专属的技术盛宴,全方位服务与赋能开发者围绕华为云生态“知、学、用、创、商”的成长路径。通过前沿的技术分享、场景化的动手体验、优秀的应用创新推介,为开发者提供沉浸式学习与交流平台。开放创新,与开发者共创、共享、共赢未来。
去报名
热门标签