自然语言处理基础_标签_开发者_华为云

博客(545)
视频(0)
论坛(0)
云声(15)
代码示例(0)

NLP神器—Gensim
什么是Gensim Gensim是一款开源的第三方Python工具包，用于从原始的非结构化的文本中，无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF，LSA，LDA，和word2vec在内的多种主题模型算法，支持流式训练，并提供了诸如相似度计算，信息检索等一些常用任务的API接口补充一些概念: 语料（Corpus）：一组原始文本的集合，用于无监督...

毛利
发表于2021-07-15 06:57:11
5903 0 0

5.9k 0 0

什么是Gensim Gensim是一款开源的第三方Python工具包，用于从原始的非结构化的文本中，无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF，LSA，LDA，和word2vec在内的多种主题模型算法，支持流式训练，并提供了诸如相似度计算，信息检索等一些常用任务的API接口补充一些概念: 语料（Corpus）：一组原始文本的集合，用于无监督...
自然语言处理基础
自然语言处理python进阶（一）
from nltk.corpus import reuters #加载路透语料库 files = reuters.fileids() print(len(files)) # 10788 words16097 = reuters.words(['test/16097']) print(words16097) 12345 什么是语料就是一个个txt，一个txt就是一个...

毛利
发表于2021-07-15 06:09:11
5901 0 0

5.9k 0 0

from nltk.corpus import reuters #加载路透语料库 files = reuters.fileids() print(len(files)) # 10788 words16097 = reuters.words(['test/16097']) print(words16097) 12345 什么是语料就是一个个txt，一个txt就是一个...
Python 自然语言处理基础
自然语言处理python进阶（二）
python字符串的简单使用 namesList = ['Tuffy','Ali','Nysha','Tim' ] sentence = 'My dog sleeps on sofa' names = ';'.join(namesList) print(type(names), ':', names) wordList = sentence.split(' ') p...

毛利
发表于2021-07-15 05:49:38
5773 0 0

5.7k 0 0

python字符串的简单使用 namesList = ['Tuffy','Ali','Nysha','Tim' ] sentence = 'My dog sleeps on sofa' names = ';'.join(namesList) print(type(names), ':', names) wordList = sentence.split(' ') p...
Python 自然语言处理基础
Stanford NLP
参考： http://www.pianshen.com/article/8433287443/ http://nlp.stanford.edu:8080/corenlp/ Stanford NLP提供了一系列自然语言分析工具。它能够给出基本的词形，词性，不管是公司名还是人名等，格式化的日期，时间，量词，并且能够标记句子的结构，语法形式和字词依赖，指明那...

毛利
发表于2021-07-15 05:44:51
5987 0 0

5.9k 0 0

参考： http://www.pianshen.com/article/8433287443/ http://nlp.stanford.edu:8080/corenlp/ Stanford NLP提供了一系列自然语言分析工具。它能够给出基本的词形，词性，不管是公司名还是人名等，格式化的日期，时间，量词，并且能够标记句子的结构，语法形式和字词依赖，指明那...
自然语言处理基础
NLP（3）| seq to seq 模型
NLP(1) | 词向量one hot编码词向量编码思想 NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词什么是Seq2Seq网络？在Seq2Seq模型中采用了这种 Encoder-Decoder架构，其中 Encoder 是一个RNNCell（RNN ，GRU，LSTM 等）结构，四层的LSTM结构使得能够提取足够多的特征，使得decode的模型...

DrugAI
发表于2021-07-15 05:07:08
6307 0 0

6.3k 0 0

NLP(1) | 词向量one hot编码词向量编码思想 NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词什么是Seq2Seq网络？在Seq2Seq模型中采用了这种 Encoder-Decoder架构，其中 Encoder 是一个RNNCell（RNN ，GRU，LSTM 等）结构，四层的LSTM结构使得能够提取足够多的特征，使得decode的模型...
机器学习自然语言处理基础
ChemDataExtractor:从PDF、HTM、文本等中提取化学数据
ChemDataExtractor简介 ChemDataExtractor是一种从科学文档中自动提取化学信息的工具。给它一篇期刊文章，它将从文本中提取化学名称、属性和光谱，以便将它们导入数据库或电子表格。 ChemDataExtractor官网 ChemDataExtractor特点自然语言处理 ChemDataExtractor使用最先进的自然语言处理算法来解释...

DrugAI
发表于2021-07-15 04:43:24
6318 0 0

6.3k 0 0

ChemDataExtractor简介 ChemDataExtractor是一种从科学文档中自动提取化学信息的工具。给它一篇期刊文章，它将从文本中提取化学名称、属性和光谱，以便将它们导入数据库或电子表格。 ChemDataExtractor官网 ChemDataExtractor特点自然语言处理 ChemDataExtractor使用最先进的自然语言处理算法来解释...
自然语言处理基础
NLP(5) | 命名实体识别
NLP(1) | 词向量one hot编码词向量编码思想 NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词 NLP（3）| seq to seq 模型 NLP(4) | 用词向量技术简单分析红楼梦人物关系用n-gramma生成词向量word2vect进行模型训练为什么需要实体识别普通的工具如hanlp，htp，不能识别特定领域的专有名词，所以需...

DrugAI
发表于2021-07-15 04:35:09
5686 0 0

5.6k 0 0

NLP(1) | 词向量one hot编码词向量编码思想 NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词 NLP（3）| seq to seq 模型 NLP(4) | 用词向量技术简单分析红楼梦人物关系用n-gramma生成词向量word2vect进行模型训练为什么需要实体识别普通的工具如hanlp，htp，不能识别特定领域的专有名词，所以需...
人工智能机器学习自然语言处理基础
基于Smiles2vec预测化合物物理性质
Smiles2vec 简而言之，它是自然语言处理（NLP）领域的一项技术，可将字符串转换为矢量。许多人用smiles字符串预测物理属性。   Smiles2vec的结构将字符串转换为矢量是NLP领域的一项技术名为Seq2Seq。在没有学习的情况下简单地解释它，它经常被用在“机器对话和机器翻译等模型”中。该技术基于递归神经网络的思想使用诸如LSTM和G...

DrugAI
发表于2021-07-15 03:59:21
6029 0 0

6.0k 0 0

Smiles2vec 简而言之，它是自然语言处理（NLP）领域的一项技术，可将字符串转换为矢量。许多人用smiles字符串预测物理属性。   Smiles2vec的结构将字符串转换为矢量是NLP领域的一项技术名为Seq2Seq。在没有学习的情况下简单地解释它，它经常被用在“机器对话和机器翻译等模型”中。该技术基于递归神经网络的思想使用诸如LSTM和G...
自然语言处理基础
NLP(1) | 词向量one hot编码词向量编码思想
                 词向量one hot编码词向量编码思想Word2VecEmbeddingSkip-gram的原理负采样前言：深度学习网络rnn能解决有序的问题，我们就生活在这样一个有序的世界。比如时间，音乐，说话的句子，甚至一场比赛，比如最近正在举办的俄罗斯世界杯。...

DrugAI
发表于2021-07-15 03:51:51
9013 0 0

9.0k 0 0

                 词向量one hot编码词向量编码思想Word2VecEmbeddingSkip-gram的原理负采样前言：深度学习网络rnn能解决有序的问题，我们就生活在这样一个有序的世界。比如时间，音乐，说话的句子，甚至一场比赛，比如最近正在举办的俄罗斯世界杯。...
深度学习自然语言处理基础
NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词
NLP(1) | 词向量one hot编码词向量编码思想分词的概念         简单来说就是把词进行分开，分词的难点： 1.如何避免歧义，如：“白开水不如果汁甜”。如何让机器避免将“如果”分到一起。 2.如何识别未登录词，并判断词性（人物，地点）解决歧义的方法有很多，使用n_gram模型或者概率统计在解决歧义的作用下很好实...

DrugAI
发表于2021-07-15 03:40:32
7982 0 0

7.9k 0 0

NLP(1) | 词向量one hot编码词向量编码思想分词的概念         简单来说就是把词进行分开，分词的难点： 1.如何避免歧义，如：“白开水不如果汁甜”。如何让机器避免将“如果”分到一起。 2.如何识别未登录词，并判断词性（人物，地点）解决歧义的方法有很多，使用n_gram模型或者概率统计在解决歧义的作用下很好实...
中文分词自然语言处理基础
Python自然语言处理 NLTK 库用法入门教程
                                                      ...

DrugAI
发表于2021-07-15 03:04:33
9489 0 0

9.4k 0 0

                                                      ...
Python 自然语言处理基础
NLP之情感分析：基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码
NLP之情感分析：基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码     目录全部代码   相关文章NLP之情感分析：基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)NLP之情感分析：基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全...

一个处女座的程序猿
发表于2021-04-03 03:01:33
9009 0 0

9.0k 0 0

NLP之情感分析：基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码     目录全部代码   相关文章NLP之情感分析：基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)NLP之情感分析：基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全...
Python 自然语言处理基础
NLP之WE之CBOW&Skip-Gram：CBOW&Skip-Gram算法概念相关论文、原理配图、关键步骤之详细攻略
NLP之WE之CBOW&Skip-Gram：CBOW&Skip-Gram算法概念相关论文、原理配图、关键步骤之详细攻略目录 CBOW&Skip-Gram算法相关论文 CBOW&Skip-Gram算法原理配图对比 1、CBOW模型之用一个单词预测一个单词 2、CBOW模型之用多个单词预测一个单词 3、选取噪声词进行分类的CBOW模型 ...

一个处女座的程序猿
发表于2021-04-02 03:15:39
6113 0 0

6.1k 0 0

NLP之WE之CBOW&Skip-Gram：CBOW&Skip-Gram算法概念相关论文、原理配图、关键步骤之详细攻略目录 CBOW&Skip-Gram算法相关论文 CBOW&Skip-Gram算法原理配图对比 1、CBOW模型之用一个单词预测一个单词 2、CBOW模型之用多个单词预测一个单词 3、选取噪声词进行分类的CBOW模型 ...
自然语言处理基础
NLP之TopicModel：朴素贝叶斯NB的先验概率之Dirichlet分布的应用
NLP之TopicModel：朴素贝叶斯NB的先验概率之Dirichlet分布的应用     目录 1、Dirichlet骰子先验和后验分布的采样 2、稀疏Dirichlet先验的采样       1、Dirichlet骰子先验和后验分布的采样输出结果实现代码 import numpy as ...

一个处女座的程序猿
发表于2021-03-31 00:03:54
5943 0 0

5.9k 0 0

NLP之TopicModel：朴素贝叶斯NB的先验概率之Dirichlet分布的应用     目录 1、Dirichlet骰子先验和后验分布的采样 2、稀疏Dirichlet先验的采样       1、Dirichlet骰子先验和后验分布的采样输出结果实现代码 import numpy as ...
自然语言处理基础
NLP：基于textrank4zh库对文本实现提取文本关键词、文本关键短语和文本摘要
NLP：基于textrank4zh库对文本实现提取文本关键词、文本关键短语和文本摘要目录输出结果设计思路核心代码输出结果关键词：故宫0.030737773083470445镜头0.026154204788274925吸烟0.02464630557740873网友0.02236230415962...

一个处女座的程序猿
发表于2021-03-30 23:35:11
6558 0 0

6.5k 0 0

NLP：基于textrank4zh库对文本实现提取文本关键词、文本关键短语和文本摘要目录输出结果设计思路核心代码输出结果关键词：故宫0.030737773083470445镜头0.026154204788274925吸烟0.02464630557740873网友0.02236230415962...
自然语言处理基础音视频

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript