- Python自然语言处理专栏目录 初体验HanLP—Python自然语言处理(1)切分算法—Python自然语言处理(2)字典树—Python自然语言处理(3)停用词过滤—Python自然语言处理(4)简繁体转换—Python自然语言处理(5)拼音转换—Python自然语言处理(6)语料库标注与训练模型—Python自然语言处理(7)预测分词—Python自然语言处理... Python自然语言处理专栏目录 初体验HanLP—Python自然语言处理(1)切分算法—Python自然语言处理(2)字典树—Python自然语言处理(3)停用词过滤—Python自然语言处理(4)简繁体转换—Python自然语言处理(5)拼音转换—Python自然语言处理(6)语料库标注与训练模型—Python自然语言处理(7)预测分词—Python自然语言处理...
- 目录 什么是字典树DoubleArrayTrieSegmentAhoCorasickDoubleArrayTrieSegment 什么是字典树 在自然语言处理中,字符串集合常用字典树存储,这是一种字符串上的树形数据结构。字典树中每条边都对应一个字,从根节点往下的路径构成一个个字符串。 字典树并不直接在节点上存储字符串,而是将词语视作根节点到某节点之间的... 目录 什么是字典树DoubleArrayTrieSegmentAhoCorasickDoubleArrayTrieSegment 什么是字典树 在自然语言处理中,字符串集合常用字典树存储,这是一种字符串上的树形数据结构。字典树中每条边都对应一个字,从根节点往下的路径构成一个个字符串。 字典树并不直接在节点上存储字符串,而是将词语视作根节点到某节点之间的...
- 目录 前言完全切分正向最长匹配逆向最长匹配双向最长匹配 前言 我们需要分析某句话,就必须检测该条语句中的词语。 一般来说,一句话肯定包含多个词语,它们互相重叠,具体输出哪一个由自然语言的切分算法决定。常用的切分算法有完全切分、正向最长匹配、逆向最长匹配以及双向最长匹配。 本篇博文将一一介绍这些常用的切分算法。 完全切分 完全切分是指,找出一段文本... 目录 前言完全切分正向最长匹配逆向最长匹配双向最长匹配 前言 我们需要分析某句话,就必须检测该条语句中的词语。 一般来说,一句话肯定包含多个词语,它们互相重叠,具体输出哪一个由自然语言的切分算法决定。常用的切分算法有完全切分、正向最长匹配、逆向最长匹配以及双向最长匹配。 本篇博文将一一介绍这些常用的切分算法。 完全切分 完全切分是指,找出一段文本...
- 目录 简体繁体转换使用CharTable进行简繁体转换多种繁简之间的转换 简体繁体转换 如今,世界上存在两种中文,一种是中文简体,一种是中文繁体。如果要完全掌握中文语言的自然语言处理,那么简繁都不可避免。所以,掌握了简体与繁体的转换,往往能够事半功倍。 而HanLP也提供了简繁转换的类:CharTable,用它来执行字符正规化。比如简体转换繁体,全角转... 目录 简体繁体转换使用CharTable进行简繁体转换多种繁简之间的转换 简体繁体转换 如今,世界上存在两种中文,一种是中文简体,一种是中文繁体。如果要完全掌握中文语言的自然语言处理,那么简繁都不可避免。所以,掌握了简体与繁体的转换,往往能够事半功倍。 而HanLP也提供了简繁转换的类:CharTable,用它来执行字符正规化。比如简体转换繁体,全角转...
- 自然语言处理实例 数据简介: Disasters on social media 社交媒体上有些讨论是关于灾难,疾病,暴乱的,有些只是开玩笑或者是电影情节,我们该如何让机器能分辨出这两种讨论呢? import keras import nltk import pandas as pd import numpy as np import re import co... 自然语言处理实例 数据简介: Disasters on social media 社交媒体上有些讨论是关于灾难,疾病,暴乱的,有些只是开玩笑或者是电影情节,我们该如何让机器能分辨出这两种讨论呢? import keras import nltk import pandas as pd import numpy as np import re import co...
- 数据简介: Disasters on social media 美国政客的社交媒体消息分类 内容:收集了来自美国参议员和其他美国政客的数千条社交媒体消息,可按内容分类为目标群众(国家或选民)、政治主张(中立/两党或偏见/党派)和实际内容(如攻击政敌等) 社交媒体上有些讨论是关于灾难,疾病,暴乱的,有些只是开玩笑或者是电影情节,我们该如何让机器能分辨出这两种讨论呢? ... 数据简介: Disasters on social media 美国政客的社交媒体消息分类 内容:收集了来自美国参议员和其他美国政客的数千条社交媒体消息,可按内容分类为目标群众(国家或选民)、政治主张(中立/两党或偏见/党派)和实际内容(如攻击政敌等) 社交媒体上有些讨论是关于灾难,疾病,暴乱的,有些只是开玩笑或者是电影情节,我们该如何让机器能分辨出这两种讨论呢? ...
- 深度学习在自然语言处理中的应用 自然语言处理是教会机器如何去处理或者读懂人类语言的系统,主要应用领域: 对话系统 情感分析 图文映射 机器翻译 语音识别 词向量模型 计算机可只认识数字! 我们可以将一句话中的每一个词都转换成一个向量 你可以将输入数据看成是一个 16*D 的一个矩阵。 词向量是具有空间意义的并不是简单的映射!例如,我们希望... 深度学习在自然语言处理中的应用 自然语言处理是教会机器如何去处理或者读懂人类语言的系统,主要应用领域: 对话系统 情感分析 图文映射 机器翻译 语音识别 词向量模型 计算机可只认识数字! 我们可以将一句话中的每一个词都转换成一个向量 你可以将输入数据看成是一个 16*D 的一个矩阵。 词向量是具有空间意义的并不是简单的映射!例如,我们希望...
- 什么是Gensim Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的API接口 补充一些概念: 语料(Corpus):一组原始文本的集合,用于无监督... 什么是Gensim Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的API接口 补充一些概念: 语料(Corpus):一组原始文本的集合,用于无监督...
- from nltk.corpus import reuters #加载路透语料库 files = reuters.fileids() print(len(files)) # 10788 words16097 = reuters.words(['test/16097']) print(words16097) 12345 什么是语料 就是一个个txt,一个txt就是一个... from nltk.corpus import reuters #加载路透语料库 files = reuters.fileids() print(len(files)) # 10788 words16097 = reuters.words(['test/16097']) print(words16097) 12345 什么是语料 就是一个个txt,一个txt就是一个...
- python字符串的简单使用 namesList = ['Tuffy','Ali','Nysha','Tim' ] sentence = 'My dog sleeps on sofa' names = ';'.join(namesList) print(type(names), ':', names) wordList = sentence.split(' ') p... python字符串的简单使用 namesList = ['Tuffy','Ali','Nysha','Tim' ] sentence = 'My dog sleeps on sofa' names = ';'.join(namesList) print(type(names), ':', names) wordList = sentence.split(' ') p...
- 参考: http://www.pianshen.com/article/8433287443/ http://nlp.stanford.edu:8080/corenlp/ Stanford NLP提供了一系列自然语言分析工具。 它能够给出基本的 词形,词性,不管是公司名还是人名等,格式化的日期,时间,量词, 并且能够标记句子的结构,语法形式和字词依赖,指明那... 参考: http://www.pianshen.com/article/8433287443/ http://nlp.stanford.edu:8080/corenlp/ Stanford NLP提供了一系列自然语言分析工具。 它能够给出基本的 词形,词性,不管是公司名还是人名等,格式化的日期,时间,量词, 并且能够标记句子的结构,语法形式和字词依赖,指明那...
- NLP(1) | 词向量one hot编码词向量编码思想 NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词 什么是Seq2Seq网络? 在Seq2Seq模型中采用了这种 Encoder-Decoder架构,其中 Encoder 是一个RNNCell(RNN ,GRU,LSTM 等) 结构,四层的LSTM结构使得能够提取足够多的特征,使得decode的模型... NLP(1) | 词向量one hot编码词向量编码思想 NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词 什么是Seq2Seq网络? 在Seq2Seq模型中采用了这种 Encoder-Decoder架构,其中 Encoder 是一个RNNCell(RNN ,GRU,LSTM 等) 结构,四层的LSTM结构使得能够提取足够多的特征,使得decode的模型...
- ChemDataExtractor简介 ChemDataExtractor是一种从科学文档中自动提取化学信息的工具。给它一篇期刊文章,它将从文本中提取化学名称、属性和光谱,以便将它们导入数据库或电子表格。 ChemDataExtractor官网 ChemDataExtractor特点 自然语言处理 ChemDataExtractor使用最先进的自然语言处理算法来解释... ChemDataExtractor简介 ChemDataExtractor是一种从科学文档中自动提取化学信息的工具。给它一篇期刊文章,它将从文本中提取化学名称、属性和光谱,以便将它们导入数据库或电子表格。 ChemDataExtractor官网 ChemDataExtractor特点 自然语言处理 ChemDataExtractor使用最先进的自然语言处理算法来解释...
- NLP(1) | 词向量one hot编码词向量编码思想 NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词 NLP(3)| seq to seq 模型 NLP(4) | 用词向量技术简单分析红楼梦人物关系用n-gramma生成词向量word2vect进行模型训练 为什么需要实体识别 普通的工具如hanlp,htp,不能识别特定领域的专有名词,所以需... NLP(1) | 词向量one hot编码词向量编码思想 NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词 NLP(3)| seq to seq 模型 NLP(4) | 用词向量技术简单分析红楼梦人物关系用n-gramma生成词向量word2vect进行模型训练 为什么需要实体识别 普通的工具如hanlp,htp,不能识别特定领域的专有名词,所以需...
- Smiles2vec 简而言之,它是自然语言处理(NLP)领域的一项技术,可将字符串转换为矢量。 许多人用smiles字符串预测物理属性。 Smiles2vec的结构 将字符串转换为矢量是NLP领域的一项技术名为Seq2Seq。 在没有学习的情况下简单地解释它,它经常被用在“机器对话和机器翻译等模型”中。 该技术基于递归神经网络的思想使用诸如LSTM和G... Smiles2vec 简而言之,它是自然语言处理(NLP)领域的一项技术,可将字符串转换为矢量。 许多人用smiles字符串预测物理属性。 Smiles2vec的结构 将字符串转换为矢量是NLP领域的一项技术名为Seq2Seq。 在没有学习的情况下简单地解释它,它经常被用在“机器对话和机器翻译等模型”中。 该技术基于递归神经网络的思想使用诸如LSTM和G...
上滑加载中
推荐直播
-
探秘仓颉编程语言:华为开发者空间的创新利器
2025/02/22 周六 15:00-16:30
华为云讲师团
本期直播将与您一起探秘颉编程语言上线华为开发者空间后,显著提升开发效率,在智能化开发支持、全场景跨平台适配能力、工具链与生态完备性、语言简洁与高性能特性等方面展现出的独特优势。直播看点: 1.java转仓颉的小工具 2.仓颉动画三方库lottie 3.开发者空间介绍及如何在空间用仓颉编程语言开发
回顾中 -
大模型Prompt工程深度实践
2025/02/24 周一 16:00-17:30
盖伦 华为云学堂技术讲师
如何让大模型精准理解开发需求并生成可靠输出?本期直播聚焦大模型Prompt工程核心技术:理解大模型推理基础原理,关键采样参数定义,提示词撰写关键策略及Prompt工程技巧分享。
去报名 -
华为云 x DeepSeek:AI驱动云上应用创新
2025/02/26 周三 16:00-18:00
华为云 AI专家大咖团
在 AI 技术飞速发展之际,DeepSeek 备受关注。它凭借哪些技术与理念脱颖而出?华为云与 DeepSeek 合作,将如何重塑产品与应用模式,助力企业数字化转型?在华为开发者空间,怎样高效部署 DeepSeek,搭建专属服务器?基于华为云平台,又该如何挖掘 DeepSeek 潜力,实现智能化升级?本期直播围绕DeepSeek在云上的应用案例,与DTSE布道师们一起探讨如何利用AI 驱动云上应用创新。
去报名
热门标签