- 【NLP】⚠️学不会打我! 半小时学会基本操作 4⚠️词向量模型 概述词向量词向量维度Word2VecCBOW 模型Skip-Gram 模型 负采样模型词向量的训练过程1. 初始化词向量矩阵2... 【NLP】⚠️学不会打我! 半小时学会基本操作 4⚠️词向量模型 概述词向量词向量维度Word2VecCBOW 模型Skip-Gram 模型 负采样模型词向量的训练过程1. 初始化词向量矩阵2...
- 【NLP】⚠️学不会打我! 半小时学会基本操作 1⚠️ 分词 概述分词器 jieba安装精确分词全模式搜索引擎模式获取词性 概述 从今天开始我们将开启一段自然语言处理 (NLP) 的旅程.... 【NLP】⚠️学不会打我! 半小时学会基本操作 1⚠️ 分词 概述分词器 jieba安装精确分词全模式搜索引擎模式获取词性 概述 从今天开始我们将开启一段自然语言处理 (NLP) 的旅程....
- 【NLP】⚠️学不会打我! 半小时学会基本操作 2⚠️ 关键词 概述关键词TF-IDF 关键词提取TFIDFTF-IDF jieba TF-IDF 关键词抽取jieba 词性不带关键词权重附带... 【NLP】⚠️学不会打我! 半小时学会基本操作 2⚠️ 关键词 概述关键词TF-IDF 关键词提取TFIDFTF-IDF jieba TF-IDF 关键词抽取jieba 词性不带关键词权重附带...
- 【NLP】⚠️学不会打我! 半小时学会基本操作 2⚠️词向量模型简介 概述词向量维度Word2VecCBOW 模型Skip-Gram 模型 负采样模型词向量的训练过程1. 初始化词向量矩阵2.... 【NLP】⚠️学不会打我! 半小时学会基本操作 2⚠️词向量模型简介 概述词向量维度Word2VecCBOW 模型Skip-Gram 模型 负采样模型词向量的训练过程1. 初始化词向量矩阵2....
- 【NLP】⚠️学不会打我! 半小时学会基本操作 3⚠️ 词袋模型 概述词袋模型向量化 概述 从今天开始我们将开启一段自然语言处理 (NLP) 的旅程. 自然语言处理可以让来处理, 理解, ... 【NLP】⚠️学不会打我! 半小时学会基本操作 3⚠️ 词袋模型 概述词袋模型向量化 概述 从今天开始我们将开启一段自然语言处理 (NLP) 的旅程. 自然语言处理可以让来处理, 理解, ...
- 目录 什么是停用词加载停用词字典删除停用词分词以及删除停用词直接删除停用词(不分词) 什么是停用词 在汉语中,有一类没有多少意义的词语,比如组词“的”,连词“以及”、副词“甚至”,语气词“吧”,被称为停用词。一个句子去掉这些停用词,并不影响理解。所以,进行自然语言处理时,我们一般将停用词过滤掉。 而HanLP库提供了一个小巧的停用词字典,它位于Lib\... 目录 什么是停用词加载停用词字典删除停用词分词以及删除停用词直接删除停用词(不分词) 什么是停用词 在汉语中,有一类没有多少意义的词语,比如组词“的”,连词“以及”、副词“甚至”,语气词“吧”,被称为停用词。一个句子去掉这些停用词,并不影响理解。所以,进行自然语言处理时,我们一般将停用词过滤掉。 而HanLP库提供了一个小巧的停用词字典,它位于Lib\...
- 目录 什么是拼音转换拼音转换输出音调输出声调输出声母输出韵母 处理数字拼音 什么是拼音转换 在我们学习语言之前,我们一般会学习拼音来认识汉字,并学会如何读汉字。所以,拼音在对于我们语言的重要性不言而喻。 而拼音转换指的是将汉字转为拼音的过程。但是,我们中文博大精深,一般来说某个字并不仅仅只有一个读音,比如“翟”,它作为姓氏可以读作zhái,作为其他... 目录 什么是拼音转换拼音转换输出音调输出声调输出声母输出韵母 处理数字拼音 什么是拼音转换 在我们学习语言之前,我们一般会学习拼音来认识汉字,并学会如何读汉字。所以,拼音在对于我们语言的重要性不言而喻。 而拼音转换指的是将汉字转为拼音的过程。但是,我们中文博大精深,一般来说某个字并不仅仅只有一个读音,比如“翟”,它作为姓氏可以读作zhái,作为其他...
- 目录 前言安装HanLP库词典的加载 前言 目前开源的自然语言处理工具有NLTK,CoreNLP,LTP,HanLP。对于我们中国的程序员来说,一般使用哈工大的LTP,或者使用开源的HanLP。 我们后续的讲解都是基于HanLP工具,它具有词法分析,句法分析,关键词提取以及文本分析等。优点是运行特别快,省内存,精度准且免费的特性。 安装HanLP库 ... 目录 前言安装HanLP库词典的加载 前言 目前开源的自然语言处理工具有NLTK,CoreNLP,LTP,HanLP。对于我们中国的程序员来说,一般使用哈工大的LTP,或者使用开源的HanLP。 我们后续的讲解都是基于HanLP工具,它具有词法分析,句法分析,关键词提取以及文本分析等。优点是运行特别快,省内存,精度准且免费的特性。 安装HanLP库 ...
- Python自然语言处理专栏目录 初体验HanLP—Python自然语言处理(1)切分算法—Python自然语言处理(2)字典树—Python自然语言处理(3)停用词过滤—Python自然语言处理(4)简繁体转换—Python自然语言处理(5)拼音转换—Python自然语言处理(6)语料库标注与训练模型—Python自然语言处理(7)预测分词—Python自然语言处理... Python自然语言处理专栏目录 初体验HanLP—Python自然语言处理(1)切分算法—Python自然语言处理(2)字典树—Python自然语言处理(3)停用词过滤—Python自然语言处理(4)简繁体转换—Python自然语言处理(5)拼音转换—Python自然语言处理(6)语料库标注与训练模型—Python自然语言处理(7)预测分词—Python自然语言处理...
- 目录 什么是字典树DoubleArrayTrieSegmentAhoCorasickDoubleArrayTrieSegment 什么是字典树 在自然语言处理中,字符串集合常用字典树存储,这是一种字符串上的树形数据结构。字典树中每条边都对应一个字,从根节点往下的路径构成一个个字符串。 字典树并不直接在节点上存储字符串,而是将词语视作根节点到某节点之间的... 目录 什么是字典树DoubleArrayTrieSegmentAhoCorasickDoubleArrayTrieSegment 什么是字典树 在自然语言处理中,字符串集合常用字典树存储,这是一种字符串上的树形数据结构。字典树中每条边都对应一个字,从根节点往下的路径构成一个个字符串。 字典树并不直接在节点上存储字符串,而是将词语视作根节点到某节点之间的...
- 目录 前言完全切分正向最长匹配逆向最长匹配双向最长匹配 前言 我们需要分析某句话,就必须检测该条语句中的词语。 一般来说,一句话肯定包含多个词语,它们互相重叠,具体输出哪一个由自然语言的切分算法决定。常用的切分算法有完全切分、正向最长匹配、逆向最长匹配以及双向最长匹配。 本篇博文将一一介绍这些常用的切分算法。 完全切分 完全切分是指,找出一段文本... 目录 前言完全切分正向最长匹配逆向最长匹配双向最长匹配 前言 我们需要分析某句话,就必须检测该条语句中的词语。 一般来说,一句话肯定包含多个词语,它们互相重叠,具体输出哪一个由自然语言的切分算法决定。常用的切分算法有完全切分、正向最长匹配、逆向最长匹配以及双向最长匹配。 本篇博文将一一介绍这些常用的切分算法。 完全切分 完全切分是指,找出一段文本...
- 目录 简体繁体转换使用CharTable进行简繁体转换多种繁简之间的转换 简体繁体转换 如今,世界上存在两种中文,一种是中文简体,一种是中文繁体。如果要完全掌握中文语言的自然语言处理,那么简繁都不可避免。所以,掌握了简体与繁体的转换,往往能够事半功倍。 而HanLP也提供了简繁转换的类:CharTable,用它来执行字符正规化。比如简体转换繁体,全角转... 目录 简体繁体转换使用CharTable进行简繁体转换多种繁简之间的转换 简体繁体转换 如今,世界上存在两种中文,一种是中文简体,一种是中文繁体。如果要完全掌握中文语言的自然语言处理,那么简繁都不可避免。所以,掌握了简体与繁体的转换,往往能够事半功倍。 而HanLP也提供了简繁转换的类:CharTable,用它来执行字符正规化。比如简体转换繁体,全角转...
- 自然语言处理实例 数据简介: Disasters on social media 社交媒体上有些讨论是关于灾难,疾病,暴乱的,有些只是开玩笑或者是电影情节,我们该如何让机器能分辨出这两种讨论呢? import keras import nltk import pandas as pd import numpy as np import re import co... 自然语言处理实例 数据简介: Disasters on social media 社交媒体上有些讨论是关于灾难,疾病,暴乱的,有些只是开玩笑或者是电影情节,我们该如何让机器能分辨出这两种讨论呢? import keras import nltk import pandas as pd import numpy as np import re import co...
- 数据简介: Disasters on social media 美国政客的社交媒体消息分类 内容:收集了来自美国参议员和其他美国政客的数千条社交媒体消息,可按内容分类为目标群众(国家或选民)、政治主张(中立/两党或偏见/党派)和实际内容(如攻击政敌等) 社交媒体上有些讨论是关于灾难,疾病,暴乱的,有些只是开玩笑或者是电影情节,我们该如何让机器能分辨出这两种讨论呢? ... 数据简介: Disasters on social media 美国政客的社交媒体消息分类 内容:收集了来自美国参议员和其他美国政客的数千条社交媒体消息,可按内容分类为目标群众(国家或选民)、政治主张(中立/两党或偏见/党派)和实际内容(如攻击政敌等) 社交媒体上有些讨论是关于灾难,疾病,暴乱的,有些只是开玩笑或者是电影情节,我们该如何让机器能分辨出这两种讨论呢? ...
- 深度学习在自然语言处理中的应用 自然语言处理是教会机器如何去处理或者读懂人类语言的系统,主要应用领域: 对话系统 情感分析 图文映射 机器翻译 语音识别 词向量模型 计算机可只认识数字! 我们可以将一句话中的每一个词都转换成一个向量 你可以将输入数据看成是一个 16*D 的一个矩阵。 词向量是具有空间意义的并不是简单的映射!例如,我们希望... 深度学习在自然语言处理中的应用 自然语言处理是教会机器如何去处理或者读懂人类语言的系统,主要应用领域: 对话系统 情感分析 图文映射 机器翻译 语音识别 词向量模型 计算机可只认识数字! 我们可以将一句话中的每一个词都转换成一个向量 你可以将输入数据看成是一个 16*D 的一个矩阵。 词向量是具有空间意义的并不是简单的映射!例如,我们希望...
上滑加载中
推荐直播
-
Ascend C算子编程之旅:基础入门篇
2024/11/22 周五 16:00-17:30
莫老师 昇腾CANN专家
介绍Ascend C算子基本概念、异构计算架构CANN和Ascend C基本概述,以及Ascend C快速入门,夯实Ascend C算子编程基础
回顾中 -
深入解析:华为全栈AI解决方案与云智能开放能力
2024/11/22 周五 18:20-20:20
Alex 华为云学堂技术讲师
本期直播我们将重点为大家介绍华为全栈全场景AI解决方案以和华为云企业智能AI开放能力。旨在帮助开发者深入理解华为AI解决方案,并能够更加熟练地运用这些技术。通过洞悉华为解决方案,了解人工智能完整生态链条的构造。
回顾中 -
华为云DataArts+DWS助力企业数据治理一站式解决方案及应用实践
2024/11/27 周三 16:30-18:00
Walter.chi 华为云数据治理DTSE技术布道师
想知道数据治理项目中,数据主题域如何合理划分?数据标准及主数据标准如何制定?数仓分层模型如何合理规划?华为云DataArts+DWS助力企业数据治理项目一站式解决方案和应用实践告诉您答案!本期将从数据趋势、数据治理方案、数据治理规划及落地,案例分享四个方面来助力企业数据治理项目合理咨询规划及顺利实施。
去报名
热门标签