- 导读:随着Bert的发布,预训练 ( pre-train ) 成为NLP领域最为热门的方向之一,大规模的无监督语料加上少量有标注的语料成为了NLP模型的标配。本文将介绍几种常见的语言模型的基本原理和使用方式,以及语言模型在网易严选NLP业务上的实践,包括分类、文本匹配、序列标注、文本生成等。 01 前言 文本的表征经历了漫长的发展... 导读:随着Bert的发布,预训练 ( pre-train ) 成为NLP领域最为热门的方向之一,大规模的无监督语料加上少量有标注的语料成为了NLP模型的标配。本文将介绍几种常见的语言模型的基本原理和使用方式,以及语言模型在网易严选NLP业务上的实践,包括分类、文本匹配、序列标注、文本生成等。 01 前言 文本的表征经历了漫长的发展...
- 曾经 若干年前,有一个年轻的男老师给我们讲线性代数。他讲课的声音比较小,坐到后面接近听不清的状态。在模糊的印象中,第一节课就讲如何通过行列式求解方程组(克莱姆法则)。再到后来的矩阵的各种运算(加法、... 曾经 若干年前,有一个年轻的男老师给我们讲线性代数。他讲课的声音比较小,坐到后面接近听不清的状态。在模糊的印象中,第一节课就讲如何通过行列式求解方程组(克莱姆法则)。再到后来的矩阵的各种运算(加法、...
- 最近在做数据分析方面的工作,经常需要检验两组样本之间是否存在差异,所以会遇到统计学中假设检验相关的知识。在机器学习特征工程这一步,笔者最常用到的是假设检验中的卡方检验去做特征选择,因为卡方检验可以做两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。但是笔者今天想介绍一下通过T检验做机器学习中的特征工程,希望能够让大家初步了解... 最近在做数据分析方面的工作,经常需要检验两组样本之间是否存在差异,所以会遇到统计学中假设检验相关的知识。在机器学习特征工程这一步,笔者最常用到的是假设检验中的卡方检验去做特征选择,因为卡方检验可以做两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。但是笔者今天想介绍一下通过T检验做机器学习中的特征工程,希望能够让大家初步了解...
- 本文主要在Spark平台下实现一个机器学习应用,该应用主要涉及LDA主题模型以及K-means聚类。通过本文你可以了解到: 文本挖掘的基本流程 LDA主题模型算法 K-means算法 Spark平台下LDA主题模型实现 Spark平台下基于LDA的K-means算法实现 1.文本挖掘模块设计 1.... 本文主要在Spark平台下实现一个机器学习应用,该应用主要涉及LDA主题模型以及K-means聚类。通过本文你可以了解到: 文本挖掘的基本流程 LDA主题模型算法 K-means算法 Spark平台下LDA主题模型实现 Spark平台下基于LDA的K-means算法实现 1.文本挖掘模块设计 1....
- 今天我们来谈谈主题模型(Latent Dirichlet Allocation),由于主题模型是生成模型,而我们常用的决策树,支持向量机,CNN等常用的机器学习模型的都是判别模型。所以笔者首先简单介绍一下判别模型和生成模型。下面笔者列出了生成模型和判别模型的核心区别: 判别模型:估计的是条件概率分布(conditional dis... 今天我们来谈谈主题模型(Latent Dirichlet Allocation),由于主题模型是生成模型,而我们常用的决策树,支持向量机,CNN等常用的机器学习模型的都是判别模型。所以笔者首先简单介绍一下判别模型和生成模型。下面笔者列出了生成模型和判别模型的核心区别: 判别模型:估计的是条件概率分布(conditional dis...
- 存在超平面(超平面法线向量为 w ... 存在超平面(超平面法线向量为 w ...
- 前言 以下是我为大家准备的几个精品专栏,喜欢的小伙伴可自行订阅,你的支持就是我不断更新的动力哟! MATLAB-30天带你从入门到精通 MATLAB深入理解高级教程(附源码) tableau可视化数据分析高级教程 python快速学习实战应用系列课程 最速下降法 2)基于matlab语言... 前言 以下是我为大家准备的几个精品专栏,喜欢的小伙伴可自行订阅,你的支持就是我不断更新的动力哟! MATLAB-30天带你从入门到精通 MATLAB深入理解高级教程(附源码) tableau可视化数据分析高级教程 python快速学习实战应用系列课程 最速下降法 2)基于matlab语言...
- 前言 近年来,随着 GDPR 通用数据保护条例出台以及一些互联网公司数据隐私泄漏等事件的发生,数据隐私的保护问题在行业应用中备受关注。与数据密切相关的机器学习算法的安全性成为一个巨大挑战。本文将介绍在机器学习领域中数据隐私安全的相关工作,并介绍第四范式在差分隐私算法效果提升上所做的工作。 主要和大家分享数据隐私的3方面: 隐... 前言 近年来,随着 GDPR 通用数据保护条例出台以及一些互联网公司数据隐私泄漏等事件的发生,数据隐私的保护问题在行业应用中备受关注。与数据密切相关的机器学习算法的安全性成为一个巨大挑战。本文将介绍在机器学习领域中数据隐私安全的相关工作,并介绍第四范式在差分隐私算法效果提升上所做的工作。 主要和大家分享数据隐私的3方面: 隐...
- 01 | 背景 我们已经知道单层感知器具有简单的分类功能(比如将二维平面上的若干点分为两类),而且随着网络层数的增加,网络处理复杂问题的能力也随之增加。但是从单层感知器模型提出后,在相当长的一段时间内都没有人将单层感知器扩展到多层,究其原因,就是人们一直没有找到合适的训练方法来对各层之间的权值进行调... 01 | 背景 我们已经知道单层感知器具有简单的分类功能(比如将二维平面上的若干点分为两类),而且随着网络层数的增加,网络处理复杂问题的能力也随之增加。但是从单层感知器模型提出后,在相当长的一段时间内都没有人将单层感知器扩展到多层,究其原因,就是人们一直没有找到合适的训练方法来对各层之间的权值进行调...
- 最近博主复习了一下无约束问题最优化算法中的共轭梯度法。无约束问题最优化方法包括最速下降法、牛顿法、共轭梯度法、拟牛顿法等等。借用书中的一句话: 无约束优化问题的求解通过一系列一维搜索来实现。因此怎样选择搜索方向是解无约束问题的核心,搜索方向的不同选择,形成不同的最优化方法 既然我们说到搜索方向的不同选择会形... 最近博主复习了一下无约束问题最优化算法中的共轭梯度法。无约束问题最优化方法包括最速下降法、牛顿法、共轭梯度法、拟牛顿法等等。借用书中的一句话: 无约束优化问题的求解通过一系列一维搜索来实现。因此怎样选择搜索方向是解无约束问题的核心,搜索方向的不同选择,形成不同的最优化方法 既然我们说到搜索方向的不同选择会形...
- 语言模型是自然语言处理的核心概念之一。word2vec是一种基于神经网络的语言模型,也是一种词汇表征方法。word2vec包括两种结构:skip-gram(跳字模型)和CBOW(连续词袋模型),但本质上都是一种词汇降维的操作。 word2vec 我们将NLP的语言模型看作是一个监督学习问题:即给定上下文词,输出中间词... 语言模型是自然语言处理的核心概念之一。word2vec是一种基于神经网络的语言模型,也是一种词汇表征方法。word2vec包括两种结构:skip-gram(跳字模型)和CBOW(连续词袋模型),但本质上都是一种词汇降维的操作。 word2vec 我们将NLP的语言模型看作是一个监督学习问题:即给定上下文词,输出中间词...
- 残差 残差在数理统计中是指实际观察值与估计值(拟合值)之间的差。在集成学习中可以通过基模型拟合残差,使得集成的模型变得更精确;在深度学习中也有人利用layer去拟合残差将深度神经网络的性能提高变强。这里博主选了Gradient Boosting和Resnet两个算法试图让大家更感性的认识到拟合残差的作用机理。 Gradient Bo... 残差 残差在数理统计中是指实际观察值与估计值(拟合值)之间的差。在集成学习中可以通过基模型拟合残差,使得集成的模型变得更精确;在深度学习中也有人利用layer去拟合残差将深度神经网络的性能提高变强。这里博主选了Gradient Boosting和Resnet两个算法试图让大家更感性的认识到拟合残差的作用机理。 Gradient Bo...
- 前言 微博作为全球领先的中文广场社交平台,拥有海量用户与数据。在从海量数据中挖掘有价值的信息,为业务赋能的过程中,微博的推荐算法经历了数次升级换代,积累了许多经验。今天跟大家分享下,在此过程中遇到的问题,并且在长期改进与积累的过程中,微博机器学习平台的演进过程,以及当前架构如何更好的发挥算法的优势,为业务产生更多有价值的支撑。 主要... 前言 微博作为全球领先的中文广场社交平台,拥有海量用户与数据。在从海量数据中挖掘有价值的信息,为业务赋能的过程中,微博的推荐算法经历了数次升级换代,积累了许多经验。今天跟大家分享下,在此过程中遇到的问题,并且在长期改进与积累的过程中,微博机器学习平台的演进过程,以及当前架构如何更好的发挥算法的优势,为业务产生更多有价值的支撑。 主要...
- 前言 朴素贝叶斯(Naviebayes)的原理很简单:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为该代分项属于哪个类别? 以下是我为大家准备的几个精品专栏,喜欢的小伙伴可自行订阅,你的支持就是我不断更新的动力哟! MATLAB-30天带你从入门到精通 MATLAB深入理解高级教程(附源码) t... 前言 朴素贝叶斯(Naviebayes)的原理很简单:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为该代分项属于哪个类别? 以下是我为大家准备的几个精品专栏,喜欢的小伙伴可自行订阅,你的支持就是我不断更新的动力哟! MATLAB-30天带你从入门到精通 MATLAB深入理解高级教程(附源码) t...
- 前言 对比学习最近一年比较火,它的应用范围,已经从最初的图像领域,逐步拓展到了自然语言处理以及多模态等很多其它领域。本文介绍微博在自然语言处理以及多模态方面,应用对比学习的经验。 后文将要介绍的两个模型:CD-TOM和W-CLIP,CD-TOM是关于纯文本方面的对比学习模型;W-CLIP是关于<文本,图片>多模态数据方面... 前言 对比学习最近一年比较火,它的应用范围,已经从最初的图像领域,逐步拓展到了自然语言处理以及多模态等很多其它领域。本文介绍微博在自然语言处理以及多模态方面,应用对比学习的经验。 后文将要介绍的两个模型:CD-TOM和W-CLIP,CD-TOM是关于纯文本方面的对比学习模型;W-CLIP是关于<文本,图片>多模态数据方面...
上滑加载中
推荐直播
-
Skill 构建 × 智能创作:基于华为云码道的 AI 内容生产提效方案2026/03/25 周三 19:00-20:00
余伟,华为云软件研发工程师/万邵业(万少),华为云HCDE开发者专家
本次直播带来两大实战:华为云码道 Skill-Creator 手把手搭建专属知识库 Skill;如何用码道提效 OpenClaw 小说文本,打造从大纲到成稿的 AI 原创小说全链路。技术干货 + OPC创作思路,一次讲透!
回顾中 -
码道新技能,AI 新生产力——从自动视频生成到开源项目解析2026/04/08 周三 19:00-21:00
童得力-华为云开发者生态运营总监/何文强-无人机企业AI提效负责人
本次华为云码道 Skill 实战活动,聚焦两大 AI 开发场景:通过实战教学,带你打造 AI 编程自动生成视频 Skill,并实现对 GitHub 热门开源项目的智能知识抽取,手把手掌握 Skill 开发全流程,用 AI 提升研发效率与内容生产力。
回顾中 -
华为云码道:零代码股票智能决策平台全功能实战2026/04/18 周六 10:00-12:00
秦拳德-中软国际教育卓越研究院研究员、华为云金牌讲师、云原生技术专家
利用Tushare接口获取实时行情数据,采用Transformer算法进行时序预测与涨跌分析,并集成DeepSeek API提供智能解读。同时,项目深度结合华为云CodeArts(码道)的代码智能体能力,实现代码一键推送至云端代码仓库,建立起高效、可协作的团队开发新范式。开发者可快速上手,从零打造功能完整的个股筛选、智能分析与风险管控产品。
回顾中
热门标签