- 前言 近年来,随着 GDPR 通用数据保护条例出台以及一些互联网公司数据隐私泄漏等事件的发生,数据隐私的保护问题在行业应用中备受关注。与数据密切相关的机器学习算法的安全性成为一个巨大挑战。本文将介绍在机器学习领域中数据隐私安全的相关工作,并介绍第四范式在差分隐私算法效果提升上所做的工作。 主要和大家分享数据隐私的3方面: 隐... 前言 近年来,随着 GDPR 通用数据保护条例出台以及一些互联网公司数据隐私泄漏等事件的发生,数据隐私的保护问题在行业应用中备受关注。与数据密切相关的机器学习算法的安全性成为一个巨大挑战。本文将介绍在机器学习领域中数据隐私安全的相关工作,并介绍第四范式在差分隐私算法效果提升上所做的工作。 主要和大家分享数据隐私的3方面: 隐...
- 前言 58同城作为分类信息网站,服务覆盖多个领域,如房屋租售、招聘求职、二手买卖等等,不同的业务有不同的特点,这使得多业务融合推荐成为一大挑战。如何准确挖掘用户的需求?如何平衡各业务之间的流量分配?如何增加多样性提升用户体验? 以下是我为大家准备的几个精品专栏,喜欢的小伙伴可自行订阅,你的支持就是我不断更新的动力哟! MATLAB... 前言 58同城作为分类信息网站,服务覆盖多个领域,如房屋租售、招聘求职、二手买卖等等,不同的业务有不同的特点,这使得多业务融合推荐成为一大挑战。如何准确挖掘用户的需求?如何平衡各业务之间的流量分配?如何增加多样性提升用户体验? 以下是我为大家准备的几个精品专栏,喜欢的小伙伴可自行订阅,你的支持就是我不断更新的动力哟! MATLAB...
- 一、决策树 所谓决策树,就是自顶而下树形的结构,每一个节点都是一个属性。用决策树解决问题就是根据数据属性一层一层做决策的过程 好处:结构清晰,模仿人类思考的流程。 以下为某商品经过推销后,收集回来的客户信息,包括居住地区、住房类型、收入、是否老客户四种属性,最后一列代表该客户买没买。 1.用树状的结构表示上面的信息表... 一、决策树 所谓决策树,就是自顶而下树形的结构,每一个节点都是一个属性。用决策树解决问题就是根据数据属性一层一层做决策的过程 好处:结构清晰,模仿人类思考的流程。 以下为某商品经过推销后,收集回来的客户信息,包括居住地区、住房类型、收入、是否老客户四种属性,最后一列代表该客户买没买。 1.用树状的结构表示上面的信息表...
- 前言 目前,双塔结构在推荐领域里已经是个常规方法了,在召回和粗排环节的模型选型中,被广泛采用。其实,不仅仅是在推荐领域,在其它领域,双塔结构也已经被越来越多得用起来了。比如,在当代搜索引擎的召回环节,除了常见的经典倒排索引来对Query和Document进行文本字面匹配外,经常也会增加一路基于Bert模型的双塔结构,将用户查询Quer... 前言 目前,双塔结构在推荐领域里已经是个常规方法了,在召回和粗排环节的模型选型中,被广泛采用。其实,不仅仅是在推荐领域,在其它领域,双塔结构也已经被越来越多得用起来了。比如,在当代搜索引擎的召回环节,除了常见的经典倒排索引来对Query和Document进行文本字面匹配外,经常也会增加一路基于Bert模型的双塔结构,将用户查询Quer...
- 前言 随着深度学习的普及,有越来越多的研究应用新模型到中文分词上,让人直呼“手快有,手慢无”。不过这些神经网络方法的真实水平如何?具体数值多少?以Sighan05中的PKU数据集为例,真像一些论文所言,一个LSTM-CRF就有96.5%吗?或者像某些工业界人士那样,动辄“基于深度学习的98%准确率”,“99% 的分词成功率”吗? 如... 前言 随着深度学习的普及,有越来越多的研究应用新模型到中文分词上,让人直呼“手快有,手慢无”。不过这些神经网络方法的真实水平如何?具体数值多少?以Sighan05中的PKU数据集为例,真像一些论文所言,一个LSTM-CRF就有96.5%吗?或者像某些工业界人士那样,动辄“基于深度学习的98%准确率”,“99% 的分词成功率”吗? 如...
- 前言 一次偶然看到一个换脸的视频,觉得实在是很神奇,于是饶有兴致的去了解一下换脸算法。原来背后有一个极为有意思的算法思想——对抗生成。 随后各种各样的GAN算法以指数级增长的方式涌现出来,比如WGAN(Wasserstein GAN),CGAN(condition gan),SRGAN(super resolution gan)等。... 前言 一次偶然看到一个换脸的视频,觉得实在是很神奇,于是饶有兴致的去了解一下换脸算法。原来背后有一个极为有意思的算法思想——对抗生成。 随后各种各样的GAN算法以指数级增长的方式涌现出来,比如WGAN(Wasserstein GAN),CGAN(condition gan),SRGAN(super resolution gan)等。...
- 前言 随着互联网时代的发展,表情包成为现在大家网上交流的必备工具,针对表情搜索的产品需求,经历了从ElasticSearch到Lucene再到结合语义的搜索实践之路。不同阶段的技术选型可能可以为大家提供一些中小体量业务垂直领域搜索的落地思路。 逗芽表情搜索 爱奇艺逗芽表情(https://douya... 前言 随着互联网时代的发展,表情包成为现在大家网上交流的必备工具,针对表情搜索的产品需求,经历了从ElasticSearch到Lucene再到结合语义的搜索实践之路。不同阶段的技术选型可能可以为大家提供一些中小体量业务垂直领域搜索的落地思路。 逗芽表情搜索 爱奇艺逗芽表情(https://douya...
- 前言 在实际工作中,你是否遇到过这样一个问题或痛点:无论是通过哪种方式获取的标注数据,数据标注质量可能不过关,存在一些错误?亦或者是数据标注的标准不统一、存在一些歧义?特别是badcase反馈回来,发现训练集标注的居然和badcase一样?如下图所示,QuickDraw、MNIST和Amazon Reviews数据集中... 前言 在实际工作中,你是否遇到过这样一个问题或痛点:无论是通过哪种方式获取的标注数据,数据标注质量可能不过关,存在一些错误?亦或者是数据标注的标准不统一、存在一些歧义?特别是badcase反馈回来,发现训练集标注的居然和badcase一样?如下图所示,QuickDraw、MNIST和Amazon Reviews数据集中...
- 残差 残差在数理统计中是指实际观察值与估计值(拟合值)之间的差。在集成学习中可以通过基模型拟合残差,使得集成的模型变得更精确;在深度学习中也有人利用layer去拟合残差将深度神经网络的性能提高变强。这里博主选了Gradient Boosting和Resnet两个算法试图让大家更感性的认识到拟合残差的作用机理。 Gradient Bo... 残差 残差在数理统计中是指实际观察值与估计值(拟合值)之间的差。在集成学习中可以通过基模型拟合残差,使得集成的模型变得更精确;在深度学习中也有人利用layer去拟合残差将深度神经网络的性能提高变强。这里博主选了Gradient Boosting和Resnet两个算法试图让大家更感性的认识到拟合残差的作用机理。 Gradient Bo...
- 前言 在互联网步入大数据时代后,用户行为给企业的产品和服务带来了一系列的改变和重塑,其中最大的变化在于,用户的一切行为在企业面前是可“追溯”“分析”的。企业内保存了大量的原始数据和各种业务数据,这是企业经营活动的真实记录,如何更加有效地利用这些数据进行分析和评估,成为企业基于更大数据量背景的问题所在。随着大数据技术的深入研究与应用,企... 前言 在互联网步入大数据时代后,用户行为给企业的产品和服务带来了一系列的改变和重塑,其中最大的变化在于,用户的一切行为在企业面前是可“追溯”“分析”的。企业内保存了大量的原始数据和各种业务数据,这是企业经营活动的真实记录,如何更加有效地利用这些数据进行分析和评估,成为企业基于更大数据量背景的问题所在。随着大数据技术的深入研究与应用,企...
- 什么是GPflow GPflow是一个高斯过程的工具包,接口部分由python实现,内部的部分计算则由Tensorflow实现。 主要特点有二个:一是使用变分推理作为近似方法,二是使用自动微分进行求导。 安装 首先到GPflow官方页面将代码包下载到本地,然后进入代码包根目录,在终端输入pip install . 即可安装。 ... 什么是GPflow GPflow是一个高斯过程的工具包,接口部分由python实现,内部的部分计算则由Tensorflow实现。 主要特点有二个:一是使用变分推理作为近似方法,二是使用自动微分进行求导。 安装 首先到GPflow官方页面将代码包下载到本地,然后进入代码包根目录,在终端输入pip install . 即可安装。 ...
- 背景 大数据时代的到来,让越来越多的企业看到了数据资产的价值。将数据视为企业的重要资产,已经成为业界的一种共识,企业也在快速探索应用场景和商业模式,并开始建设技术平台。 但这里要特别强调一下,如果在大数据“拼图”中遗忘了数据治理,可能再多的技术投入也是一种徒劳。因为没有数据治理这一环节,其带来后果往往是:随处可见的数... 背景 大数据时代的到来,让越来越多的企业看到了数据资产的价值。将数据视为企业的重要资产,已经成为业界的一种共识,企业也在快速探索应用场景和商业模式,并开始建设技术平台。 但这里要特别强调一下,如果在大数据“拼图”中遗忘了数据治理,可能再多的技术投入也是一种徒劳。因为没有数据治理这一环节,其带来后果往往是:随处可见的数...
- 前言 微博作为全球领先的中文广场社交平台,拥有海量用户与数据。在从海量数据中挖掘有价值的信息,为业务赋能的过程中,微博的推荐算法经历了数次升级换代,积累了许多经验。今天跟大家分享下,在此过程中遇到的问题,并且在长期改进与积累的过程中,微博机器学习平台的演进过程,以及当前架构如何更好的发挥算法的优势,为业务产生更多有价值的支撑。 主要... 前言 微博作为全球领先的中文广场社交平台,拥有海量用户与数据。在从海量数据中挖掘有价值的信息,为业务赋能的过程中,微博的推荐算法经历了数次升级换代,积累了许多经验。今天跟大家分享下,在此过程中遇到的问题,并且在长期改进与积累的过程中,微博机器学习平台的演进过程,以及当前架构如何更好的发挥算法的优势,为业务产生更多有价值的支撑。 主要...
- 前言 谷歌于2017年提出 Transformer网络架构,此网络一经推出就引爆学术界。目前,在NLP领域,Transformer模型被认为是比CNN,RNN都要更强的特征提取器。 Transformer算法简介 Transformer引入了self-attention机制,同时还借鉴了CNN领域中残差机制(Residuals),... 前言 谷歌于2017年提出 Transformer网络架构,此网络一经推出就引爆学术界。目前,在NLP领域,Transformer模型被认为是比CNN,RNN都要更强的特征提取器。 Transformer算法简介 Transformer引入了self-attention机制,同时还借鉴了CNN领域中残差机制(Residuals),...
- 前言 对比学习最近一年比较火,它的应用范围,已经从最初的图像领域,逐步拓展到了自然语言处理以及多模态等很多其它领域。本文介绍微博在自然语言处理以及多模态方面,应用对比学习的经验。 后文将要介绍的两个模型:CD-TOM和W-CLIP,CD-TOM是关于纯文本方面的对比学习模型;W-CLIP是关于<文本,图片>多模态数据方面... 前言 对比学习最近一年比较火,它的应用范围,已经从最初的图像领域,逐步拓展到了自然语言处理以及多模态等很多其它领域。本文介绍微博在自然语言处理以及多模态方面,应用对比学习的经验。 后文将要介绍的两个模型:CD-TOM和W-CLIP,CD-TOM是关于纯文本方面的对比学习模型;W-CLIP是关于<文本,图片>多模态数据方面...
上滑加载中
推荐直播
-
HDC深度解读系列 - Serverless与MCP融合创新,构建AI应用全新智能中枢2025/08/20 周三 16:30-18:00
张昆鹏 HCDG北京核心组代表
HDC2025期间,华为云展示了Serverless与MCP融合创新的解决方案,本期访谈直播,由华为云开发者专家(HCDE)兼华为云开发者社区组织HCDG北京核心组代表张鹏先生主持,华为云PaaS服务产品部 Serverless总监Ewen为大家深度解读华为云Serverless与MCP如何融合构建AI应用全新智能中枢
回顾中 -
关于RISC-V生态发展的思考2025/09/02 周二 17:00-18:00
中国科学院计算技术研究所副所长包云岗教授
中科院包云岗老师将在本次直播中,探讨处理器生态的关键要素及其联系,分享过去几年推动RISC-V生态建设实践过程中的经验与教训。
回顾中 -
一键搞定华为云万级资源,3步轻松管理企业成本2025/09/09 周二 15:00-16:00
阿言 华为云交易产品经理
本直播重点介绍如何一键续费万级资源,3步轻松管理成本,帮助提升日常管理效率!
回顾中
热门标签