- 前言 随着互联网时代的发展,表情包成为现在大家网上交流的必备工具,针对表情搜索的产品需求,经历了从ElasticSearch到Lucene再到结合语义的搜索实践之路。不同阶段的技术选型可能可以为大家提供一些中小体量业务垂直领域搜索的落地思路。 逗芽表情搜索 爱奇艺逗芽表情(https://douya... 前言 随着互联网时代的发展,表情包成为现在大家网上交流的必备工具,针对表情搜索的产品需求,经历了从ElasticSearch到Lucene再到结合语义的搜索实践之路。不同阶段的技术选型可能可以为大家提供一些中小体量业务垂直领域搜索的落地思路。 逗芽表情搜索 爱奇艺逗芽表情(https://douya...
- 前言 在实际工作中,你是否遇到过这样一个问题或痛点:无论是通过哪种方式获取的标注数据,数据标注质量可能不过关,存在一些错误?亦或者是数据标注的标准不统一、存在一些歧义?特别是badcase反馈回来,发现训练集标注的居然和badcase一样?如下图所示,QuickDraw、MNIST和Amazon Reviews数据集中... 前言 在实际工作中,你是否遇到过这样一个问题或痛点:无论是通过哪种方式获取的标注数据,数据标注质量可能不过关,存在一些错误?亦或者是数据标注的标准不统一、存在一些歧义?特别是badcase反馈回来,发现训练集标注的居然和badcase一样?如下图所示,QuickDraw、MNIST和Amazon Reviews数据集中...
- 残差 残差在数理统计中是指实际观察值与估计值(拟合值)之间的差。在集成学习中可以通过基模型拟合残差,使得集成的模型变得更精确;在深度学习中也有人利用layer去拟合残差将深度神经网络的性能提高变强。这里博主选了Gradient Boosting和Resnet两个算法试图让大家更感性的认识到拟合残差的作用机理。 Gradient Bo... 残差 残差在数理统计中是指实际观察值与估计值(拟合值)之间的差。在集成学习中可以通过基模型拟合残差,使得集成的模型变得更精确;在深度学习中也有人利用layer去拟合残差将深度神经网络的性能提高变强。这里博主选了Gradient Boosting和Resnet两个算法试图让大家更感性的认识到拟合残差的作用机理。 Gradient Bo...
- 前言 在互联网步入大数据时代后,用户行为给企业的产品和服务带来了一系列的改变和重塑,其中最大的变化在于,用户的一切行为在企业面前是可“追溯”“分析”的。企业内保存了大量的原始数据和各种业务数据,这是企业经营活动的真实记录,如何更加有效地利用这些数据进行分析和评估,成为企业基于更大数据量背景的问题所在。随着大数据技术的深入研究与应用,企... 前言 在互联网步入大数据时代后,用户行为给企业的产品和服务带来了一系列的改变和重塑,其中最大的变化在于,用户的一切行为在企业面前是可“追溯”“分析”的。企业内保存了大量的原始数据和各种业务数据,这是企业经营活动的真实记录,如何更加有效地利用这些数据进行分析和评估,成为企业基于更大数据量背景的问题所在。随着大数据技术的深入研究与应用,企...
- 什么是GPflow GPflow是一个高斯过程的工具包,接口部分由python实现,内部的部分计算则由Tensorflow实现。 主要特点有二个:一是使用变分推理作为近似方法,二是使用自动微分进行求导。 安装 首先到GPflow官方页面将代码包下载到本地,然后进入代码包根目录,在终端输入pip install . 即可安装。 ... 什么是GPflow GPflow是一个高斯过程的工具包,接口部分由python实现,内部的部分计算则由Tensorflow实现。 主要特点有二个:一是使用变分推理作为近似方法,二是使用自动微分进行求导。 安装 首先到GPflow官方页面将代码包下载到本地,然后进入代码包根目录,在终端输入pip install . 即可安装。 ...
- 背景 大数据时代的到来,让越来越多的企业看到了数据资产的价值。将数据视为企业的重要资产,已经成为业界的一种共识,企业也在快速探索应用场景和商业模式,并开始建设技术平台。 但这里要特别强调一下,如果在大数据“拼图”中遗忘了数据治理,可能再多的技术投入也是一种徒劳。因为没有数据治理这一环节,其带来后果往往是:随处可见的数... 背景 大数据时代的到来,让越来越多的企业看到了数据资产的价值。将数据视为企业的重要资产,已经成为业界的一种共识,企业也在快速探索应用场景和商业模式,并开始建设技术平台。 但这里要特别强调一下,如果在大数据“拼图”中遗忘了数据治理,可能再多的技术投入也是一种徒劳。因为没有数据治理这一环节,其带来后果往往是:随处可见的数...
- 前言 微博作为全球领先的中文广场社交平台,拥有海量用户与数据。在从海量数据中挖掘有价值的信息,为业务赋能的过程中,微博的推荐算法经历了数次升级换代,积累了许多经验。今天跟大家分享下,在此过程中遇到的问题,并且在长期改进与积累的过程中,微博机器学习平台的演进过程,以及当前架构如何更好的发挥算法的优势,为业务产生更多有价值的支撑。 主要... 前言 微博作为全球领先的中文广场社交平台,拥有海量用户与数据。在从海量数据中挖掘有价值的信息,为业务赋能的过程中,微博的推荐算法经历了数次升级换代,积累了许多经验。今天跟大家分享下,在此过程中遇到的问题,并且在长期改进与积累的过程中,微博机器学习平台的演进过程,以及当前架构如何更好的发挥算法的优势,为业务产生更多有价值的支撑。 主要...
- 前言 谷歌于2017年提出 Transformer网络架构,此网络一经推出就引爆学术界。目前,在NLP领域,Transformer模型被认为是比CNN,RNN都要更强的特征提取器。 Transformer算法简介 Transformer引入了self-attention机制,同时还借鉴了CNN领域中残差机制(Residuals),... 前言 谷歌于2017年提出 Transformer网络架构,此网络一经推出就引爆学术界。目前,在NLP领域,Transformer模型被认为是比CNN,RNN都要更强的特征提取器。 Transformer算法简介 Transformer引入了self-attention机制,同时还借鉴了CNN领域中残差机制(Residuals),...
- 前言 对比学习最近一年比较火,它的应用范围,已经从最初的图像领域,逐步拓展到了自然语言处理以及多模态等很多其它领域。本文介绍微博在自然语言处理以及多模态方面,应用对比学习的经验。 后文将要介绍的两个模型:CD-TOM和W-CLIP,CD-TOM是关于纯文本方面的对比学习模型;W-CLIP是关于<文本,图片>多模态数据方面... 前言 对比学习最近一年比较火,它的应用范围,已经从最初的图像领域,逐步拓展到了自然语言处理以及多模态等很多其它领域。本文介绍微博在自然语言处理以及多模态方面,应用对比学习的经验。 后文将要介绍的两个模型:CD-TOM和W-CLIP,CD-TOM是关于纯文本方面的对比学习模型;W-CLIP是关于<文本,图片>多模态数据方面...
- 前言 在解决分类问题时,假如分类模型不够强大,对样本的分类结果就不会很理想。这时如果我们多找一些分类模型,让它们一起做决策,模型强度会不会高一点呢? 集成学习就是把多种分类器按策略组合起来,并根据所有分类器的分类结果做出最后的判断。 如下图,三种分类器的分类结果都有一点点错误,如果把三类组合在一起就可以完美地把所有形状都区... 前言 在解决分类问题时,假如分类模型不够强大,对样本的分类结果就不会很理想。这时如果我们多找一些分类模型,让它们一起做决策,模型强度会不会高一点呢? 集成学习就是把多种分类器按策略组合起来,并根据所有分类器的分类结果做出最后的判断。 如下图,三种分类器的分类结果都有一点点错误,如果把三类组合在一起就可以完美地把所有形状都区...
- 前言 语音系统中语音内容识别 ( ASR ) 的精准性,是影响智能语音产品发展的关键制约因素,用户query的文本,通常是由ASR系统将用户的语音命令转换而成,但由于技术上的原因,这些由ASR生成的文本可能包含错误,继而导致后续的用户意图理解出现偏差。如何利用NLP技术对ASR的query文本进行预处理纠错成了一个亟待解决的问题。 ... 前言 语音系统中语音内容识别 ( ASR ) 的精准性,是影响智能语音产品发展的关键制约因素,用户query的文本,通常是由ASR系统将用户的语音命令转换而成,但由于技术上的原因,这些由ASR生成的文本可能包含错误,继而导致后续的用户意图理解出现偏差。如何利用NLP技术对ASR的query文本进行预处理纠错成了一个亟待解决的问题。 ...
- 前言 随着移动互联网的兴起,网约车逐渐成为了大众常用的一个出行选择。但在网约车平台上经常出现这种情况:有时候乘客抱怨打不到车,与此同时其他地方的司机却没有订单接,长时间空驶。这就是典型的供需不平衡问题,即乘客和司机的自然分布出现了错配。这一方面让很多乘客的出行需求得不到满足,另一方面也让很多司机空驶等待,运力资源没有充分利用。如何解决... 前言 随着移动互联网的兴起,网约车逐渐成为了大众常用的一个出行选择。但在网约车平台上经常出现这种情况:有时候乘客抱怨打不到车,与此同时其他地方的司机却没有订单接,长时间空驶。这就是典型的供需不平衡问题,即乘客和司机的自然分布出现了错配。这一方面让很多乘客的出行需求得不到满足,另一方面也让很多司机空驶等待,运力资源没有充分利用。如何解决...
- 前言 transformer结构是google在17年的Attention Is All You Need论文中提出,在NLP的多个任务上取得了非常好的效果,可以说目前NLP发展都离不开transformer。最大特点是抛弃了传统的CNN和RNN,整个网络结构完全是由Attention机制组成。由于其出色性能以及对下游任务的友好性或者... 前言 transformer结构是google在17年的Attention Is All You Need论文中提出,在NLP的多个任务上取得了非常好的效果,可以说目前NLP发展都离不开transformer。最大特点是抛弃了传统的CNN和RNN,整个网络结构完全是由Attention机制组成。由于其出色性能以及对下游任务的友好性或者...
- 1、对卷积的困惑 以下是我为大家准备的几个精品专栏,喜欢的小伙伴可自行订阅,你的支持就是我不断更新的动力哟! MATLAB-30天带你从入门到精通 MATLAB深入理解高级教程(附源码) tableau可视化数据分析高级教程 卷积这个概念,很早以前就学过,但是一直没有搞懂。教科书上通常会给出定义,给出很多性质,也会用实例和图形... 1、对卷积的困惑 以下是我为大家准备的几个精品专栏,喜欢的小伙伴可自行订阅,你的支持就是我不断更新的动力哟! MATLAB-30天带你从入门到精通 MATLAB深入理解高级教程(附源码) tableau可视化数据分析高级教程 卷积这个概念,很早以前就学过,但是一直没有搞懂。教科书上通常会给出定义,给出很多性质,也会用实例和图形...
- 1. 引言 挑战与思路 搜索是大众点评App上用户进行信息查找的最大入口,是连接用户和信息的重要纽带。而用户搜索的方式和场景非常多样,并且由于对接业务种类多,流量差异大,为大众点评搜索(下文简称点评搜索)带来了巨大的挑战,具体体现在如下几个方面: 意图多样:用户查找的信息类型和方式多样。信息类型包括POI、榜单、UGC、攻略... 1. 引言 挑战与思路 搜索是大众点评App上用户进行信息查找的最大入口,是连接用户和信息的重要纽带。而用户搜索的方式和场景非常多样,并且由于对接业务种类多,流量差异大,为大众点评搜索(下文简称点评搜索)带来了巨大的挑战,具体体现在如下几个方面: 意图多样:用户查找的信息类型和方式多样。信息类型包括POI、榜单、UGC、攻略...
上滑加载中
推荐直播
-
华为云码道 × 仓颉编程:工程化AI编码探索2026/05/27 周三 19:00-21:00
刘俊杰-华为云仓颉语言专家/李炎-华为云码道技术专家/王智鹏-OpenCangjie开源社区发起人
本场直播围绕华为云仓颉语言与华为云码道的深度结合,展示华为云智能编程从零基础到高效落地的完整生态能力。以华为云码道为引擎,仓颉语言为载体,带给大家日常提效、趣味创新到极速量产的开发体验。
回顾中
热门标签