- 前言 Indri是Lemur项目衍生的一个基于语言模型的新的搜索引擎,由University of Massachusetts和Carnegie Mellon University合作开发。 安装 下载。下载Indri并进入indri文件夹的顶层目录!!! 修改configure文件权限。确认其中的configure文件的权... 前言 Indri是Lemur项目衍生的一个基于语言模型的新的搜索引擎,由University of Massachusetts和Carnegie Mellon University合作开发。 安装 下载。下载Indri并进入indri文件夹的顶层目录!!! 修改configure文件权限。确认其中的configure文件的权...
- 前言 论文:https://arxiv.org/pdf/1712.02856.pdf ; 代码和语料:https://github.com/hankcs/multi-criteria-cws 。 本文参见上面论文及代码,介绍了一种简洁优雅的多标准中文分词方案,可联合多个不同标准的语料库训练单个模型,同时输出多... 前言 论文:https://arxiv.org/pdf/1712.02856.pdf ; 代码和语料:https://github.com/hankcs/multi-criteria-cws 。 本文参见上面论文及代码,介绍了一种简洁优雅的多标准中文分词方案,可联合多个不同标准的语料库训练单个模型,同时输出多...
- 前言 用户建模是搜索与推荐模型的核心技术。其实很多人对用户模型的概念比较模糊,用户模型更多是在产品生命周期中起关键作用,其结合数据、反馈、行为三个方面的信息总结概括出产品用户模型。 01 背景与意义 用户建模是搜索与推荐模型的核心技术。淘宝搜索排序算分的对象是 <user, query, item> 三元组,我们从样本... 前言 用户建模是搜索与推荐模型的核心技术。其实很多人对用户模型的概念比较模糊,用户模型更多是在产品生命周期中起关键作用,其结合数据、反馈、行为三个方面的信息总结概括出产品用户模型。 01 背景与意义 用户建模是搜索与推荐模型的核心技术。淘宝搜索排序算分的对象是 <user, query, item> 三元组,我们从样本...
- 一,激活函数 我们用激活函数,来表示不同强度的信号是否激活了神经元,这是这个名字的来由。 主要作用是提供网络的非线性建模能力。 也就是说,需要一个递增函数,定义域是R,值域是0到1的区间(开区间还是闭区间不重要)。 这个激活函数是用来把特征值转化成0-1的数的,这样,整个网络就不是简单的线性计算了。 然而实际上,激活函数本... 一,激活函数 我们用激活函数,来表示不同强度的信号是否激活了神经元,这是这个名字的来由。 主要作用是提供网络的非线性建模能力。 也就是说,需要一个递增函数,定义域是R,值域是0到1的区间(开区间还是闭区间不重要)。 这个激活函数是用来把特征值转化成0-1的数的,这样,整个网络就不是简单的线性计算了。 然而实际上,激活函数本...
- 前言 本次分享的主题为医疗健康领域的短文本理解,主要介绍在丁香园的业务场景下,短文本理解的技术实践,并讨论知识图谱技术如何在医疗健康领域的搜索推荐中落地应用,希望能够给大家的日常工作提供一些思路。 主要内容包括: 丁香园主要的业务和所服务的对象,以及在垂直领域下NLP工作可能需要面对的挑战 在医疗健康领域短文本理解上的... 前言 本次分享的主题为医疗健康领域的短文本理解,主要介绍在丁香园的业务场景下,短文本理解的技术实践,并讨论知识图谱技术如何在医疗健康领域的搜索推荐中落地应用,希望能够给大家的日常工作提供一些思路。 主要内容包括: 丁香园主要的业务和所服务的对象,以及在垂直领域下NLP工作可能需要面对的挑战 在医疗健康领域短文本理解上的...
- 前言 学习算法一直以来是机器学习能根据数据学到知识的核心技术。而好的优化算法可以大大提高学习速度,加快算法的收敛速度和效果。本文从浅层模型到深度模型纵览监督学习中常用的优化算法,并指出了每一种优化算法的优点及局限性,同时其还包括了一阶和二阶等各种算法的形式化表达。 本文旨在介绍关于将最优化方法应用于机... 前言 学习算法一直以来是机器学习能根据数据学到知识的核心技术。而好的优化算法可以大大提高学习速度,加快算法的收敛速度和效果。本文从浅层模型到深度模型纵览监督学习中常用的优化算法,并指出了每一种优化算法的优点及局限性,同时其还包括了一阶和二阶等各种算法的形式化表达。 本文旨在介绍关于将最优化方法应用于机...
- 前言 最近在读论文的的过程中接触到多标签分类(multi-label classification)的任务,必须要强调的是多标签(multi-label)分类任务 和 多分类(multi-class)任务的区别: 多标签分类任务指的是一条数据可能有一个或者多个标签,举个例子:比如一个病人的体检报告,它可能被标记上,高血压,高血糖... 前言 最近在读论文的的过程中接触到多标签分类(multi-label classification)的任务,必须要强调的是多标签(multi-label)分类任务 和 多分类(multi-class)任务的区别: 多标签分类任务指的是一条数据可能有一个或者多个标签,举个例子:比如一个病人的体检报告,它可能被标记上,高血压,高血糖...
- 前言 58本地服务由数百个细分品类、多个创新业务和国际业务组成,如何构建智能化的流量分发体系是一项挑战,我们通过整合搜索和推荐场景构建了一套统一的流量分发系统,本次分享将主要介绍系统中的算法实践,包括基于信息结构化和用户意图识别的用户表征、召回和排序算法等。 01 58同城本地服务生态介绍 1. 业务背景 5... 前言 58本地服务由数百个细分品类、多个创新业务和国际业务组成,如何构建智能化的流量分发体系是一项挑战,我们通过整合搜索和推荐场景构建了一套统一的流量分发系统,本次分享将主要介绍系统中的算法实践,包括基于信息结构化和用户意图识别的用户表征、召回和排序算法等。 01 58同城本地服务生态介绍 1. 业务背景 5...
- 前言 用户画像作为当下描述分析用户、运营营销的重要工具,被全部互联网人熟知,用户画像的定义并不复杂,是系统通过用户自行上传或埋点上报收集记录了用户大量信息,为便于各业务应用,将这些信息进行沉淀、加工和抽象,形成一个以用户标志为主key的标签树,用于全面刻画用户的属性和行为信息,这就是用户画像。 画像这种结构化的用户信息加工方式,极大... 前言 用户画像作为当下描述分析用户、运营营销的重要工具,被全部互联网人熟知,用户画像的定义并不复杂,是系统通过用户自行上传或埋点上报收集记录了用户大量信息,为便于各业务应用,将这些信息进行沉淀、加工和抽象,形成一个以用户标志为主key的标签树,用于全面刻画用户的属性和行为信息,这就是用户画像。 画像这种结构化的用户信息加工方式,极大...
- 前言 今天博主来介绍一个超级简单并且又极其实用的boosting算法包Catboost,据开发者所说这一boosting算法是超越Lightgbm和XGBoost的又一个神器。 catboost 简介 在博主看来catboost有一下三个的优点: 它自动采用特殊的方式处理类别型特征(categorical features)... 前言 今天博主来介绍一个超级简单并且又极其实用的boosting算法包Catboost,据开发者所说这一boosting算法是超越Lightgbm和XGBoost的又一个神器。 catboost 简介 在博主看来catboost有一下三个的优点: 它自动采用特殊的方式处理类别型特征(categorical features)...
- 计算广告与推荐系统有哪些区别? 这两个领域的联系大于区别,区别的根本在于两个领域尝试解决的问题是不同的。 对于计算广告来说,本质上要处理的是三方利益的协调问题,这三方分别是广告主、用户和媒体。 对于推荐系统来说,本质上要处理的是用户体验的问题。 正是因为要处理问题的不同,导致了两个领... 计算广告与推荐系统有哪些区别? 这两个领域的联系大于区别,区别的根本在于两个领域尝试解决的问题是不同的。 对于计算广告来说,本质上要处理的是三方利益的协调问题,这三方分别是广告主、用户和媒体。 对于推荐系统来说,本质上要处理的是用户体验的问题。 正是因为要处理问题的不同,导致了两个领...
- 前言 在全面进入无线的时代,为了解决信息负载的问题,越来越多的推荐场景得到兴起,尤其是以列表推荐形式为主的信息流推荐。以手淘信息流为例,进入猜你喜欢场景的用户,兴趣常常是不明确的,用户浏览时往往没有明确的商品需求,而是在逛的过程中逐渐去发现想买的商品。而推荐系统在用户逛的过程中,会向客户端下发并呈现不同类型的商品让用户从中挑选,推荐系... 前言 在全面进入无线的时代,为了解决信息负载的问题,越来越多的推荐场景得到兴起,尤其是以列表推荐形式为主的信息流推荐。以手淘信息流为例,进入猜你喜欢场景的用户,兴趣常常是不明确的,用户浏览时往往没有明确的商品需求,而是在逛的过程中逐渐去发现想买的商品。而推荐系统在用户逛的过程中,会向客户端下发并呈现不同类型的商品让用户从中挑选,推荐系...
- 前言 Dirichlet分布(Dirichelt Distribution)和Dirichlet过程 (Dirichlet Process)广泛应用于信息检索、自然语言处理等领域,是理解主题模型的重要一步。而且它作为一种非参数模型(non-paramatric model),和参数模型一样有着越来越广泛的应用。 文本提供了一种对Di... 前言 Dirichlet分布(Dirichelt Distribution)和Dirichlet过程 (Dirichlet Process)广泛应用于信息检索、自然语言处理等领域,是理解主题模型的重要一步。而且它作为一种非参数模型(non-paramatric model),和参数模型一样有着越来越广泛的应用。 文本提供了一种对Di...
- 前言 招聘业务是多行为场景,用户需求和交互周期短、行为稀疏。本次分享基于业务挑战,将介绍代价敏感、向量检索等技术在招聘深度召回中的应用,最后总结实践中的教训与心得。 主要内容包括: 58招聘业务场景 招聘推荐系统 基于行为的向量化召回 实时深度召回 教训和心得 01 58招聘业务场景... 前言 招聘业务是多行为场景,用户需求和交互周期短、行为稀疏。本次分享基于业务挑战,将介绍代价敏感、向量检索等技术在招聘深度召回中的应用,最后总结实践中的教训与心得。 主要内容包括: 58招聘业务场景 招聘推荐系统 基于行为的向量化召回 实时深度召回 教训和心得 01 58招聘业务场景...
- 前言 本文主要介绍怎么使用 ELK Stack 帮助我们打造一个支撑起日产 TB 级的日志监控系统。在企业级的微服务环境中,跑着成百上千个服务都算是比较小的规模了。在生产环境上,日志扮演着很重要的角色,排查异常需要日志,性能优化需要日志,业务排查需要业务等等。 然而在生产上跑着成百上千个服务,每个服务都只会简单的本地... 前言 本文主要介绍怎么使用 ELK Stack 帮助我们打造一个支撑起日产 TB 级的日志监控系统。在企业级的微服务环境中,跑着成百上千个服务都算是比较小的规模了。在生产环境上,日志扮演着很重要的角色,排查异常需要日志,性能优化需要日志,业务排查需要业务等等。 然而在生产上跑着成百上千个服务,每个服务都只会简单的本地...
上滑加载中
推荐直播
-
昇腾AI算法挑战赛-核心算子如何优化?专家带你深度解析2025/11/17 周一 16:00-17:00
王老师 华为算子专家
昇腾AI算法挑战赛进阶赛战鼓催征!本期直播间,我们特邀华为算子专家王老师,为你深度剖析Matmul、wholereducesum等核心算子的底层原理与优化技巧,直击赛题核心。想提升代码效率、冲击更高排名?锁定直播,带你破局!
回顾中 -
AI编码实干派,“码”力全开2026/02/26 周四 15:00-16:30
谈宗玮/于邦旭/丁俊卿/陈云亮/王一男
【中国,深圳,2026年2月26日】,以“AI编码实干派,码力全开”为主题的华为云码道(CodeArts)代码智能体新春发布会在线上成功召开。华为云码道公测版正式发布,为开发者和企业提供具备工程化能力的智能编码解决方案。
回顾中 -
华为云码道-玩转OpenClaw,在线养虾2026/03/11 周三 19:00-21:00
刘昱,华为云高级工程师/谈心,华为云技术专家/李海仑,上海圭卓智能科技有限公司CEO
OpenClaw 火爆开发者圈,华为云码道最新推出 Skill ——开发者只需输入一句口令,即可部署一个功能完整的「小龙虾」智能体。直播带你玩转华为云码道,玩转OpenClaw
回顾中
热门标签