- 目录模型的保存模型的优化离线应用还是在线应用? 一个简单部署方案记录项目经历,学会总结和反思多考虑一点,如何适合更多场景监控与迭代模型的监控重新开启总结我们的目标是业务需求,而数据挖掘产出的结果。不管是预测型的还是关联型的,都要结合业务场景,融入到业务流程中去。模型部署本质――回归业务!模型如何保存?如何根据业务需求优化?如何最终上线服务?模型的保存模型保存的规范。存放的位置、名字的定义、模... 目录模型的保存模型的优化离线应用还是在线应用? 一个简单部署方案记录项目经历,学会总结和反思多考虑一点,如何适合更多场景监控与迭代模型的监控重新开启总结我们的目标是业务需求,而数据挖掘产出的结果。不管是预测型的还是关联型的,都要结合业务场景,融入到业务流程中去。模型部署本质――回归业务!模型如何保存?如何根据业务需求优化?如何最终上线服务?模型的保存模型保存的规范。存放的位置、名字的定义、模...
- 目录 一、混淆矩阵与准确率指标二、业务抽样评估三、泛化能力评估四、其他评估指标五、评估数据的处理总结模型评估是对模型进行多种维度的评估,来确认模型是否可以放到线上去使用。例子:“识别图片是不是关于小狗”的分类模型:有1000张图片用于测试该模型的效果并且预先已经进行了人工的标注(这里假设人工标注的数据都是100%正确)每张图都会标注是或者不是小狗的图片,假设有800张标注“是”,200张标注... 目录 一、混淆矩阵与准确率指标二、业务抽样评估三、泛化能力评估四、其他评估指标五、评估数据的处理总结模型评估是对模型进行多种维度的评估,来确认模型是否可以放到线上去使用。例子:“识别图片是不是关于小狗”的分类模型:有1000张图片用于测试该模型的效果并且预先已经进行了人工的标注(这里假设人工标注的数据都是100%正确)每张图都会标注是或者不是小狗的图片,假设有800张标注“是”,200张标注...
- 目录1、思想问题避免对业务的轻视明白可以为和不可以为数据挖掘不是万能的2、业务背景和目标3、把握数据总结数据挖掘流程图 :前置准备:1、思想问题避免对业务的轻视要做什么样的人,要先去按照那样的人去思考。做数据挖掘,一定要避免的思想问题我学了很多的算法,穿着程序员的衣服,背着程序员的电脑,我就是一个优秀的数据挖掘工程师了数据挖掘人员需要真正理解业务场景与挖掘需求数据挖掘的本质是一种方法要去解决... 目录1、思想问题避免对业务的轻视明白可以为和不可以为数据挖掘不是万能的2、业务背景和目标3、把握数据总结数据挖掘流程图 :前置准备:1、思想问题避免对业务的轻视要做什么样的人,要先去按照那样的人去思考。做数据挖掘,一定要避免的思想问题我学了很多的算法,穿着程序员的衣服,背着程序员的电脑,我就是一个优秀的数据挖掘工程师了数据挖掘人员需要真正理解业务场景与挖掘需求数据挖掘的本质是一种方法要去解决...
- 目录1、数据挖掘是什么?2、数据挖掘能做什么?分类问题:编辑聚类问题:编辑回归问题:关联问题:3、怎么做数据挖掘业务理解(Business Understanding) 数据理解(Data Understanding)数据准备(Data Preparation) 构建模型(Modeling)评估模型(Evaluation)模型部署(Deployment)1、数据挖掘是什么?数据挖掘:... 目录1、数据挖掘是什么?2、数据挖掘能做什么?分类问题:编辑聚类问题:编辑回归问题:关联问题:3、怎么做数据挖掘业务理解(Business Understanding) 数据理解(Data Understanding)数据准备(Data Preparation) 构建模型(Modeling)评估模型(Evaluation)模型部署(Deployment)1、数据挖掘是什么?数据挖掘:...
- 比赛基本流程 做一个数据挖掘比赛,主要包含了数据分析,数据清洗,特征工程,模型训练和验证等四个大的模块。1、数据分析数据分析可能涉及以下方面:◆ 分析特征变量的分布◇ 特征变量为连续值:如果为长尾分布并且考虑使用线性模型,可以对变量进行幂变换或者对数变换。◇ 特征变量为离散值:观察每个离散值的频率分布,对于频次较低的特征,可以考虑统一编码为“其他”类别。◆ 分析目标变量的分布◇ 目标变量为连... 比赛基本流程 做一个数据挖掘比赛,主要包含了数据分析,数据清洗,特征工程,模型训练和验证等四个大的模块。1、数据分析数据分析可能涉及以下方面:◆ 分析特征变量的分布◇ 特征变量为连续值:如果为长尾分布并且考虑使用线性模型,可以对变量进行幂变换或者对数变换。◇ 特征变量为离散值:观察每个离散值的频率分布,对于频次较低的特征,可以考虑统一编码为“其他”类别。◆ 分析目标变量的分布◇ 目标变量为连...
- 简介: 在工作中,每个数据分析师都离不开做数据分析报告,而一份可落地的报告更是要求灵活地应用工具及理论知识。接下来,我们从工具应用的角度,看看如何用SQL做一份完整的数据分析报告。 简介: 在工作中,每个数据分析师都离不开做数据分析报告,而一份可落地的报告更是要求灵活地应用工具及理论知识。接下来,我们从工具应用的角度,看看如何用SQL做一份完整的数据分析报告。
- 这些问题需要我们利用一套科学的数据指标体系搭建方法,去搭建一个完整的、科学的、高效的、业务向的、分析型+监控型的指标体系,常用的搭建数据指标体系的模型有北极星、OSM、AARRR、UJM、MECE等。 这些问题需要我们利用一套科学的数据指标体系搭建方法,去搭建一个完整的、科学的、高效的、业务向的、分析型+监控型的指标体系,常用的搭建数据指标体系的模型有北极星、OSM、AARRR、UJM、MECE等。
- 回归和分类模型的评价指标不完全相同。下面是它们的常见评价指标: 回归模型的评价指标: 均方误差(MSE):所有数据点预测误差的平方和的均值。 均方根误差(RMSE):均方误差的平方根。 平均绝对误差(MAE):所有数据点预测误差的绝对值之和的均值。 R平方($R^2$):模型拟合数据的程度,范围在0到1之间。$R^2=1$表示模型完美拟合数据,$R^2=0$表示模型无法解释数据。 回归和分类模型的评价指标不完全相同。下面是它们的常见评价指标: 回归模型的评价指标: 均方误差(MSE):所有数据点预测误差的平方和的均值。 均方根误差(RMSE):均方误差的平方根。 平均绝对误差(MAE):所有数据点预测误差的绝对值之和的均值。 R平方($R^2$):模型拟合数据的程度,范围在0到1之间。$R^2=1$表示模型完美拟合数据,$R^2=0$表示模型无法解释数据。
- 我们说过分析的最终目的就是为了通过客观的数据去发现公司业务存在的问题,那怎么通过什么数据呢?业务那么多,我到底该用哪些数据啊?这个时候我们就需要找到一个衡量业务好坏的标准了,那这个标准就是我们要说的指标。例如:上文的离职率就是一个反映企业员工稳定性的核心指标;销售额是反映一个销售公司经营情况的核心指标;日活跃用户数是反映一款APP是否受欢迎的核心指标等等。每个行业的常用指标是不同的,这里主要介绍一 我们说过分析的最终目的就是为了通过客观的数据去发现公司业务存在的问题,那怎么通过什么数据呢?业务那么多,我到底该用哪些数据啊?这个时候我们就需要找到一个衡量业务好坏的标准了,那这个标准就是我们要说的指标。例如:上文的离职率就是一个反映企业员工稳定性的核心指标;销售额是反映一个销售公司经营情况的核心指标;日活跃用户数是反映一款APP是否受欢迎的核心指标等等。每个行业的常用指标是不同的,这里主要介绍一
- 目录1、什么是数据透视表2、如何操作3、数据透视表的优势4、适用什么场景5、使用前注意事项1、什么是数据透视表先来举个例子看下面这段对话下午5点30boss:把这张表给我整理成如下格式,就是根据平台给我汇总一下销量和收入,我要做个数据统计同学们,你们接到这样的需求之后,有什么想法呢?哈哈,第一个想法肯定是,我滴妈呀,为啥临到下班点给我派活,一天都干啥去了,是逼我加班么,这是什么boss,真... 目录1、什么是数据透视表2、如何操作3、数据透视表的优势4、适用什么场景5、使用前注意事项1、什么是数据透视表先来举个例子看下面这段对话下午5点30boss:把这张表给我整理成如下格式,就是根据平台给我汇总一下销量和收入,我要做个数据统计同学们,你们接到这样的需求之后,有什么想法呢?哈哈,第一个想法肯定是,我滴妈呀,为啥临到下班点给我派活,一天都干啥去了,是逼我加班么,这是什么boss,真...
- 1、定位如何快速定位到不连续的空值,填充为01.在任意空单元格里复制02.选中数据区域Ctrl+A3.Ctrl+G4.选择【定位条件】5.选择【空值】6.Ctrl+V 粘贴 即可怎么一次性计算每个小组的数量 单价和金额的和?1.选中数据区域2.Ctrl+G3.选择定位条件4.选择【空值】5.Alter + = 【最为关键 Alter+=是快速求和的操作】 2、选择性粘贴给一列数据都新增20... 1、定位如何快速定位到不连续的空值,填充为01.在任意空单元格里复制02.选中数据区域Ctrl+A3.Ctrl+G4.选择【定位条件】5.选择【空值】6.Ctrl+V 粘贴 即可怎么一次性计算每个小组的数量 单价和金额的和?1.选中数据区域2.Ctrl+G3.选择定位条件4.选择【空值】5.Alter + = 【最为关键 Alter+=是快速求和的操作】 2、选择性粘贴给一列数据都新增20...
- 前言上一篇文章我们介绍了pandas的安装,并且写了一个简单的示例,本篇文章我们就开始学习pandas的数据结构。 数据结构-SeriesPandas Series 类似表格中的一个列(column),类似于一维数组,可以保存任何数据类型。Series 由索引(index)和列组成,函数如下:pandas.Series( data, index, dtype, name, copy)参数说... 前言上一篇文章我们介绍了pandas的安装,并且写了一个简单的示例,本篇文章我们就开始学习pandas的数据结构。 数据结构-SeriesPandas Series 类似表格中的一个列(column),类似于一维数组,可以保存任何数据类型。Series 由索引(index)和列组成,函数如下:pandas.Series( data, index, dtype, name, copy)参数说...
- 智慧公厕系统解决方案是一项旨在提高公厕设施的质量和管理效率的创新解决方案。这种系统利用物联网技术、智能感知技术和大数据分析等技术,实现对公厕设施的实时监测和管理。在机场、服务区、旅游景区等人流量较大的场所中,智慧公厕系统可以极大地提高公厕的使用效率和用户体验,带来巨大的经济和社会效益。 智慧公厕系统解决方案是一项旨在提高公厕设施的质量和管理效率的创新解决方案。这种系统利用物联网技术、智能感知技术和大数据分析等技术,实现对公厕设施的实时监测和管理。在机场、服务区、旅游景区等人流量较大的场所中,智慧公厕系统可以极大地提高公厕的使用效率和用户体验,带来巨大的经济和社会效益。
- 1. 以 CSV 格式存储 DataFrame:Pandas提供**to.csv('filename', index = "False|True")** 了将 DataFrame 写入 CSV 文件的功能。这*filename是您要创建的 CSV 文件的名称,并index告诉 DataFrame 的索引(如果默认)是否应该被覆盖。如果我们设置*index = False,则索引不会被覆盖。默... 1. 以 CSV 格式存储 DataFrame:Pandas提供**to.csv('filename', index = "False|True")** 了将 DataFrame 写入 CSV 文件的功能。这*filename是您要创建的 CSV 文件的名称,并index告诉 DataFrame 的索引(如果默认)是否应该被覆盖。如果我们设置*index = False,则索引不会被覆盖。默...
- 数据可视化是以图形格式呈现数据。它通过以简单易懂的格式汇总和呈现大量数据,帮助人们理解数据的重要性,并有助于清晰有效地传达信息。考虑这个给定的数据集,我们将为其绘制不同的图表:用于分析和呈现数据的不同类型的图表1.直方图:直方图表示特定现象发生的频率,这些现象位于特定的数值范围内,并以连续和固定的间隔排列。在下面的代码中绘制直方图Age, Income, Sales。因此,输出中的这些图显示... 数据可视化是以图形格式呈现数据。它通过以简单易懂的格式汇总和呈现大量数据,帮助人们理解数据的重要性,并有助于清晰有效地传达信息。考虑这个给定的数据集,我们将为其绘制不同的图表:用于分析和呈现数据的不同类型的图表1.直方图:直方图表示特定现象发生的频率,这些现象位于特定的数值范围内,并以连续和固定的间隔排列。在下面的代码中绘制直方图Age, Income, Sales。因此,输出中的这些图显示...
上滑加载中
推荐直播
-
AI编码实干派,“码”力全开2026/02/26 周四 15:00-16:30
谈宗玮/于邦旭/丁俊卿/陈云亮/王一男
【中国,深圳,2026年2月26日】,以“AI编码实干派,码力全开”为主题的华为云码道(CodeArts)代码智能体新春发布会在线上成功召开。华为云码道公测版正式发布,为开发者和企业提供具备工程化能力的智能编码解决方案。
回顾中 -
华为云码道-玩转OpenClaw,在线养虾2026/03/11 周三 19:00-21:00
刘昱,华为云高级工程师/谈心,华为云技术专家/李海仑,上海圭卓智能科技有限公司CEO
OpenClaw 火爆开发者圈,华为云码道最新推出 Skill ——开发者只需输入一句口令,即可部署一个功能完整的「小龙虾」智能体。直播带你玩转华为云码道,玩转OpenClaw
回顾中 -
华为云码道-AI时代应用开发利器2026/03/18 周三 19:00-20:00
童得力,华为云开发者生态运营总监/姚圣伟,华为云HCDE开发者专家
本次直播由华为专家带你实战应用开发,看华为云码道(CodeArts)代码智能体如何在AI时代让你的创意应用快速落地。更有华为云HCDE开发者专家带你用码道玩转JiuwenClaw,让小艺成为你的AI助理。
回顾中
热门标签