建议使用以下浏览器,以获得最佳体验。 IE 9.0+以上版本 Chrome 31+ 谷歌浏览器 Firefox 30+ 火狐浏览器
温馨提示

抱歉,您需设置社区昵称后才能参与社区互动!

前往修改
我再想想

华为云大赛技术圈

话题 : 467 成员 : 405

加入HCSD

【学习赛2021-硬盘异常检测】【总结分享】过拟合

年月日 2021/3/1 598
### 华为网络AI学习赛2021-硬盘异常检测 [华为网络AI学习赛2021-硬盘异常检测](https://competition.huaweicloud.com/information/1000041370/introduction)   ### 过程 经过几天的数据处理,训练集的特征维度从 109 -> 53 -> 77 -> 57 -> 219,然而比赛分数一直没有超过样例代码,看到这个情况,很是意外。 VegaAutoML中的参数 max_trial_number 从 2 -> 5 -> 200 -> 1,这样调节也不行。 训练任务的运行日志输出准确率接近于1(如下所示)。到测试集一提交就是 0.1: ``` python model_id ... trial_result 0 stacking_all_20210228_000333 ... {'accuracy': 1.0, 'precision': 1.0, 'f1': 1.0,... 1 stacking_heterogeneous_20210228_000334 ... {'accuracy': 1.0, 'precision': 1.0, 'f1': 1.0,... 2 lightgbm_20210228_000325 ... {'accuracy': 0.9998, 'precision': 1.0, 'f1': 0... 3 lightgbm_20210228_000331 ... {'accuracy': 0.9998, 'precision': 1.0, 'f1': 0... [4 rows x 4 columns] ``` 存在 过拟合!!!   ### 学习 在比赛资料中,比较有帮助的是前辈的方案帖。 * 在 slaine 的方案帖中,提到了过拟合的问题(此处只展示了小部分内容,建议阅读全文): "尝试一:为了解决过拟合问题,首先想到的是剔除在训练集中表现强劲的特征,也就是我在上面讲到的与硬盘工作时间强相关的特征(9,241,242等等),但是删除这些特征后线上成绩依然没有得到明显提升。"   * 在 bullet 的方案帖中,用了较长的篇幅去描述过拟合问题(此处只展示了小部分内容,建议阅读全文): " 由于训练集中仅有每块样本前30天的记录,而样本变为坏样本后便不再有记录,因此,数据中好样本都集中在2018年12月而坏样本大多在2018年11月之前,如果把时间作为入模变量进行建模,就能在训练集完美区分好坏样本——12月没了记录的就是坏样本,但这显然是过拟合。由于没有2018年11月前的好样本数据,因此这个比赛存在超级难点,即如何判断模型是在识别好坏样本而不是在识别时间的远近。 "   ### 反思与探索 先阅读前辈的方案,再动手实践,是少走弯路的好方法。 在训练模型之前,多做数据分析和数据可视化,了解数据集是否存在某种误导性。比如 不公平对比、正负样本不平衡等   ### 学习资源和参考资料 [#网络约AI,有你更精彩#网络人工智能黑客松大赛二等奖方案分享](https://bbs.huaweicloud.com/forum/thread-51519-1-1.html) [一等奖方案分享](https://bbs.huaweicloud.com/forum/thread-50315-1-1.html) [【2021学习赛---硬盘异常检测】2月23号直播ppt](https://bbs.huaweicloud.com/forum/thread-108940-1-1.html) [【学习赛2021--硬盘异常检测】样例代码](https://bbs.huaweicloud.com/forum/thread-107416-1-1.html) [【学习赛2021--KPI异常检测】优秀选手usstroot直播baseline代码及ppt](https://bbs.huaweicloud.com/forum/thread-106253-1-1.html) [网络AI学习赛2021.硬盘异常检测,赛题解读](https://bbs.huaweicloud.com/live/dks_live/202102231900.html)   ### 其他学习赛推荐 [华为网络AI学习赛2021-KPI异常检测](https://competition.huaweicloud.com/information/1000041344/introduction) [华为网络AI学习赛2021-日志异常检测](https://competition.huaweicloud.com/information/1000041371/introduction)   ### 备注 1. 感谢老师的教学与课件 2. 欢迎各位同学一起来交流比赛心得^_^ 3. 比赛配备了较为丰富的学习资料,有助于新手平稳入门,推荐参赛

回复 (0)

没有评论
上划加载中
标签
您还可以添加5个标签
  • 没有搜索到和“关键字”相关的标签
  • 云产品
  • 解决方案
  • 技术领域
  • 通用技术
  • 平台功能
取消

年月日

角色:成员

话题:25

发消息
发表于2021年03月01日 16:20:02 5980
直达本楼层的链接
楼主
正序浏览 只看该作者
[技术干货] 【学习赛2021-硬盘异常检测】【总结分享】过拟合

### 华为网络AI学习赛2021-硬盘异常检测 [华为网络AI学习赛2021-硬盘异常检测](https://competition.huaweicloud.com/information/1000041370/introduction)   ### 过程 经过几天的数据处理,训练集的特征维度从 109 -> 53 -> 77 -> 57 -> 219,然而比赛分数一直没有超过样例代码,看到这个情况,很是意外。 VegaAutoML中的参数 max_trial_number 从 2 -> 5 -> 200 -> 1,这样调节也不行。 训练任务的运行日志输出准确率接近于1(如下所示)。到测试集一提交就是 0.1: ``` python model_id ... trial_result 0 stacking_all_20210228_000333 ... {'accuracy': 1.0, 'precision': 1.0, 'f1': 1.0,... 1 stacking_heterogeneous_20210228_000334 ... {'accuracy': 1.0, 'precision': 1.0, 'f1': 1.0,... 2 lightgbm_20210228_000325 ... {'accuracy': 0.9998, 'precision': 1.0, 'f1': 0... 3 lightgbm_20210228_000331 ... {'accuracy': 0.9998, 'precision': 1.0, 'f1': 0... [4 rows x 4 columns] ``` 存在 过拟合!!!   ### 学习 在比赛资料中,比较有帮助的是前辈的方案帖。 * 在 slaine 的方案帖中,提到了过拟合的问题(此处只展示了小部分内容,建议阅读全文): "尝试一:为了解决过拟合问题,首先想到的是剔除在训练集中表现强劲的特征,也就是我在上面讲到的与硬盘工作时间强相关的特征(9,241,242等等),但是删除这些特征后线上成绩依然没有得到明显提升。"   * 在 bullet 的方案帖中,用了较长的篇幅去描述过拟合问题(此处只展示了小部分内容,建议阅读全文): " 由于训练集中仅有每块样本前30天的记录,而样本变为坏样本后便不再有记录,因此,数据中好样本都集中在2018年12月而坏样本大多在2018年11月之前,如果把时间作为入模变量进行建模,就能在训练集完美区分好坏样本——12月没了记录的就是坏样本,但这显然是过拟合。由于没有2018年11月前的好样本数据,因此这个比赛存在超级难点,即如何判断模型是在识别好坏样本而不是在识别时间的远近。 "   ### 反思与探索 先阅读前辈的方案,再动手实践,是少走弯路的好方法。 在训练模型之前,多做数据分析和数据可视化,了解数据集是否存在某种误导性。比如 不公平对比、正负样本不平衡等   ### 学习资源和参考资料 [#网络约AI,有你更精彩#网络人工智能黑客松大赛二等奖方案分享](https://bbs.huaweicloud.com/forum/thread-51519-1-1.html) [一等奖方案分享](https://bbs.huaweicloud.com/forum/thread-50315-1-1.html) [【2021学习赛---硬盘异常检测】2月23号直播ppt](https://bbs.huaweicloud.com/forum/thread-108940-1-1.html) [【学习赛2021--硬盘异常检测】样例代码](https://bbs.huaweicloud.com/forum/thread-107416-1-1.html) [【学习赛2021--KPI异常检测】优秀选手usstroot直播baseline代码及ppt](https://bbs.huaweicloud.com/forum/thread-106253-1-1.html) [网络AI学习赛2021.硬盘异常检测,赛题解读](https://bbs.huaweicloud.com/live/dks_live/202102231900.html)   ### 其他学习赛推荐 [华为网络AI学习赛2021-KPI异常检测](https://competition.huaweicloud.com/information/1000041344/introduction) [华为网络AI学习赛2021-日志异常检测](https://competition.huaweicloud.com/information/1000041371/introduction)   ### 备注 1. 感谢老师的教学与课件 2. 欢迎各位同学一起来交流比赛心得^_^ 3. 比赛配备了较为丰富的学习资料,有助于新手平稳入门,推荐参赛
点赞 举报
分享

分享文章到朋友圈

分享文章到微博

游客

您需要登录后才可以回帖 登录 | 立即注册