### 华为网络AI学习赛2021-硬盘异常检测
[华为网络AI学习赛2021-硬盘异常检测](https://competition.huaweicloud.com/information/1000041370/introduction)
### 过程
经过几天的数据处理,训练集的特征维度从 109 -> 53 -> 77 -> 57 -> 219,然而比赛分数一直没有超过样例代码,看到这个情况,很是意外。
VegaAutoML中的参数 max_trial_number 从 2 -> 5 -> 200 -> 1,这样调节也不行。
训练任务的运行日志输出准确率接近于1(如下所示)。到测试集一提交就是 0.1:
``` python
model_id ... trial_result
0 stacking_all_20210228_000333 ... {'accuracy': 1.0, 'precision': 1.0, 'f1': 1.0,...
1 stacking_heterogeneous_20210228_000334 ... {'accuracy': 1.0, 'precision': 1.0, 'f1': 1.0,...
2 lightgbm_20210228_000325 ... {'accuracy': 0.9998, 'precision': 1.0, 'f1': 0...
3 lightgbm_20210228_000331 ... {'accuracy': 0.9998, 'precision': 1.0, 'f1': 0...
[4 rows x 4 columns]
```
存在 过拟合!!!
### 学习
在比赛资料中,比较有帮助的是前辈的方案帖。
* 在 slaine 的方案帖中,提到了过拟合的问题(此处只展示了小部分内容,建议阅读全文):
"尝试一:为了解决过拟合问题,首先想到的是剔除在训练集中表现强劲的特征,也就是我在上面讲到的与硬盘工作时间强相关的特征(9,241,242等等),但是删除这些特征后线上成绩依然没有得到明显提升。"
* 在 bullet 的方案帖中,用了较长的篇幅去描述过拟合问题(此处只展示了小部分内容,建议阅读全文):
"
由于训练集中仅有每块样本前30天的记录,而样本变为坏样本后便不再有记录,因此,数据中好样本都集中在2018年12月而坏样本大多在2018年11月之前,如果把时间作为入模变量进行建模,就能在训练集完美区分好坏样本——12月没了记录的就是坏样本,但这显然是过拟合。由于没有2018年11月前的好样本数据,因此这个比赛存在超级难点,即如何判断模型是在识别好坏样本而不是在识别时间的远近。
"
### 反思与探索
先阅读前辈的方案,再动手实践,是少走弯路的好方法。
在训练模型之前,多做数据分析和数据可视化,了解数据集是否存在某种误导性。比如 不公平对比、正负样本不平衡等
### 学习资源和参考资料
[#网络约AI,有你更精彩#网络人工智能黑客松大赛二等奖方案分享](https://bbs.huaweicloud.com/forum/thread-51519-1-1.html)
[一等奖方案分享](https://bbs.huaweicloud.com/forum/thread-50315-1-1.html)
[【2021学习赛---硬盘异常检测】2月23号直播ppt](https://bbs.huaweicloud.com/forum/thread-108940-1-1.html)
[【学习赛2021--硬盘异常检测】样例代码](https://bbs.huaweicloud.com/forum/thread-107416-1-1.html)
[【学习赛2021--KPI异常检测】优秀选手usstroot直播baseline代码及ppt](https://bbs.huaweicloud.com/forum/thread-106253-1-1.html)
[网络AI学习赛2021.硬盘异常检测,赛题解读](https://bbs.huaweicloud.com/live/dks_live/202102231900.html)
### 其他学习赛推荐
[华为网络AI学习赛2021-KPI异常检测](https://competition.huaweicloud.com/information/1000041344/introduction)
[华为网络AI学习赛2021-日志异常检测](https://competition.huaweicloud.com/information/1000041371/introduction)
### 备注
1. 感谢老师的教学与课件
2. 欢迎各位同学一起来交流比赛心得^_^
3. 比赛配备了较为丰富的学习资料,有助于新手平稳入门,推荐参赛
