### 华为网络AI学习赛2021-硬盘异常检测
[华为网络AI学习赛2021-硬盘异常检测](https://competition.huaweicloud.com/information/1000041370/introduction)
### 衍生变量
举个列子,高中物理中提到的公式 Vt = V0 + at
(末速度 = 初速度 + 加速度*时间)
|序号|V0|a|t|
|---|---|---|---|
|1|20|2|10|
根据上表给出的数据,可以新增一列 Vt,计算公式是 Vt = V0 + at
20 + 2*10 = 40
|序号|V0|a|t|Vt|
|---|---|---|---|---|
|1|20|2|10|40|
数据集新增了Vt后,再去训练模型,看看是不是模型的预测精度会有些许提升呢?
### 添加衍生变量的应用
应用在本次比赛中的话,
知识背景(来自【赛题数据描述】)
* smart_x_raw:代表编号为x的smart指标从硬盘上采集到的数据的原始值。
* smart_x_normalized:代表编号为x的smart指标从raw值经过厂商内部处理后归一化的值
slaine前辈用了smart_x_raw和smart_x_normalized,做了除法操作。结果bingo!
推荐尝试!
### 统计特征
1. 平均值
2. 最大值
3. 最小值
4. 方差
5. 标准差
6. 偏度
7. 峰值
8. 最大值 - 平均值
9. 最大值 - 最小值
10. 平均值 - 最小值
11. 等等......
### 添加统计特征的应用
应用在本次比赛中的话(代码仅做参考):
``` python
# 按序号分组,再求统计特征
tdgmax = train_data.groupby("serial_number").max()
# 更改列名
tdgmax.rename(columns=lambda x:x+"_max", inplace=True)
# 重置索引,为了下步的合并做准备
tdgmax.reset_index(inplace=True)
tdgmax
```
``` python
# 合并
train_data_new = pd.merge(train_data,tdgm)
```
添加了许多有意义的统计特征后,再去训练模型,看看预测精度是否会提升呢?
### 学习资源和参考资料
[#网络约AI,有你更精彩#网络人工智能黑客松大赛二等奖方案分享](https://bbs.huaweicloud.com/forum/thread-51519-1-1.html)
[一等奖方案分享](https://bbs.huaweicloud.com/forum/thread-50315-1-1.html)
[【2021学习赛---硬盘异常检测】2月23号直播ppt](https://bbs.huaweicloud.com/forum/thread-108940-1-1.html)
[【学习赛2021--硬盘异常检测】样例代码](https://bbs.huaweicloud.com/forum/thread-107416-1-1.html)
[【学习赛2021--KPI异常检测】优秀选手usstroot直播baseline代码及ppt](https://bbs.huaweicloud.com/forum/thread-106253-1-1.html)
[网络AI学习赛2021.硬盘异常检测,赛题解读](https://bbs.huaweicloud.com/live/dks_live/202102231900.html)
### 其他学习赛推荐
[华为网络AI学习赛2021-KPI异常检测](https://competition.huaweicloud.com/information/1000041344/introduction)
[华为网络AI学习赛2021-日志异常检测](https://competition.huaweicloud.com/information/1000041371/introduction)
### 备注
1. 感谢老师的教学与课件
2. 欢迎各位同学一起来交流比赛心得^_^
3. 比赛配备了较为丰富的学习资料,有助于新手平稳入门,推荐参赛
