一、周周星分享——什么都做不队
大家好,我们是“什么都做不队”团队,很荣幸获得了本次的周周星。下面是本次的分享:
1. 复赛的数据是更加复杂,我们在尝试的时候发现去重这个操作对数据的影响还是挺大的,针对不同的特征进行去重操作后 对最后的得分影响非常高,关于这一点我们初步认为大量塞港数据或者疫情影响数据导致。比如在测试集中LR运单号,我们尝试在匹配相似路径,最后发现部分属于2020的相似路径大部分出现一个情况: 到港口前开始停顿不动。 这可能是疫情原因导致的 也可能是塞港行为。我们认为上分的关键就是来处理这种异常运单号(可能会过拟合测试集)
2. 特征选择:大家可以考虑使用少量特征,这个复赛数据有一个问题就是把初赛中某些强特带入能反向上分,可以尽量使用一些泛化能力强的特征。
3. 模型方面 调参对模型的影响还是很大的,可以进一步参数通过调参上分。
4. 接下来我们尝试去使用xgboost,ctb等其他模型看看是否会有提升效果,模型应该还是需要多多尝试。
以上就是我们团队的分享 最后祝大家上分!
二、周周星分享——智能集美
大家好,我们是“智能集美”团队。首先感谢前几周的周周星的分享,下面是我们的一些思路心得。
1、数据清洗
A榜还有一周就要结束了,数据清洗的重要性我想大家都也明白。
初赛洗数据的方法已经不完全适用,所以我们除了保留了初赛部分简单的洗数据方法(如去除速度方向异常的gps记录),更多的采用的是画图找异常运单号的方式。通过先将各个运单号的航线画出来,找到可能为异常数据的运单号,再通提取这些异常数据的运单号数据,通过观察数据来判断是否进行删除。(在观察航线图的时候,还可以通过观察同一路由的其它运单号进行横向比对)
2、特征工程
特征工程是一个比较玄学的东西,大家可以尝试增删特征,找对比较合适的特征搭配。(我也在找…)
3、模型选择
LGB,永远滴神。参数还是有一定的影响的,在实在没有其它思路的时候可以考虑调参。
4、塞港问题
塞港显然是一个对结果影响很大的因素,但我们目前也没有什么很好的解决方案,毕竟有的船才刚刚走了百分之十到二十的路程,实在不知道怎么判断它有没有塞港。
我们接下来会特别关注一下经常塞港的路由,试图寻找到一些规律,同时我们接下来还会考虑疫情对于航线的影响,最后祝大家都能够取得好成绩。
三、周周星分享--突然Ping通
大家好,我们是“突然Ping通”团队,很高兴获得本次比赛的最后一周周周星,首先感谢前两周周周星的分享,让我们也有机会获得周周星。
简要分享一下我们的思路:
1、我们数据处理方式和初赛差不多,不过在初赛的基础上加了一步处理塞港状态的代码,根据之前官方人员提示经纬度在误差0.25之内可算到港,距离大概在30-40千米左右,所以我们对一些塞港的和到港又开走的数据进行了截断,就我们的方案在本地而言清洗完这类数据效果更好。由于测试集存在一些“离谱”的数据,比如FA订单,这些数据模型不能预测,所以我们对这类订单进行了后处理。
2、特征工程一开始使用初赛的方案,但是效果不好,删除几个强特反而能够上分,所以大家可以尝试用少量特征调试。
3、看到上周有周周星分享调参能上分,我们这周也用调参工具尝试调参,确实能上不少分,所以大家也可以尝试换换祖传参数,上一波分。
大赛赛题:https://competition.huaweicloud.com/information/1000037843/introduction

