大家好,我们是“无能的万金油”团队,很荣幸获得了本次的周周星。
下面是我们对于复赛数据的部分理解和思路:

1、比赛进行到这里,对于训练集和测试集的清洗就不说什么了,大家也意识到其实上分是一件越来越玄学的事情,在初赛表现好的模型,复赛却不一定好
原因也很简单,每条路径的不确定影响因素太多了。。 天气、疫情、塞港等突发事件,导致运船并不会按正常路线行驶,同时又由于人为录入的原因,路由
信息也并不完全准确,有的船只的实际停靠港口也不一致。在就是test是截断的数据,就更导致trace可能写的 A-B-C 但实际是 A-C 甚至 A-C-D, 而你拿到的
只有C-D或者,-C的部分数据,这就更加大了预测难度。
2、针对上面的情况,我们其实能够知道,做的特征并不一定越全越好,而且有时候也不一定(强特)就好,因为强特代表训练集的平均特征,但是拿到的数据其实
分布是各种各样的。反而“弱”一点的特征,少部分特征的泛化能力特强。
3、对于A榜,我觉得没必要太纠结分数,因为数据分布太不一致了,更多的应该表现在模型的泛化能力上,测试下各个特征组合预测的时间分布特点,不然B榜很容易翻车。
4、最后说下数据训练,找相似路由匹配的思路是个方向,但是这方面要细化才可能达到好的效果,需要一点点测试。
5、如果单纯追求分数的话,完全可以采用探榜的方式,我们其实很大一部分也是探榜提升来的,但是说实话对B榜预测没有实际意义,最多用来做验证,所以后期不会再采取这样的尝试。
大赛赛题:https://competition.huaweicloud.com/information/1000037843/introduction
