一、周周星分享——练习生团队
大家好,我们是“练习生”团队,很荣幸获得了本次的周周星。
下面是我们对于复赛数据的部分理解和思路:
1、与初赛稍微对数据进行清洗,分数就能得到显著提升不同,复赛对于数据进行清洗产生的效益似乎并不太高,我认为如果初赛已经获得了一个相对较好的成绩,那么说明原先的数据清洗是有一定道理的,可能部分需要进行微调,但是没有必要完全重构。
2、对于清洗数据收益甚微的情况,大家可以考虑一下特征的搭配,或许不使用全部特征,也能够获得较大收益。
3、模型依然还是LGB模型,并没有什么特别
4、对测试集的清洗也是一个关键点,分数上限不高,大部分也和测试集数据有关,目前我们做的只是简单的去重,进行操作的时候,要关注测试集的订单号总数是否发生变化。
5、之后我们可能会尝试构造一些新的特征如时间特征、起始点终点的国家、城市等。
以上是我们的分享,希望能和大家一起交流进步,祝大家取得好成绩。
大家好,我们是“e402冲冲冲”团队,很荣幸获得了复赛第一周的周周星。下面分享一下我们对于复赛数据的一些理解和思路:
1. 由于是复赛的第一周,我们主要是对数据集进行了清洗工作,清洗思路和初赛一样,包括:去掉direction为-1的记录,去重(去除loadingOrder, carrierName, timestamp和vesselMMSI相同的记录),去除路径中两点之间距离过大的的订单,出发港与目的港是否和路径匹配等。
2. 我们的主要思路也是相似轨迹的方法,这里我们采取了聚类的方法(感谢初赛周周星大佬的思路),从训练集中提取和测试集相似的轨迹进行训练,但是测试集中有很多轨迹是在训练集当中找不到的,这个就要自己处理。
3. 目前使用的还是LGB模型,特征也主要是一些统计特征。
其实我们的方法也比较常规,相似轨迹的方法大家都有讨论,初赛也有很多团队使用,但是里面的一些细节例如测试集中找不到的轨迹就需要仔细思考。目前复赛第一周我们的主要工作也还是数据清洗,仍然处于探索阶段。希望能和大家一起交流进步,祝大家取得好成绩。
大赛赛题:https://competition.huaweicloud.com/information/1000037843/introduction

