建议使用以下浏览器,以获得最佳体验。 IE 9.0+以上版本 Chrome 31+ 谷歌浏览器 Firefox 30+ 火狐浏览器
温馨提示

抱歉,您需设置社区昵称后才能参与社区互动!

前往修改
我再想想

华为云大赛技术圈

话题 : 467 成员 : 405

加入HCSD

2020中国高校计算机大赛·华为云大数据挑战赛-周周星分享(第三期)

火星木拉提 2020/8/14 677

一、周周星分享——练习生团队

大家好,我们是“练习生”团队,很荣幸获得了本次的周周星。

下面是我们对于复赛数据的部分理解和思路:

1、与初赛稍微对数据进行清洗,分数就能得到显著提升不同,复赛对于数据进行清洗产生的效益似乎并不太高,我认为如果初赛已经获得了一个相对较好的成绩,那么说明原先的数据清洗是有一定道理的,可能部分需要进行微调,但是没有必要完全重构。

2、对于清洗数据收益甚微的情况,大家可以考虑一下特征的搭配,或许不使用全部特征,也能够获得较大收益。

3、模型依然还是LGB模型,并没有什么特别

4、对测试集的清洗也是一个关键点,分数上限不高,大部分也和测试集数据有关,目前我们做的只是简单的去重,进行操作的时候,要关注测试集的订单号总数是否发生变化。

5、之后我们可能会尝试构造一些新的特征如时间特征、起始点终点的国家、城市等。

以上是我们的分享,希望能和大家一起交流进步,祝大家取得好成绩。


二、周周星分享—e402冲冲冲


大家好,我们是“e402冲冲冲”团队,很荣幸获得了复赛第一周的周周星。下面分享一下我们对于复赛数据的一些理解和思路:

1. 由于是复赛的第一周,我们主要是对数据集进行了清洗工作,清洗思路和初赛一样,包括:去掉direction为-1的记录,去重(去除loadingOrder, carrierName, timestamp和vesselMMSI相同的记录),去除路径中两点之间距离过大的的订单,出发港与目的港是否和路径匹配等。

       2. 我们的主要思路也是相似轨迹的方法,这里我们采取了聚类的方法(感谢初赛周周星大佬的思路),从训练集中提取和测试集相似的轨迹进行训练,但是测试集中有很多轨迹是在训练集当中找不到的,这个就要自己处理。

       3. 目前使用的还是LGB模型,特征也主要是一些统计特征。

其实我们的方法也比较常规,相似轨迹的方法大家都有讨论,初赛也有很多团队使用,但是里面的一些细节例如测试集中找不到的轨迹就需要仔细思考。目前复赛第一周我们的主要工作也还是数据清洗,仍然处于探索阶段。希望能和大家一起交流进步,祝大家取得好成绩。

 

大赛赛题:https://competition.huaweicloud.com/information/1000037843/introduction


回复 (0)

没有评论
上划加载中
标签
您还可以添加5个标签
  • 没有搜索到和“关键字”相关的标签
  • 云产品
  • 解决方案
  • 技术领域
  • 通用技术
  • 平台功能
取消

火星木拉提

角色:成员

话题:16

发消息
发表于2020年08月14日 17:50:03 6770
直达本楼层的链接
楼主
正序浏览 只看该作者
[参赛经验分享] 2020中国高校计算机大赛·华为云大数据挑战赛-周周星分享(第三期)

一、周周星分享——练习生团队

大家好,我们是“练习生”团队,很荣幸获得了本次的周周星。

下面是我们对于复赛数据的部分理解和思路:

1、与初赛稍微对数据进行清洗,分数就能得到显著提升不同,复赛对于数据进行清洗产生的效益似乎并不太高,我认为如果初赛已经获得了一个相对较好的成绩,那么说明原先的数据清洗是有一定道理的,可能部分需要进行微调,但是没有必要完全重构。

2、对于清洗数据收益甚微的情况,大家可以考虑一下特征的搭配,或许不使用全部特征,也能够获得较大收益。

3、模型依然还是LGB模型,并没有什么特别

4、对测试集的清洗也是一个关键点,分数上限不高,大部分也和测试集数据有关,目前我们做的只是简单的去重,进行操作的时候,要关注测试集的订单号总数是否发生变化。

5、之后我们可能会尝试构造一些新的特征如时间特征、起始点终点的国家、城市等。

以上是我们的分享,希望能和大家一起交流进步,祝大家取得好成绩。


二、周周星分享—e402冲冲冲


大家好,我们是“e402冲冲冲”团队,很荣幸获得了复赛第一周的周周星。下面分享一下我们对于复赛数据的一些理解和思路:

1. 由于是复赛的第一周,我们主要是对数据集进行了清洗工作,清洗思路和初赛一样,包括:去掉direction为-1的记录,去重(去除loadingOrder, carrierName, timestamp和vesselMMSI相同的记录),去除路径中两点之间距离过大的的订单,出发港与目的港是否和路径匹配等。

       2. 我们的主要思路也是相似轨迹的方法,这里我们采取了聚类的方法(感谢初赛周周星大佬的思路),从训练集中提取和测试集相似的轨迹进行训练,但是测试集中有很多轨迹是在训练集当中找不到的,这个就要自己处理。

       3. 目前使用的还是LGB模型,特征也主要是一些统计特征。

其实我们的方法也比较常规,相似轨迹的方法大家都有讨论,初赛也有很多团队使用,但是里面的一些细节例如测试集中找不到的轨迹就需要仔细思考。目前复赛第一周我们的主要工作也还是数据清洗,仍然处于探索阶段。希望能和大家一起交流进步,祝大家取得好成绩。

 

大赛赛题:https://competition.huaweicloud.com/information/1000037843/introduction


点赞 举报
分享

分享文章到朋友圈

分享文章到微博

游客

您需要登录后才可以回帖 登录 | 立即注册