建议使用以下浏览器,以获得最佳体验。 IE 9.0+以上版本 Chrome 31+ 谷歌浏览器 Firefox 30+ 火狐浏览器
请选择 进入手机版 | 继续访问电脑版-->
设置昵称

在此一键设置昵称,即可参与社区互动!

确定
我再想想
标签
您还可以添加5个标签
  • 没有搜索到和“关键字”相关的标签
  • 云产品
  • 解决方案
  • 技术领域
  • 通用技术
  • 平台功能
取消

dy_chaoguan

角色:成员

话题:0

发消息
发表于2020年06月11日 12:07:58 12562
直达本楼层的链接
楼主
显示全部楼层
[参赛经验分享] "华为云杯"2019人工智能创新应用大赛季军方案分享-斗鱼超管团队

## 前言 大家好,我们是斗鱼超管团队,很高兴在论坛和大家交流“华为云杯”2019人工智能创新应用大赛的比赛心得。斗鱼超管团队的三名成员都来自斗鱼武汉研发中心,斗鱼是一家做直播的公司,我们在斗鱼从事机器学习相关的内容审核工作,所以团队起名为斗鱼超管。 本文将从解题思路、数据处理、模型训练、实验结果和应用介绍五个方面进行阐述。 ### 一 解题思路 ![1.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202006/09/210038cdhkppcimbbd0pec.png) 1. 此次比赛可以看做是一个图像分类的任务,面对机器学习项目,我们首先要做的就是数据分析,分析和校验数据可能达到事半功倍的效果; 2. 选择一个好的baseline模型,选择比赛常用的网络结构进行结果比对,基于较优的网络进行参数调试; 3. 分析badcase,找出错误样本并分析出错原因,针对性地调整数据和算法; 4. 持续迭代优化,步骤3中针对性优化后,再进行结果验证,对badcase分析和优化,直到结果满意为止。 ### 二 数据处理 ![1.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202006/09/21012495yz3usyvpwymoea.png) 拿到初始数据后,我们对数据的类别进行了分析,如图中所示,类别之间存在着严重的不均衡,图中红色框标出的是数据特别少的类别,最少的类别只有23张,最多的类别有1400张,将近有60倍的差距。 ![1.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202006/09/2101571jgzvavssdazqf5m.png) 我们通过数据爬取和数据增强的方式,对训练集进行了均衡化处理,图中是我们均衡化后的结果。 ![1.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202006/09/210244qezomdlxj7svmnkd.png) 在数据增强方面,我们做了一些常见的增强方式,例如加噪、仿射变换、翻转、颜色变换等。还包括Mixup对两个类别的图片进行混合叠加,提升模型的泛化能力;等比缩放,保持图片的宽高比一致;随机剪裁,增加模型的鲁棒性。 ### 三 模型训练 ![1.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202006/09/210314uauwnl4ljxzmmp6w.png) 在baseline模型选择方面,我们选取了比赛中最常用的resnext101系列和efficientNet 系列,分别尝试了不同规模的5个模型,最终efficientnet-b7的结果最好,但efficientnet-b7在线上预测超时了,resnext101 32*16d和efficientnet-b5准确率差不多。经过我们团队内部商议,由不同的成员对这两个模型分别进行优化,采用内部竞争的方式更能激发大家的比赛热情。 ![1.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202006/09/210344vmdqnjotue1cbnrd.png) 简单介绍一下resnext网络,resnext是resnet的升级版,图中左边是resnet的一个区块,右图是resnext的区块,从左到右主要就是把单路卷积变成了多个支路的多路卷积,用一种平行堆叠相同拓扑结构的blocks代替原来的block,在不明显增加参数量级的情况下提升了模型的准确率。 ![1.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202006/09/210415zmiq19eojflgwicc.png) EfficientNets是一种多维度混合的模型优化方法。从左到右分别是基础模型,增加模块的宽度,增加模型的深度,增加模型输入的分辨率,和三种方式混合的优化方案。EfficientNet在ImageNet上,利用复合系数统一缩放模型的所有维度,实现了最好的精度。 ![1.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202006/09/210602runpwz2o17r9ftyp.png) 在训练策略方面,我们主要是使用了预训练模型来加快模型的收敛速度,调整损失函数、优化器、学习率及学习率优化函数等超参数。 ![1.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202006/09/210649mrs23iowiki7i7iv.png) 使用标签平滑来提升模型的泛化能力,通过空间注意力和通道注意力来增强模型的特征提取能力;使用传统的SVM算法替换softmax层,来提升分类器的效果;通过知识蒸馏的方案使用一个较大的模型来指导较小模型的训练。 ![1.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202006/09/210724kttvkhyolbxjdwhy.png) 在得到一个相对较好的模型后,我们对badcase进行了分析。例如图中的鼓楼和钟楼,它们的特征极为相似,非常容易混淆,如果对西安不是特别熟悉,或者没有去过现场,根本无法区分这两张图是否是同一场景。 ![1.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202006/09/212357agp3tnckyfkyudsu.png) 决赛中新加的小烧泡馍和葫芦头泡馍,与羊肉泡馍极其相似,通过查阅相关资料,我们才清楚地知道这些类别之间的差异。羊肉泡馍的特点是以水煮为主,色彩较为白皙,小炒泡馍以炒为主,色彩较为鲜艳,而葫芦头泡馍则包含了肥肠的元素。通过了解类别之间的差异,使我们对西安的景点、美食、工艺品、民俗和特产有了更加深刻地认识,感受到了西安深厚的历史文化底蕴。 ![1.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202006/09/210823qtyabishjvnhiwa8.png) 这是我们尝试不同训练策略的实验结果。包括刚才提到的损失函数、优化器和超参数、训练数据集均值和方差的重新计算,标签平滑、注意力机制,SVM,知识蒸馏和Focal Training。在我们的实验中有些策略的效果并不理想,例如SVM和损失函数的替换,对我们模型提升较大的有:标签平滑、知识蒸馏和Focal Training,下面我将重点介绍这三种策略。 ![1.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202006/09/210952ajh7bt3xhpuqd2tk.png) 对于分类问题,类别向量为one-hot vector,one-hot vector容易造成过拟合,平滑是将概率为1或者0的标签分别变成一个0到1之间的概率值,如图中公式所示,平滑过后的样本交叉熵损失不仅考虑到了训练样本中正确的标签损失,也考虑到了错误标签的损失,使模型的学习能力提升。 ![1.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202006/09/211025ccsi1diwygpvciww.png) 知识蒸馏是一种通过教师网络来指导学生网络训练的方法,通常教师网络是一个较大的模型,而学生网络的模型较小,具体的训练方法如图中公式所示,最后再使用学生网络进行分类预测。 ![1.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202006/09/211056fuxovjdfno2vpjt7.png) 针对错误较多的类别,我们做的一个创新点是将难例类别特殊处理。在训练一个相对较优的模型后,分析badcase得到难例类别,单独训练难例类别的数据和模型,然后再用全量的数据微调网络模型。实验结果证明,这是一种有效提升难例类别准确率的方案。 ### 四 实验结果 ![1.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202006/09/211234tpdvu49k0cewyxcp.png) 我们的模型在初赛中排名第三,在复赛中排名第四。 ![1.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202006/09/211305cx4mmhljyidrgnzw.png) 下面总结一下对我们比赛提升最明显的三种优化方案。1、标签平滑可以降低噪声数据对训练精度的影响;2、知识 蒸馏迁移大模型的学习能力,使小模型也能达到较好的效果;3、Focal Training针对难例类别着重处理,提升难例类别的准确率。 ### 五 应用介绍 ![1.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202006/09/211347cols5jhq2t2ykjcm.png) 冲天香阵透长安,满城尽带黄金甲。长安即是如今的西安,历史上前后有13个王朝在此建都,是今人追寻遗迹的首选之地。产品名为纵横西安,则是希望帮助用户熟识城墙内外的诸多事务,秒速识别引起典故,在故都之旅中奔驰无阻。 ![1.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202006/09/211414bgvxzxcwteveju5x.png) 我们的产品是一款Android端的APP,产品logo是用西安两字纵向拼接为城楼,辅以“陕”字的篆书阴刻,更添庄重。产品的开屏页采用了富有秦朝元素的的暗纹,可以通过打开相册和实时拍照,两种方式选择待识别的素材。 ![1.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202006/09/212146hfw69wcmgdugrfg9.png) 选定图片后,可选择剪裁图片,点击剪裁按钮,则进入剪裁界面,选择需要剪裁的图像内容;若不需要剪裁,可直接点击识别。下面就进入了识别中的动效画面了,无论是欢迎页的暗纹还是loading跳动的icon,都采用了兵马俑、肉夹馍、景泰蓝等西安特色,让用户现实所见和产品体验相互交融,浑然一体。 ![1.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202006/09/212221ouxwwto2jikzggwq.png) 识别率接近99%,速度不到1s,则生成一张雅致的书签,为用户提供了一键保存,分享到微信和朋友圈的功能,满足用户获取知识、分享旅行见闻的需求。此次比赛识别的类别有美食、景点、工艺品、民俗和特产,我们对这些类别做了区别处理。如果识别的结果是美食,用户可直接点击大众点评按钮,搜索美食所在的方位,若识别结果是景点,则可直接点击地图按钮,搜索景点的具体位置,若识别结果为工艺品、民俗或者特产,则可直接点击淘宝按钮,进行搜寻和购买。 ![1.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202006/09/212252wenqaesr4btvtgxm.png) 图中展示的是书签的具体样式,设计精美的书签中不仅包含了识别结果,也包含了这些结果的具体介绍,非常利于传播。总结一下,这是一款小而美的应用,希望为西安民俗文化的推动尽一份力。
举报
分享

分享文章到朋友圈

分享文章到微博

l番薯加奶

角色:成员

话题:0

发消息
发表于2020年06月11日 17:04:33
直达本楼层的链接
沙发
显示全部楼层

干货贴!学习了!

点赞 评论 引用 举报

登登登登

角色:成员

话题:1

发消息
发表于2020年06月12日 14:52:27
直达本楼层的链接
板凳
显示全部楼层

赞赞赞!

点赞 评论 引用 举报

游客

富文本
Markdown
您需要登录后才可以回帖 登录 | 立即注册