-
前言大家好,我是“流明”团队的队长,非常荣幸参加域见杯赛题二“智能临床咨询模型”,获得了B榜第四名,这里做一个简单的分享,一起交流学习。分享数据分析主要讲了一些预模型的重要性,脱敏数据对模型本身不太友好,如果想要达到理想的效果需要重新预训练,其次就是简单提到了数据的长度分布和一些数据的特点。模型选择根据线上的分数最终选择T5作为单模型,简单讲了模型的基本结构。训练策略上用到了数据增强,余弦退火,标签平滑,对比训练,对抗训练, ema这些技巧都是可以提升分数的一个技巧,至少在我们团队做的t5-base实验是有用的最终t5-base单模型在初赛上第三,复赛第4这个一个分数,整个方案相对来说比较简单,不足写的也是比较多的。感想首先就是感谢广州市科学技术局、金域医学以及华为云提供的这次竞赛机会,其次就是认识了一些小伙伴,最后对于我个人来说最近比较疲于奔命,很多事情做不到尽善尽美,越来越希望在有限的时间里做一些简单尽所能及的事情。
-
前言大家好,我是“中文GPT”团队的队长,这次比赛我和我的两个小伙伴一起参加域见杯赛题一“智能临床咨询模型”,获得了B榜第四名,在这里我们做一个简单的分享,一起交流学习。分享首先了解一下赛题一的赛题背景和数据集,简单表示为根据用户咨询医疗检测项目的真实临床问答数据,训练一个智能问答模型,辅助医生决策,训练集和验证集共2788条。然后我们针对question和answer做了一个简单的长度分布统计。根据数据集长度分布情况,可以得知question的长度分布较短,在125以内,answer的长度分布较长,在400以内,这要求模型需要具备丰富的医疗问答知识才能够回答,所以我们在后续进行了领域数据扩充。此外,赛题还存在其他两个问题,一是数据集专业性强,与通用的医疗问答数据相似度不高,选择领域数据时也是需要合理的筛选,二是线上推理条件限制CPU2核8GB,这要求我们需选择一些满足推理条件的模型。下面对我们的方法进行介绍,方案整体设计流程框架如下图所示,主要分为领域数据训练、微调、解码生成三个阶段:对于领域数据训练,我们构建了一个医疗领域通用问答数据,选择bart-large模型进行领域数据训练,丰富模型的医疗知识内容;然后基于领域数据训练的权重,进一步对赛题任务数据进行微调;最后通过beam search的解码策略生成文本。在模型选择上,baseline提供的是T5-pegaus模型,不过经过测试,bart模型应该是效果相对较好的,所以我们选择了bart-large模型。解码策略上,beamsearch策略比默认的贪心解码策略效果好不少,并且开大beam有一定的提升。对于医疗领域通用问答数据的构建,我们选择华佗GPT等模型开源的数据以及爬取了其他医疗检测公司的类似检测项目数据,构成了模型的领域数据。除此上述方案,我们也尝试过使用Bart预训练任务重的Text infilling任务来做mask继续预训练替换领域数据训练阶段,然后再进行微调,也有一定的提升效果,当然也做过其他nlp比赛常见的训练tirck,例如:fgm、ema、rdrop、childtune等都没什么涨点。接着是对模型的训练策略进行介绍,与baseline不同,我们选择了adamw作为优化器,调整学习策略为线性衰减,并且使用标签平滑,同时在不同的训练阶段我们进行了阶段性调整学习率,使得模型更加拟合赛题任务数据。感想第一次参加医疗检测方面的AI比赛,学习到了不少。同时感谢广州市科学技术局、金域医学以及华为云提供的这次竞赛机会,让我们团队三个网友来了一次线下见面,此外,也通过这次竞赛认识到了其他团队中的各位大佬。
-
想做一个系统生成器,需要一款相对成熟的AI代码生成器,求推荐
-
嫄予事少年,貌古须加举。叶索欲时珠,东行戎服景。有点意思~
-
技术云诗句编写与查看............
-
python加入字典的代码怎么打啊
-
已完成
-
云实践AI与诗词已经完成
-
各位有没有知道的后面呢,需要干什么
-
无论将生成好的hdf5数据文件放在哪个目录下,都会出现如上报错
-
-
嘿嘿嘿我的诗不错吧,
-
AI文字成图识别语言理解,yu'yan'chu'li
推荐直播
-
0代码智能构建AI Agent——华为云AI原生应用引擎的架构与实践
2024/11/13 周三 16:30-18:00
苏秦 华为云aPaaS DTSE技术布道师
大模型及生成式AI对应用和软件产业带来了哪些影响?从企业场景及应用开发视角,面向AI原生应用需要什么样的工具及平台能力?企业要如何选好、用好、管好大模型,使能AI原生应用快速创新?本期直播,华为云aPaaS DTSE技术布道师苏秦将基于华为云自身实践出发,深入浅出地介绍华为云AI原生应用引擎,通过分钟级智能生成Agent应用的方式帮助企业完成从传统应用到智能应用的竞争力转型,使能千行万业智能应用创新。
去报名 -
TinyEngine低代码引擎系列第2讲——向下扎根,向上生长,TinyEngine灵活构建个性化低代码平台
2024/11/14 周四 16:00-18:00
王老师 华为云前端开发工程师,TinyEngine开源负责人
王老师将从TinyEngine 的灵活定制能力出发,带大家了解隐藏在低代码背后的潜在挑战及突破思路,通过实践及运用,帮助大家贴近面向未来低代码产品。
即将直播 -
华为云AI入门课:AI发展趋势与华为愿景
2024/11/18 周一 18:20-20:20
Alex 华为云学堂技术讲师
本期直播旨在帮助开发者熟悉理解AI技术概念,AI发展趋势,AI实用化前景,了解熟悉未来主要技术栈,当前发展瓶颈等行业化知识。帮助开发者在AI领域快速构建知识体系,构建职业竞争力。
即将直播
热门标签