• [参赛经验分享] 2023“域见杯”医检人工智能开发者大赛(赛题二:智能染色体核型分析)-赛队“道”TOP1方案分享
    大家好,我是来自参赛队伍的“道”,本次比赛很荣幸获得第一名,以下是我比赛过程的思路分享。数据分析本赛道提供的数据均经过脱敏,包含Question和Answer两个字段:数据两个字段连接后最大长度526,有90%数据长度不超过200,存在少量的异常值,数据长度呈现长尾分布。在训练过程使用分桶训练以及开启混合精度可以数倍提升训练速度。下图统计不同长度的词频,数据中存在很多高频词,其中有一个长度为11的文本出现了1943次,针对此数据特点,本方案提出了基于BPE的Mask策略,用于脱敏文本分词,也是和其他队伍的区别的点,具体在后文介绍。数据特点总结:初赛阶段对比了BART、CPT和Pegasus三者实验,Pegasus效果最好,BART效果最差,猜测因为Pegasus针对摘要任务设计,有从较强的从原文总结答案的能力,本次赛题数据要求从给出的核型分析信息生成诊断结果,也需要从原文总结答案,任务上比较相似。预训练策略训练使用的是预训练微调的训练模式,将两个字段的文本连接后再mask,然后送到模型预训练,通过预训练阶段对齐脱敏文本和开源权重,可以提升微调模型效果,加快微调收敛。mask方式采用了两种策略:        第一种是ngram的Mask方式,以0.1:0.2:0.3:0.4的概率mask文本长度为4、3、2、1的连续字符。        第二种基于BPE的mask,其先利用BPE算法生成词表,然后对句子分词,最后以词的粒度mask。相对ngram的好处首先是BPE生成的单词语义信息更完整,可以缓解单个完整语义被分成多块的问题。其次不会导致词表爆炸。预训练损失函数是:LM Loss和MLM Loss的结合,LM Loss的目的是将预训练任务和微调任务对齐,使模型拥有预测下一个token的能力,MLM Loss使得模型集中理解被Mask部分的内容。检索增强:另外微调阶段尝试了检索增强方法,但线上单模掉了很多,猜测是因为检索增强本身是解决知识长尾问题的,本赛题数据量较少,模型很容易记住所有知识,遗忘现象不明显,增加检索策略后反而会引入噪音,影响模型的稳定性。最后是通过对不同策略训练的模型集成效果,基于BPE的Mask是在比赛尾声做的尝试,直接拿来做集成了,在最高成绩的基础上又提升了1.5个百分点,没来得及测单模,这一块好好调一调应该还有上分空间,后续还可以尝试拿来作为微调阶段的词表:预训练和微调阶段所使用到的Trick有:线性Warmup、FGM、RDrop、Cos学习率衰减、标签平滑、权重平均,此外在微调阶段对解码器的输入注入噪音缓解曝光偏差问题,EMA我用了掉分(可能是用了权重平均的缘故)。线上单模最高成绩1.3187,基础权重使用的是燃灯的Pegasus Base模型,用Large反而还会掉点。致谢        最后感谢主办方为我们提供了这次的比赛机会,让我们能够在医疗领域贡献自己的力量,探索人工智能的无限可能性。
  • [参赛经验分享] 2023“域见杯”医检人工智能开发者大赛(赛题二:智能染色体核型分析)-赛队“智能网优”TOP2方案分享
    前言 大家好,我是“智能网优”赛队的队长,这次是单人参赛,有幸拿下取得第二成绩,在此做个简单的分享。 分享 首先是简单的数据分析,本赛题根据金域提供的核型分析异常结果及其对应的解释文本数据,生成含有辅助诊断要素且便于意思理解的结果解释文本信息。需要注意的本次比赛数据均为脱敏处理数据,训练数据共7527条。在基本数据分析阶段主要包含三个工作,分析输入输出文本长度分布将模型文本长度定在256;根据脱敏后文本分布确定可用tokken长度大于616;丢弃异常数据。模型选择方面,先对比t5/bart/gpt/cpt选择t5,对比t5-pegasus的small与base版本选择small版本(large的我没有硬件算力),从huggingface上选择多种t5系列模型预训练权值进行对比,最后选定t5-pegasus-small,mt0-small,Randeng-T5-Char-57M-Chinese等系列融合。赛后交流有部分队伍说比如t5-copy效果很好,但是我对比的时候只选择了有small版本的模型,比如t5-copy没有small版本就不对比了。训练策略主要使用了预训练,EMA,FGM效果比较好:最后总结下亮点与不足,赛后与大部分队伍进行方案交流只有本方案使用了small版本,训练和推理速度肯定是领先的,但是在可以采集更多训练样本情况下,small将明显弱于base。针对这个问题和主办方交流的得知,该领域7527条训练样本还真的是现实生产情况,那small版本还有其意义吧,不过相信未来领域数据应该会越来越多,small版本潜力有限。感想 本人本职工作为通信行业,也是在传统行业耕耘10年以后才开始从零基础学习编程和算法。这次参加金域比赛收获颇多,受邀参观了国内最先进的医检实验室初步了解医检行业的同时也交流了AI在医检行业的应用,从现场专家坦诚的交流来看AI在医检行业的落地及困难与通信行业有诸多共通之处,感觉未来工作有很多借鉴思路。与这次接待的金域文瑛等专家的交流,也能感觉到金域众多工程师的工匠精神以及赛事总结梁董发言的复合型人才发展理念。感谢广州市科学技术局、金域医学以及华为云提供的这次机会,也希望有一天能看到医疗AI普惠到千万家庭中去。 
  • [分享交流] 如何优雅地处理Java多线程编程中的共享资源问题?
    如何优雅地处理Java多线程编程中的共享资源问题,以确保线程安全和高性能?
  • [问题求助] AIGC和生成式AI有什么区别吗?
    AIGC和生成式AI有什么区别吗?
总条数:79 到第
上滑加载中