人工智能_标签_开发者

博客(4.8k)
视频(76)
论坛(0)
云声(2.7k)
代码示例(0)

[资产园地] 街景图像语义分割数据集华为云"云上先锋"AI挑战赛数据集

描述街景图像语义分割数据集1、简介该数据集为《华为云杯“云上先锋”·AI挑战赛》竞赛数据集，数据集为城市街景图像，包含路面、人、车辆、建筑、交通标志、植物、天空等物体。图像语义分割（Image Semantic Segmentation）是当今计算机视觉领域的关键问题之一，也是AI的一个重要研究方向。图像语义分割应用于包括自动驾驶汽车、人机交互、虚拟现实等场景中，近年来随着深度学习的普及，许多语义分割问题可以用深层次的卷积神经网络来解决，在精度上大大超过了传统方法。卷积神经网络已经在图像分类分方面取得了巨大的成就，图像语义分割可以理解为像素级别的分类问题。2、数据类别及目录结构说明- 数据类别所有数据均为城市街景图像，图像包含路面、人、车辆、建筑、交通标志、植物、天空等物体，标签类别与list对应关系如下。类别listflat0human1vehicle2construction3object4nature5sky6- 目录结构说明datasets_v2 （数据集根目录）|- xxxx.png （街景图片）|- xxxx.json （对应街景图片的标签文件）…3、其他说明该数据集所有图片均已标注，可以用于图像语义分割场景训练。

开发者创新中心小广播 发表于2022-01-06 10:37:17 2022-01-06 10:37:17 最后回复开发者创新中心小广播 2022-01-06 10:37:17
445 0

人工智能
[前沿快讯] 华为云与北京大学神经科学研究所达成合作，推动AI脑科学研究

4 月 2 日是第十四个世界自闭症日，华为云与北京大学神经科学研究院，开启了用 AI 研究儿童自闭症的计划。日前，北京大学神经科学研究所与华为云签署合作框架协议。根据协议，双方将在云计算、AI 等技术驱动下，成立「联合创新课题组」，以智慧 AI 医疗为主要联合创新方向，发挥各自资源优势，全面推动儿童孤独症（又称「自闭症」）智能诊疗的 AI 算法研发和相应的应用平台建设。孤独症谱系障碍（Autism Spectrum Disorder, ASD）是一种起病于儿童早期，以社交损害与行为刻板为特征的大脑功能疾病。我国拥有世界上最大的人口与儿童群体，随着孤独症发病率不断增高，现有的专业医疗人员数量和医学康复支撑体系无法满足对孤独症人群的诊断和治疗。北京大学神经科学研究所韩济生院士 / 张嵘副教授课题组根据多年脑科学研究积累，综合本土低龄 ASD 儿童的行为学、脑影像学等临床研究手段，联合电子科技大学 Keith Kendrick 教授 / 蒋希副研究员课题组系统性地提出了孤独症辅助诊断、亚型识别及特色治疗手段干预的一体化临床诊疗体系。 2020 年以来，北京大学神经科学研究所携手华为云 EI 创新孵化 Lab 脑科学团队，在脑疾病临床和脑科学研究方面的社会性示范应用方面开展了一系列创新性的合作尝试。联合研发团队正通过前沿 AI 脑科学研究手段，启动一系列基于孤独症患儿脑影像多模态数据进行生物标记物异常识别的早筛和亚型诊断算法研发和基于 AI 视觉的孤独症儿童突出能力识别算法研发，并将通过把研发成果集成上线到华为云 AI 脑科学平台面向全国各基层单位进行推广应用，从而完成「AI 脑疾病算法研发 -> 临床成果转化应用 ->临床研究数据汇聚 ->进一步提升 AI 算法准确性和适用性」的平台运行生态闭环，期望在未来能够有效降低国家和家庭在 ASD 疾病诊疗方面的社会成本。基于华为云的孤独症智能诊疗一体化创新平台架构示意图1 月初，联合创新课题组合作的「孤独症智能诊断与精准治疗一体化创新平台的构建与应用」获得首届「未来之星」生物医药创新成果转化项目大赛医疗器械组一等奖。近年来，华为云 EI 创新孵化 Lab 脑科学团队面向脑科学领域的多个重大关键问题开展攻关，充分发挥华为云在 AI 研发和高性能计算领域的技术积累，协同中国顶尖的脑科学研究机构、脑疾病诊疗机构基于华为一站式 AI 开发平台 ModelArts 联合打造和推广 AI+HPC 赋能的脑科学平台，为中国宏观和介观脑图谱、脑功能组学的科研创新和成果转化提供一站式的研产用转化支撑。

hellohelloya 发表于2022-01-06 10:35:44 2022-01-06 10:35:44 最后回复 hellohelloya 2022-01-06 10:35:44
1174 0

人工智能
[资产园地] 西安旅游主题图片数据集 "华为云杯"2019人工智能创新应用大赛数据集

描述2019西安AI大赛旅游主题数据集1、简介该数据集为《“华为云杯”2019人工智能创新应用大赛》竞赛数据集（初赛）。数据集包含了西安热门景点、美食、特产、民俗、工艺品五大类图片。2、数据类别及目录结构说明- 数据类别该数据集包含景点、美食、特产、民俗、工艺品五大类、54小类图片，图片类别如下："0": "工艺品/仿唐三彩", "1": "工艺品/仿宋木叶盏", "2": "工艺品/布贴绣", "3": "工艺品/景泰蓝", "4": "工艺品/木马勺脸谱", "5": "工艺品/柳编", "6": "工艺品/葡萄花鸟纹银香囊", "7": "工艺品/西安剪纸", "8": "工艺品/陕历博唐妞系列", "9": "景点/关中书院", "10": "景点/兵马俑", "11": "景点/南五台", "12": "景点/大兴善寺", "13": "景点/大观楼", "14": "景点/大雁塔", "15": "景点/小雁塔", "16": "景点/未央宫城墙遗址", "17": "景点/水陆庵壁塑", "18": "景点/汉长安城遗址", "19": "景点/西安城墙", "20": "景点/钟楼", "21": "景点/长安华严寺", "22": "景点/阿房宫遗址", "23": "民俗/唢呐", "24": "民俗/皮影", "25": "特产/临潼火晶柿子", "26": "特产/山茱萸", "27": "特产/玉器", "28": "特产/阎良甜瓜", "29": "特产/陕北红小豆", "30": "特产/高陵冬枣", "31": "美食/八宝玫瑰镜糕", "32": "美食/凉皮", "33": "美食/凉鱼", "34": "美食/德懋恭水晶饼", "35": "美食/搅团", "36": "美食/枸杞炖银耳", "37": "美食/柿子饼", "38": "美食/浆水面", "39": "美食/灌汤包", "40": "美食/烧肘子", "41": "美食/石子饼", "42": "美食/神仙粉", "43": "美食/粉汤羊血", "44": "美食/羊肉泡馍", "45": "美食/肉夹馍", "46": "美食/荞面饸饹", "47": "美食/菠菜面", "48": "美食/蜂蜜凉粽子", "49": "美食/蜜饯张口酥饺", "50": "美食/西安油茶", "51": "美食/贵妃鸡翅", "52": "美食/醪糟", "53": "美食/金线油塔"- 目录结构说明2019xaiic （数据集根目录）|- train_data （训练集目录，包含图片和对应的标签文件（.txt））|- label_id_name.json （图片分类规则字典，key值是id，value是“图片种类/具体物品名”。例如训练数据标签文件img1.txt的内容是“img_1.jpg, 0”，表示img_1.jpg这张图中的物品是“工艺品/仿唐三彩”。）3、其他说明该数据集可以用于图像分类场景训练，也可以基于ModelArts数据标注进行物体检测类型的标注，然后用于目标检测场景训练。

开发者创新中心小广播 发表于2022-01-06 10:35:20 2022-01-06 10:35:20 最后回复开发者创新中心小广播 2022-01-06 10:35:20
464 0

人工智能机器学习
[前沿快讯] 华为云与北京大学神经科学研究所达成合作，推动AI脑科学研究

4 月 2 日是第十四个世界自闭症日，华为云与北京大学神经科学研究院，开启了用 AI 研究儿童自闭症的计划。日前，北京大学神经科学研究所与华为云签署合作框架协议。根据协议，双方将在云计算、AI 等技术驱动下，成立「联合创新课题组」，以智慧 AI 医疗为主要联合创新方向，发挥各自资源优势，全面推动儿童孤独症（又称「自闭症」）智能诊疗的 AI 算法研发和相应的应用平台建设。孤独症谱系障碍（Autism Spectrum Disorder, ASD）是一种起病于儿童早期，以社交损害与行为刻板为特征的大脑功能疾病。我国拥有世界上最大的人口与儿童群体，随着孤独症发病率不断增高，现有的专业医疗人员数量和医学康复支撑体系无法满足对孤独症人群的诊断和治疗。北京大学神经科学研究所韩济生院士 / 张嵘副教授课题组根据多年脑科学研究积累，综合本土低龄 ASD 儿童的行为学、脑影像学等临床研究手段，联合电子科技大学 Keith Kendrick 教授 / 蒋希副研究员课题组系统性地提出了孤独症辅助诊断、亚型识别及特色治疗手段干预的一体化临床诊疗体系。 2020 年以来，北京大学神经科学研究所携手华为云 EI 创新孵化 Lab 脑科学团队，在脑疾病临床和脑科学研究方面的社会性示范应用方面开展了一系列创新性的合作尝试。联合研发团队正通过前沿 AI 脑科学研究手段，启动一系列基于孤独症患儿脑影像多模态数据进行生物标记物异常识别的早筛和亚型诊断算法研发和基于 AI 视觉的孤独症儿童突出能力识别算法研发，并将通过把研发成果集成上线到华为云 AI 脑科学平台面向全国各基层单位进行推广应用，从而完成「AI 脑疾病算法研发 -> 临床成果转化应用 ->临床研究数据汇聚 ->进一步提升 AI 算法准确性和适用性」的平台运行生态闭环，期望在未来能够有效降低国家和家庭在 ASD 疾病诊疗方面的社会成本。基于华为云的孤独症智能诊疗一体化创新平台架构示意图1 月初，联合创新课题组合作的「孤独症智能诊断与精准治疗一体化创新平台的构建与应用」获得首届「未来之星」生物医药创新成果转化项目大赛医疗器械组一等奖。近年来，华为云 EI 创新孵化 Lab 脑科学团队面向脑科学领域的多个重大关键问题开展攻关，充分发挥华为云在 AI 研发和高性能计算领域的技术积累，协同中国顶尖的脑科学研究机构、脑疾病诊疗机构基于华为一站式 AI 开发平台 ModelArts 联合打造和推广 AI+HPC 赋能的脑科学平台，为中国宏观和介观脑图谱、脑功能组学的科研创新和成果转化提供一站式的研产用转化支撑。

hellohelloya 发表于2022-01-06 10:35:08 2022-01-06 10:35:08 最后回复 hellohelloya 2022-01-06 10:35:08
1148 0

人工智能
[前沿快讯] ImageNet「众包」成就伟大数据集，「昇腾众智」创新AI开发模式

作为人工智能社区群策群力的早期形式，「众包」成就了 ImageNet 等一批成功的数据集，也加快了整个社区的发展进程。但要构建人工智能技术开发生态，仅靠「众包」是不够的。2009 年，由知名科学家李飞飞发起，来自全球 167 个国家近 5 万名工作者以众包的方式，通过三年合作努力，完成了日后触发人工智能领域发展浪潮的伟大数据集 ImageNet。数据规模巨大，标注错误极低，ImageNet 发布十余年以来，已成为淬炼图像处理算法不断升级的试金石。2010-2017 连续开展八年的 ImageNet 全球挑战赛，推动了物体识别平均准确率等 AI 领域关键指标不断提升，更让深度学习算法自 2012 年在此舞台之上大放异彩，进一步引发了人工智能领域的革命。众所周知，ImageNet 包含 1500 万张带标注的图像，工程十分浩大。帮助李飞飞完成这一壮举的，是当时刚刚兴起的社区概念——众包。可以说，众包一直在人工智能领域扮演着重要角色，一定程度上加快了这一领域的历史进程。但与此同时，社区并没有止步于众包，而是向前又走了一步。昇腾计算产业的成员企业华为，提出了一种新的模式——众智，汇聚企业、高校、科研院所等组织的力量，做硬核开发。2021 年 3 月 18 日，昇腾众智计划正式上线。众智类似于众包，但又不同于众包。众包是繁复的人力投入，而「昇腾众智」意在通过「硬件开放、软件开源、使能伙伴」的方式，激发开发者的智慧，在网络模型开发、算子开发以及行业参考设计开发等几类项目上进行创新。此外，「昇腾众智」计划还关注后续的人才培养以及开放平台、社区的建设和发展，这就改变了传统众包「交付即终点」的模式，对开发者的个人成长甚至整个社区的发展都有着更加深远的意义。为何众智？如何众智？3 月 13 日，国家发布了「十四五」规划纲要。纲要指出，「十四五」期间，我国将通过一批具有前瞻性、战略性的国家重大科技项目，带动产业界逐步突破前沿基础理论和算法，其中就包括深度学习框架等开源算法平台的构建以及学习推理决策、图像图形、语音视频、自然语言识别处理等领域的创新与迭代应用。由此可见，加快国内人工智能的发展在国家战略层面正变得越来越重要。过去几年，昇腾计算产业已构建起完整的全栈 AI 软硬件平台，包括基于昇腾架构的系列硬件，异构计算架构 CANN、深度学习计算框架 MindSpore 等软件平台。通过上述平台构建的AI基础设施，涵盖纲要中提到的图像、语音、自然语言处理等多项技术，可以加快医疗、能源、交通、制造等多个行业的智能化升级。AI 模型和基础软件都是高度依赖生态建设的项目，无法依靠单一力量来完成，需要汇聚开发者，共同打造昇腾计算产业生态。在过去的 2020 年，昇腾社区从学、练、用、考、赛等维度为开发者提供了完善的软件资源、专业培训、技术支持、生态政策和产品方案，上线了 50 多个开发者系列课程、1008 本学习资料、100 + 工具与样例、100 + 模型，MindSpore 开源开发者已突破 10 万 + 人。虽然已经取得了一些成绩，但要想加快这一进程，昇腾需要整个社区的力量来共同托举，这也是「昇腾众智」计划诞生的初衷。那么如何「众智」呢？具体而言，「昇腾众智」主要涉及的是异构计算架构 CANN 算子开发、主流深度学习网络模型（基于 MindSpore、PyTorch 等）开发和行业参考设计开发等。这些需求都以项目的形式发布在「昇腾众智」的官方页面上，每两周刷新一次。近期公布的 140 个项目需求包含 MindSpore 数据增强算子、MindSpore 模型等，涵盖文本、图像、视频、自然语言、目标检测等多个领域。打开「项目任务书」，我们可以看到项目的具体细节，包括任务描述、知识背景要求、任务要求、任务清单、开发指导等内容。对该项目感兴趣且符合要求的开发者可以填写与自身情况相对应的申请表。和「众包」、「外包」不同的是，在「昇腾众智」计划中，参与任务的开发者和昇腾之间并不是「冷冰冰的业务关系」，而是一种并肩作战的合作关系。如果你在开发中遇到问题，你可以随时向昇腾的专家寻求帮助。这种帮助包括但不限于硬件、软件、技术指导和答疑等。群策群力，多方受益前面说到，在「昇腾众智」计划中，开发者与昇腾之间是一种并肩作战的合作关系，合作的目的是创建一个强大的生态和社区。这就意味着，参与「昇腾众智」的开发者甚至整个社区都将从中受益。开发者包含高校师生、科研机构研究者、企业开发团队等多个群体。对于这些群体来说，他们收获的不仅仅是项目交付后的奖金激励和项目开发期间的算力资源支持，还有昇腾颁发的荣誉证书（优秀开发团队和个人将受邀参加华为旗舰大会）以及华为招募引进人才的优先权等。其他的潜在收益还包括项目经验积累、创新研究项目合作以及行业影响力的提升等。以高校为例，高校是一个偏重学术的环境，「昇腾众智」将更多的真实项目带进校园，使得学生有更多的机会接触真实的业务场景，得到业内专家的指导，从而加深对于 AI 的理解，沉淀更多的实践经验。科研院所和企业有所不同。科研院所汇聚了一大批优秀研究者，但在算力、场景扩展、科研创新等方面也需要一些外部支持，「昇腾众智」恰好可以在这些方面提供支持，满足科研机构在多个方面的科研需求。企业所在的行业往往需要配套的行业参考设计，在昇腾的技术支持下，企业可以更快地开发自己行业所需的参考设计，提升自身的行业影响力。除了这些，「昇腾众智」对于整个人工智能社区也有很重要的意义。一方面，这些项目开发完成后将在昇腾社区开放，供所有开发者下载使用，免去开发者重新写代码、训练模型的麻烦，加速社区的发展进程。另一方面，昇腾社区、MindSpore 社区与其他开源开放社区可以借助这一项目建立紧密的联系，为高校、科研机构、企业和开源社区的成员搭建一个广阔的交流、合作平台，共同加速 AI 社区的发展。以上几点在本月初启动的「OpenI 启智 & MindSpore 集结号」活动中已经有所体现。这一活动由 OpenI 启智社区和 MindSpore 社区共同举办，旨在集中高校开发者合作开发 MindSpore 高性能模型（模型众智）。中国工程院院士、鹏城实验室主任、北京大学博雅讲席教授高文在「集结号」活动中讲话。其实，早在「集结号」活动之前，「昇腾众智」就已经开始了一些小规模的探索，这些探索为计划的正式上线蓄积了力量。自去年启动昇腾众智计划以来，已有浙江大学、上海交通大学、西安交通大学、中国科学院等超过 40 所高校和科研机构参与其中（排名不分先后）。他们已经完成 484 个 PyTorch 算子分析、368 个算子开发、15 个 MindSpore 模型交付和 2 个 PyTorch 模型交付，行业参考设计的众智活动也已经完成试点。十几年前，ImageNet 让我们看到了群体力量的伟大；如今，昇腾不止要利用这股力量，更想要挖掘其中的「智慧」，创造一种新的 AI 开发模式。目前，「昇腾众智」的初步目标是通过线上、线下两种方式** 200 + 团队、2000 + 开发者。

hellohelloya 发表于2022-01-06 10:33:49 2022-01-06 10:33:49 最后回复 hellohelloya 2022-01-06 10:33:49
1150 0

昇腾人工智能神经网络大数据
[前沿快讯] ImageNet「众包」成就伟大数据集，「昇腾众智」创新AI开发模式

作为人工智能社区群策群力的早期形式，「众包」成就了 ImageNet 等一批成功的数据集，也加快了整个社区的发展进程。但要构建人工智能技术开发生态，仅靠「众包」是不够的。2009 年，由知名科学家李飞飞发起，来自全球 167 个国家近 5 万名工作者以众包的方式，通过三年合作努力，完成了日后触发人工智能领域发展浪潮的伟大数据集 ImageNet。数据规模巨大，标注错误极低，ImageNet 发布十余年以来，已成为淬炼图像处理算法不断升级的试金石。2010-2017 连续开展八年的 ImageNet 全球挑战赛，推动了物体识别平均准确率等 AI 领域关键指标不断提升，更让深度学习算法自 2012 年在此舞台之上大放异彩，进一步引发了人工智能领域的革命。众所周知，ImageNet 包含 1500 万张带标注的图像，工程十分浩大。帮助李飞飞完成这一壮举的，是当时刚刚兴起的社区概念——众包。可以说，众包一直在人工智能领域扮演着重要角色，一定程度上加快了这一领域的历史进程。但与此同时，社区并没有止步于众包，而是向前又走了一步。昇腾计算产业的成员企业华为，提出了一种新的模式——众智，汇聚企业、高校、科研院所等组织的力量，做硬核开发。2021 年 3 月 18 日，昇腾众智计划正式上线。众智类似于众包，但又不同于众包。众包是繁复的人力投入，而「昇腾众智」意在通过「硬件开放、软件开源、使能伙伴」的方式，激发开发者的智慧，在网络模型开发、算子开发以及行业参考设计开发等几类项目上进行创新。此外，「昇腾众智」计划还关注后续的人才培养以及开放平台、社区的建设和发展，这就改变了传统众包「交付即终点」的模式，对开发者的个人成长甚至整个社区的发展都有着更加深远的意义。为何众智？如何众智？3 月 13 日，国家发布了「十四五」规划纲要。纲要指出，「十四五」期间，我国将通过一批具有前瞻性、战略性的国家重大科技项目，带动产业界逐步突破前沿基础理论和算法，其中就包括深度学习框架等开源算法平台的构建以及学习推理决策、图像图形、语音视频、自然语言识别处理等领域的创新与迭代应用。由此可见，加快国内人工智能的发展在国家战略层面正变得越来越重要。过去几年，昇腾计算产业已构建起完整的全栈 AI 软硬件平台，包括基于昇腾架构的系列硬件，异构计算架构 CANN、深度学习计算框架 MindSpore 等软件平台。通过上述平台构建的AI基础设施，涵盖纲要中提到的图像、语音、自然语言处理等多项技术，可以加快医疗、能源、交通、制造等多个行业的智能化升级。AI 模型和基础软件都是高度依赖生态建设的项目，无法依靠单一力量来完成，需要汇聚开发者，共同打造昇腾计算产业生态。在过去的 2020 年，昇腾社区从学、练、用、考、赛等维度为开发者提供了完善的软件资源、专业培训、技术支持、生态政策和产品方案，上线了 50 多个开发者系列课程、1008 本学习资料、100 + 工具与样例、100 + 模型，MindSpore 开源开发者已突破 10 万 + 人。虽然已经取得了一些成绩，但要想加快这一进程，昇腾需要整个社区的力量来共同托举，这也是「昇腾众智」计划诞生的初衷。那么如何「众智」呢？具体而言，「昇腾众智」主要涉及的是异构计算架构 CANN 算子开发、主流深度学习网络模型（基于 MindSpore、PyTorch 等）开发和行业参考设计开发等。这些需求都以项目的形式发布在「昇腾众智」的官方页面上，每两周刷新一次。近期公布的 140 个项目需求包含 MindSpore 数据增强算子、MindSpore 模型等，涵盖文本、图像、视频、自然语言、目标检测等多个领域。打开「项目任务书」，我们可以看到项目的具体细节，包括任务描述、知识背景要求、任务要求、任务清单、开发指导等内容。对该项目感兴趣且符合要求的开发者可以填写与自身情况相对应的申请表。和「众包」、「外包」不同的是，在「昇腾众智」计划中，参与任务的开发者和昇腾之间并不是「冷冰冰的业务关系」，而是一种并肩作战的合作关系。如果你在开发中遇到问题，你可以随时向昇腾的专家寻求帮助。这种帮助包括但不限于硬件、软件、技术指导和答疑等。群策群力，多方受益前面说到，在「昇腾众智」计划中，开发者与昇腾之间是一种并肩作战的合作关系，合作的目的是创建一个强大的生态和社区。这就意味着，参与「昇腾众智」的开发者甚至整个社区都将从中受益。开发者包含高校师生、科研机构研究者、企业开发团队等多个群体。对于这些群体来说，他们收获的不仅仅是项目交付后的奖金激励和项目开发期间的算力资源支持，还有昇腾颁发的荣誉证书（优秀开发团队和个人将受邀参加华为旗舰大会）以及华为招募引进人才的优先权等。其他的潜在收益还包括项目经验积累、创新研究项目合作以及行业影响力的提升等。以高校为例，高校是一个偏重学术的环境，「昇腾众智」将更多的真实项目带进校园，使得学生有更多的机会接触真实的业务场景，得到业内专家的指导，从而加深对于 AI 的理解，沉淀更多的实践经验。科研院所和企业有所不同。科研院所汇聚了一大批优秀研究者，但在算力、场景扩展、科研创新等方面也需要一些外部支持，「昇腾众智」恰好可以在这些方面提供支持，满足科研机构在多个方面的科研需求。企业所在的行业往往需要配套的行业参考设计，在昇腾的技术支持下，企业可以更快地开发自己行业所需的参考设计，提升自身的行业影响力。除了这些，「昇腾众智」对于整个人工智能社区也有很重要的意义。一方面，这些项目开发完成后将在昇腾社区开放，供所有开发者下载使用，免去开发者重新写代码、训练模型的麻烦，加速社区的发展进程。另一方面，昇腾社区、MindSpore 社区与其他开源开放社区可以借助这一项目建立紧密的联系，为高校、科研机构、企业和开源社区的成员搭建一个广阔的交流、合作平台，共同加速 AI 社区的发展。以上几点在本月初启动的「OpenI 启智 & MindSpore 集结号」活动中已经有所体现。这一活动由 OpenI 启智社区和 MindSpore 社区共同举办，旨在集中高校开发者合作开发 MindSpore 高性能模型（模型众智）。中国工程院院士、鹏城实验室主任、北京大学博雅讲席教授高文在「集结号」活动中讲话。其实，早在「集结号」活动之前，「昇腾众智」就已经开始了一些小规模的探索，这些探索为计划的正式上线蓄积了力量。自去年启动昇腾众智计划以来，已有浙江大学、上海交通大学、西安交通大学、中国科学院等超过 40 所高校和科研机构参与其中（排名不分先后）。他们已经完成 484 个 PyTorch 算子分析、368 个算子开发、15 个 MindSpore 模型交付和 2 个 PyTorch 模型交付，行业参考设计的众智活动也已经完成试点。十几年前，ImageNet 让我们看到了群体力量的伟大；如今，昇腾不止要利用这股力量，更想要挖掘其中的「智慧」，创造一种新的 AI 开发模式。目前，「昇腾众智」的初步目标是通过线上、线下两种方式** 200 + 团队、2000 + 开发者。

hellohelloya 发表于2022-01-06 10:33:02 2022-01-06 10:33:02 最后回复 hellohelloya 2022-01-06 10:33:02
1261 0

昇腾人工智能神经网络大数据
[资产园地] Protein MSA数据库

Protein MSA中的目标序列将几乎完全覆盖最新版本（2021.02发布）的UniRef50数据库中的蛋白质序列，而比对序列来自于最新版本的UniClust30数据库。描述Protein MSA数据库简介针对蛋白质的多序列比对（multiple sequence alignment; MSA）是研究蛋白质的结构、功能和进化关系等问题的重要方法。MSA数据中蕴含了构成蛋白质的氨基酸序列中的保守性质(conservation)、协同突变(co-evolution)和功能与物种进化关系(phylogenetics)的相关信息。人类已知的存在于自然界中的蛋白质序列数目已经上亿并在快速增长，但仅凭这些蛋白质单序列的数据很难了解蛋白之间的关系。Protein MSA数据库，就是一个对不同蛋白质序列之间的关系进行了标记的大规模“关系型”数据库，被标记为关联的蛋白质序列之间的相似度、进化关系和突变所在位点的分布等信息对蛋白质结构和功能的预测极为重要。例如在AlphaFold2模型[1]中，目标蛋白序列的MSA信息就是预测结构的必要输入信息之一。数据库建立方法Protein MSA中的目标序列将几乎完全覆盖最新版本（2021.02发布）的UniRef50数据库中的蛋白质序列，而比对序列来自于最新版本的UniClust30数据库。对于每条来自UniRef50数据库中的目标序列，我们采用HHBlits算法在UniClust30数据库进行搜索和比对，并将检索以文本形式存放于Protein MSA数据仓库下Raw_Data目录下。生成命令如下(参考https://github.com/soedinglab/hh-suite)：hhblits -i <input-file> -d <database-basename> -o <result-file> -oa3m <result-alignment> -cpu 4 -n 3 -v 0数据库规模Protein MSA数据库中包含的目标序列约有50M条，之后还将继续扩展和更新。对于每条目标序列，其比对序列的平均条数（或MSA深度）大于1000，因此该数据集里以MSA的形式汇总了超过50B条蛋白质序列（包括了一些重复出现的比对序列）。使用场景从科学应用的角度看，MSA的数量和质量很大程度上影响了目前最先进的结构模型的预测速度和精度，而且产生MSA的非参数化算法仍是诸多蛋白预测方法中主要决速步之一。因此，Protein MSA数据库本身可以作为这些结构模型的预训练材料，用来挖掘序列信息甚至快速生成新的序列特征，这对解决研究、设计蛋白质中所面临的高变异序列和孤儿序列等问题具有巨大的潜在价值。为了便于AI领域的研究人员直接使用，Protein MSA原始数据还会被转化为浮点数类型压缩存储，并对已有的AI框架如MindSpore上提供数据接口的支持。我们鼓励并期待来自生物信息学、数据科学和自然语言处理等AI研究领域的专家和人才充分碰撞与合作，引入、改进或设计全新的AI模型，来充分地挖掘Protein MSA数据集中所隐藏的“大自然的秘密”。样例数据集Protein MSA数据集总计约30TB，为了方便研究者体验，我们单独做了一个样例数据集，大小约100GB。大小：约100GB文件数量：约31万个文件OBS桶名：cnnorth4-modelhub-datasets-obsfs-d1opw文件目录：obs://cnnorth4-modelhub-datasets-obsfs-d1opw/MSA_Uniref50/Example_100G/下载数据集到本地的方法：方案一：通过obsutil命令行工具，下载到我的本地方案二：通过OBS Browser+软件，下载到我的本地在华为云上直接使用数据集的方法：方案一：下载到我的华为云账号下的OBS桶内（在本页面右上角，点击下载按钮即可）方案二：在ModelArts JupterLab中，挂载并直接探索数据集方案三：在ModelArts中，训练作业实例中直接挂载（暂不支持，尽请期待）全量数据集Protein MSA数据集总计约30TB，数据准备中，即将公布，尽请期待许可与引用CC BY-SA 4.0

开发者创新中心小广播 发表于2022-01-06 10:31:56 2022-01-06 10:31:56 最后回复开发者创新中心小广播 2022-01-06 10:31:56
688 0

人工智能数据库
[前沿快讯] 华为云最新力作入选AAAI 2021：揭秘个性化联邦学习框架

华为云论文研究成果，揭秘首创自分组个性化联邦学习框架。该框架可以有效地处理普遍存在的数据分布不一致问题，并大幅度提高联邦学习性能。人工智能顶级会议 AAAI 2021 将于 2021 年 2 月 2 日 - 9 日线上召开，华为云 AI 最新联邦学习成果《Personalized Cross-Silo Federated Learning on Non-IID Data》成功入选。这篇论文首创自分组个性化联邦学习框架。该框架让拥有相似数据分布的客户进行更多合作，并对每个客户的模型进行个性化定制，从而有效处理普遍存在的数据分布不一致问题，并大幅度提高联邦学习性能。该框架已被集成至华为云一站式 AI 开发管理平台 ModelArts 联邦学习服务中，其特有的个性化分组学习机制和优秀的隐私保护性能为中国科学院上海药物所蒋华良院士带领的生物制药团队提供了有效的算法支持，并在中国医药大会上吸引了广大制药厂商洽谈合作。论文地址：https://arxiv.org/abs/2007.03797背景介绍联邦学习机制以其独有的隐私保护机制受到很多拥有高质量数据的客户青睐。通过联邦学习，能有效地打破数据孤岛，使数据发挥更大的作用，实现多方客户在保证隐私的情况下共赢。但与此同时，在实际应用中各个客户的数据分布非常不一致，对模型的需求也不尽相同，这些在很大程度上制约了传统联邦学习方法的性能和应用范围。为此, 在客户数据分布不一致的情况下如何提高模型的鲁棒性成为了当前学术界与工业界对联邦学习算法优化的核心目标，希望通过联邦学习得到的模型能满足不同客户的需求。传统的联邦学习的目的是为了获得一个全局共享的模型，供所有参与者使用。但当各个参与者数据分布不一致时，全局模型却无法满足每个联邦学习参与者对性能的需求，有的参与者甚至无法获得一个比仅采用本地数据训练模型更优的模型。这大大降低了部分用户参与联邦学习的积极性。为了解决上述问题，让每个参与方都在联邦学习过程中获益，个性化联邦学习在最近获得了极大的关注。与传统联邦学习要求所有参与方最终使用同一个模型不同，个性化联邦学习允许每个参与方生成适合自己数据分布的个性化模型。为了生成这样的个性化的模型，常见的方法是通过对一个统一的全局模型在本地进行定制化。而这样的方法仍然依赖一个高效可泛化的全局模型，然而这样的模型在面对每个客户拥有不同分布数据时经常是可遇而不可求的。为此，华为云 EI 温哥华大数据与人工智能实验室自研了一套个性化联邦学习框架 FedAMP。该框架使用独特的自适应分组学习机制，让拥有相似数据分布的客户进行更多的合作，并对每个客户的模型进行个性化定制，从而有效地处理普遍存在的数据分布不一致问题，并大幅度提高联邦学习性能。下面我们来具体看一下这一新的框架 FedAMP 是怎么提升联邦学习性能的。图一：FedAMP 的注意消息传递机制算法介绍图三：最优平均测试准确率。结果展示为了评估 FedAMP 及 HeurFedAMP 的性能，作者设计了一套更为符合实际应用场景的非均匀数据分布。如图三所示，FedAMP 及 HeurFedAMP 在四个常见数据集上展示了比现有五种 SOTA 算法更高的最优平均测试准确率。相比 Google 提出的原始联邦学习框架 FedAvg，FedAMP 及 HeurFedAMP 所获得的最优平均测试准确率更是大幅提升，表现非常亮眼。图四：所有客户测试准确率分布。通过分析进一步统计的结果（如图四），作者发现通过 FedAMP 和 HeurFedAMP 所得到的模型对于每个客户的测试精度在统计上显著高于其他方法获得的结果。图五：对于 EMNIST 数据集的可视化分组结果。为了更好的理解 FedAMP 及 HeurFedAMP 的机理，作者进一步分析了注意消息传递机制（如图五）。作者发现 FedAMP 和 HeurFedAMP 均成功发现了蕴含在客户之间的真实分组关系。这一发现进一步解释了 FedAMP 及 HeurFedAMP 在数据分布不均匀时性能卓越的原因。联邦学习三步骤，降低使用门槛基于华为云 ModelArts 平台，实现联邦学习仅需简单的三步操作：第一步：发起者创建一个联邦学习团队，定义联邦任务，并邀请参与者，如图六所示 (其中更新策略可配置 FedAVG，FedAMP 等)：图六：基于 ModelArts 的联邦训练任务创建。第二步：参与者同意加入联邦团队，并配置数据及资源类型，如图七所示：图七：基于 ModelArts 的联邦学习团队加入。第三步：联邦训练发起者启动联邦训练，直至训练完成，如图八所示：图八：基于 ModelArts 的联邦学习训练。总结 FedAMP/HeurFedAMP 是两种简单高效的个性化联邦学习框架。通过注意消息传递机制，FedAMP/HeurFedAMP 还将天然拥有抗投毒潜力。其在数据分布不均匀时的优异表现，将为云产商吸引更多拥有高质量数据的客户参与联邦学习。基于上述框架，华为云一站式 AI 开发平台 ModelArts 提供联邦学习特性，用户各自利用本地数据训练，不交换数据本身，只用加密方式交换更新的模型参数，实现联合建模。近日，国际权威研究机构国际数据公司（IDC）发布《中国 AI 云服务市场（2020 上半年）跟踪》报告显示，华为云 ModelArts 位居机器学习公有云服务中国市场份额第一位。算法免费体验链接：https://t.ly/nGN9

hellohelloya 发表于2022-01-06 10:31:16 2022-01-06 10:31:16 最后回复 hellohelloya 2022-01-06 10:31:16
1122 0

人工智能机器学习
[赛事资讯] 大赛报名I“华为云杯”2020人工智能创新应用大赛

https://competition.huaweicloud.com/information/1000041322/introduction?track=107“华为云杯”2020西安人工智能创新应用大赛，由西安国家民用航天产业基地管理委员会主办、华为公司承办，以“AI在航天，鸿图华构”为主题面向全国的人工智能交流赛事。举办方：西安国家民用航天基地管理委员会、华为技术有限公司一、赛事简介为培育人工智能创新氛围，深化新基建合作，提升高精尖人才研发创新能力，由西安国家民用航天产业基地管理委员会主办、华为技术有限公司承办的“华为云杯”2020人工智能创新应用大赛于2020年11月5日正式启动。大赛以“AI在航天，鸿图华构”为主题，立足航天卫星遥感产业，结合华为在云计算、人工智能、物联网、5G移动通信、智能制造等领域的技术优势和产业链整合能力，推动AI技术在遥感行业应用，同时加速培养高精尖人才，实现人工智能技术的真正落地。二、参赛对象大赛面向全社会开放，个人、高等院校、科研单位、企业、创客团队等人员均可报名参赛。特别说明：大赛承办方和技术支持单位员工/实习生可以参赛，但参赛成绩仅参与排名不参与评奖与奖金发放，评奖名额往后顺延。三、赛程安排本次大赛分为初赛、决赛两个阶段，具体安排如下。初赛（11月5日 ~ 12月8日）1、11月5日14:00开放模型提交判分入口，每个团队每天有2次评测机会。2、系统排行榜每天更新一次，按照评测指标从高到低排序。3、初赛截止时间为12月8日18:00，组委会将通知排名前10名参赛队伍的提交代码审核说明：具体代码审核需提交的材料和相关操作初赛截止后公布，如未配合组委会进行初赛代码审核，视为自动放弃进行决赛资格。决赛（12月11日 ~ 12月22日）1、初赛截止后3天（12月11日），组委会将进行最终排名前10入围名单公布及决赛相关事项。2、参加决赛的选手需要在决赛日（12月22日）前准备答辩材料，答辩材料需包含两部分主要内容，第一部分为初赛中的算法介绍，第二部分为开放性讨论问题，题目为“AI如何助力遥感行业？”（不限定形式和范围）。3、12月22日，TOP10的队伍将受邀前往西安进行总决赛答辩，组委会将根据初赛模型评测成绩、决赛专家评审成绩加权得出总决赛成绩，初赛与决赛权重比例为0.7:0.3，最终依据综合成绩评选出大赛奖项。四、奖项设置冠军： 1支队伍，每支队伍奖金10万，颁发获奖证书亚军： 2支队伍，每支队伍奖金 5万，颁发获奖证书季军： 3支队伍，每支队伍奖金 3万，颁发获奖证书优胜奖：4支队伍，每支队伍奖金 1万，颁发获奖证书参与奖：初赛最终排名入围TOP200队伍将获得AI书籍（每支队伍一份）特别说明：TOP10获奖团队需在华为云社区分享参赛方案及总结的分享。五、报名须知1、报名方式：登录比赛官网，点击页面左上方“立即报名”按钮进行报名。2、报名时间：即日起 --2020年11月23日18:003、参赛者可单人或2~3人组队参赛，且每位选手只能加入一支队伍，云资源发放以个人为单位（大赛云资源有限，大赛组委会按照大赛报名顺序依次发放，发完为止）。4、参赛者需确保报名信息准确有效，大赛组委会有权取消不符合条件队伍的参赛资格以及奖励。5、大赛官方交流请至论坛（交流版块，选手交流微信群扫描如下二维码，如群已满，请加右侧大赛小助手微信号，备注“西安赛”，小助手将您拉进群。大赛重要节点通知会在群内第一时间告知，请务必加群。六、比赛资源组委会为参赛选手提供一定量的华为云EI资源券（仅支持ModelArts及OBS），以支撑大赛期间资源费用。云资源有限会按报名顺序下发，发完为止（720份云资源，发完为止）。特别说明：云资源发放请关注交流群通知，收到云资源后请务必按照组委会要求，在规定时间内购买相应套餐，如过期未购买或由于自己原因错买需自行承担结果，组委会不再补发。七、组织单位主办单位：西安国家民用航天基地管理委员会承办单位：华为技术有限公司协办单位：陕西省测绘地理信息局八、其他若出现以下情况，将视为违规，大赛组委会有权取消参赛队伍的参赛资格。1、参赛报名信息虚假，不符合大赛报名及组队要求的参赛者/参赛队伍2、参赛作品涉嫌抄袭，侵犯他人知识产权等行为3、参赛期间或参赛作品发现或被举报认定存在的其他违法、违规行为本大赛规程最终解释权归“华为云杯”2020人工智能创新应用大赛组委会所有。

鬼灯 发表于2022-01-06 10:10:28 2022-01-06 10:10:28 最后回复鬼灯 2022-01-06 10:10:28
955 0

大赛人工智能
[资产园地] 10类常见美食图片数据集

描述10类常见美食图片数据集1、数据简介本数据集为华为云AI大赛入门赛《爱（AI）美食·美食图片分类》竞赛数据集。本数据集已经在ModelArts数据管理模块进行了标注，数据标注类型为“图像分类”。本数据集包含10种美食图片，分别为：冰激凌、鸡蛋布丁、烤冷面、芒果班戟、三明治、松鼠鱼、甜甜圈、土豆泥、小米粥、玉米饼，每类图片500张。2、适用的算法本数据集可用于如下AI Gallery图像分类算法进行训练：图像分类ResNet50-EI-Backbone:https://marketplace.huaweicloud.com/markets/aihub/modelhub/detail/?id=24298ade-0189-48ee-88e3-e01f484e73dc图像分类-ResNeSt：https://marketplace.huaweicloud.com/markets/aihub/modelhub/detail/?id=10014e59-0a42-4a6c-a17c-afae33dcd420图像分类-ResNet_v1_50：https://marketplace.huaweicloud.com/markets/aihub/modelhub/detail/?id=40b66195-5bbe-463d-b8a2-03e57073538d图像分类-Inception_v3：https://marketplace.huaweicloud.com/markets/aihub/modelhub/detail/?id=cad65a02-ef22-46e1-bd5b-01f231da9272图像分类-Inception_Resnet_V2：https://marketplace.huaweicloud.com/markets/aihub/modelhub/detail/?id=27536e00-e8fc-43e4-9833-2e4b6e8e1f1d图像分类-Res2Net_50：https://marketplace.huaweicloud.com/markets/aihub/modelhub/detail/?id=cfe5f5e6-84fe-400a-8323-2a0eb41b0011图像分类-MobileNet_v2：https://marketplace.huaweicloud.com/markets/aihub/modelhub/detail/?id=0470e6b1-923b-47a8-ba3e-fe93de5ae2a0

开发者创新中心小广播 发表于2022-01-06 10:07:34 2022-01-06 10:07:34 最后回复开发者创新中心小广播 2022-01-06 10:07:34
1064 0

人工智能
[前沿快讯] 医学影像AI为什么需要小数据学习？

近年来，深度神经网络的出现一定程度上颠覆了医学影像行业的发展路径，人工智能介入下，影像相关科室繁杂重复的工作逐渐由算法接替，医生资源短缺这一问题似乎出现了解决的希望。但AI亦有其限制。从当前发展情况看，有效的人工智能算法大多**于存在大量标准化数据的病种，毕竟要实现高质量AI诊断，需要大量的高质量标注图像进行前期的算法训练。这一数据相关的特质限制了医学AI的广泛应用。现实之中，罕见病和疑难杂症的数据较少，囿于患者隐私、数据安全等问题，数据收集行为的开展也较为困难。此外，医学图像的标注过程成本较高，对于不同的标注内容往往需要开发特殊的标注工具并交由有经验的医生进行。多方面原因协同下，某些医学图像问题的高标注质量医学图像数据集非常稀缺，其AI自然也难以孕育。好在AI面临的困境并非没有解法。回想起来，人类只需通过极少的样本就能辨别新的事物，那么机器是否能以复制人类的这一能力呢？答案或许是可以的。最近医学AI领域兴起的一系列小数据学习方法便是以模仿人类的判别能力为目标，尝试通过减少需要的数据量，实现特定目标图像的识别，最终克服医学领域数据量少、标准缺乏的问题。以先验知识为基础的小样本学习要实现小样本学习(few-shot learning)必须要具备一些特定条件，譬如模型学习前已经吸收了一定类别的大量资料后，再加之新类别的极少量数据，最终实现小样本模型的形成。因此，小样本学习的关键是在算法中纳入合适的先验知识。具体到医疗领域之中，很多医学图像模态中广泛存在器官的位置先验信息，例如CT图像中肝脏主要位于腹腔的右上位置，而脾则在腹腔的左上部分，这些位置先验信息对于AI识别特定类别的器官有非常大的帮助。体素科技在顶级会议ISBI2021上发表的论文《Location Sensitive Local Prototype Network For Few-shot Medical Image Segmentation》便提出了一种基于位置先验信息的局部原型网络（location sensitive local prototype network，见图1）。该论文以肝和脾影像数据构建训练集，再将其收获先验信息的算法加入少量肾部影像分割任务，实现基于小样本学习的AI模型训练。图一：基于位置先验信息的局部原型网络框架在公开的CT器官分割数据集Visceral进行试验后，其结果表明，论文提出的新框架比目前的最好方法在Dice Score指标上提高了10％，显著推进了小样本下的器官分割这一领域的技术进展。利用极端变化一致性来提高数据不足情况下医学图像分割的鲁棒性除了数据获取困难这一问题外，研究人员在训练时还会遭遇数据来源不统一的问题。由于医学图像的拍摄设备和拍摄环境和方式多样，各个医院和体检中心之间的人群分布差异明显，因此很难收集和标注足量的训练数据充分涵盖不同来源的图像特征。如果训练数据和实际测试数据存在明显的的分布差异（domain shift），生成的模型往往性能不佳。体素科技在顶级会议MICCAI2020上发表的《Extreme Consistency: Overcoming Annotation Scarcity and Domain Shifts》为解决这一问题提供了方向。具体而言，该论文提出了极端一致性（extreme consistency）的概念，核心思想是在训练数据中加入极端的图像变换（比如大量强烈的亮度，对比度，旋转，尺寸变换），以增加训练数据的多样性，并假设这些极端的图像变换并不影响图像的语义含义。举例来说，眼底图像中的血管在经过极端的旋转和亮度对比度等变换后，依然能够对应血管本身。为了实现这一构想，论文设计了一种半监督算法（semi-supervised learning，见图2）, 迫使模型遵守极端变化前和变化后的语义一致性这一约束，进而提高模型对于分布差异的鲁棒性。该论文在皮肤病变分割数据集(ISIC)和两个眼底血管分割数据集 (HRF和STARE)上进行了测试，展现了在数据不足和分布差异较大情况下，算法的鲁棒性和准确性的优势。图2：左边是基于极端一致性的半监督学习方法的伪代码，右边是网络结构示意图。少标注和弱标注情况下医学图像分割如何解决？除了数据的来源问题，对已有数据进行分割标注同样需要研究人员付出大量成本。在中国，影像数据标注非常昂贵，尤其是像素级别的医学图像分割标注，人力支出更为巨大。因此，近期大量的研究工作试图解决不完善医学图像分割数据集中的两类典型问题：标注稀缺。数据集中只有极稀少的图像数据有分割标注。弱标签。数据集中的图像数据只有部分标注、或者标注带有噪声、或者只有图像级的类别标签没有逐像素的分割标注。对于这两问题，体素科技发表在顶级期刊《Medical Image **ysis》中的文章《Embracing Imperfect Datasets: A Review of Deep Learning Solutions for Medical Image Segmentation》系统性地对现有方案进行了详细的回顾和分类总结（见图3所示）。根据医学图像分割数据集的不同缺陷，论文对这些方案的选择给出了实际的指导建议。图3：医学分割图像数据集数据集缺陷问题及相应训练策略总结

hellohelloya 发表于2022-01-06 10:07:15 2022-01-06 10:07:15 最后回复 hellohelloya 2022-01-06 10:07:15
1814 0

人工智能机器学习
[资产园地] 爱（AI）美食--10类常见美食图片数据集

描述爱（AI）美食–10类常见美食图片数据集1、简介该数据集为华为云AI大赛入门赛《爱（AI）美食·美食图片分类》竞赛数据集。数据来自真实的美食图片，包括包含中餐、西餐、甜点、粥类，每张图像中美食所占比例大于3/4，每张图片代表一类美食。2、数据类别及目录结构说明- 数据类别该数据集包含10种美食图片，分别为：冰激凌、鸡蛋布丁、烤冷面、芒果班戟、三明治、松鼠鱼、甜甜圈、土豆泥、小米粥、玉米饼，每类图片500张。- 目录结构说明aifood （数据集根目录） |- images （存储图像数据） |- 三明治（每个子目录是一个分类，目录名称即为分类标签名） |- 43600.jpg （图像文件） |- 43601.jpg （图像文件） |- … （更多图片） |- 甜甜圈（每个子目录是一个分类，目录名称即为分类标签名） |- 19697.jpg （图像文件） |- 19698.jpg （图像文件） |- … （更多图片） … （更多分类） |- meta （存储数据元信息的目录） |- labels_10c.txt （每行代表一个标签，涉及10个分类，即：冰激凌、鸡蛋布丁、烤冷面、芒果班戟、三明治、松鼠鱼、甜甜圈、土豆泥、小米粥、玉米饼）3、其他说明该数据集可以用于图像分类场景训练，也可以基于ModelArts数据标注进行物体检测类型的标注，然后用于目标检测场景训练。

开发者创新中心小广播 发表于2022-01-06 10:04:58 2022-01-06 10:04:58 最后回复开发者创新中心小广播 2022-01-06 10:04:58
925 0

人工智能
[前沿快讯] 挑战多跳知识推理，华为云登顶HotpotQA多跳知识推理问答评测

日前，华为云在知识计算领域的多跳知识推理问答取得重大进展。基于自然语言处理领域的领先技术积累，华为云语音语义创新 Lab 联合华为诺亚方舟实验室在国际权威的 HotpotQA 评测 Fullwiki Setting 赛道荣登榜首，在答案模糊准确率和联合模糊准确率（Joint F1）等指标上均达到第一。作为企业重要的信息载体，数字化文档记录了大量企业知识，如何快速帮助企业员工从数字化文档中获得答案，是企业文档维护人员的痛点。为解决此问题，一方面需要较强的阅读理解技术，另一方面还需要构建一套复杂的开放域问答流程。 HotpotQA 评测数据是斯坦福、CMU 和蒙特利尔大学杨植麟、齐鹏、张赛峥等人于2018年首次推出的新型问答数据集，由斯坦福的 Manning 教授和深度学习三巨头之一的 Bengio 牵头。该数据集由多跳复杂问题以及对应的答案组成，同时包含佐证证据用来解释答案的来源。在斯坦福此前公布的 SQUAD 评测任务中，机器已经多次超过人类，该评测仅需要从单个篇章中找到与问题有关的答案即可，故相对简单。然而，HotpotQA 评测需要从整个 wikipedia 或者多篇文章中找出问题相关的答案，同时要求返回问题到答案的推理链，难度大大增加更具有挑战性。该评测也吸引了来自谷歌、微软、Facebook 等知名研究机构以及 CMU、Stanford、华盛顿大学、清华大学、北京大学等知名高校。挑战多跳知识推理技术高点HotpotQA 评测的难点在于机器要结合多篇文章进行多跳推理才能得出答案，并返回佐证证据。该评测分为 Distractor Setting 和 Fullwiki Setting 两个赛道。Fullwiki Setting 相较于 Distractor Setting 更为复杂也更接近实用价值，需要从整个维基百科文档中抽取文档，然后再从文档中提取段落，最后从段落中抽取答案，而 Distractor Setting 赛道会提供 10 篇备选的篇章。如何从大量文档段落中去多跳搜索候选，然后理解候选段落的内容提取佐证证据成为比赛的关键。华为云联合华为诺亚方舟实验室，提出了新的检索目标 hop，用于收集维基百科中隐藏的推理证据，解决复杂多跳问题，同时结合 beam search 对答案进行排序和融合。如今，企业面临着数字化、知识化转型，知识化转型重要的关键技术就是知识的理解和推理，该技术对企业知识转型具有重大的意义和推动作用。2020 年华为云推出知识计算解决方案，企业可以基于华为云知识计算解决方案打造自己的知识计算平台，用于研发、生产、运营、销售、售后服务等企业核心流程。目前，该方案已在石油、汽车、医疗、化纤、煤焦化、钢铁、交通等行业率先实践。

hellohelloya 发表于2022-01-06 10:04:37 2022-01-06 10:04:37 最后回复 hellohelloya 2022-01-06 10:04:37
1164 0

人工智能
[资产园地] 爱（AI）美食-美食图片分类Baseline

ModelArts是面向AI开发者的一站式开发平台，您可以使用ModelArts完成爱（AI）美食赛题数据处理、训练建模、推理测试以及结果的提交。附件文档包含使用ModelArts完成爱（AI）美食赛题的全流程指导，通过本文档您可以快速了解ModelArts平台的使用，有助于您使用ModelArts来完成爱（AI）美食赛题。详细内容查看附件pdf文档《爱（AI）美食-美食图片分类Baseline》。0%baseline files.zip (90.4 K)0%爱（AI）美食-美食图片分类Baseline.pdf (1.14 M)

开发者创新中心小广播 发表于2022-01-06 10:00:22 2022-01-06 10:00:22 最后回复开发者创新中心小广播 2022-01-06 10:00:22
664 0

人工智能
[技术干货] 【华为云杯2020】深圳开放数据应用创新大赛：AI训练营开启AI“大狮”之路

【大赛介绍】由深圳市政务服务数据管理局、南山区人民政府主办，南山区政务服务数据管理局、华为技术有限公司承办的“华为云杯”2020深圳开放数据应用创新大赛（Shenzhen Open Data Innovation Contest，简称SODiC），以“数聚粤港澳，智汇大湾区”为主题，面向全球高等院校、专业研究机构、数据分析公司、开发者征集基于开放数据的创新应用解决方案和算法模型。AI训练营录播视频链接（含baseline解读&调优）：https://huaweicloud.bugu.mudu.tv/watch/lm0p02d7

大赛技术圈小助手 发表于2022-01-06 09:59:39 2022-01-06 09:59:39 最后回复大赛技术圈小助手 2022-01-06 09:59:39
249 0

大赛人工智能机器学习

推荐直播

码道新技能，AI 新生产力——从自动视频生成到开源项目解析
2026/04/08 周三 19:00-21:00

童得力-华为云开发者生态运营总监/何文强-无人机企业AI提效负责人

本次华为云码道 Skill 实战活动，聚焦两大 AI 开发场景：通过实战教学，带你打造 AI 编程自动生成视频 Skill，并实现对 GitHub 热门开源项目的智能知识抽取，手把手掌握 Skill 开发全流程，用 AI 提升研发效率与内容生产力。
回顾中
华为云码道：零代码股票智能决策平台全功能实战
2026/04/18 周六 10:00-12:00

秦拳德-中软国际教育卓越研究院研究员、华为云金牌讲师、云原生技术专家

利用Tushare接口获取实时行情数据，采用Transformer算法进行时序预测与涨跌分析，并集成DeepSeek API提供智能解读。同时，项目深度结合华为云CodeArts（码道）的代码智能体能力，实现代码一键推送至云端代码仓库，建立起高效、可协作的团队开发新范式。开发者可快速上手，从零打造功能完整的个股筛选、智能分析与风险管控产品。
回顾中
华为云码道全新升级，多会话并行与多智能体协作
2026/05/08 周五 19:00-21:00

王一男-华为云码道产品专家；张嘉冉-华为云码道工程师；胡琦-华为云HCDE；程诗杰-华为云HCDG

华为云码道4月份版本全新升级，此次直播深度解读4月份产品特性，通过“特性解读+实操演示+实战案例+设计创新”的组合，全方位展现码道在多会话并行与多智能体协作方面的能力，赋能开发者提升效率
正在直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript