• [技术干货] 【玩转物联网平台之FAQ】物联网数据分析支持数据分析结果存储外部么?
    系统支持将分析数据结果(数据集压缩文件)下载到用户本地作进一步处理使用。
  • [问题求助] IoT数据分析服务,显示公测资格已满
    我想在IoTDA里面看到设备上报的历史数据,在申请IoT数据分析服务的时候显示公测资格已满。看论坛帖子前段时间还是可以申请,免费使用的呀~
  • [技术干货] 如何用华为网络人工智能交互式特征工程工具,进行数据分析处理
    1:数据分析和处理问题与挑战近年来,越来越多的企业使用机器学习技术进行智能化的决策支持。机器学习通过使用算法来识别数据中的模式,并使用这些模式创建一个可以进行预测的数据模型,这个流程通常包含数据预处理,特征工程,算法开发,模型评估等多个环节。根据业界知名分析机构的调查发现,在机器学习日常开发工作中,数据预处理和特征工程(涉及数据的分析和处理)约占工作量的60%以上,对于机器学习来说至关重要。 1.1 质量参差不齐的数据  数据质量是数据管理中的一个非常重要的问题,因为脏数据通常会导致不精确的数据分析,从而引发不正确的业务决策。脏数据通常来源于数据录入过程中的人工错误或系统信息变化数据未及时更新的一些过期数据。多项调查显示脏数据是数据科学家普遍面临的障碍,毫无疑问,提供有效的数据清洗解决方案十分具有挑战,往往需要较深的理论知识和工程经验。 1.2 数据的可视化探索分析  相比于原始的数据,数据的可视化的图表可以更好的提供解释和理解。数据的可视化不仅可以提供快速清晰的信息理解,还可以用于识别数据变化的趋势及数据资产之间的关系和模式。虽然数据可视化十分有用,手工构建图表往往十分耗时和繁琐。  1.3 多样化的特征工程  特征工程是将原始数据转换成特征的数据处理过程,其目的是为了更好的表征数据和模型,提升模型预测和评估的精度。转换形成的特征好坏与数据/模型密切相关,由于数据和模型的多样性,因此很难提取出通用的特征工程技术,适用于所有的项目。数据科学家往往需要结合应用领域及数据的特点,反复不断的迭代开发,验证,形成特定于具体数据和模型的特征工程。  1.4 容纳大规模的数据分析处理平台  随着数据规模的不断扩大,现有的数据分析和处理能力受限于单机的内存容量,很难进行伸缩。如何将开发探索阶段的小样本数据分析和处理能力伸缩到产品化场景下的大数据样本,是越来越多企业面临的巨大的挑战。02PARTNAIE交互式特征工程介绍为了应对数据分析和处理的挑战,华为NAIE产品基于开源jupyterlab项目,沉淀内部多年的数据分析和处理经验,打造了NAIE交互式特征工程。NAIE交互式特征工程旨在降低数据分析处理的门槛,提升数据分析处理的效率。  2.1 零编码的数据可视化探索  数据探索部分主要包含数据的描述性统计分析,数据的可视化图表分析,数据的特征关系分析三大部分。通过数据的描述性统计分析可以进行数据的基础统计量分析,数据的空值和无效值的分布分析,原始数据的表格预览。基础统计量分析数据空值无效值分布分析通过数据的可视化图表分析可以根据数据一键式生成散点图,折线图,直方图,箱线图等多种图表,通过图表直观辅助分析。通过数据的特征关系分析可以使用卡方检测,F检验,信息增益,递归消除特征等多种算法进行特征选择分析,通过ACE算法分析特征和标签之间的非线性关系。特征关系分析  2.2 丰富多样的数据处理能力  NAIE交互式特征工程内置了数据采样,数据增强,数据清洗,特征转换,特征选择,特征提取等常用的数据处理算子,用户可以根据需要通过界面点击操作即可完成常用的数据处理。通过数据采样在不引入外部数据的情况下调整数据样本数目和类分布。通过数据增强引入外部数据扩展当前数据集的样本数目或字段数目。通过数据清洗对数据进行审查和校验,删除重复信息,纠正错误,处理无效值和缺失值,提供数据的一致性。通过特征转换对现有的特征进行归一化或编码等变换操作,便于更好的表征学习的问题。                                                                                                                                                                             通过特征选择剔除不相关或冗余的特征,提高模型精度,减少模型运行时间,增强模型的可解释性。通过特征提取从原始数据中构建出富含信息且不冗余的特征。                                                                    2.3 可伸缩的数据处理引擎  NAIE交互式特征工程预置python3和pyspark两种数据处理引擎,python3引擎使用开源pandas数据处理框架进行数据处理,一般用于中小规模(10G以下)的数据处理。pyspark使用开源spark大规模数据(10G-500G)处理引擎进行数据处理,通过分布式数据处理能力,支持可伸缩的大数据处理。NAIE特征工程内置的数据处理算子使用统一的对外SDK,适配不同的数据处理实现,可以满足在探索阶段使用python处理引擎,在产品阶段大数据场景下代码不做任何修改无缝适配到spark处理引擎下进行大规模可伸缩的数据处理。03PARTNAIE交互式特征工程的应用在日常出行时,当打开某款打车软件的时候,输入起始地点和结束地点,打车软件系统会自动估算出一个价格,用户可以根据价格选择是否乘坐或选择乘坐哪种类型。车费除了依赖于乘车距离,还与乘车时间,乘车地点等多种因素有关,没有一个精确的公式可以计算。通过机器学习学习历史数据训练模型进行预测是越来越流行的做法,通常的机器学习工作流中包含数据的预处理,模型训练,模型评估,模型部署预测等几个环节,其中数据预处理环节对于整个过程来说至关重要,以下展示如何使用NAIE交互式特征工程进行出租车乘车记录数据的预处理过程。通过使用NAIE交互式特征工程,用户可以通过界面操作一键式完成数据的可视化探索,了解数据的统计分布,质量情况,特征间的关系等,从而直观的获取数据的洞察结果。结合NAIE交互式特征工程沉淀的多种开箱即用的数据处理能力,用户只需要通过菜单选择相关的数据处理算子,即可完成复杂的数据处理任务。相比于传统的开发代码进行数据分析和处理方式,NAIE交互式特征工程极大的降低了数据分析处理的门槛,通过复用华为工程师在此领域沉淀的专家经验,对数据分析和处理的效率也有极大的提升。想了解更多模型算法,欢迎扫码观看直播回放!#DevRun开发者沙龙#营业中华为网络AI数据治理布道师及开发专家带你了解打车费的模型算法!!扫码观看直播回放↓↓↓【看点】剖析数据分析处理的背景,明确了数据处理分析在数据科学中的地位;分析jupyterlab的核心特性,介绍了NAIE如何基于jupyterlab构建交互式特征工程;对NYC taxi和硬盘两个数据集进行实践操作,介绍了NAE交互式特征工程在数据分析和处理方面的特性。【嘉宾】魏明东,华为网络AI开发专家,负责NAIE模型训练服务特征工程相关的设计与开发工作,9年电信领域软件设计开发工作经验,熟悉分布式系统、大数据、中间件等产品及技术应用,对电信领域AI模型训练平台及数据特征处理有较深入的理解。后希旭,华为网络AI开发专家,知乎专栏主编,负责华为网络AI开发平台的构建和运营,熟悉模型训练和在线推理。
  • [AI大赛] "华为云杯"2019人工智能创新应用大赛优胜奖方案分享-郭老师的弟子团队
    关于本次大赛的经验分享,主要可以分为以下几个方面一、数据分析数据共57个类别,3848张图片,类别间存在数据不均衡问题。存在一些长宽比过度偏离1的数据,针对这些图片进行相应目标区域的裁剪。个别类别间存在细粒度问题,例如红色的皮影和剪纸,小炒泡馍和葫芦头泡馍,针对这些困难类别着重做了数据扩充。数据扩充:数据来源:通过爬虫从谷歌,百度上爬取数据。扩充的准则:对官方数据集训练一个模型,利用该模型选出爬取数据中置信度较高的数据,                    对每个类别进行有差异的扩充,不断迭代更新数据集。二、数据增强1、HorizontalFlip  水平翻转   2、ColorJitter   亮度,饱和度,对比度变化3、RandomResizeCrop 随机裁剪缩放4、RandomErasing 随机遮挡5、Cutmix 剪切粘贴patch块6、Sharpen 随机图像锐化三、模型选择模型选用的是resnext101 32×4d尝试了添加空间注意力,全连接替换成KNN,Arcface等方法,但均未提高精度。四、超参数设置预训练参数:Imagenet-1k损失函数:CrossEntropyLoss + Label Smoothing优化器:SGD学习率:初始0.01,每5个epoch lr*0.7迭代次数:30~40 epoch图像大小:训练RandomResizeCrop(384)                      测试Resize(540)+CenterCrop(512)因为数据增强采用了RandomResizeCrop ,相当于对图像进行拉伸,所以训练采用小尺寸,测试采用大尺寸。五、应用我们采用的是微信小程序,把模型部署在云端,调用云端gpu,实现快速预测,解决了移动端算力不足的问题,并且如果修改模型,只需要在云端修改,即可实现移动端和云端的同步,方便管理。六、总结1、数据很大程度地决定了最后的精度,所以对爬虫数据的选择很重要, 应该多针对错误样本对数据集进行扩充和调整。2、在实验中大幅度提升精度的方法有RandomResizeCrop,Random Erasing,合适的训练尺寸,提高测试分辨率。3、训练时应该设置随机种子,保证结果可复现,并且在尽量控制变量的基础上逐步添加trick,记录好实验结果。
  • [问题求助] 在数据分析的离线分析中,桶路径如何获取,设备上传的数据存在桶的哪个文件呢
    自己有创建一个桶,也有创建一个清单,数据是存在清单里面吗?
  • [问题求助] IOT数据分析找不到自己在开发中心创建的产品
  • [技术干货] 【武汉HDZ】Python算法聚类分析算法——K-Means聚类算法
    【Python算法】聚类分析算法——K-Means聚类算法1. K-Means聚类算法过程  K-Means 是最常用的聚类方法之一,属于划分方法。  (1) 从N个样本数据中随机选取 K 个对象作为初始的聚类中心;  (2) 分别计算每个样本到各个聚类中心的距离,将对象分配到距离最近的聚类中;  (3) 所有对象分配完成后,重新计算 K 个聚类的中心;  (4) 与前一次计算得到的 K 个聚类中心比较,如果聚类中心发生变化,转过程(2),否则转过程(5);  (5) 当质心不发生变化时停止并输出聚类结果。2. K-Means聚类的主要特点  1.需要在开始时指定类别的数量,可以凭借直觉,也可以采用交叉验证或信息论的方法;  2.聚类的结果不是决定性的,即根据初始随机指定的几何中心不同,得到的最终聚类结果也会不同。3. K-Means聚类语法结构  在 Python 中,Scikit-Learn 库提供了 KMeans 类,其构造函数为:sklearn.cluster.KMeans(   n_clusters=8,   init='k-means++',   n_init=10,   max_iter=300,   tol =0.0001,   precompute_distances='auto',   verbose=0,    random_state=None,    copy_x=True,   n_jobs=1,    algorithm='auto')  其主要参数有:  (1) n_clusters:int 型,可选,默认为(8)。最终需要形成的几何中心数目,即类别个数;  (2) max_iter:int 型,默认为(300)。每次运行的最大迭代次数;  (3) n_init:int 型,默认为(10)。选用不同的初始化中心进行聚类的次数。4.K-Means聚类主要属性有  (4) cluster_centers_:[n_clusters,n_features] 大小的数组。聚类中心的坐标;  (5) labels_:每个点的分类结果;  (6) inertia_:float 型,样本到最近聚合中心的距离和。5.实验操作    5.1.操作系统  操作机:Linux_Ubuntu  操作机默认用户:root    5.2.实验工具        5.2.1.python  Python是一种计算机程序设计语言。是一种动态的、面向对象的脚本语言,最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越来越多被用于独立的、大型项目的开发。Python已经成为最受欢迎的程序设计语言之一。自从2004年以后,python的使用率呈线性增长。2011年1月,它被TIOBE编程语言排行榜评为2010年度语言。      由于Python语言的简洁性、易读性以及可扩展性,在国外用Python做科学计算的研究机构日益增多,一些知名大学已经采用Python来教授程序设计课程。例如卡耐基梅隆大学的编程基础、麻省理工学院的计算机科学及编程导论就使用Python语言讲授。      众多开源的科学计算软件包都提供了Python的调用接口,例如著名的计算机视觉库OpenCV、三维可视化库VTK、医学图像处理库ITK。而Python专用的科学计算扩展库就更多了,例如如下3个十分经典的科学计算扩展库:NumPy、SciPy和matplotlib,它们分别为Python提供了快速数组处理、数值运算以及绘图功能。因此Python语言及其众多的扩展库所构成的开发环境十分适合工程技术、科研人员处理实验数据、制作图表,甚至开发科学计算应用程序。        5.2.2.Numpy  NumPy系统是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多(该结构也可以用来表示矩阵(matrix))。  NumPy(Numeric Python)提供了许多高级的数值编程工具,如:矩阵数据类型、矢量处理,以及精密的运算库。专为进行严格的数字处理而产生。多为很多大型金融公司使用,以及核心的科学计算组织如:Lawrence Livermore,NASA用其处理一些本来使用C++,Fortran或Matlab等所做的任务。        5.2.3.scikit-learn      scikit-learn,Python 中的机器学习,简单高效的数据挖掘和数据分析工具,可供大家使用,可在各种环境中重复使用,建立在 NumPy,SciPy 和 matplotlib 上开放源码,可商业使用 - BSD license。        5.2.4.Matplotlib       Matplotlib 是一个 Python 的 2D绘**,它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形。通过 Matplotlib,开发者可以仅需要几行代码,便可以生成绘图,直方图,功率谱,条形图,错误图,散点图等。        5.2.5.pandas        Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。    5.3导入所需要的库:numpy,matplotlib.pyplot,pandas代码如下:# Importing the libraries import numpy as np import matplotlib.pyplot as plt import pandas as pd    5.4.加载数据集代码如下:# Importing the dataset dataset = pd.read_csv('数据集路径.CSV') X = dataset.iloc[:, 3:5].values注意:实验中以数据集的实际地址为准。(可以自建实验数据CSV格式)    5.5.使用sklearn中的k-means方法对数据进行聚类,并对其参数选择进行评估# Using the elbow method to find the optimal number of clusters from sklearn.cluster import KMeans wcss = [] for i in range(1,11):     kmeans = KMeans(n_clusters = i, max_iter = 300, n_init = 10, init = 'k-means++', random_state = 0)     kmeans.fit(X)     wcss.append(kmeans.inertia_) plt.plot(range(1,11), wcss) plt.title('The Elbow Method') plt.xlabel('Number of Clusters') plt.ylabel('WCSS') plt.show()WCSS下降曲线如下:  在选择参数时,选择速度转换最快的阶段与下一阶段的转折点。  由图可知:聚类数量为5。    5.6.将k-means算法用于数据集# Applying the k-means to the mall dataset kmeans = KMeans(n_clusters = 5, max_iter = 300, n_init = 10, init = 'k-means++', random_state = 0) y_kmeans = kmeans.fit_predict(X)    5.7.可视化聚类结果# Visualizing the clusters plt.scatter(X[y_kmeans == 0, 0], X[y_kmeans == 0, 1], s = 100, c = 'red', label = 'Careful') plt.scatter(X[y_kmeans == 1, 0], X[y_kmeans == 1, 1], s = 100, c = 'blue', label = 'Standard') plt.scatter(X[y_kmeans == 2, 0], X[y_kmeans == 2, 1], s = 100, c = 'green', label = 'Target') plt.scatter(X[y_kmeans == 3, 0], X[y_kmeans == 3, 1], s = 100, c = 'cyan', label = 'Careless') plt.scatter(X[y_kmeans == 4, 0], X[y_kmeans == 4, 1], s = 100, c = 'magenta', label = 'Sensible') plt.scatter(kmeans.cluster_centers_[:, 0],  kmeans.cluster_centers_[:, 1], s = 300, c = 'yellow', label = 'Centroids') plt.title('Clusters of clients') plt.xlabel('Annual Income (k$)') plt.ylabel('Spending Score (1-100)') plt.legend() plt.show()聚类结果如下:
  • 华为云夺得信息检索权威竞赛WSDM Cup 2020金牌,参赛方案全解读
    近日,在美国休斯敦闭幕的第13届网络搜索与数据挖掘国际会议(WSDM 2020)上,华为云语音语义创新Lab带领来自华南理工大学、华中科技大学、江南大学、武汉大学的四位学生组成的联合团队“Xiong团队”,摘得WSDM Cup 2020大赛“论文引用意图识别任务”金牌(Gold Medal)。WSDM被誉为全球信息检索领域最有影响力也最权威的会议之一,会议关注社交网络上的搜索与数据挖掘,尤其关注搜索与数据挖掘模型、算法设计与分析、产业应用和提升准确性与效果的实验分析。今年已经是WSDM的第十三届会议。本文将详细介绍本次获奖的解决方案。1、背景几个世纪以来,社会技术进步的关键在于科学家之间坦诚的学术交流。新发现和新理论在已发表的文章中公开分发和讨论,有影响力的贡献则通常被研究界以引文的形式认可。然而,随着科研经费申请竞争日趋激烈,越来越多的人把学术研究当成一种资源争夺的手段,而不是单纯为了推动知识进步。部分期刊作者“被迫”在特定期刊中引用相关文章,以提高期刊的影响因子,而论文审稿人也只能增加期刊的引用次数或h指数。这些行为是对科学家和技术人员所要求的最高诚信的冒犯,如果放任这种情况发展,可能会破坏公众的信任并阻碍科学技术的未来发展。因此,本次WSDM Cup 2020赛题之一将重点放在识别作者的引文意图:要求参赛者开发一种系统,该系统可以识别学术文章中给定段落的引文意图并检索相关内容。  华为云语音语义创新Lab在自然语言处理领域有着全栈的技术积累,包括自然语言处理基础中的分词、句法解析,自然语言理解中的情感分析、文本分类、语义匹配,自然语言生成,对话机器人,知识图谱等领域。其中和本次比赛最相关的技术是语义匹配技术。Xiong团队通过对赛题任务进行分析,针对该问题制定了一种“整体召回+重排+集成”的方案,该方案以轻量化的文本相似度计算方法(如BM25等)对文章进行召回,然后基于深度学习的预训练语言模型BERT等进行重排,最后通过模型融合进行集成。2、赛题介绍本次比赛将提供一个论文库(约含80万篇论文),同时提供对论文的描述段落,来自论文中对同类研究的介绍。参赛选手需要为描述段落匹配三篇最相关的论文。例子:描述:An efficient implementation based on BERT [1] and graph neural network (GNN) [2] is introduced.相关论文:[1] BERT: Pre-training of deep bidirectional transformers for language understanding.[2] Relational inductive biases, deep learning, and graph networks.评测方案:3、数据分析本次赛题共给出80多万条候选论文,6万多条训练样本和3万多条本测试样本,候选论文包含paper_id,title,abstract,journal,keyword,year这六个字段的信息,训练样本包含description_id,paper_id,description_text这三个字段的信息,而测试数据则给出description_id和description_text两个字段,需要匹配出相应的paper_id。我们对数据中候选论文的title,abstract以及描述文本的长度做了一些统计分析,如图1所示,从图中我们可以看到文本长度都比较长,并且针对我们后续的单模型,我们将模型最大长度从300增加到512后,性能提升了大约1%。图1 候选论文的Title(a),Abstract(b)以及描述文本(c)的长度分布4、整体方案我们方案的整体架构如图2所示,整体方案分为四个部分:数据处理,候选论文的召回,候选论文的重排以及模型融合。图2 整体方案架构(部分图引自[5])4.1 数据处理通过观察数据我们发现,在标题给出的描述语句中,有许多相同的描述文本,但是参考标记的位置却不同。也就是说,在同一篇文章中,不同的句子引用了不同的论文。为此,我们抽取句子中引用标记位置处的语句作为新的描述语句生成候选集。如表1所示,我们选取描述中[[**##**]]之前的句子作为描述关键句。Description   TextExtracted   Key SentenceRat   brain membrane preparation and opioid binding was performed as described   previously by Loukas et al. [[**##**]]. Briefly,   binding was performed in Tris-HCl buffer (10 mM, pH 7.4), in a final volume   of 1.0 ml. The protein concentration was 300 μg/assay.Rat brain   membrane preparation and opioid binding was performed as described previously   by Loukas et al.表1 描述关键句生成4.2候选论文召回如图3所示,我们运用BM25和TF-IDF来进行论文的召回,选取BM25召回的前80篇论文和TF-IDF召回的前20篇论文构成并集组成最终的召回论文。图3 召回示意图4.3候选论文重排在本方案中,我们用BERT模型作为基础模型,BERT是一种能在基于查询的文章重排任务中取得良好性能的语义表示模型。通过观察数据发现,论文主要数据生物医学领域,于是我们聚焦到采用生物医学领域数据训练预训练模型。然后将查询与描述字段以句子对的形式输入进BERT模型进行训练。我们的实验表明,在该任务上,单个的BioBERT的性能要比BERT性能高5个百分点。如图4为BioBERT的结构图。图4 BioBERT结构图 (图引自[6])4.4 模型融合在模型融合的过程中,我们运用了6种共9个经过科学和生物医药语料库训练的预训练模型分别为:BioBERT_v1.1* 3, BioBERT_v1.0_PubMed_PMC * 2, BioBERT_v1.0_PubMed* 1,BioBERT_v1.0_PMC * 1, BioBERT_dish*1,SciBERT* 1。他们的单模型在该任务中的性能如表2所示。表2 单模型性能MethodMAP@3BioBERT_v1.10.394BioBERT_v1.0_PubMed_PMC0.391BioBERT_v1.0_PubMed0.382BioBERT_v1.0_PMC0.380SciBERT0.374BioBERT_dish [10]0.365Blended Model0.407然后我们对单模型输出的概率结果进行blending操作如图5所示,得到最后的模型结果,其比最好的单模型结果提升了1个百分点左右。图5 模型融合5、总结与展望本文主要对比赛中所使用的关键技术进行了介绍,如数据处理,候选论文的召回与重排,模型融合等。在比赛中使用专有领域训练后的预训练模型较通用领域预训练模型效果有较大的提升。由于比赛时间的限制,许多方法还没来得及试验,比如在比赛中由于正负样本不平衡,导致模型训练结果不理想,可以合理的使用上采样或下采样来使样本达到相对平衡,提升模型训练效果。参考文献[1] Yang W, Zhang H, Lin J. Simple applications of BERT for ad hoc document retrieval[J]. arXiv preprint arXiv:1 03.10972, 2019.[2] Gupta V, Chinnakotla M, Shrivastava M. Retrieve and re-rank: A simple and effective IR approach to simple question answering over knowledge graphs[C]//Proceedings of the First Workshop on Fact Extraction and VERification (FEVER). 2018: 22-27.[3] Peters M E, Neumann M, Iyyer M, et al. Deep contextualized word representations[J]. arXiv preprint arXiv:18 02.05365, 2018.[4] Radford A, Wu J, Child R, et al. Language models are unsupervised multitask learners[J]. OpenAI Blog, 2019, 1(8): 9.[5] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. (2018) BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv preprint arXiv:1810.04805,.[6] Jinhyuk Lee, Wonjin Yoon, Sungdong Kim, Donghyeon Kim, Sunkyu Kim, Chan Ho So, Jaewoo Kang,(2019) BioBERT: a pre-trained biomedical language representation model for biomedical text mining, Bioinformatics,[7] Iz Beltagy, Kyle Lo, Arman Cohan. (2019) SciBERT: A Pretrained Language Model for Scientific Text, arXiv preprint arXiv:1903.10676SciBERT: A Pretrained Language Model for Scientific Text, arXiv preprint arXiv:1903.10676, 2019.[8] Nogueira R, Cho K.(2019) Passage Re-ranking with BERT. arXiv preprint arXiv:1901.04085.[9] Alsentzer E, Murphy J R, Boag W, et al. Publicly available clinical BERT embeddings[J]. arXiv preprint arXiv:1904.03323, 2019.
  • 华为云夺得信息检索权威竞赛WSDM Cup 2020金牌,参赛方案全解读
    近日,在美国休斯敦闭幕的第13届网络搜索与数据挖掘国际会议(WSDM 2020)上,华为云语音语义创新Lab带领来自华南理工大学、华中科技大学、江南大学、武汉大学的四位学生组成的联合团队“Xiong团队”,摘得WSDM Cup 2020大赛“论文引用意图识别任务”金牌(Gold Medal)。WSDM被誉为全球信息检索领域最有影响力也最权威的会议之一,会议关注社交网络上的搜索与数据挖掘,尤其关注搜索与数据挖掘模型、算法设计与分析、产业应用和提升准确性与效果的实验分析。今年已经是WSDM的第十三届会议。本文将详细介绍本次获奖的解决方案。1、背景几个世纪以来,社会技术进步的关键在于科学家之间坦诚的学术交流。新发现和新理论在已发表的文章中公开分发和讨论,有影响力的贡献则通常被研究界以引文的形式认可。然而,随着科研经费申请竞争日趋激烈,越来越多的人把学术研究当成一种资源争夺的手段,而不是单纯为了推动知识进步。部分期刊作者“被迫”在特定期刊中引用相关文章,以提高期刊的影响因子,而论文审稿人也只能增加期刊的引用次数或h指数。这些行为是对科学家和技术人员所要求的最高诚信的冒犯,如果放任这种情况发展,可能会破坏公众的信任并阻碍科学技术的未来发展。因此,本次WSDM Cup 2020赛题之一将重点放在识别作者的引文意图:要求参赛者开发一种系统,该系统可以识别学术文章中给定段落的引文意图并检索相关内容。  华为云语音语义创新Lab在自然语言处理领域有着全栈的技术积累,包括自然语言处理基础中的分词、句法解析,自然语言理解中的情感分析、文本分类、语义匹配,自然语言生成,对话机器人,知识图谱等领域。其中和本次比赛最相关的技术是语义匹配技术。Xiong团队通过对赛题任务进行分析,针对该问题制定了一种“整体召回+重排+集成”的方案,该方案以轻量化的文本相似度计算方法(如BM25等)对文章进行召回,然后基于深度学习的预训练语言模型BERT等进行重排,最后通过模型融合进行集成。2、赛题介绍本次比赛将提供一个论文库(约含80万篇论文),同时提供对论文的描述段落,来自论文中对同类研究的介绍。参赛选手需要为描述段落匹配三篇最相关的论文。例子:描述:An efficient implementation based on BERT [1] and graph neural network (GNN) [2] is introduced.相关论文:[1] BERT: Pre-training of deep bidirectional transformers for language understanding.[2] Relational inductive biases, deep learning, and graph networks.评测方案:3、数据分析本次赛题共给出80多万条候选论文,6万多条训练样本和3万多条本测试样本,候选论文包含paper_id,title,abstract,journal,keyword,year这六个字段的信息,训练样本包含description_id,paper_id,description_text这三个字段的信息,而测试数据则给出description_id和description_text两个字段,需要匹配出相应的paper_id。我们对数据中候选论文的title,abstract以及描述文本的长度做了一些统计分析,如图1所示,从图中我们可以看到文本长度都比较长,并且针对我们后续的单模型,我们将模型最大长度从300增加到512后,性能提升了大约1%。图1 候选论文的Title(a),Abstract(b)以及描述文本(c)的长度分布4、整体方案我们方案的整体架构如图2所示,整体方案分为四个部分:数据处理,候选论文的召回,候选论文的重排以及模型融合。图2 整体方案架构(部分图引自[5])4.1 数据处理通过观察数据我们发现,在标题给出的描述语句中,有许多相同的描述文本,但是参考标记的位置却不同。也就是说,在同一篇文章中,不同的句子引用了不同的论文。为此,我们抽取句子中引用标记位置处的语句作为新的描述语句生成候选集。如表1所示,我们选取描述中[[**##**]]之前的句子作为描述关键句。Description   TextExtracted   Key SentenceRat   brain membrane preparation and opioid binding was performed as described   previously by Loukas et al. [[**##**]]. Briefly,   binding was performed in Tris-HCl buffer (10 mM, pH 7.4), in a final volume   of 1.0 ml. The protein concentration was 300 μg/assay.Rat brain   membrane preparation and opioid binding was performed as described previously   by Loukas et al.表1 描述关键句生成4.2候选论文召回如图3所示,我们运用BM25和TF-IDF来进行论文的召回,选取BM25召回的前80篇论文和TF-IDF召回的前20篇论文构成并集组成最终的召回论文。图3 召回示意图4.3候选论文重排在本方案中,我们用BERT模型作为基础模型,BERT是一种能在基于查询的文章重排任务中取得良好性能的语义表示模型。通过观察数据发现,论文主要数据生物医学领域,于是我们聚焦到采用生物医学领域数据训练预训练模型。然后将查询与描述字段以句子对的形式输入进BERT模型进行训练。我们的实验表明,在该任务上,单个的BioBERT的性能要比BERT性能高5个百分点。如图4为BioBERT的结构图。图4 BioBERT结构图 (图引自[6])4.4 模型融合在模型融合的过程中,我们运用了6种共9个经过科学和生物医药语料库训练的预训练模型分别为:BioBERT_v1.1* 3, BioBERT_v1.0_PubMed_PMC * 2, BioBERT_v1.0_PubMed* 1,BioBERT_v1.0_PMC * 1, BioBERT_dish*1,SciBERT* 1。他们的单模型在该任务中的性能如表2所示。表2 单模型性能MethodMAP@3BioBERT_v1.10.394BioBERT_v1.0_PubMed_PMC0.391BioBERT_v1.0_PubMed0.382BioBERT_v1.0_PMC0.380SciBERT0.374BioBERT_dish [10]0.365Blended Model0.407然后我们对单模型输出的概率结果进行blending操作如图5所示,得到最后的模型结果,其比最好的单模型结果提升了1个百分点左右。图5 模型融合5、总结与展望本文主要对比赛中所使用的关键技术进行了介绍,如数据处理,候选论文的召回与重排,模型融合等。在比赛中使用专有领域训练后的预训练模型较通用领域预训练模型效果有较大的提升。由于比赛时间的限制,许多方法还没来得及试验,比如在比赛中由于正负样本不平衡,导致模型训练结果不理想,可以合理的使用上采样或下采样来使样本达到相对平衡,提升模型训练效果。参考文献[1] Yang W, Zhang H, Lin J. Simple applications of BERT for ad hoc document retrieval[J]. arXiv preprint arXiv:1 03.10972, 2019.[2] Gupta V, Chinnakotla M, Shrivastava M. Retrieve and re-rank: A simple and effective IR approach to simple question answering over knowledge graphs[C]//Proceedings of the First Workshop on Fact Extraction and VERification (FEVER). 2018: 22-27.[3] Peters M E, Neumann M, Iyyer M, et al. Deep contextualized word representations[J]. arXiv preprint arXiv:18 02.05365, 2018.[4] Radford A, Wu J, Child R, et al. Language models are unsupervised multitask learners[J]. OpenAI Blog, 2019, 1(8): 9.[5] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. (2018) BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv preprint arXiv:1810.04805,.[6] Jinhyuk Lee, Wonjin Yoon, Sungdong Kim, Donghyeon Kim, Sunkyu Kim, Chan Ho So, Jaewoo Kang,(2019) BioBERT: a pre-trained biomedical language representation model for biomedical text mining, Bioinformatics,[7] Iz Beltagy, Kyle Lo, Arman Cohan. (2019) SciBERT: A Pretrained Language Model for Scientific Text, arXiv preprint arXiv:1903.10676SciBERT: A Pretrained Language Model for Scientific Text, arXiv preprint arXiv:1903.10676, 2019.[8] Nogueira R, Cho K.(2019) Passage Re-ranking with BERT. arXiv preprint arXiv:1901.04085.[9] Alsentzer E, Murphy J R, Boag W, et al. Publicly available clinical BERT embeddings[J]. arXiv preprint arXiv:1904.03323, 2019.
  • 华为云获DigSci科学数据挖掘大赛冠军
    近日,华为云在文本检索领域取得进展,基于自然语言处理领域的领先技术积累,华为云语音语义创新Lab在DigSci科学数据挖掘大赛上夺冠,精准率超过第二名5个百分点。DigSci科学数据挖掘大赛是清华AMiner、智源实验室、微软联合举办的学术论文搜索匹配大赛,属于语义匹配检索领域,旨在从学术材料中挖掘知识。比赛提供一个约含20万篇论文的论文库,同时提供对论文的文字描述,描述来自论文中对同类研究的介绍,参赛选手需要为描述段落匹配三篇最相关的论文。本次比赛吸引了来自包括清华、北大、浙大、复旦等全国著名高校和企业组成的100多支专业队伍参加。学术论文是人类最前沿的知识载体,通过自然语言处理技术,自动识别一段文本描述最相关的论文,可以在学术搜索、科研知识图谱、科研自动问答系统、科研自动摘要等领域落地。本次比赛的难点在于给定描述段落匹配的一篇论文(正样本),在没有负样本的情况下要求参赛者给出一个描述段落最匹配的三篇论文。参赛者需要从大规模论文库中匹配最相关的论文,涉及到语义表示、语义检索等技术难点。如何缩小搜索范围以及如何确保缩小的搜索范围包含了与描述匹配的论文成为比赛的关键技术。华为云联合武汉大学、重庆邮电大学,凭借华为云语音语义创新Lab在自然语言处理领域深厚的技术积累,采用了候选训练集自动生成、自动特征抽取和选择、深度学习文本匹配算法、模型融合集成等技术。华为云自然语言处理专家提出的候选训练集自动生成技术对模型取得优异结果起到了关键作用。该技术针对一个描述段落,自动从大规模论文库中生成一个候选训练集合,并通过语义表示和语义匹配确保候选集中包含了待匹配论文。同时采样负样本,构建出均衡的正负样本集合用于训练有监督的深度语义匹配模型。华为云获DigSci科学数据挖掘大赛冠军
  • [大赛公告] 大赛常见FAQ
    常见问题整理 (数据分析赛):1. 比赛中model arts的资源是收费的吗?答:点击链接即可获得modelarts资源新手包https://console.huaweicloud.com/modelarts/?region=cn-north-1#/userPackageWindow 2. 货柜车到港预测比赛的7个数据集都要作为历史数据吗?答:这7个数据都可以作为历史数据,用于分析整个深圳市货柜车的行驶轨迹。 3. “营运车辆GPS”中 GPS经、纬度的数据格式(8位十进制)有具体的说明或参考么?答: 关于坐标系,请参赛者使用前两位数值作为车辆定位的经度和纬度,将该值除以600,000,得到WGS 84坐标系下的经纬度。 4. Python3.6。除了华为提供的标准库和以及一些特殊的库,参赛者不允许使用其他未经许可的第三方库。请具体说明下允许使用的库有哪些?答:在modelarts notebook中 执行!pip list 列表中的库都可以用。 5. 货柜车到岗预测比赛,提交作品的次数限制是每天10次,还是总共10次?答:每天10次。 6. 请问实时排名是定时更新还是实时更新?答:分数实时更新,排名隔天刷新。 其他问题整理:1.如何在深圳市政府数据开放平台找到比赛数据?答:登录深圳市政府数据开放平台(https://opendata.sz.gov.cn/),在搜索框内输入“创新大赛”,搜索结果可以看到右上角打上“创新大赛”标签的数据,这些数据即为本次大赛专用数据。除此之外,深圳市政府数据开放平台上其他所有数据均可使用。 2.请问报名成功后,还能添加选手(队友)进入比赛吗?答:选手报名成功后,还能再添加其他人。登录后进入“个人中心->团队信息”,点击右上方“修改”按钮进入团队信息修改页面,点击“添加成员”即可添加其他队员。队长信息不可更改。 3.报名、答疑大概需要多久时间?答:审核最多需要一天时间。如需了解审核进度,可以扫描“参赛指南->疑问解答”板块下方留言框右边的二维码添加大赛客服微信了解,或者发邮件至gaofeng@jiqizhixin.com咨询。 4.看数据只是部分数据,初赛只能用样本数据是吗?决赛有完整数据吗?答:交通流量的是完整的,货柜车到岗的数据还没上。除数据分析会在决赛阶段提供更多数据外,其他赛题目前提供的数据就是整个大赛所有数据。 5.知识产权问题?答:竞赛参与企业、团体或个人需对参赛作品的著作权负责,须确保对参赛作品涉及知识产权的拥有权。赛事主办方和承办方有权在展览区域、赛事官网和相关媒体宣传等活动范围内,公布参赛作品相关信息,包括参赛者信息、作品概述和介绍等。 6. 报名后可以更改赛题吗?答: 需要跟客服报备,在提交作品时也需要额外备注说明。 7. 咨询一下企业报名是需要现在就确认具体人员名单吗?答:企业报名还是要定队长身份,可以直接使用企业名称作为队伍名称,或者在描述信息里备注所属企业。 8. 数据分析赛-高光谱视频水质分析决赛阶段数据处理团队可否远程参赛,处理团队不去现场?答:可以远程参赛,只要在指定时间反馈结果就行。 9.进入决赛后的训练营是怎样的形式开展?整个参赛团队都可以参加培训吗?答:人工智能训练营主要面向数据分析赛(含坪山视频分析赛)的参赛者,名额为100个,将在坪山区组织一天的AI相关技术培训,并对数据分析赛赛题进行解析,原则上采用先报名先得的原则,可以整个团队报名参加,报名在7月初正式开始。 10. 赛事中有需要参赛方付费的事项吗?答:赛事中不涉及需要参赛方付费的事项,如有第三方要求付费,请第一时间报SODiC客服。参赛者为提升作品质量,自行购买的第三方服务,由参赛者自行负责。
  • [上云精品] 【国云数据】高校商科类专业要教大数据,实验课程怎么办?
    苏州国云数据科技有限公司国云数据是中国顶级的大数据技术服务运营商,拥有国家自主可控并国际领先大数据技术和产品,旗下有世界领先的大数据操作系统,致力于让人人都能使用数据,专注于帮助一流企业和政府大数据规划和实践,逐步走向国际化的中国大数据民族品牌。国云数据由原阿里巴巴数据部门核心成员于2011年创立,拥有北京、河南、内蒙古等多个子公司与研发中心,拥有百余多项大数据技术著作权和专利。旗下大数据分析平台:有11万企业客户使用,旗下大数据实验平台有100多所高校在使用,同时面向政府的大数据交换共享、分析挖掘、应用服务平台,已在贵州、内蒙、苏州、北京、部委、公安、工业等省和市使用。国云教育是国云数据旗下品牌和垂直事业部,专注于为高校提供大数据分析应用类教学、科研、培训等一体化平台和解决方案,包含大数据分析应用实验平台环境,大数据经管类专业课程开发,大数据师资培训和数据分析技能竞赛等内容。目前已服务包括安徽大学、华东师范大学、哈尔滨商业大学、无锡职业技术学院、武汉职业技术学院等100多家本科和高职院校。国云数据在商科大数据人才培养方面的优势大数据分析应用实训平台介绍大数据分析应用实验列表和商科数据课程体系增值服务:大数据分析比赛增值服务:大数据分析师资培训
  • [产品体验官] 华为云MapReduce产品体验及评测-from lily-广州-数据挖掘
         首先非常感谢华为提供机会参与到华为MapReduce产品体验及评测,但是由于时间紧,评测的不够仔细,只能粗浅的说说自己的一些想法,欢迎拍砖。         体验《使用Spark实现车联网车主驾驶行为分析》。1.操作体验:是否能够顺畅的创建集群,提交作业,跑组件的样例程序顺畅度:用户体验:文档操作和视频都需要在新版的首页中迭代啦,例如登录“公有云管理控制台”,在首页搜索框中按关键词搜索和下拉菜单中都没有找到公有云管理控制台路径。再仔细看视频的操作路径也是需要迭代的。最后通过搜索“统一身份认证服务”才行。IAM配置明明已经配置好了,在购买接入通道的时候还是需要委托2.性能:您在体验过程中使用了哪些组件,跟自己搭建CDH,或者用过友商的对标组件相比,性能如何?暂无比较3.功能特性:对比体验官用过的其他大数据平台,是否有哪些功能需要补齐或加强?提高连贯性。在日常的工作中,特别是这种傻瓜式的好产品,需要提供一站式操作页面。例如我在做这个例子的时候,需要打开无数个窗口,操作连贯性不是特别好数据存储和处理只是前期工作,如何将处理后的数据,连惯的在系统中进行下一步的分析挖掘和可视化提供动态的可视化组件,例如一键生成大屏4.满意度及推荐度:当自己的项目或是公司有大数据应用的需求时,是否愿意自己使用或推荐身边的同事朋友使用华为云MRS服务?什么原因促使你做出这个结论?愿意老板信任华为等国内企业的云,公司硬件设备为华为华为技术功底扎实,可靠PS:论坛有个bug,最后几行我设置的明明是绿色字体,最后发表出来是黑色字体
  • [产品体验官] 华为云开源软件镜像站体验
        华为云开源软件镜像系统包含了很多常用的软件,如Atom、Electron等常用工具软件,CentOS、Debian、Fedora等系统镜像。本次测评主要针对语言类开发组建测评,包括Maven、SBT、PHP、NuGet、NPM。        一、Maven镜像软件使用体验测评:常用语言类镜像软件在首页就能找到,可见推荐算法非常智能且高效,提高用户查找软件的速度;通过分类搜索,极大的提高了不同需求用户查找软件的速度;虽然网速只有1M,但是网业响应速度非常快。建议:分类比较粗略,如果一款软件可以对应多个标签,那么用户通过选择标签来快速查找需要的软件镜像。        二、STB镜像软件使用体验同样是在官网,在搜索栏输入SBT,可以很快搜索出SBT软件镜像,搜索速度非常快。sbt全称为Simple build tool,是Scala的标准构建工具。点击SBT进入下载页面。从图中可以看出,网业显示中的STB的仓库配置文件中没有定义通信协议地址。在下载文件中定义了HTTP通信协议,如下图所示。体验:       建议尽量通过下载配置文件的方式下载镜像软件。建议:       修改网业页面的STB配置文件问题。        三、PHP镜像软件体验在官网上搜索php就可以找到对应的语言镜像软件,搜索速度十分快,如下图所示。如上图所示,可以通过两种方式下载该软件:在终端通过命令行下载,或是在IDE中配置json文件来下载软件。如果需要安装composer软件可以从窗口下面的相关网址找到该软件的下载地址,使用非常方便,设计非常人性化。        四、NPM镜像软件体验    在华为云镜像的主页搜索NPM会搜索到下面三个软件镜像,io.js\NPM\NPM-Sotfware.体验:显然,搜索引擎不但可以按软件名字进行搜索,同时还可以在软件介绍中匹配关键字,找到相关的软件,用户搜索非常方便!每一款软件下面都有更新时间,实时提醒用户该软件的更新情况,对于一些频繁更新的软件来说,这样的设置非常人性化!建议:虽然有点赞效果,但是并没有意见反馈留言板,并不能很好的了解用户对该软件的好评与建议。从相关网站网址中可以看到,推送的各种相关软件,有Js\Python\Selenium等,这些软件的相关度非常高,可以很好的涵盖数据分析、数据挖掘、数据可视化等岗位需求。这些软件无一例外都是官网的软件,能否换成华为云镜像软件呢?从相关网站网址中可以看到,推送的各种相关软件,有Js\Python\Selenium等,这些软件的相关度非常高,可以很好的涵盖数据分析、数据挖掘、数据可视化等岗位需求。这些软件无一例外都是官网的软件,能否换成华为云镜像软件呢?
  • 清华大学基于华为云高性能计算解决方案完成癌症基因组学大数据分析项目
    本帖最后由 speedy2016 于 2018-6-28 20:11 编辑清华大学基于华为云高性能计算解决方案完成癌症基因组学大数据分析项目 近期,清华大学生命科学学院杨雪瑞课题组基于华为云HPC基因组学大数据分析解决方案,完成了二十余种癌症的转录调控网络构建。华为云针对项目的大规模计算需求进行了个性化配置,极大的减少计算时间,从海量癌症多组学数据中挖掘基因转录调控通路,向揭示癌症发生发展机制又迈进了一大步。 该项目主要是为了探索在癌症进程中,转录因子(TFs)、靶基因(target genes)、长链非编码RNA(lncRNAs)三者之间的调控关系,构建转录调控网络;并基于该网络揭示癌症的发生发展机制,同时比较不同癌症中转录调控网络的异同。近年来,随着基因测序数据的不断积累和壮大,长链非编码RNA(lncRNAs)不断被发现并且执行了重要的生物学功能。因此在传统的转录因子和靶基因的调控关系中加入长链非编码RNA的因素,构建新型的转录调控网络,为探索癌症的发生过程和调控机制提供了新的可能。 基于华为云成熟的HPC解决方案,为该项目提供了极具针对性的资源配置优化,实现了大规模计算资源的合理分配,不仅实现了高效率计算,还节省了30%以上的时间成本。 当前华为云HPC基因测序方案,可提供基于FPGA测序加速的基因测序主机、基于超高IO块存储构建的lustre集群,以及超高上传下载性能的OBS browser工具和120TB大容量传送立方数据快递服务。相比传统基因测序流程可缩短5倍的测序时间,综合成本可降低40%。 清华大学生命科学学院有着悠久的历史,在科学研究、学科建设和人才培养方面都有着强大的优势,已发展成为我国最具特色和最有影响力的生命科学科研和教学基地之一。以基因组学为重要研究内容之一的计算生物学是学院的重要发展方向,而相关研究的深入也对高性能计算资源提出了大量迫切的需求。 测序行业的持续繁荣和测序数据的快速增长对平台的计算能力以及数据安全都提出了更大的挑战。未来,随着测序技术的不断发展,华为云将联合科研伙伴一起不断推动基因行业的发展和进步。