-
正切传播也涉及到双反向传播(Drucker and LeCun, 1992) 和对抗训练(Szegedy et al., 2014a; Goodfellow et al., 2014b)。双反向传播正则化使Jacobian矩阵偏小,而对抗训练找到原输入附近的点,训练模型在这些点上产生与原来输入相同的输出。正切传播和手动指定转换的数据集增强都要求模型在输入变化的某些特定的方向上保持不变。双反向传播和对抗训练都要求模型对输入所有方向中的变化(只要该变化较小)都应当保持不变。正如数据集增强是正切传播非无限小的版本,对抗训练是双反向传播非无限小的版本。流形正切分类器 (Rifai et al., 2011d) 无需知道切线向量的先验。我们将在第十四章看到,自编码器可以估算流形的切向量。流形正切分类器使用这种技术来避免用户指定切向量。这些估计的切向量不仅对图像经典几何变换(如转化、旋转和缩放)保持不变,还必须掌握对特定对象(如移动身体的部分)保持不变的因素。因此根据流形正切分类器提出的算法相当简单:(1)使用自编码器通过无监督学习来学习流形的结构,以及(2)如正切传播(式 (7.67) )一样使用这些切面正则化神经网络分类器。
-
在许多情况下,神经网络在独立同分布的测试集上进行评估已经达到了人类表现。因此,我们自然要怀疑这些模型在这些任务上是否获得了真正的人类层次的理解。为了探索网络对底层任务的理解层次,我们可以探索这个模型错误分类的例子。 Szegedy et al. (2014b) 发现,在精度达到人类水平的神经网络上通过优化过程故意构造数据点,其上的误差率接近100%,模型在这个输入点 x′ 的输出与附近的数据点 x 非常不同。在许多情况下,x′ 与 x 非常近似,人类观察者不会察觉原始样本和对抗样本(adversarial example)之间的差异,但是网络会作出非常不同的预测。见图 7.8 中的例子。对抗样本在很多领域有很多影响,例如计算机安全,这超出了本章的范围。然而,它们在正则化的背景下很有意思,因为我们可以通过对抗训练(adversarial training)减少原有独立同分布的测试集的错误率——在对抗扰动的训练集样本上训练网络 (Szegedy et al., 2014b; Goodfellow et al., 2014b)。Goodfellow et al. (2014b) 表明,这些对抗样本的主要原因之一是过度线性。神经网络主要是基于线性块构建的。因此在一些实验中,它们实现的整体函数被证明是高度线性的。这些线性函数很容易优化。不幸的是,如果一个线性函数具有许多输入,那么它的值可以非常迅速地改变。如果我们用 ϵ 改变每个输入,那么权重为w 的线性函数可以改变 ϵ ∥w∥1 之多,如果 w 是高维的这会是一个非常大的数。对抗训练通过鼓励网络在训练数据附近的局部区域恒定来限制这一高度敏感的局部线性行为。这可以被看作是一种明确地向监督神经网络引入局部恒定先验的方法。
-
使用Dropout训练时的随机性不是这个方法成功的必要条件。它仅仅是近似所有子模型总和的一个方法。Wang and Manning (2013) 导出了近似这种边缘分布的解析解。他们的近似被称为快速 Dropout(fast dropout),减小梯度计算中的随机性而获得更快的收敛速度。这种方法也可以在测试时应用,能够比权重比例推断规则更合理地(但计算也更昂贵)近似所有子网络的平均。快速 Dropout在小神经网络上的性能几乎与标准的Dropout相当,但在大问题上尚未产生显著改善或尚未应用。随机性对实现Dropout的正则化效果不是必要的,同时也不是充分的。为了证明这一点,Warde-Farley et al. (2014) 使用一种被称为 Dropout Boosting(Dropout Boosting)的方法设计了一个对照实验,具有与传统Dropout方法完全相同的噪声掩码,但缺乏正则化效果。Dropout Boosting训练整个集成以最大化训练集上的似然。从传统Dropout类似于Bagging的角度来看,这种方式类似于Boosting。如预期一样,和单一模型训练整个网络相比,Dropout Boosting几乎没有正则化效果。这表明,使用Bagging解释Dropout比使用稳健性噪声解释Dropout更好。只有当随机抽样的集成成员相互独立地训练好后,才能达到Bagging集成的正则化效果。
-
Dropout的另一个显著优点是不怎么限制适用的模型或训练过程。几乎在所有使用分布式表示且可以用随机梯度下降训练的模型上都表现很好。包括前馈神经网络、概率模型,如受限玻尔兹曼机(Srivastava et al., 2014),以及循环神经网络(Bayer and Osendorfer, 2014; Pascanu et al., 2014a)。许多效果差不多的其他正则化策略对模型结构的限制更严格。虽然Dropout在特定模型上每一步的代价是微不足道的,但在一个完整的系统上使用Dropout的代价可能非常显著。因为Dropout是一个正则化技术,它减少了模型的有效容量。为了抵消这种影响,我们必须增大模型规模。不出意外的话,使用Dropout时最佳验证集的误差会低很多,但这是以更大的模型和更多训练算法的迭代次数为代价换来的。对于非常大的数据集,正则化带来的泛化误差减少得很小。在这些情况下,使用Dropout和更大模型的计算代价可能超过正则化带来的好处。只有极少的训练样本可用时,Dropout不会很有效。在只有不到 5000 的样本的Alternative Splicing数据集上 (Xiong et al., 2011),贝叶斯神经网络 (Neal, 1996)比Dropout表现得更好 (Srivastava et al., 2014)。当有其他未分类的数据可用时,无监督特征学习也比Dropout更有优势。
-
迄今为止,我们讨论的许多问题都是关于损失函数在单个点的性质——若 J(θ)是当前点 θ 的病态条件,或者 θ 在悬崖中,或者 θ 是一个下降方向不明显的鞍点,那么会很难更新当前步。如果该方向在局部改进很大,但并没有指向代价低得多的遥远区域,那么我们有可能在单点处克服以上所有困难,但仍然表现不佳。大多数优化研究的难点集中于训练是否找到了全局最小点、局部极小点或是鞍点,但在实践中神经网络不会到达任何一种临界点。图 8.1 表明神经网络通常不会到达梯度很小的区域。甚至,这些临界点不一定存在。例如,损失函数 − log p(y | x; θ)可以没有全局最小点,而是当随着训练模型逐渐稳定后,渐近地收敛于某个值。对于具有离散的 y 和 softmax 分布 p(y | x) 的分类器而言,若模型能够正确分类训练集上的每个样本,则负对数似然可以无限趋近但不会等于零。同样地,实值模型p(y | x) = N (y; f(θ), β−1) 的负对数似然会趋向于负无穷——如果 f(θ) 能够正确预测所有训练集中的目标 y,学习算法会无限制地增加 β。给出了一个失败的例子,即使没有局部极小值和鞍点,该例还是不能从局部优化中找到一个良好的代价函数值。
-
一种新的基于深度学习的 3D 细胞分割框架,用于未来基于图像的疾病检测细胞分割在理解、诊断和治疗疾病方面起着至关重要的作用。尽管最近基于深度学习的细胞分割方法取得了成功,但在 3D 细胞膜图像中准确分割密集的细胞仍然具有挑战性。现有方法还需要在新数据集上微调多个手动选择的超参数。香港大学的研究人员开发了一个基于深度学习的 3D 细胞分割管道 3DCellSeg,以应对这些挑战。与现有方法相比,该方法具有以下新颖性:(1)一个稳健的两阶段流水线,只需要一个超参数;(2)一个轻量级的深度卷积神经网络 (3DCellSegNet) 以有效地输出体素掩码;(3)一个自定义的损失函数(3DCellSeg Loss)来解决clumped cell问题;(4)一种有效的基于触摸区域的聚类算法(TASCAN),用于将 3D 细胞从前景蒙版中分离出来。在四个不同的细胞数据集上进行的细胞分割实验表明,3DCellSeg 在 ATAS(植物)、HMS(动物)和 LRP(植物)数据集上优于基线模型,总体准确率分别为 95.6%、76.4% 和 74.7% ,同时实现了与 Ovules(植物)数据集上的基线相当的准确度,总体准确度为 82.2%。消融研究表明,准确性的个别改进可归因于 3DCellSegNet、3DCellSeg Loss 和 TASCAN,其中 3DCellSeg 在不同的数据集和细胞形状中表现出鲁棒性。实验结果表明,3DCellSeg 可以作为一种强大的生物医学和临床工具,例如组织病理学图像分析,用于癌症诊断和分级。该研究以「A novel deep learning-based 3D cell segmentation framework for future image-based disease detection」为题,于 2022 年 1 月 10 日发布在《Scientific Reports》。通过视网膜扫描和最少的个人信息预测心肌梗塞在眼科实践中,通常会获得视网膜图像以诊断和监测原发性眼病和影响眼睛的全身状况,例如糖尿病视网膜病变。最近的研究表明,视网膜图像上的生物标志物,例如视网膜血管密度或曲折度,与心脏功能相关,可以识别有冠状动脉疾病风险的患者。利兹大学的研究团队研究了使用视网膜图像以及相关的患者元数据,来估计左心室质量和左心室舒张末期容积,然后预测心肌梗死的发生。他们训练了一个多通道变分自编码器和一个深度回归模型,来估计左心室质量 [4.4 (–32.30, 41.1) g] 和左心室舒张末期容积 [3.02 (–53.45, 59.49) ml] 并预测心肌梗死的风险(AUC = 0.80 ± 0.02,灵敏度 = 0.74 ± 0.02,特异性 = 0.71 ± 0.03),仅使用视网膜图像和人口统计数据。研究结果表明,可以通过每个配镜师和眼科诊所提供的视网膜成像,来识别未来心肌梗死高风险的患者。该研究以「Predicting myocardial infarction through retinal scans and minimal personal information」为题,于 2022 年 1 月 25 日发布在《Nature Machine Intelligence》。医疗数据中隐藏的偏见可能会损害人工智能的医疗保健方法有证据表明,在医学和健康方面从人体获得的和关于人体的数据并不总是能创建公平的系统。偏见在临床设备、干预和互动中普遍存在。其中包括在设计时不考虑性别、性别和肤色的设备;嵌入种族的干预措施;取决于性别或种族的疾病诊断;以及患者和卫生工作者之间存在偏见的互动。来自这些系统的数据在用于机器学习算法时会促进或加剧这些偏见。通常,计算机科学缺乏关于性别歧视、种族主义和社会经济不平等对开发健康机器学习算法所用数据的系统性影响的教育。解决这些根深蒂固的偏见的解决方案并不容易,需要开发算法的人和使用算法的人(包括计算机科学家、工程师、临床医生、医疗机构等)有意识地努力。然而,如果没有关于对边缘化群体的历史不公正的教育,拒绝接受不公平作为常态,以及承担创建和应用减少而不是促进不公平的算法的责任,这些解决方案就不可能存在。机器学习传统上是在假设数据和标签以客观事实为基础的空间中运行的。不幸的是,许多证据表明,从人体中获取的和关于人体的「具体」数据并不能创建按预期运行的系统。医疗保健数据的复杂性可能与长期的歧视有关,该领域的研究禁止幼稚的应用。为了改善医疗保健,机器学习模型必须从一开始就努力识别、减少或消除此类偏见。波士顿大学和麻省理工学院的研究人员发表综述文章,他们的目标是列举许多例子来证明存在的偏见的深度和广度,这些偏见在整个医学史上一直存在。他们希望对算法自动化偏见的愤怒将导致生成此类数据的基本实践发生变化,从而减少健康差异。该综述以「In medicine, how do we machine learn anything real?」为题,于 2022 年 1 月 14 日发布在《Patterns》。通过强化学习优化基于风险的乳腺癌筛查策略筛查计划必须平衡早期发现的好处和过度筛查的成本。在这里,麻省理工学院的研究人员介绍了一种新的基于强化学习的个性化筛查框架 Tempo,并展示了其在乳腺癌筛查中的功效。研究人员在来自马萨诸塞州总医院(MGH;美国)的大型筛查乳房 X 线摄影数据集上训练了他们基于风险的筛查策略,并在来自 MGH 的保留患者和来自埃默里大学(Emory;美国)、卡罗林斯卡学院(Karolinska;瑞典)和长庚纪念医院(CGMH;台湾)的外部数据集中验证了该数据集。在所有测试集中,研究人员发现 Tempo 策略与基于图像的人工智能(AI)风险模型相结合,在每个屏幕频率的模拟早期检测方面比临床实践中使用的当前方案明显更有效。此外,该团队表明相同的 Tempo 策略可以很容易地适应各种可能的筛查偏好,允许临床医生在早期检测和筛查成本之间选择他们想要的权衡,而无需培训新的策略。最后,研究人员证明了基于 AI 风险模型的 Tempo 策略,优于基于不太准确的临床风险模型的 Tempo 策略。总而言之,将基于 AI 的风险模型与敏捷的 AI 设计的筛查策略相结合,有可能通过促进早期检测同时减少过度筛查来改进筛查计划。该研究以「Optimizing risk-based breast cancer screening policies with reinforcement learning」为题,于 2022 年 1 月 13 日发布在《Nature Medicine》。使用人工智能了解肺癌和支气管癌死亡率机器学习(ML)在预测死亡率方面已显示出前景;然而,了解风险因素对死亡率影响的空间变化需要可解释性。布法罗大学的研究人员在堆栈集成机器学习模型框架上应用了可解释的人工智能(XAI),以探索和可视化已知风险因素对美国本土肺癌和支气管癌(LBC)死亡率的贡献的空间分布。他们使用了五个基础学习器——广义线性模型(GLM)、随机森林(RF)、梯度提升机(GBM)、极端梯度提升机(XGBoost)和深度神经网络(DNN)来开发堆栈集成模型。然后,应用了几种与模型无关的方法来解释和可视化堆栈集成模型在全局和局部尺度(在县级)的输出。堆栈集成通常比所有基础学习器和三个空间回归模型表现更好。基于排列的特征重要性技术将吸烟率列为最重要的预测因子,其次是贫困和海拔。然而,这些风险因素对 LBC 死亡率的影响在空间上有所不同。这是第一项使用集成机器学习和可解释算法,来探索和可视化美国本土 LBC 死亡率和风险因素之间关系的空间异质性的研究。该研究以「Explainable artificial intelligence (XAI) for exploring spatial variability of lung and bronchus cancer (LBC) mortality rates in the contiguous USA」为题,于 2021 年 12 月 16 日发布在《Scientific Reports》。
-
第四范式成立于2014年,聚焦决策类AI领域,通过提供以平台为中心的AI解决方案,使企业实现人工智能快速规模化转型落地,提升企业的决策能力。第四范式的愿景是「AI for everyone」。根据灼识咨询报告,以2020年收入计,公司在中国以平台为中心的决策型AI市场排名第一。The Forrester Wave将其评为2020年预测分析与机器学习中国市场评测领域第一名。作为最大的即将上市的平台型人工智能公司,能否降低AI技术的应用门槛,是第四范式成功与否的关键。1、天才创业,以AI平台破局AI是企业深入推进数字化和智能化转型所必须导入或采用的技术,但其过高的门槛让众多缺乏技术和人才储备的企业望而却步。2016年7月,第四范式开发出了一个能够让非专业人士使用的机器学习平台——先知。用戴文渊的话说,就是一个完全不懂技术的小白,通过运用此数据架构平台,大概经历2周的时间,就可以成为一个AI专家。先知平台由人工智能操作系统Sage AIOS、包括HyperCycle及Sage Studio的人工智能开发套件两部分组成。Sage AIOS是一个企业级人工智能操作系统,具有界面友好、数据治理标准化、资源管理和调度自动化、中间软件全面兼容的优点。利用无代码和低代码开发工具HyperCycle、Sage Studio系列,用户可快速便捷地大规模部署各种定制化的人工智能应用。目前,第四范式的这套解决方案已广泛应用于金融、零售、制造、能源与电力、电信及医疗保健等众多行业。招股书显示,2021年前三季度,公司服务了55家财富世界500强企业及上市公司(即标杆用户),整体企业用户数量同比增82.4%至186家。随着用户数量扩大,第四范式的营收规模也逐年迅速增长。在2018年、2019年及2020年,其收入分别为人民币1.28亿元、4.60亿元、9.42亿元。2021年前三季度的收入同比增长134.3%至人民币13.45亿元,已远超2020年全年水平。第四范式创始人兼CEO戴文渊是个理工天才。他是全世界首个提出「非监督迁移学习」概念的人,开创了「非监督迁移学习」这一重要研究方向,获得过中国智能科技界最高荣誉「吴文俊人工智能科学技术奖」一等奖。在机器学习子领域迁移学习,他更被认为是该领域的全球领军学者,单篇论文被引用次数全球排名第三。戴文渊在AI技术行业拥有超过10年经验。他是商用AI系统百度“凤巢”的设计者,于2014年创立第四范式。2、估值30亿美元,资本的香饽饽决策人工智能赛道对于数据的处理能力、算法精确度要求非常高,因此相关企业也存在面临机会成本高昂、回报短期内难以评估、落地部署困难等诸多问题。第四范式也不能例外。招股书显示,在2018年、2019年、2020年和2021年前三季度,扣除以股份为基础的非现金薪酬影响后,经调整经营亏损在同期分别为人民币2.13亿元、3.18亿元、3.86亿元及3.91亿元。在研发费用投入上,在2018年、2019年、2020年及2021年前三季度,第四范式研发费用分别为人民币1.93亿元、4.16亿元、5.66亿元及8.44亿元,占同期收入的比例分别为151.2%、90.6%、60.0%及62.8%。尽管亏损连连,第四范式依旧是资本追捧的「明星」。成立至今,第四范式融资金额超10亿美元,估值接近30亿美元。2021年1月,第四范式宣布完成D轮7亿美元融资,为2020年以来AI技术领域披露的最大单笔融资。本轮融资由春华资本、博裕资本、厚朴投资领投,并引入国家制造业转型基金、国开、国新国同、建投华科、熙诚金睿、中信建投、海通证券等战略股东,红杉中国、中信产业基金、高盛、金镒资本和方源资本等财务投资机构。引人注目的是,第四范式还是第一家获得了中国工商银行、中国农业银行、中国银行、中国建设银行、交通银行等五大国有银行共同投资的创业公司。戴文渊曾表示,过去AI是可以for someone,特定企业才能拥有;未来AI终将for everyone,「第四范式要做的事情,是不断降低企业使用人工智能的门槛。」招股书显示,第四范式拟将此次IPO募集资金用于:加强基础研究、技术能力和解决方案开发;拓展产品,建立品牌及进入新的行业领域;寻求战略投资和收购机会,从而实施长期增长战略,以开发解决方案及拓展及渗透所涵盖的垂直行业;以及一般企业用途。
-
华为和国际大学生程序设计竞赛(ICPC)合办的2022年ICPC训练营的第一阶段于周二落下帷幕,华为再次成功地汇集了世界级的教练团队为ICPC选手提供了为期两天的线上专业培训。该训练营旨在帮助选手们为即将到来的2022年ICPC赛事做好准备。来自世界各地的576名选手参与了本次训练营,共计201支赛队。该训练营的第二阶段预期将在2022年下半年启动。来自全球各地的ICPC选手们竭尽全力、认真解题。本次训练营中用的难题均是由来自俄罗斯圣彼得堡国立信息技术机械与光学大学(ITMO)和中国北京大学的资深教练精心设计。ICPC基金会主席William B. Poucher博士(左)和华为战略研究院副院长周红博士(右)在闭幕式上祝贺选手ICPC基金会主席William B. Poucher博士在闭幕式上表示:“训练营不仅是头脑的碰撞,也是交流的平台。它的价值不仅仅在于训练内容,还包括通过训练营建立的联结。感谢华为为ICPC志愿者们提供机会,更好地为学生们提供免费培训。”同时,华为训练营还邀请了著名教练们为学员们答疑解惑。在第一天的环节中,华为邀请了来自北京大学的顶级竞赛选手设计训练赛题,并在赛后详细分析了解题思路。第二天,华为更是邀请了曾两次获得ICPC全球总决赛冠军的Gennady Korotkevich为参与者设计训练赛题(他以Codeforces网站上的昵称“Tourist”为大家所周知)。赛后,他为所有参与者带来了精彩的赛题讲解。Gennady Korotkevich 为参与选手讲解题目在为期两天的训练营模拟比赛综合结果中,来自中国清华大学的一支团队获得了第一名,他们在2481分钟内解出了19道题(共计22道题)。第二名获得者是来自波兰华沙大学的团队。共有6支团队因其出色的表现获得奖项,奖品包括华为笔记本电脑以及华为智能手表等。此外,在紧张的解题全程中,来自不同学校的赛队在不同阶段都有出色表现,展现了选手们追求更快、更准的解题风采。华为战略研究院副院长周红博士表示:“很荣幸我们能够支持ICPC,我们希望能为现役和未来的竞赛选手提供更多的机会,支持他们在编程竞赛的世界里追求卓越。”自2019年起,华为成为ICPC全球决赛的钻石赞助商和多个区域竞赛的赞助商。华为很荣幸能够支持全球规模最大、最具影响力的大学生程序设计大赛,愿意与ICPC社区携手,为全球优秀人才提供更多的学习和培训机会。
-
这周我们简单介绍一个高效分子优化的方法。该工作由UIUC的Jimeng Sun组合MIT的Connor Coley组合作完成,对应的文章题目是Differentiable Scaffolding Tree for Molecule Optimization[1],被2022年ICLR接受,主要的代码和数据发布在https://github.com/futianfan/DST。思路:基于梯度的分子优化分子的可微分骨架树类梯度上升的优化算法优化效果测试由可微性得到的可解释性思路:基于梯度的分子优化在药物发现中,分子优化,即找到具有理想性质的分子结构,是核心的一步。由于化学结构的复杂性,传统上我们只能依赖于一些启发式的组合优化算法,如遗传算法、树搜索等。最近深度学习的发展确实提供了一些新的思路,但目前大部分依赖图生成算法的分子优化都是通过图神经网络(graph neural network, GNN)来显式地生成一个分子,然后优化目标函数,通过反向传播梯度来更新GNN参数,使得网络生成具有优化性质的分子。例如在增强学习(reinforcement learning, RL)中目标函数是根据反馈(reward)定义的;在深度生成模型(deep generative model, DGM)中基于和目标分子的广义距离定义。但这些算法普遍优化能力不够强,尤其没有考虑oracle的成本,许多算法需要调用数十万甚至百万次oracle才能得到较好的结果,而这在实际分子设计过程中显然是不现实的。我们知道,数值优化的核心就是在一个点估计其指向极值点的方向,而这一方向一般可以通过梯度估计。那我们是否可以估计一个分子的性质相对于结构的梯度,通过这个梯度估计方向进而优化一个分子?在Alan Aspuru-Guzik组的Deep Molecular Dreaming[2]一文中作者利用分子的字符串(SELFIES)表示实现了这一点:将分子看做每个位置字符的分布概率,通过一个一维卷积神经网络(convolutional neural network, CNN)学习其性质,得到可微的性质预测器,进而估计分子的梯度,但是效果并不好。而在本文中,作者通过提出分子的可微分骨架树(Differentiable Scaffolding Tree, DST)这一概念,使得分子直接在结构层面上可微,进而构建了一个高效的优化算法。与其他生成模型不同,作者先预训练(pre-train)了一个以骨架树(ST)为输入的GNN来预测性质(标量)。然后在优化过程中固定GNN参数,每步迭代里首先构造分子相应的DST,通过前向传播用GNN来预测性质,然后优化目标性质并通过反向传播梯度来更新DST里的参数,进而优化分子结构。分子的可微分骨架树首先我们明确本文关注从头分子优化(de novo molecule optimization),即以一个优化算法在一个隐式定义的小分子空间上找到性质较好的分子。而分子性质由一个Oracle给出,即给定一个分子,输出相对应的性质,可以看作一个黑盒函数(black box function of molecules),例如衡量一个分子的类药性的QED。为了使分子在图结构层面上可微,首先需要扩展分子图的概念。另外为了避免生成环的中间步骤可能带来的不必要的麻烦,作者选择在优化过程中用骨架树(scaffolding tree, ST)来表示分子,其节点定义为一个基本单位(substructure),包含了常见的原子和单环(详见原文附录Figure 5)。我们可以用节点的类别矩阵(node indicator matrix)和节点之间的链接矩阵(adjacency matrix)表示一个骨架树。其中类别矩阵每一行是一个one-hot向量,代表了该节点是哪一个基本单位,而链接矩阵中的每一个元素都是binary的数字,指示每一对节点之间是否连接。构造可微分骨架树(DST)的核心是将节点的类别和连接看做可学习的0到1的概率分布,而非0或1的binary code。其中为了实现连接可微性的自洽,作者提出了与连接等价的权重向量(node weight vector),通过一个节点的权重表示其存在与否,并通过权重构造连接矩阵,将连接与否的问题变成了该节点是否存在的问题:从骨架树得到可微分骨架树的方法如下所示:首先将分子结构抽象为骨架树, 然后将骨架树中每个结点连接上一个拓展节点(expansion node)。每一个叶结点和拓展结点的权重和类别是可学习的(learnable)。其中节点类别是一个softmax的输出,保证和为1。结点权重是一个sigmoid的输出,保证在0-1之间。类梯度上升的优化算法为了进行优化,作者首先预先训练(pre-train)了一个GNN来做性质预测,其输入是一个分子的可微分骨架树,输出是目标的性质(标量),即。为了平衡不同权重节点的贡献,作者在GNN中使用了加权平均的read-out方法:其中代表第回迭代之后的节点特征(node embedding)的第行,代表第个节点的权重,代表全连接网络。整个算法是一个迭代式优化。在单步迭代中,给定输入分子的DST,得到了可微的性质预测替代后,可以通过任意梯度优化算法(文中使用了Adam)解来得到优化后的DST。在得到优化后的DST后,根据其优化后的权重和类别,作者设计了如下三种在对应骨架树上的操作:(1)删除(SHRINK)叶结点权重小时,意味着该节点对性质提升没有帮助,或者说该节点的存在对性质提升有负面影响,所以在对应骨架树上删除该节点。(2)拓展(EXPAND)拓展节点权重大时,意味着该节点的存在对性质提升帮助是正向的,所以在对应骨架树上加上一个新的结点。该节点的类别也从对应softmax输出值中选择。(3)替换(REPLACE)若一个节点权重改变不大,但类别改变较大时,不删除也不拓展,但是在优化后的分布中重新采样一个substructure(softmax输出中值比较大的)。根据更新后的DST采样其中一个操作,得到对应的骨架树作为下一轮迭代的输入,如此我们迭代地优化分子。在每一轮迭代内DST的维数是固定的,由输入分子决定,因此一轮迭代只能得到和原分子相差最多一个节点的分子。但在多轮迭代优化过程中,每一轮的输入都是上一轮的输出,因此相应的DST维度也会变化,使得生成分子的大小只受限于优化迭代次数。在得到优化后的骨架树后,作者枚举对应的所有可能的分子图,用oracle测量每一个分子。为了有更好的优化效果,并兼具输出分子的多样性,作者每次优化时同时优化多条轨迹,并在其中使用determinantal point process(DPP)来选择保留的分子。即在每一部枚举出对应的多个可能的分子图之后,不是单纯根据性质好坏,而额外考虑了相似性矩阵的行列式,即选择最大化下式的一批分子:其中是subset 这批分子的性质分数的对角矩阵,而则是这批分子的相似性矩阵。可以注意到单纯依据的行列式挑选就是greedy的top-k选择。而相似矩阵的行列式的最大化则鼓励subset内的diversity的增加(可以考虑一个的例子,对角线为1,非对角为彼此之间的相似度)。如此我们便得到了一个完整的优化算法。优化效果测试作者首先衡量主要的优化效果,包含了单目标优化和多目标优化(同时优化多个性质)。为了能够有比较全面的对比,所有算法选择了分数最高的100个分子衡量其:新颖性(Nov):生成分子不在训练集(如果有)中的比例;多样性(Div):生成分子的多样性,衡量对化学空间的探索能力;目标性质的平均优化结果(APS);Oracle调用的次数(#oracle):我们关注有限的oracle调用的情况下的表现,因为oracle调用的数量是衡量一个算法效率的重要指标;由于DST和一些其他算法的一部分oracle调用可以离线完成(比如利用已有的标注数据),另一部分必须线上完成,所以#oracle是A+B的形式,A为线下调用,B为线上调用。从实验结果上看,直接运用了梯度信息的DST优化效率最高,说明了由DST估计的梯度的可靠性。深度生成模型(LigGPT)由于其本身并不是一个迭代优化算法,表现并不好。增强学习方法(GCPN/MolDQN)虽然在无限oracle调用的情况下能够得到一些较好的结果,但是不出所料在限制oracle调用的情况下表现相对不好。而以传统的组合优化方法为基础的算法(如GA+D,MARS)表现相对还是更好。为了更系统地比较算法效率,作者测试了算法的oracle efficiency,即不同方法在不同oracle调用次数下的优化性能。结果如下:Oracle efficiency测试结果。其中DST-rand为DST的ablation study,即同样设定下每步随机选择骨架树上的操作。横轴为oracle调用数量,纵轴为top-100个分子的平均性质(越高越好)。DST在三个任务上都取得了最好的效果,其他结论也和第一个实验类似。由可微性得到的可解释性作者另外展示了由DST带来的分子性质的可解释性。通过观察当前DST对各个结点权重和梯度,我们可以看到不同的结点对性质提升的影响,进而分析不同基团、亚结构对性质的影响。分子可解释性实例。
-
现在,面部识别已成为生活中的一部分。因此,在介绍主题之前我们先看看实时面部识别示例。我们在手机、平板电脑等设备中使用人脸信息进行解锁的时候,这时就要求获取我们的实时面部图像,并将其储存在数据库中以进一步表明我们的身份。 通过对输入图像进行迭代和预测可以完成这个过程。同样,实时人脸识别可与OpenCV框架python的实现配合使用。再将它们组合在一个组合级别中,以实现用于实时目的的模型。 人脸识别 “面部识别”名称本身就是一个非常全面的定义,面部识别是通过数字媒体作为输入来识别或检测人脸的技术执行过程。人脸识别的准确性可以提供高质量的输出,而不是忽略影响其的问题因素。在这里,要确保运行我们的模型,必须确保在本地系统中安装了库。pip install face_recognition如果在 face_recognition库的安装过程中遇到一些问题或错误,可以点击以下链接:https://www.youtube.com/watch?v=xaDJ5xnc8dc人脸识别本身无法提供清晰的输出,因此出现了OpenCV实现的概念。OpenCV OpenCV是python中一个著名的库,用于实时应用程序。OpenCV在计算机世界中就像树的根一样非常重要。face_recognition中的OpenCV对我们训练为输入的面部图像进行聚类和特征提取。它以图像中的地标为目标,以迭代方式在计算机视觉的深度学习方法中训练它们。在本地系统中安装OpenCVpip install opencv-python使用深度学习算法,OpenCV检测可作为聚类,相似性检测和图像分类的表示。为什么我们使用OpenCV作为实时Face_Recognition中的关键工具? 人类可以轻松检测到面部,但是我们如何训练机器识别面部?OpenCV在这里填补了人与计算机之间的空白,并充当了计算机的愿景。以一个实时的例子为例,当一个人遇到新朋友时,他会记住这些人的脸,以备将来识别。一个人的大脑反复训练后端的人脸。因此,当他看到那个人的脸时,他说:“嗨,约翰!你好吗?”。对面部的识别和可以为计算机提供与人类相同的思维方式。OpenCV是计算机视觉中的重要工具。如果我们使用OpenCV,则遵循以下步骤:• 通过输入提取数据。• 识别图像中的面部。• 提取独特的特征,以建立预测思想。• 该特定人的性格特征,如鼻子,嘴巴,耳朵,眼睛和面部主要特征。• 实时人脸识别中人脸的比较。• 识别出的人脸的最终输出。使用OpenCV python的Face_Recognition: 代码下载:https://github.com/eazyciphers/deep-machine-learning-tutors/tree/master/Real-Time Face RecognitionGitHub导入所有软件包:import face_recognitionimport cv2import numpy as np加载并训练图像:# Load a sample picture and learn how to recognize it. Jithendra_image = face_recognition.load_image_file("jithendra.jpg") Jithendra_face_encoding = face_recognition.face_encodings(Jithendra_image)[0] # Load a sample picture and learn how to recognize it. Modi_image = face_recognition.load_image_file("Modi.jpg") Modi_face_encoding = face_recognition.face_encodings(Modi_image)[0]人脸编码:# Create arrays of known face encodings and their names known_face_encodings = [ Jithendra_face_encoding, Modi_face_encoding, ] known_face_names = [ "Jithendra", "Modi" ]主要方法:当实时人脸识别为true时,它将检测到人脸并按照代码中的以下步骤操作:• 抓取实时视频中的一帧。• 将图像从BGR颜色(OpenCV使用的颜色)转换为RGB颜色(face_recognition使用的颜色)• 在实时视频的帧中找到所有面部和面部编码。• 循环浏览此视频帧中的每个面孔,并检查该面孔是否与现有面孔匹配。• 如果一个人脸无法识别现有人脸,则将输出视为未知或未知。• 识别后,否则在识别出的脸部周围画一个方框。• 用其名称标记识别的面部。• 识别后显示结果图像。退出:# Hit 'q' on the keyboard to quit! if cv2.waitKey(1) & 0xFF == ord('q'): break释放摄像头的手柄:# Release handle to the webcam video_capture.release() cv2.destroyAllWindows()输入和输出 在训练过程中提供给模型的样本输入…。输入用于训练代码的样本图像样本输入图像进行训练输出
-
近日,国际数据公司IDC发布 《IDC中国2021H1人工智能公有云服务市场研究报告》 华为云一站式AI开发平台 ModelArts 位居中国机器学习公有云服务市场份额第一 连续三次登上该市场榜首位置 报告指出,在中国机器学习公有云服务市场中,华为云受到政企客户的青睐,在AI云服务市场的竞争优势逐渐凸显。华为云一站式AI开发平台ModelArts可以提供数据处理、算法开发、模型训练、模型管理、模型部署等AI模型开发全流程技术能力;率先支持MLOps;持续构建大模型训练优化能力。同时积极打造开放的AI生态,接入生态开发工具,通过华为云AI Gallery联接AI市场的供、需、学三方,助力解决AI落地时所面临的“AI算力稀缺、AI人才短缺、AI开发难、AI行业应用难”两难两缺难题,推动AI走进千行百业的核心生产系统。面向AI开发者,持续提供硬核黑科技服务 ModelArts人工智能集群服务支持大规模分布式训练。为帮助开发者及企业客户解决训练大模型时面临的技术、成本、资源等挑战,华为云一站式AI开发平台ModelArts提供人工智能集群服务,全场景深度优化,支持大规模分布式训练。从端到端全流程角度看,相比线下开发大模型,基于ModelArts的开发效率可提升4倍以上,并且可以解决超大模型训练的资源可获得性问题。云原生模型开发工具链,助力AI开发效率提升。华为云一站式AI开发平台ModelArts支持将云上资源与开发工具链相结合。面向AI初学者,线上CodeLab支持秒级接入资源,可按需切换;面向深度开发者,支持云上远程开发与自定义开发环境。借助云原生的资源调度,开发者可进一步构筑基于ModelArts云原生的算法开发范式和能力。面向AI生态,搭建“知识”+“实训”的AI开发社区 基于一站式AI开发平台ModelArts,华为云构建了开发者生态社区AI Gallery,这是一个AI资产共享的社交平台,也是“知识”+“实训”的AI开发社区。 AI Gallery汇聚了算法、模型、数据集、工作流等10余种、50000余个AI资产,保障AI开发、应用生态链上的各个参与方都能高效地实现各自的商业价值,降低各行各业开发者在人工智能领域的学习门槛,加速AI的应用实践。面向AI行业落地,全面支持全流程MLOps开发 华为云一站式AI开发平台ModelArts全面支持MLOps,改变了原有分段开发AI模型的流程, 实现全流程自动化的协同迭代开发模式。ModelArts也成为国内首个支持MLOps的AI开发平台。 基于MLOps的理念,华为云一站式AI开发平台ModelArts的Workflow工具提供运行记录、监控、持续运行等功能。通过Workflow工具,实现AI开发、运行及运行后监测的全生命周期管理,加快AI开发到落地的迭代速度,以及效果体验的持续优化。同时,开发者可通过AI Gallery实现Workflow快速构建与能力分享。华为云一站式AI开发平台ModelArts帮助企业实现了AI应用全生命周期管理,大幅提升AI开发效率,加速了AI在千行百业的落地。制造领域,华为云和博世华域基于ModelArts Workflow开发出了刀具状态智能识别Usecase。通过刀具声音识别算法,在保证良品率的情况下,刀具使用效率提升5%以上。基于MLOps理念打造的刀具声音识别Usecase,能够轻松地针对不同刀具甚至其他生产工具进行方案扩展,将声音检测算法应用在更广泛的制造行业状态维护场景;药物研发领域,依托华为云一站式AI开发平台ModelArts与华为云一站式医疗研发平台EIHealth,中国科学院上海药物研究所联合华为云训练了华为云盘古药物分子大模型,赋能全流程的AI药物设计,大幅提升新药研发效率;交通运输领域,深圳机场基于华为云机场智能体快速构建60+调度规则,实现机位分配自动化、智能化,让机场靠桥率提升5%,每年帮助260万旅客免乘摆渡车。转自华为云公众号
-
文章简介开发者如何抓住时代机遇,学好AI?学习人工智能之前,你需要了解这些。想了解人脸识别算法训练,看这篇就够了!初步了解人脸识别技术的发展,通过平台实例的操作,快速训练人脸识别模型。一文读懂文字识别的关键技术和进展华为云OCR融合了多种图像处理技术,具有高精度,鲁棒性和自适应性等特点。三招弱监督方法,从脏数据中得到一个好模型弱监督学习可以从有着大量噪音的互联网图片中训练出一个可用的模型。AI助力,视频分析全面进入智能时代基于人工智能的视频内容分析可以从根本上解决传统内容分析方法性能低下的问题。全面解读文本情感分析,快速识别正负面评价文本情感分析在社交媒体、舆情监测上有广泛应用,比如商品评价正负面的分析。人工客服质检效率低怎么办?华为云带你体验AI智能质检智能质检使用自然语言算法和预定义规则,分析客服与客户对话,提高效率。前沿技术探秘:知识图谱构建流程及方法知识图谱能破解企业智能化知识挖掘和管理难题,实现知识化转型。图神经网络!打开企业盈利的下一个风口图神经网络能做出更精准预测,提供个性化服务,实现精准化营销。画张图,我们就能秒级洞察千亿级复杂关系如果把关系数据模型比做火车的话,那么图数据建模就是高铁。ModelArts3.0 发布,一个让机器狗学会灭火的AI神器训练、标注成本节省90%,一站式AI开发平台ModelArts打通训练数据到模型落地。更懂开发者的视觉AI开发平台,HiLens为设备DIY一双“慧眼”通过端云协同管理和软硬件一体化开发方案降低开发门槛。华为集齐AI龙珠,“召唤神龙”为期不远系统介绍华为在AI芯片、训练集群到训练框架以及云计算等多方面的技术栈。文章简介【ModelArts】深度解读华为云 AI 开发平台 ModelArts 技术架构在竞争激烈的AI框架和平台市场下,技术解读ModelArts如何脱颖而出?【MoXing】华为云深度学习模型API,助你迅速上手AI开发MoXing是华为云深度学习服务提供的网络模型开发API,它让模型的代码编写更加简单。【昇腾AI】华为秀AI硬件实力,发布算力最强AI处理器昇腾910、MindSpore的推出,意味着华为已完成全栈全场景AI解决方案的构建。【昇腾AI】华为发布昇腾AI全栈软件平台,跨越算力应用鸿沟异构计算架构CANN 3.0、全流程开发工具链MindStudio和MindX,覆盖了基础软件到应用使能。【AI芯片】深度解读达芬奇架构:华为AI芯片的“秘密武器”达芬奇架构是华为自研的面向AI计算特征的全新计算架构,具备高算力、高能效、灵活可裁剪特性。【OCR】华为云OCR关键技术、能力分析,让产品落地做到极致硬件的底层优化、自研算子、优化数据模型,华为OCR背后的技术创新。【对话机器人】从架构、API到应用,华为云如何全局践行AI落地?华为云详解如何更好地实现云上强大AI能力的价值落地。【开源框架】MindSpore!这款刚刚开源的深度学习框架我爱了!通过两个实际应用案例介绍开源框架 MindSpore。文章简介【AI助农】华为云ModelArts零代码开发病虫害识别应用使用ModelArts快速开发农作物病虫害识别微信小程序,用人工智能的力量赋能农业。【AI识图】ModelArts自动分组厉害了,一键完成数据标注、过滤将特征相似的图片归为一类,将特征差别大的图片群分离。【AI写作】哎哟不错哦,ModelArts教你写周式情歌通过大量的歌词数据训练模型,实现AI写杰伦风格的歌词。【AI写作】七夕节来啦!AI一键生成情诗,去发给你的女朋友吧!一个自动生成情诗的AI,大家可以在ModelArts尝试复现模型。【AI识人】青春云毕业:如何用AI为毕业生“拍”毕业照?用AI简单而优雅地实现“云毕业照的拍摄”。【AI写作】要是有AI,我要做“李白”——五分钟开发作诗机器人本案例使用CBS为机器人快速配置技能,通过多轮对话实现机器人写诗技能。【AI聊天】听说华为云AI有个聊天官?——浅谈华小唯打造之路从确定人设、找写手到编写语料,一个会聊天的AI是这样被创造出来的。【AI识人】不知道斯嘉丽约翰逊演过哪些电影?知识图谱告诉你训练电影领域的自定义信息抽取模型,构建知识图谱,轻松查询斯嘉丽主演过哪些电影。 【AI聊天】史上最强DIY,手工制作一只会说话的机器狗在语音识别、自然语言处理、语音合成等技术加持下,机器狗实现更丰富的语音功能。【HiLens Studio体验】快速开发一个行人检测与跟踪 Demo凭借HiLens Studio, 任何时间、地点,都可以实现自己的idea。【HiLens Studio体验】如何用HiLens Studio轻松上手口罩检测小工具用HiLens的傻瓜开发工具做一个口罩识别小工具。【昇腾AI】“一分钟”跑通MindSpore的LeNet模型MindSpore的操作实践,献给踩坑的小伙伴。文章简介AI助力“抗疫”,超大规模计算机辅助药物筛选技术解读短时间完成上千万次的模拟计算,让耗时数月的计算机辅助药物筛选在数小时内完成。为机场安上一双“慧眼”,消灭飞机的“黑色十分钟”仅花三天完成AI模型开发,用AI防范跑道侵入事件的发生。一个AI开发平台是如何参与热带雨林保护的?华为要招聘动物语言翻译师,和公益组织一起用AI识别雨林中不和谐的声音。独家解析:为什么中国物流企业的数字化这么难?防暴力分拣、分拣路径优化、OCR单据识别、运输路径优化,AI正在改变物流行业华为云边缘智能技术新突破,多任务学习助力城市楼宇智能升级两个园区每月节省252 MWh的电量,省了36.75%以上的能源。用AI技术推动西安民俗文化,斗鱼超管团队有一套通过图片秒速识别,显示图片背后的那些历史故事。苏州平江河:借助华为AI让治水不再难借助AI,实现7*24小时自动识别抓拍非法撒网抓鱼、漂洗衣物等污损河道行为。文章简介华为专家亲述:如何转型搞 AI?资深行业人士真实经验分享,非AI专业技术人员转型 AI 技术要注意什么?华为云MVP毛昌启:开发者转型记,AI开发平台的“魔力”ModelArts让AI开发不再遥不可及,将普惠AI切实的落到开发者身上。华为云MVP袁覃:ModelArts助力银行客户经理的变形记看银行工作者如何在3天之内训练出泛化能力强的模型。云享专家潘永斌:在人工智能时代追逐的“后浪”ModelArts资深实践者的AI开发之旅。华为云MVP余浩:AI开发,将简单留给开发者,复杂留给华为云在华为云AI全栈全场景AI解决方案的帮助下,余浩带着他的学生做了很多实用的AI产品。华为云云享专家历天一:ModelArts与HiLens端云协同之路从数据标注、调参到模型部署,ModelArts与HiLens让开发者只需专注自己代码的编写。
-
盘古大模型介绍盘古大模型推出来后,在不少地方有看到,今天有空来仔细的看一看。素材来自于《盘古大模型,开启工业化AI》盘古大模型在2021年4月份发布,于10月30号上线。盘古大模型的上线,是需要依托ModelArts平台和AI Gallery。以前存在一种模式,那就是来一个任务,就做一套模型,实际上这是应用开发定制的一种碎片化、手工作坊的方式。毫无疑问,这种模式是有他落后的一面,因为如果模型效果不好,还要定制化的进行调参,这个其实效率就不是很高。大模型要做什么?大模型希望通过积累海量的行业数据,大的参数量、大的输入数据,然后形成预测模型,用来适配更多的下游任务,这样的话在开发的效率上会有提高,精度上也会有一定的提高,并以此来完成从定制化开发到工业化开发的转变。盘古大模型不仅是一个大模型,它包含一系列的模型,目前有CV大模型、科学计算模型等等。它用到了时下比较火的prompt技术,这个技术有什么好处呢?就是针对不同的下游任务,相当于带着不同的promise,大的模型底座是不需要改变的。然后针对不同任务,比如第一个是新闻分类的任务,第二个是情感上的任务,如果以前你就需要完全的伸出两个模型来适配不同的任务,现在就不需要。ModelArts里的算法训练模型部署ModelArts里的算法、训练、模型和部署,这四个到底是什么关系呢?这里讲的很不错,我看完觉得有收获。算法呢,可以定义为首先要有你的代码,然后你在这个方法里定义训练规格。然后训练呢,就是把算法这个资产变成一个行为,一个算法可以起多个不同的训练任务。比如用不同的数据集,就相当于两次实验了。有点像JAVA里的类和实例化的对象,算法就相当于一个蓝图,这个蓝图可以起好多次训练任务,然后每次任务可以放入不同的参数,或者不同的数据集来执行这次训练。训练执行完了之后,就到了模型这一步。在模型这一步,ModelArts规定了一个model文件夹,规定了需要把你的推理脚本、模型文件等以相应的格式到这个文件夹里,然后ModelArts才能正确的读写这个模型。所以呢,你也可以不在ModelArts里写算法和训练,直接拿一个模型过来,但是这个模型一定要符合规范。模型可以从上一步的训练导入,训练之后的输出结果,就可以直接是一个模型。下一步是部署,模型和部署的关系,有点像把一个资产又变成了一种行为,就是一个模型也可以部署好多次。算法、训练、模型和部署,他们四个是分开的。好处是解耦,不好的地方是他们之间的联系基本靠人工,可能很难去管理这种对应关系,比如训练可能需要40分钟,那你这40分钟先干别的,然后40分钟完事之后回来再点击这个模型的导入...针对这个问题这里介绍了引入的workflow,但是呢,我看了下目前的ModelArts,又没有这个workflow了,可能在发展中吧,所以就不多介绍了。Demo演示nlp的大模型还只是针对中文的,演示了生成散文和写小说,就是人工一句话开头然后AI续写。实话实说,这个2个演示给人的感觉是作为一个游戏娱乐一下还可以,没有太多的实用价值。电力线巡检,这个演示我觉得是非常有实用价值的,并且已经得到行业应用的。但是视频中的这个模型资产呢,目前在AI Gallery里面找不到了,于是我用“盘古”做关键字找了一下,可以找到一个模型。来试用一下,订阅,然后在ModelArts里打开,部署为在线服务(使用P4规格),大约10分钟后部署为在线服务成功。
-
论文题目:OntoProtein: Protein Pretraining With Gene Ontology Embedding本文作者:张宁豫(浙江大学)、毕祯(浙江大学)、梁孝转(浙江大学)、程思源(浙江大学)、洪浩森(浙江大学)、邓淑敏(浙江大学)、连佳长(浙江大学)、张强(浙江大学)、陈华钧(浙江大学)发表会议:ICLR 2022论文链接:https://www.zhuanzhi.ai/paper/6e757d23f8b6b16cb91cdcad6f124b3c代码链接:https://github.com/zjunlp/OntoProtein欢迎转载,转载请注明出处一、引言近年来,预训练模型以强大的算法效果,席卷了自然语言处理为代表的各大AI榜单与测试数据集。与自然语言类似,蛋白质的一级结构具有序列特性,这为将语言预训练模型引入蛋白质表示提供了有利条件。然而,蛋白质本质上不同于自然语言文本,其包含了大量预训练目标较难习得的生物学知识。事实上,人类科学家已经积累了海量的关于蛋白质结构功能的生物学知识。那么如何利用这些知识促进蛋白质预训练呢?本文将介绍被ICLR2022录用的新工作:OntoProtein,其提出一种新颖的融入知识图谱的蛋白质预训练方法。 二、蛋白质预训练 蛋白质是控制生物和生命本身的基本大分子,对蛋白质的研究有助于理解人类健康和发展疾病疗法。蛋白质包含一级结构,二级结构和三级结构,其中一级结构与语言具有相似的序列特性。受到自然语言处理预训练模型的启发,诸多蛋白质预训练模型和工具被提出,包括MSA Transformer[1]、ProtTrans[2]、悟道 · 文溯[3]、百度的PaddleHelix等。大规模无监督蛋白质预训练甚至可以从训练语料中习得一定程度的蛋白质结构和功能。然而,蛋白质本质上不同于自然语言文本,其包含了诸多生物学特有的知识,较难直接通过预训练目标习得,且会受到数据分布影响低频长尾的蛋白质表示。为了解决这些问题,我们利用人类科学家积累的关于蛋白质结构功能的海量生物知识,首次提出融合知识图谱的蛋白质预训练方法。下面首先介绍知识图谱构建的方法。三、基因知识图谱我们通过访问公开的基因本体知识图谱“Gene Ontology(简称Go)”,并将其和来自Swiss-Prot数据库的蛋白质序列对齐,来构建用于预训练的知识图谱ProteinKG25,该知识图谱包含4,990,097个三元组, 其中4,879,951个蛋白质-Go的三元组,110,146 个Go-Go三元组,并已全部开放供社区使用。如下图所示,基于“结构决定功能”的思想,如果在蛋白质预训练过程中显式地告诉模型什么样的结构具备什么样的功能,显然能够促进如蛋白质功能预测、蛋白质交互预测等任务的效果。四、融入基因知识图谱的蛋白质预训练:OntoProtein基于构建好的知识图谱,我们设计了一个特殊的蛋白质预训练模型OntoProtein。注意到在预训练输入中包含两种不同的序列:蛋白质序列和描述蛋白质功能、生物过程等的文本描述信息。因此,我们采取两路不同的编码器。对蛋白质序列我们采用已有的蛋白质预训练模型ProtBert进行编码,对文本序列我们采用BERT进行编码。为了更好地进行预训练和融合三元组知识信息,我们采用了两个优化目标。首先是传统的掩码语言模型目标,我们通过随机Mask序列中的一个Token并预测该Token。其次是三元组知识增强目标,我们通过类似知识图谱嵌入学习的方式来植入生物学三元组知识,如下公式所示:注意到这里的事实知识分为两类不同的三元组,分别是Go-Go和蛋白质-Go,因此我们提出一种知识增强的负采样方法,以获得更有代表性的负样本提升预训练效果,采样方式如下 :五、实验分析我们在蛋白质测试基准TAPE,以及蛋白质蛋白质交互、蛋白质功能预测(我们参考CAFA竞赛构建了一个新的蛋白质功能预测数据集)上进行了实验。如下表所示,可以发现融合知识图谱的蛋白质预训练方法在一定程度上取得了较好或可比的性能。特别地,我们的方法没有使用同源序列比对(MSA),因此较难超越基于MSA Transformer的方法。详细的实验结果请参见论文,我们会在近期将预训练模型整理并发布到Huggingface上供社区使用。六、小结与展望当下蓬勃兴起的 AI for Science 正在促使以数据驱动的开普勒范式和以第一性原理驱动的牛顿范式的深度融合。基于“数据与知识双轮驱动”的学术思想,我们在本文中首次提出了融合知识图谱的蛋白质预训练方法OntoProtein,并在多个下游任务中验证了模型的效果。在未来,我们将维护好OntoProtein以供更多学者使用,并计划探索融合同源序列比对的知识图谱增强预训练方法以实现更优性能。[1] MSA Transformer ICML2021 [2] ProtTrans: Towards Cracking the Language of Life’s Code Through Self-Supervised Learning TPAMI2021 [3] Modeling Protein Using Large-scale Pretrain Language Model 2021
-
仅仅在几年前,训练一个 AI 模型所需的时间还可能长达数周之久。这也是过去几年间,计算行业间涌现了众多价值数十亿美元的创新初创公司的重要原因所在——这些公司包括了 Cerebras Systems、Graphcore、Habana Labs 和 SambaNova Systems 等等。此外,谷歌、英特尔、英伟达和其他老牌公司也在企业内部投入了规模相当的巨额资金(有时还会发起收购计划)来探索这一领域。最新版本的 MLPerf 训练基准结果表明,这笔钱是物有所值的。MLPerf 母公司 MLCommons 的执行董事 David Kanter 表示,自 MLPerf 基准测试开始上线以来,人工智能训练性能的提升速度“成功地大大超过了摩尔定律”。在早期版本的 MLPerf 基准测试最佳结果与 2021 年 6 月之后的基准测试最佳结果之间,晶体管密度的增长可以解释其中一倍多的差异。但是软件以及处理器和计算机架构的改进则贡献了 6.8-11 倍的成绩增长。在最新的 1.1 版测试中,最佳结果是 6 月份最佳成绩的 2.3 倍。根据英伟达的说法,使用 A100 GPU 的系统的性能相比 18 个月前的系统提高了 5 倍以上,相比三年前 MLPerf 基准测试成绩首次发布时的结果提高了 20 倍。微软首次将其 Azure 云 AI 产品引入了 MLPerf,使用各种资源在所有八个测试网络中取得了极佳的成绩。它们的规模从 2 个 AMD Epyc CPU 和 8 个英伟达 A100 GPU,直到 512 个 CPU 和 2048 个 GPU 不等。规模显然很重要。顶级规格的系统在不到一分钟的时间内就训练完了 AI 模型,而二八组合通常需要 20 分钟或更长时间。“摩尔定律只能做到这么多。软件和其他进步在 AI 训练的进化道路上发挥了重要作用。”——MLCommons英伟达在基准测试中与微软密切合作。并且就像之前的 MLPerf 列表中人们看到的一样,英伟达 GPU 是大多数参赛作品背后的 AI 加速器。包括戴尔、浪潮和 Supermicro 的作品都采用了他们的 GPU。英伟达凭借其 Selene AI 超级计算机无与伦比的规模,在商用系统的所有结果中名列前茅。Selene 由商用的模块化 DGX SuperPod 系统组成。在最大规模的测试中,Selene 使用 1080 个 AMD Epyc CPU 和 4320 个 A100GPU 在不到 16 秒的时间内就训练完了自然语言处理器 BERT,大多数小型系统完成同样的壮举需要花费大约 20 分钟。根据英伟达的说法,使用 A100 GPU 的系统的性能相比 18 个月前的行业水平提高了 5 倍以上,相比三年前首次 MLPerf 基准测试结果发布时提高了 20 倍。该公司表示,这要归功于软件创新和网络的改进成果。(有关更多信息,请参阅英伟达的博客)鉴于英伟达在这些 AI 基准测试中的统治力和成绩表现,新生的竞争对手很自然地会将自身与它进行比较。这就是总部位于英国的 Graphcore 正在做的事情,它指出他们研发的基本计算单元 Pod16(1 个 CPU 和 16 个 IPU 加速器)比英伟达的基本单元 DGX A100(2 个 CPU 和 8 个 GPU)快了近一分钟。Graphcore 推出了更大的系统对于这一版本的 MLPerf,Graphcore 使用其基本单元 Pod64、Pod128 和(你肯定猜得到吧?)Pod256 的组合参加了图像分类和自然语言处理基准测试。Pod256 由 32 个 CPU 和 256 个 IPU 组成,是仅次于英伟达的 Selene 和英特尔的 Habana Gaudi 的第四快系统,以 3:48 完成了 ResNet 图像分类训练。在自然语言处理方面,Pod256 和 Pod128 在榜单上排名第三和第四,再次落后于 Selene,分别以 6:54 和 10:36 结束。(有关更多信息,请参阅 Graphcore 的博客)你可能已经注意到了,基于英伟达的产品(大约 1 比 4)和 Graphcore 的系统(低至 1 比 32)对比,它们的 CPU 与加速器芯片的比率有很大不同。Graphcore 工程师说,这是设计理念使然。IPU 旨在让神经网络减少对 CPU 控制的依赖。你会在 Habana Labs 系统上看到相反的情况,英特尔在 2019 年以大约 20 亿美元的价格收购了它。例如,它在图像分类方面取得了很高的排名,为此英特尔使用 64 个 Xeon CPU 和 128 个 Habana Gaudi 加速器在不到 5 分半的时间内训练完了 ResNet。它还使用 32 个 CPU 和 64 个加速器,用时 11 分 52 秒训练完了 BERT 自然语言神经网络。(更多信息请参阅 Habana 的博客 )谷歌对这批基准分数的贡献有点不一样。谷歌工程师没有使用该公司的 TPU v4 处理器技术搭载在商业或云系统上完成测试,而是提交了两个超大自然语言处理神经网络的结果。该公司使用其公开可用的 TPU v4 云运行了一个版本的 Lingvo,这是一种 NLP,其参数高达 4800 亿,而 BERT 的参数为 1.1 亿。云平台使用 1024 个 AMD Epyc CPU 和 2048 个 TPU,在不到 20 小时的时间内完成了训练任务。使用由 512 个 AMD Rome CPU 和 1024 个 TPU 组成的研究系统,谷歌在 13.5 小时内训练了一个 2000 亿参数版本的 Lingvo。(谷歌报告称,从头到尾完成整个过程需要 55 小时和 44 小时,包括开始训练所需的步骤。)在结构上,Lingvo 与 BERT 非常相似,可以归入该类别,但它也类似于众多计算巨头一直在研究的其他真正巨型的对话 AI,例如 LaMDA 和 GPT-3。谷歌认为,巨大模型训练最终应该成为未来 MLPerf 商业基准测试的一部分。(有关更多信息,请参阅谷歌的博客。)然而,MLCommons 的 Kanter 指出,训练此类系统的费用高到了足以将许多参与者排除在外。
推荐直播
-
华为云码道-玩转OpenClaw,在线养虾2026/03/11 周三 19:00-21:00
刘昱,华为云高级工程师/谈心,华为云技术专家/李海仑,上海圭卓智能科技有限公司CEO
OpenClaw 火爆开发者圈,华为云码道最新推出 Skill ——开发者只需输入一句口令,即可部署一个功能完整的「小龙虾」智能体。直播带你玩转华为云码道,玩转OpenClaw
回顾中 -
华为云码道-AI时代应用开发利器2026/03/18 周三 19:00-20:00
童得力,华为云开发者生态运营总监/姚圣伟,华为云HCDE开发者专家
本次直播由华为专家带你实战应用开发,看华为云码道(CodeArts)代码智能体如何在AI时代让你的创意应用快速落地。更有华为云HCDE开发者专家带你用码道玩转JiuwenClaw,让小艺成为你的AI助理。
回顾中 -
Skill 构建 × 智能创作:基于华为云码道的 AI 内容生产提效方案2026/03/25 周三 19:00-20:00
余伟,华为云软件研发工程师/万邵业(万少),华为云HCDE开发者专家
本次直播带来两大实战:华为云码道 Skill-Creator 手把手搭建专属知识库 Skill;如何用码道提效 OpenClaw 小说文本,打造从大纲到成稿的 AI 原创小说全链路。技术干货 + OPC创作思路,一次讲透!
回顾中
热门标签