• [毕昇JDK] Bisheng JDK 17 较高概率发生性能下降 30%
    环境鲲鹏 920 128 核Bisheng JDK 17.0.1 / 17.0.4运行 BenchmarkSQL + ShardingSphere-JDBC网卡队列绑核 0-15,BenchmarkSQL 绑核 16-127。现象概率性出现运行 BenchmarkSQL us 较高(几乎压满 CPU 核),sy 较低。之前使用的是 GraalVM EE,本来以为是 GraalVM EE 才有的现象,后续测试发现使用 Bisheng JDK 17 也有相似现象。多次启动 BenchmarkSQL 进程,性能时好时坏。正常情况下,使用 BenchmarkSQL + ShardingSphere-JDBC 性能可以达到 200 万 tpmC 以上。最近启动进程时有较高概率发生性能异常,性能相比正常情况下降约 30%。Bisheng JDK 17 现象正常情况us 相对较低,网卡中断几乎跑满前 16 核。正常情况下 tpmC 在 200 万左右。异常现象最近测试发现,经常出现 us 较高,中断相比性能正常时更低。tpmC 在 160 万左右。性能下降至正常的 70% 左右。升级 Bisheng JDK 17.0.4 问题未解决async-profiler 采样对比正常情况与异常情况的采样,表面现象为计算开销增加,在代码路径上没有看出其他异常。 GraalVM EE 现象偶发现象:CPU us 特别高,sy 较低。退出压测进程重新运行后现象消失。6 节点测试中,该现象频繁出现GraalVM 发生该现象时对性能影响非常明显,tpmC 相比正常几乎减半。
  • [问题求助] amct使用报错
    在使用amct时报错amct_acl: cannot execute binary file
  • [问题求助] UINT8和FP16,FP32
    请问使用atc进行模型编译时,output_shape的三个选项UINT8和FP16,FP32。其中的UINT8是代表模型量化吗?这三者的推理速度谁应该更快呢?
  • [调优工具] Hyper Tuner进行HPC场景下的MPI/open MP混合分析
    请问进行用两台服务器多节点分析的时候,这两台服务器上都需要装Hyper tuner吗?还是只用其中一台装hyper tuner,然后在节点管理那里添加另一台的IP?
  • [问题求助] 急急急,在编译WRF-4.1.2组件过程中,编译hdf5组件报错
    centos7.6,内核版本4.14.0,编译完openmpi并配置环境变量后,开始编译hdf5-1.10.1,./configure ...命令后正常生成MakeFile,但make时报错,报错截图如下:使用相同架构的centos7.5,内核版本4.18.0进行编译,同样步骤不报错,请各位大佬帮忙看下问题如何解决,可电联18549921504
  • [问题求助] 鲲鹏数学库开发指南中P101-102页给的计算矩阵A*B的结果应该怎样理解?
    在这个用例中,发现A*B不等于C,也不等于OutputC,请问如何用这个dgemm函数计算矩阵的乘积呢?C interface: int m = 4, k = 3, n = 4, lda = 4, ldb = 3, ldc = 4; float alpha = 1.0, beta = 2.0; /* * A: * 0.340188, 0.411647, -0.222225, * -0.105617, -0.302449, 0.053970,* 0.283099, -0.164777, -0.022603, * 0.298440, 0.268230, 0.128871, * B: * -0.135216, 0.416195, -0.358397, -0.257113, * 0.013401, 0.135712, 0.106969, -0.362768, * 0.452230, 0.217297, -0.483699, 0.304177, * C: * -0.343321, 0.498924, 0.112640, -0.006417, * -0.099056, -0.281743, -0.203968, 0.472775, * -0.370210, 0.012932, 0.137552, -0.207483, * -0.391191, 0.339112, 0.024287, 0.271358, */ float a[12] = {0.340188, -0.105617, 0.283099, 0.298440, 0.411647, -0.302449, -0.164777, 0.268230, -0.222225, 0.053970, -0.022603, 0.128871}; float b[12] = {-0.135216, 0.013401, 0.452230, 0.416195, 0.135712, 0.217297, -0.358397, 0.106969, -0.483699, -0.257113, -0.362768, 0.304177}; float c[16] = {-0.343321, -0.099056, -0.370210, -0.391191, 0.498924, -0.281743, 0.012932, 0.339112, 0.112640, -0.203968, 0.137552, 0.024287, -0.006417, 0.472775, -0.207483, 0.271358}; cblas_sgemm(CblasColMajor,CblasNoTrans,CblasNoTrans, m, n, k, alpha, a, lda, b, ldb, beta, c, ldc); /* * Output C: * -0.827621 1.147010 0.254881 -0.317229 * -0.163476 -0.636762 -0.428542 1.098841 * -0.791128 0.116416 0.166949 -0.434854 * -0.760862 0.866839 -0.092028 0.407877 * */
  • [API使用] Mindspore中Tensor数据索引功能不全
    [问题描述]在Mindspore中, 不能用bool类型的Tensor作为索引去获取另外一个Tensor中的数据, 例如:>>> import mindspore as ms>>> import mindspore.numpy as np>>> a = np.randn(5, 4, 3)>>> b = a[a[:, :, 0] > 0.5]出现异常,提示信息是:IndexError: The tensor index must be int type, but got (mindspore.bool_,).然而, 这种操作在numpy和PyTorch中都是常见的操作并能正常执行, 例如:>>> a1 = a.asnumpy()>>> b1 = a1[a1[:, :, 0] > 0.5]如果用masked_select方法,也行不通>>> b = a.masked_select(a[:, :, 0] > 0.5)出现异常,提示信息是:ValueError: For 'MaskedSelect', x.shape and mask.shape need to broadcast. The value of x.shape[-2] or mask.shape[-2] must be 1 or -1 when they are not the same, but got x.shape[-2] = [5, 4, 3] and mask.shape[-2] = [5, 4].请问怎样才能在Mindspore下实现, 类似于Numpy或PyTorch的用bool数组作为索引的操作呢?另外, numpy模块中还有一些输入接口兼容的问题. 例如:>>> c = np.repeat(a, b)b的类型只能是list而不能是Tensor. 然而在Mindspore中还未找到Tensor转list的方法,导致这些方法非常难用. 类似的算子还有很多,比如说zeros, ones等.在以后的版本中,能否加入数据转换的方法,并且丰富输入接口可支持的数据类型呢?
  • [API使用] 关于numpy模块接口兼容性的问题
    【问题描述】在numpy 模块中的几种Tensor初始化会有不同的问题, 比如说:>>> import mindspore as ms>>> import mindspore.numpy as np>>> a = ms.Tensor([1,2,3])再执行以下代码就会出不一样的情况:>>> b = np.arange(a[2]) # 正常 >>> c = np.zeros(a[2]) # 异常 >>> d = np.ones(a[2]) # 异常同样是初始化, 为什么有的就可以用Tensor作为shape而有的却只能用list呢? 再说, mindspore 中也没有提供好的Tensor转list的方法呀 [急][急][急]除了这类有输入接口有兼容性问题外, 还有如下例子:>>> np.log(a)为什么a 必须是float类型,而不支持int类型呢? 这种常见的函数操作在numpy和torch中都是支持的呀!
  • [API使用] 关于nonzero算子的Bug
    【问题描述】对于1.8新增的nonzero算子, 我在使用过程中发现如下问题:接着就会报错:但如果ix 不是nonzero的结果,而是定义好的,就没有, 比如说:希望能解决一下为什么会出现这种情况呢?
  • [计算] 裸金属的优势,然后怎么给高性能计算需求客户推荐上云
    裸金属:为用户提供专属的物理服务器,提供卓越的计算性能,满足核心应用场景对高性能及稳定性的需求,结合了传统托管服务器带来的稳定性能与云中资源高度弹性的优势。安全可靠裸金属服务器是用户专属的计算资源,支持VPC、安全组隔离;支持主机安全相关组件集成;基于擎天架构的裸金属服务器支持云磁盘作为系统盘和数据盘,支持硬盘备份恢复能力;支持对接专属存储,满足企业数据安全和监管的业务安全和可靠性诉求。性能卓越裸金属服务器继承物理服务器特征,无虚拟化开销和性能损失,100%释放算力资源。结合华为自研擎天软硬协同架构,支持高带宽、低时延云存储、云网络访问性能;满足企业数据库、大数据、容器、HPC、AI等关键业务部署密度和性能诉求。敏捷的部署效率裸金属服务器基于擎天加速硬件支持云磁盘作为系统盘快速发放;分钟级资源发放,基于统一console控制台、开放API和SDK,支持自助式资源生命周期管理和运维。4.云服务和解决方案快速集成裸金属服务器基于统一的VPC模型,支持公有云云服务的快速集成;帮助企业客户实现数据库、大数据、容器、HPC、AI等关键业务云化解决方案集成和加速业务云化上线效率。推荐高性能客户上云:选配ECS高配性能版-若客户的核心业务对于虚拟化环境运行无特殊要求,仅仅是性能要求较高,这是一个可用的选择;如果客户特殊异构计算的性能需求,可以推进GPU、AI、HPC、FGPA等异构计算服务若客户高性能业务不可兼容虚拟化环境,则可推荐BMS裸金属服务;
  • [计算] 裸金属的优势,然后怎么给高性能计算需求客户推荐上云
    裸金属:为用户提供专属的物理服务器,提供卓越的计算性能,满足核心应用场景对高性能及稳定性的需求,结合了传统托管服务器带来的稳定性能与云中资源高度弹性的优势。安全可靠裸金属服务器是用户专属的计算资源,支持VPC、安全组隔离;支持主机安全相关组件集成;基于擎天架构的裸金属服务器支持云磁盘作为系统盘和数据盘,支持硬盘备份恢复能力;支持对接专属存储,满足企业数据安全和监管的业务安全和可靠性诉求。性能卓越裸金属服务器继承物理服务器特征,无虚拟化开销和性能损失,100%释放算力资源。结合华为自研擎天软硬协同架构,支持高带宽、低时延云存储、云网络访问性能;满足企业数据库、大数据、容器、HPC、AI等关键业务部署密度和性能诉求。敏捷的部署效率裸金属服务器基于擎天加速硬件支持云磁盘作为系统盘快速发放;分钟级资源发放,基于统一console控制台、开放API和SDK,支持自助式资源生命周期管理和运维。4.云服务和解决方案快速集成裸金属服务器基于统一的VPC模型,支持公有云云服务的快速集成;帮助企业客户实现数据库、大数据、容器、HPC、AI等关键业务云化解决方案集成和加速业务云化上线效率。推荐高性能客户上云:选配ECS高配性能版-若客户的核心业务对于虚拟化环境运行无特殊要求,仅仅是性能要求较高,这是一个可用的选择;如果客户特殊异构计算的性能需求,可以推进GPU、AI、HPC、FGPA等异构计算服务若客户高性能业务不可兼容虚拟化环境,则可推荐BMS裸金属服务;
  • [其他] 浅谈Dongarra—高性能计算领域的首个图灵奖
    高性能计算领域的首个图灵奖,2021年图灵奖授予美国计算机科学家Jack J. Dongarra Dongarra通过对线性代数运算的高效数值算法、并行计算编程机制和性能评估工具的贡献,引领了高性能计算的世界。近四十年来,摩尔定律使硬件性能呈指数级增长。在同一时期,虽然大多数软件未能跟上这些硬件进步的步伐,但高性能数值软件却做到了,这在很大程度上归功于Dongarra的算法、优化技术和生产质量的软件实施。    这些贡献奠定了一个框架,科学家和工程师由此在大数据分析、医疗保健、可再生能源、天气预测、基因组学和经济学等领域取得了重要发现和改变游戏规则的创新。Dongarra的工作还有助于促进计算机体系结构的跨越式发展,并支持计算机图形学和深度学习的革命。Dongarra的主要贡献还包含了创建开源软件库和标准,这些软件库和标准采用线性代数作为中间语言,可以被各种应用程序使用。这些库是为单处理器、并行计算机、多核节点和每个节点的多个GPU编写的。这些库还引入了许多重要的创新,包括自动调整、混合精度算术和批处理计算。作为高性能计算的先驱,Dongarra带领该领域说服硬件供应商优化这些方法,并说服软件开发人员在工作中以他的开源库为目标。最终,从笔记本电脑到世界上最快的超级计算机,Dongarra的努力使得基于线性代数的软件库被普遍用于高性能科学和工程计算中。这些库对于该领域的发展至关重要,使功能越来越强大的计算机能够解决具有挑战性的计算问题。ACM主席Gabriele Kotsis解释道:“当今最快的超级计算机在媒体上成为头条新闻,并通过在一秒钟内完成万亿次计算的惊人壮举来激发公众的兴趣。但除了对打破新纪录的兴趣外,高性能计算(HPC)一直是科学发现的主要工具。HPC创新也蔓延到许多不同的计算领域,推动了整个领域的发展。Jack Dongarra在指引这一领域的成功发展中发挥了核心作用。他的开创性工作可以追溯到1979年,他仍然是HPC社区中最重要且积极参与的领导者之一。他的职业生涯无疑体现了图灵奖对‘具有持久重要性的重大贡献’的认可。”谷歌高级研究员、谷歌研究和谷歌健康高级副总裁Jeff Dean说:“Jack Dongarra的工作从根本上改变并推动了科学计算的发展。他在世界上使用最频繁的数值库核心所做的深入工作,是科学计算各个领域的基础,帮助推进了从药物发现到天气预报、航空航天工程和其他数十个领域的发展,帮助推进了从药物发现到天气预报、航空航天工程和其他数十个领域的发展。他专注于表征广泛的计算机已经为计算机体系结构带来了重大进步,(使其)非常适合数值计算。”    Dongarra一直是LINPACK、BLAS、LAPACK、ScaLAPACK、PLASMA、MAGMA和SLATE等多个库的主要实施者或首席研究员。这些库是为单处理器、并行计算机、多核节点和每个节点的多个GPU编写的。从笔记本电脑到世界上最快的超级计算机,他的软件库被普遍用在这些机器上进行高性能科学和工程计算。这些库体现了许多深刻的技术创新,例如:    自动调谐:通过他在2016年全球超级计算大会上获得时间测试奖的ATLAS项目来看,Dongarra开创了自动寻找算法参数的方法,产生了接近最佳效率的线性代数内核,往往比供应商提供的代码更出色。    混合精度算术:在2006年全球超级计算会议论文《Exploiting the Performance of 32 bit Floating Point Arithmetic in Obtaining 64 bit Accuracy》中,Dongarra率先利用浮点算术的多种精度来更快地提供准确的解决方案。正如最近在HPL-AI基准测试中所展示的那样,这项工作已在机器学习应用中发挥了重要作用,并在世界顶级超级计算机上实现了前所未有的性能水平。    批量计算:Dongarra开创了将大型密集矩阵计算(通常用于模拟、建模和数据分析)划分为多个小任务计算的范例,这些任务的块可以独立和并发计算。基于他在2016年发表的论文《Performance, design, and autotuning of batched GEMM for GPUs》,Dongarra领导开发了用于此类计算的批处理BLAS标准,它们也出现在了软件库MAGMA和SLATE中。
  • [新手课堂] 资讯|好天气,用“云”算出来!
    “云吃雾有雨,雾吃云好天”“满天乱飞云,雨雪下不停”“棉花云,雨快淋”千百年来,努力耕作的人们根据云的形状、移速、厚薄、颜色等特点判断天气趋势,总结出看云识天气的经验,并通过谚语代代流传。没有对气候的掌握,就没有农业文明,可以说,在历史的长河中,对“云”的研究,大大加快了人类文明的进程。你知道下面这些是什么云吗?世界气象组织发布的世界云图将云分为10大属和15大种▲扫描二维码看“云”到了今天,科技迅速发展,而“云”依旧是气象预报技术中不可或缺的一部分。结合天气云图,及云计算支撑的数值预报,天气预报的准确率得到大幅提升!什么是数值预报?简单地说,数值天气预报是一种用高性能计算机把未来天气算出来的科学。因为大气运动总是遵循一定的物理规律,人们将大气运动变化规律编写成一系列数学方程,再利用高性能计算机进行运算,得到未来天气发展变化状况。以预报超强级别台风,登陆浙江温岭的“利奇马”,为例:台风登录前,数值预报系统结合风云卫星的特点,确定目标观测区; 根据目标观测区,风云四号A卫星启动观测,获取云图数据和温湿度数据,提供大气温度和湿度垂直廓线数据;地面上,35部天气雷达、346套国家级自动气象站、近5600套区域自动气象站、13部探空系统、22套雷电监测设备围绕“利奇马”运转起来; 观测得到的海量资料,经过数值预报系统的应用,最终提高台风路径及强度预报的水平; 最终,这些预报信息,经过模式计算、人工订正等程序,不断更新,向全国各地传递第一手预报信息。数值天气预报使得天气预报从传统的以统计和经验为主的天气图方法转变成为客观定量的科学,被称为20世纪最伟大的科技发展之一。目前,数值天气预报是天气预报业务的支柱,准确的天气预报,离不开数值预报作为第一依据。华为云Stack为中国气象局气象雷达数值预报数据支撑子系统提供云平台支撑,承担高性能计算部分功能,强有力的支撑数值预报的研发试验。在2022年前夕,华为还联合北京气象局创新算法,融合数值模式与观测数据,结合赛事对应气象条件要求,利用高性能计算+AI算法,优化赛场站点预报、区域格点预报、大风修正预报等,平均预报准确性提升15%。未来,中国气象局将持续扩充、增强气象云计算基础设施资源,形成集群化、规模化、服务化的云算力资源支撑能力,提升云计算资源调度能力;依托气象大数据云平台人工智能支撑和智能应用数据集,推动人工智能在数据分析、资料同化、数值模式、气象预报和气象服务中的深入应用。让气象更好地服务国计民生,更好地造福民众,趋利避害助推经济社会高质量发展。转自华为云公众号
  • [技术干货] 新冠和癌症都能解决?看E级时代的HPC会带来多少可能
    导语:道、术、势三合一带来的天时+地利+人和,就是英特尔持续发力高性能计算创新的底气所在。长久以来,高性能计算(HPC)给人的印象总是神秘且高深。这是因为它主要是学术界用来推进基础科学发现和探索的手段,比如上到宏观的宇宙大爆炸模拟、下到微观的量子物理和分子动力学研究,这种级别的话题一抛出来,就会有“生人勿近”的感觉。然而,新冠肺炎对我们的突然袭击,让很多人重新认识了高性能计算:它非但不“高冷”,对热点事件的反应还出人意料的快——不论是中国还是全球,领先的基因与药物研发机构,在高性能计算的支持下,少则数小时,多则几天就破解了新冠病毒的结构,并立即开始疫苗的研制。可以说,正是高性能计算在算力上的爆发式增长,让过去以“年”来计算时长、且需要无数次实验来纠错的病毒和疫苗研究过程发生了翻天覆地的变化,这种变化还不能只用一个“快”字来概括,而是“快”与“精准”兼顾。“高性能计算是改变世界和丰富地球上每个人生活背后的创新,”在日前于珠海举办的2021 CCF全国高性能计算学术年会(CCF HPC China 2021)上,英特尔公司副总裁Trish Damkroger就在其主题演讲中这样总结道:“每天都有新的用户憧憬使用高性能计算系统的新方法来应对越来越多的高性能计算和AI的挑战。例如制造企业利用高性能计算系统来设计性能更好的运动装备,铁路公司使用托管的天气预报服务来避免脱轨,药剂师使用机器学习来查明药物中的有害成分。” Trish的话,对于整个高性能计算行业而言已不仅仅是思想上的共鸣,而是正演进为重塑这一技术及行业的共振。亲历了这场中国顶级高性能计算行业峰会,并站在E级 (Exascale,百亿亿级)计算时代门前的业内同仁,不论是来自最终用户、产品技术提供商还是研究机构,可能都在思考:高性能计算还会在哪些行业、哪些领域和场景引发创新的裂变反应?它达成E级算力并与AI和大数据实现了更为充分的融合后,又会带来哪些前所未有的可能?图一 CCF HPC China 2021上的英特尔展位这两个问题,或许每个专业人士的心里都有自己的答案,普通大众也会有自己的那份期盼,暂时让我们过滤掉这种多样性和复杂度,仅就刚才提到的医疗及生命科学领域做个展望。更多疑难杂症将迎来精准疗法或药物上面这句话,就是高性能计算未来升级到E级计算时代,并与AI和大数据深度融合后,即将为这个领域带来的变化。正如前文提到的,高性能计算已经显著缩短了新冠病毒分析和疫苗的研发时间,拯救了数亿普通人的生命。如果把它,特别是有了E级计算能力的它用于更为广泛的医疗细分领域,那么它又快又精准的效果,也会随之扩展到这些细分领域。一个典型的例子就是美国著名影星安吉丽娜·朱莉,她有家族性乳腺癌史,在做了基因检测之后,结果显示她患乳腺癌的风险高达87%,于是她与医生商量后进行了预防性乳腺切除,把乳腺癌风险降低到了5%以下。这种融合基因测序、分子诊断等手段、并由高性能计算加速的精准医疗方案,目前还只能惠及少部分人,主要原因就是高性能计算的整体算力还有所不足,无法为更多个体提供同样精准和快捷的服务。而且目前医学领域的基础研究与临床医学也处于分立的状态,这让很多基础研究偏离了解决实际需求的出发点,无法更高效地作用于医学的发展和进步。于是,在高性能计算演进的同时,能更有效利用它的转化医学概念也被提出,它就是要把基础医学研究与临床实践更紧密地结合起来,通过多学科交叉合作实现“从实验室到临床”的双向且高效的转化。在这个方向上,作为中国第一个,也是目前唯一建成的国家级综合性转化医学中心——上海交通大学附属瑞金医院转化医学中心很有发言权,其重点研究方向聚焦在肿瘤(包括白血病)、代谢性疾病和心脑血管疾病等领域,其实践过程就是需要收集全面多维的患者生物信息数据,然后基于海量数据的挖掘和分析,最终形成更个性化且精准的诊疗方案,然后再把这些方案涉及的新疗法和新药物普及开来。这一过程说起来简单,但在落实时却十分复杂,仅在数据的收集、传输、存储和处理环节就面临重重困难,根本原因就是其涉及到本就庞大且还在持续增长的数据量。毕竟,单个人类全基因测序分析涉及的数据就高达870GB,再加上招募的患者病情通常比较危急,要求数据处理越快越好。另一方面,由于不同转化医学研究团队都需要同时访问海量数据库,所以,数据并行访问的性能,就与算力一起,成为了影响整体效率高下的关键。为此,瑞金医院转化医学中心搭建了一个集存、传、算、用为一体的定制化超算平台,其中不但导入了英特尔至强可扩展处理器的强劲算力和高效算法来保障超算平台的计算性能,还使用了“英特尔傲腾持久内存+分布式异步对象存储 (DAOS)”的方案,来满足转化医学实时、高频和高效访问数据的需求。图二 瑞金医院转化医学中心对DAOS优势的剖析瑞金医院转化医学国家重大科技基础设施(上海)生信大数据平台共同负责人吕纲就在本次HPC China年会上表示:“DAOS充分发挥了英特尔傲腾持久内存的性能,提供了高带宽、低时延以及优异的小文件并发性能。对应全球IO500排行榜的公开数据,这将是生信领域第一个可以冲击榜单前十的系统,也是一个突破天花板的里程碑。”吕纲在这里提到的英特尔傲腾持久内存,就是英特尔目前的高性能计算产品技术组合中的重要成员。它与DRAM相比,性能相近,但容量、耐用性和性价比更高,还有掉电不丢数据的独家本领。DAOS在软件上针对持久内存的特性做了优化,从而显著提升数据存储的访问效率。按吕纲的话说,就是:“以前做全基因组测序需要花近168小时,有了定制的生信计算平台,不到8小时就可以完成!这为挽救患者生命争取最佳治疗时机提供了保障。“说E级盼E级,E级实现不容易有了瑞金医院转化医学中心的开创性工作,并伴随更多转化医学中心的建立、运作和辐射,更多疾病,尤其是疑难杂症就有望获得更为精准的疗法和药物的支持,甚至被攻克。但这一愿景的落地,也离不开高性能计算的进一步发展演进。当然,高性能计算发展和演进惠及了很多行业。相信随着E级计算时代的到来,它必将在更多的行业中激发出更多让人意想不到的创新。E级计算既然有这么大的价值,那还不废寝忘食、日以继夜地加速搞定?这一点,可没有圈外人想象得那么简单。毕竟,它的算力水平,就是每秒钟要实现百亿亿次浮点运算。用一个形象但不够精确的方式来解释,它一瞬间的计算量,需要地球上的所有人持续不停地算上四年时间。要实现如此级别的算力,现有的高性能计算技术必然要进行大的变革甚至是颠覆。而一个大家都已公认的方向,就是必须要导入基于异构架构的基础设施。所谓异构架构,翻译成易懂的语言就是:CPU要有,GPU也要上,FPGA和ASIC(专用芯片)都有更好,总之……不论通用算力还是特定加速,一个都不能少!英特尔近几年来被频频提及的XPU战略,就是这种异构架构创新方向的具体体现。先说说这个架构中的CPU,它在未来的XPU时代大概率仍会扮演C位角色,算是通用算力的主要输出和整个平台的总控。例如今年刚刚发布的第三代英特尔至强可扩展处理器,就一方面借助创新内核架构、对最多40个内核和英特尔深度学习加速等技术的集成来实现通用算力,同时兼顾了对AI应用的加速。来自实测的数据,证明这些技术的使用确实是立竿见影:与上一代相比,第三代至强可扩展处理器将金融领域的蒙特卡罗、布莱克-舒尔斯和二项式期权定价模型等应用的性能分别提升了高达70%、67%和28% ;将生命科学领域的NAMD、GROMACS、LAMMPS和 RELION的性能分别提升了高达57%、64%、60% 和 61%;将制造业中的 CONVERGE、NUMECA、OpenFOAM和Altair Radioss的性能分别提升了高达52%、61%、51%和47% 。而AI推理性能上,它相比前一代产品也提升了74%。图三 英特尔高性能计算产品组合现阶段的核心——第三代至强可扩展处理器另一方面,业内人士也非常看重第三代至强可扩展处理器在IO能力上的升级,特别是支持PCI-e 4这一进步,让它能与更多高性能 GPU 搭配。下一代至强可扩展处理器 Sapphire Rapids 相比之下就更加让人期待:它将会采用全新模块化SoC架构,除了最多可支持 56个内核以及112线程外,它更吸引人的地方是一股脑导入了对DDR5、PCIe5 、CXL 和HBM技术的支持,可以进一步增强内存、存储和互连的性能,而且这款产品还会集成 AMX(高级矩阵扩展)技术,让CPU在运行矩阵运算任务时,拥有更显著的加速效果。图四 英特尔公司副总裁 Trish Damkroger 展望下一代至强可扩展处理器的规格特性与Sapphire Rapids主要提升通用计算性能相对应的,就是Ponte Vecchio将为高性能计算和人工智能带来的更强加速能力。根据Trish Damkroger的介绍,这款由47种不同芯片模块组合而成的英特尔GPU,将采用灵活的数据并行向量矩阵引擎来处理一系列高度并行的工作负载,以助力加速 E 级计算愿景的实现。它可提供超高的双精度浮点运算吞吐量并提供超高缓存和内存带宽,以满足需要高内存带宽的应用程序的需求。图五 集领先架构和多种先进制造、封装技术于一身的Ponte Vecchio异构架构虽然主要会落实在硬件上,但它并不只是硬件需要面对的机遇和挑战。“异构系统增加了对可扩展软件方法的需求,这种软件应该能在堆栈的不同层级工作,” Trish Damkroger指出,“英特尔推出了oneAPI 行业计划来帮助应对这一挑战。”图六 英特尔在本次HPC China上分享的oneAPI技术演示oneAPI为充分简化跨CPU、GPU、FPGA及其他加速器的异构计算应用开发及优化而生,肩负着推进和落实XPU战略的重任。它不仅能够提供编译器、库和分析工具,还支持AI和HPC应用加速的AMX、VNNI/DL Boost 指令和内存技术等功能。其目标,就是为更多相关应用负载提供更优的支持,并实现异构计算“一次编译,处处运行”。图七 英特尔现在已大部分就绪,明后两年就会完全就绪的高性能计算产品组合从硬件到软件再到产品组合,从计算到存储再到互联,英特尔向高性能计算市场交出的答案就是丰富、多维、软硬兼施的完整产品技术组合。至强是这一组合现阶段的核心,上文提及的oneAPI、傲腾持久内存和DAOS也同样是其不可或缺的部分。Sapphire Rapids和Ponte Vecchio则会为这个组合第一次带来“双主角”的配置。不过更值得说明的是,不论是现阶段以CPU为主的组合,还是未来CPU与GPU协作的组合,英特尔提供这种组合,而非单独CPU支持的根本原因,都是要实现“均衡”。英特尔对这种均衡的解读,一是要实现数据全链路,包括计算、存储和传输的均衡提升和优化,以避免平台出现性能短板和瓶颈;二是要实现对通用计算和专用加速能力的兼顾和均衡提升,以满足高性能计算应用多样化+差异化+融合化的需求。而不论是这两种解读中的哪一种,目前整个业界几乎也只有英特尔具备足够的实力将之实现。图八 英特尔在本次HPC China现场展示的部分高性能计算硬件产品 高性能计算要持续创新:超级力量和生态合作需并重虽然Sapphire Rapids和Ponte Vecchio的指标非常诱人,但它肯定不是英特尔在高性能计算领域的创新终点。同样,尽管E级计算现在还是一个颇有难度的创新目标,但它也迟早会成为高性能计算创新史书上的里程碑之一。 在它们达成之后技术和产业又会发生哪些新的变化,这才是大家目前更为好奇的话题。虽然同样没有一个标准答案,但英特尔CEO帕特.基辛格最近提出的“四大超级技术力量”,或许可以帮我们拨开些许迷雾。“这四种超级力量分别是无处不在的计算、无处不在的连接、从云到边缘的基础设施,以及人工智能,”英特尔公司市场营销集团副总裁、中国区行业解决方案部总经理梁雅莉表示:“每一个超级力量都有其特质,同时也相得益彰,创造了强大的全新可能性。”图九 英特尔公司市场营销集团副总裁、中国区行业解决方案部总经理梁雅莉虽然提到可能性,就会有很多种可能,但梁雅莉还是锁定了一个重要的方向,即万物智能化,它是在万物数字化、万物网络化、万物移动化和万物云化基础上衍生出来的更大变革。“它将让人们对计算的需求呈指数级增长,”梁雅莉表示:“具备E级计算能力的高性能计算,就是支持这个转变的重要基础设施之一。”图十 将赋能“万物智能化”变革的四大超级技术力量赋能万物智能化的目标,肯定不是一家企业能够达成的愿景。就像在高性能计算领域不能只靠一个CPU或GPU,要凭产品组合打天下,在实现如此创新愿景的过程中,英特尔也在呼唤来自广泛生态系统合作伙伴的支持。很明显,合作伙伴的响应很是积极——仅本次HPC China大会上,英特尔就联合十五家合作伙伴,展示了它们在高性能计算系统和解决方案上的最新成果,其中三家的实物展示还“嵌入”到了英特尔展区中,它们分别是新华三集团基于第三代英特尔至强可扩展处理器、英特尔傲腾持久内存、英特尔SSD Optimizer 存储构建的通用液冷服务器 H3C UniServer R4900 G5 以及整体液冷解决方案,联想基于第三代英特尔至强可扩展处理器的 ThinkSystem SD650 V2 温水水冷服务器,以及同样基于该款处理器的宝德HPC&AI集群解决方案。图十一 H3C UniServer R4900 G5服务器不仅提升了服务器性能,也可有效减低噪音,助力“双碳”目标实现图十二 联想ThinkSystem SD650 V2温水水冷服务器使用铜质水回路实现成本缩减和更高散热效率,能为要求严苛的 HPC 工作负载提供更可靠的支持图十三 宝德 HPC & AI 集群解决方案能充分释放英特尔深度学习加速技术的潜能,助用户获得将HPC和AI有机融合的应用体验写在最后经过多年发展,高性能计算终于吹响了向E级计算时代冲刺的总攻号角,此为“势”正成。英特尔与合作伙伴的关系更加密切、对创新的传递和放大更为明显,此为“道”已显。英特尔高性能计算产品技术组合的成员越来越多维和丰富,搭配后还能带来更强的加成效果,此为“术”渐精。这种道、术、势三合一带来的天时+地利+人和,就是英特尔持续发力高性能计算创新的底气所在。同样,一场席卷全球的新冠肺炎,也为更多人接触、了解甚至是应用高性能计算带来了一个意料之外的契机,也让大家认识到,正是由于人类对于包括健康在内的更美好生活永不停歇的追求,才会对高性能计算不断提出更高的要求,同时也推动着高性能计算的普及。当追求美好遇见勇于创新,会有怎样的化合作用?过去的,我们已经见证;未来的,让我们拭目以待。来源“雷锋网”作者 | 包永刚原文链接 | https://www.leiphone.com/category/chips/70kUCF8OUx9Sbcd6.html
  • [新手课堂] 华为荣获HPC China 2021 HPC融合架构创新奖
    10月21日至23日,以“智算赋能 · 共赢未来”为主题的2021 CCF全国高性能计算学术年会(简称CCF HPC China 2021)在珠海·横琴召开。华为凭借在计算、存储、网络等领域的架构创新,斩获CCF HPC China 2021 HPC融合架构创新奖。本次大会由中国计算机学会主办,是全球范围内、高性能计算领域最具影响力的三大盛会之一。大会今年邀请了中国科学院、中国工程院、英国皇家工程学院、英国皇家学会的7大院士,300+行业大咖、研究学者、企业精英,着力聚焦“智算融合”浪潮下,HPC领域的新成果、新探讨与新碰撞。华为集群计算业务发展总监谢海波在21日大会主论坛发表“从算力中心到算力网络”的主题演讲,分享了华为高性能计算融合架构的进展及在算力中心建设中的应用。他表示,面向多样性算力时代,系统从单一算力到多样性算力,从单机部署到融合集群部署,从传统应用到融合智能应用,都给软件开发者带来了更加复杂的挑战。华为全联接2021,北冥多样性计算融合架构正式发布,多个城市共同点亮人工智能算力网络。谢海波说,这些都是满足多样性业务需求的举措,算力中心需要按照多样性计算的方式进行建设,最终也必将走向算力网络。22日下午,2021华为高性能计算解决方案分论坛也在大会期间举行,华为集群计算解决方案首席架构师王飞,华为北冥实验室主任王龙,中国人民大学计算中心负责人鲁蔚征,华为数据中心网络解决方案总监张磊,中国科学技术大学计算机学院教授、超级计算中心主任李京,北京大学研究生龙汀汀,华为多样性计算首席专家刘飞及华为HPC首席技术研究专家丁肇辉在本次论坛上分享高性能计算网络的新技术、新成果和新实践。面向未来,华为公司坚持以根深促叶茂,共同推动围绕根技术的多样性计算的生态发展。
总条数:42 到第
上滑加载中