-
PKCS签名问题导致驱动或固件回退失败、npu-smi命令异常或davinci设备无法启动问题描述1驱动回退过程中出现图1所示报错信息,执行npu-smi命令异常,查看“ascend_install.log”日志信息,显示图2所示报错:图1 驱动回退报错图2 驱动日志信息固件回退过程中出现图3所示报错,查看“ascend_install.log”日志信息,显示图4所示报错:图3 固件回退报错图4 固件日志信息问题描述2驱动安装过程中davinci设备无法启动,出现图5所示报错:图5 davinci设备无法启动使用msnpureport -f 收集device侧日志,查看“hisi_logs/device-0/20221008103618-286885000/snapshot/hdr.log”日志,出现图6所示校验失败日志信息:图6 校验失败可能原因签名校验失败。解决方案安装NPU 22.0.3及以上版本驱动和配套固件。设置PKCS的状态为“使能”。执行如下命令:npu-smi set -t pkcs-enable -d 0如出现如下回显,则表示设置成功。 [WARNING]: Enabling pkcs will raise safety risks. Status : OK Message : The pkcs-enable is set successfully
-
以下是环境基本信息:cmake版本:3.20.2 (没找到arm版本的3.12.0的cmake)使用pytorch基础镜像:22.0.RC3CANN版本:6.0.rc1报错截图:请问这个报错是什么原因导致的?
-
[安装] mindspore-gpu版本安装后报错RuntimeError: There is a cuda error, errorno[100], no CUDA-capable device is detectedocker和pip两种方式尝试安装mindspore-gpu,cuda11.1,mindspore1.9.0均报相同错误,cuda 版本export | grep cuda-11.1declare -x LD_LIBRARY_PATH="/usr/local/cuda-11.1/lib64:"declare -x PATH="/home/sx/py_env/xingtian_pip/bin:/usr/local/cuda-11.1/bin:/usr/local/sbin:/usr/local/bin:/ usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games:/snap/bin:/usr/local/cuda/binnvcc --versionnvcc: NVIDIA (R) Cuda compiler driverCopyright (c) 2005-2020 NVIDIA CorporationBuilt on Mon_Oct_12_20:09:46_PDT_2020Cuda compilation tools, release 11.1, V11.1.105Build cuda_11.1.TC455_06.29190527_0python --versionPython 3.7.5mindspore-gpu 1.9.0cudnncat /usr/local/cuda-11.1/include/cudnn_version.h | grep CUDNN #ifndef CUDNN_VERSION_H_#define CUDNN_VERSION_H_#define CUDNN_MAJOR 8#define CUDNN_MINOR 7#define CUDNN_PATCHLEVEL 0#define CUDNN_VERSION (CUDNN_MAJOR * 1000 + CUDNN_MINOR * 100 + CUDNN_PATCHLEVEL)#define CUDNN_MAX_SM_MAJOR_NUMBER 9#define CUDNN_MAX_SM_MINOR_NUMBER 0#define CUDNN_MAX_DEVICE_VERSION (CUDNN_MAX_SM_MAJOR_NUMBER * 100) + (CUDNN_MAX_SM_MINOR_NUMBER * 10)#endif /* CUDNN_VERSION_H */python -c "import mindspore;mindspore.run_check()"测试正常MindSpore version:1.9.0 The result of multiplication calculation is correct, MindSpore has been installed successfully!运行报错docker,pip两种方式均尝试过,附件是软件包
-
请问有没有详细的CANN和AscendHub镜像版本对应关系表,目前只在AscendPyTorch的Git上找到一个,但是只包括了5.X和6.X的CANN版本
-
在昇腾910芯片,训练Transformer大模型时,我们的序列长度特别长,例如8192的序列长度,这边遇到的一个问题是,当我们预先将数据处理为mindrecords格式的数据后,在设置 dataset_sink_mode=True 的情况下,数据迭代会因为超时而报错(如下错误信息)。[ERROR] DEVICE(301,fff158ff6160,python):2023-01-09-11:35:20.909.119 [mindspore/ccsrc/plugin/device/ascend/hal/device/ascend_kernel_runtime.cc:721] DumpTaskExceptionInfo] Dump node (Default/GetNext-op3507) task error input/output data to: ./rank_21/node_dump [WARNING] DEVICE(301,fff158ff6160,python):2023-01-09-11:35:20.909.161 [mindspore/ccsrc/plugin/device/ascend/hal/device/ascend_kernel_runtime.cc:728] DumpTaskExceptionInfo] GetNext error may be caused by slow data processing (bigger than 20s / batch) or transfer data to device error. [WARNING] DEVICE(301,fff158ff6160,python):2023-01-09-11:35:20.909.171 [mindspore/ccsrc/plugin/device/ascend/hal/device/ascend_kernel_runtime.cc:730] DumpTaskExceptionInfo] Suggestion: [WARNING] DEVICE(301,fff158ff6160,python):2023-01-09-11:35:20.909.180 [mindspore/ccsrc/plugin/device/ascend/hal/device/ascend_kernel_runtime.cc:731] DumpTaskExceptionInfo] 1) Set the parameter dataset_sink_mode=False of model.train(...) or model.eval(...) and try again. [WARNING] DEVICE(301,fff158ff6160,python):2023-01-09-11:35:20.909.188 [mindspore/ccsrc/plugin/device/ascend/hal/device/ascend_kernel_runtime.cc:733] DumpTaskExceptionInfo] 2) Reduce the batch_size in data processing and try again. [WARNING] DEVICE(301,fff158ff6160,python):2023-01-09-11:35:20.909.196 [mindspore/ccsrc/plugin/device/ascend/hal/device/ascend_kernel_runtime.cc:734] DumpTaskExceptionInfo] 3) You can create iterator by interface create_dict_iterator() of dataset class to independently verify the performance of data processing without training.我们的尝试在构建数据迭代类中,设置大的进程数,例如 dataset.map(operations=map_func, num_parallel_workers=32) 和 dataset.batch(batch_size, drop_remainder=drop, num_parallel_workers=32) 这样似乎会导致机器的内存占用过大。如果我将 dataset_sink_mode=False,那是不是会导致训练中CPU将成为瓶颈,降低昇腾芯片的利用率。
-
AscendPyTorch的Readme中提到系统依赖库安装时,gcc版本使用7.3.0,请问如果在Centos8系统上安装,需要降低GCC版本吗
-
pipeline缺少插件怎么办,重装新的版本吗?
-
在源码中mindspore/ccsrc/cxx_api/graph/graph_data.h与mindspore/ccsrc/minddata/dataset/engine/gnn/graph_data.h两者是否存在联系,中间是否有引用关系呢?目前的最主要问题是哪一块代码是ms中计算图获取的部分?
-
这一节涉及一些实操的内容,但我的电脑还没有配置好,所以先看知识性的内容,以后弄好了填坑课程目标了解PyTorch与昇腾平台的适配了解Davinci硬件架构了解什么样的模型在昇腾上更亲和了解软件术语了解Ascend-PyTorch的安装步骤了解如何将原生的PyTorch模型代码适配至Ascend-PyTorchPyTorch==在线对接适配==方案最大限度继承pytorch框架动态图的特性最大限度继承原生pytorch上的使用方式:最小的开发方式和代码的重用最大限度继承pytorch原生的体系结构扩展性好,对于新的网络类型或结构,只涉及相关计算类算子的开发和实现,对于框架类的算子可以复用达芬奇架构计算单元Cube:矩阵运算fp16的16×16与16×16的矩阵乘相关操作:matmul、conv2d、linearVextor:向量运算算力低于Cube,但灵活性高计算类型:fp16、fp32、int8Scalar:各类型的标量数据运算&程序的流程控制功能上类似于小的CPU软件架构Ascend-PyTorch安装==挖坑==PyTorch模型迁移手工迁移脚本转换工具(msFmkTransplt)自动迁移(推荐) ==挖坑==
-
作业一实战场景:下载基于Caffe ResNet-50网络实现图片分类(仅推理)样例应用的源码,并参考Readme成功编译、运行应用,体验基础推理过程。评分细则:使用atc工具转换模型,提供转换命令及转换成功的截图。使用转换后的模型,重新编译运行样例应用(基于Caffe ResNet-50网络实现图片分类(仅推理)),提交成功编译运行应用的截图。总结实战过程中遇到的问题及解决方法,并提交总结。优化样例应用,包括优化代码逻辑、优化代码注释、补充代码注释等,提交优化后的源码、优化思路说明、优化位置说明。评分一和评分二:1.连接华为云服务器并克隆下载samples代码库git clone https://gitee.com/ascend/samples.git2.切换用户及目录(因为cann包装在该用户下)cd /home/su - HwHiAiUsersource ~/Ascend/ascend-toolkit/set_env.shcd samples/cplusplus/level2_simple_inference/1_classification/resnet50_imagenet_classification3.切换到/caffe_model目录下使用wget命令会下载到当前目录wget https://obs-9be7.obs.cn-east-2.myhuaweicloud.com/003_Atc_Models/AE/ATC%20Model/resnet50/resnet50.prototxtwget https://obs-9be7.obs.cn-east-2.myhuaweicloud.com/003_Atc_Models/AE/ATC%20Model/resnet50/resnet50.caffemodel4.转换模型atc --model=caffe_model/resnet50.prototxt --weight=caffe_model/resnet50.caffemodel --framework=0 --output=model/resnet50 --soc_version=Ascend310 --input_format=NCHW --input_fp16_nodes=data --output_type=FP32 --out_nodes=prob:05.下载图片并转换为bin文件请从以下链接获取该样例的输入图片,并以运行用户将获取的文件上传至开发环境的“样例目录/data“目录下。如果目录不存在,需自行创建。wget https://obs-9be7.obs.cn-east-2.myhuaweicloud.com/models/aclsample/dog1_1024_683.jpgwget https://obs-9be7.obs.cn-east-2.myhuaweicloud.com/models/aclsample/dog2_1024_683.jpg6.编译运行6.1请先进入“cplusplus/level2_simple_inference/1_classification/resnet50_imagenet_classification”样例目录6.2设置环境变量,配置程序编译依赖的头文件与库文件路径。当开发环境与运行环境的操作系统架构相同时,配置示例如下所示:export DDK_PATH=$HOME/Ascend/ascend-toolkit/latest export NPU_HOST_LIB=$DDK_PATH/runtime/lib64/stub6.3切换到样例目录,创建目录用于存放编译文件,例如,本文中,创建的目录为“build/intermediates/host“。mkdir -p build/intermediates/host6.4切换到“build/intermediates/host“目录,执行如下命令生成编译文件。当开发环境与运行环境操作系统架构相同时,执行如下命令编译。cd build/intermediates/host cmake ../../../src -DCMAKE_CXX_COMPILER=g++ -DCMAKE_SKIP_RPATH=TRUE6.5执行如下命令,生成的可执行文件main在“样例目录/out“目录下。make6.6切换到可执行文件main所在的目录,例如“$HOME/cplusplus/level2_simple_inference/1_classification/resnet50_imagenet_classification/out”,运行可执行文件。./main遇到的问题:执行环境设置时,报错报错原因:查看Ubuntu系统/bin/sh的实际链接,发现使用的是dash,而source xxx.sh或者. xxx.sh命令需要使用bash解析器,因此出现报错。解决办法:Ubuntu下shell执行source命令报source: not found问题处理_柚子君.的博客-CSDN博客作业二基于Caffe ResNet-50网络实现图片分类(仅推理)样例,更换为ResNet-101分类模型。更换同类模型时,由于模型的输入、输出相似,所以源码基本可以复用,只需更换模型即可。定制点说明如下下载ResNet-101模型(resnet101_tf.pb),放到resnet50_imagenet_classification样例的caffe_model目录(表示原始模型的存放路径),执行以下命令转换模型,在output参数处指定的model目录下获取resnet101_tf.om:atc --model=caffe_model/resnet101_tf.pb --framework=3 --output=model/resnet101_tf --output_type=FP32 --soc_version=Ascend310 --input_shape="input:1,224,224,3" --log=info生成测试数据进入resnet50_imagenet_classification样例的script目录,修改transferPic.py脚本中的如下内容,将float16改为float32:img = img.astype("float16")修改后:img = img.astype("float32")切换到“resnet50_imagenet_classification样例目录/data“目录下,执行transferPic.py脚本,将*.jpg转换为*.bin,同时将图片从1024*683的分辨率缩放为224*224。在“resnet50_imagenet_classification样例目录/data“目录下生成2个*.bin测试文件。python3 ../script/transferPic.py调用AscendCL接口(例如aclmdlLoadFromFileWithMem接口)加载ResNet-101模型:在src/sample_process.cpp文件中定制代码。参考Caffe ResNet-50网络实现图片分类(仅推理)样例的readme,重新编译并运行。评分细则:使用atc工具转换模型,提供转换命令及转换成功的截图。(5分)使用转换后的模型、定制后的代码,重新编译运行应用,提交成功编译运行应用的截图。(10分)总结实战过程中遇到的问题及解决方法,并提交总结。(5分)评分一:同作业一中,下载好模型后,执行上述ATC模型转换命令即可评分二:修改sample_process.cpp中om模型的位置作业三使用Pytorch实现LeNet网络的minist手写数字识别。硬件平台不限,可以基于windows或者linux系统,尽量给出整个过程的截图,并在最后给出loss或者accuracy运行结果,提供打印loss和accuracy日志,给出截图。参考链接Github:cid:link_3 答:根据链接中的文件,设置好训练参数等,运行训练脚本即可作业四采用课程中学习到的手工或者自动迁移方式,将上述脚本迁移到昇腾npu上,单机单卡,提供迁移脚本,突出关键点并截图答:自动迁移,仅PyTorch 1.8.1版本及以上使用,自动迁移方式较简单,只需在训练脚本中添加引入几行代码。 import torch_npu from torch_npu.contrib import transfer_to_npu 作业五提供使用ddp迁移的单机8卡的训练脚本,无需运行,提供修改后的脚本,并突出关键点
-
背景一个encoder-decoder结构的网络,主干网络里面有很多矩阵乘MatMul和LayerNorm,由于在Ascend平台上跑的,如果使用float32进float32出,性能会慢的难以接收,但是使用float16会训着训练连续溢出导致训练失败。排查策略加loss scale由于不确定溢出是上溢还是下溢,一般可以添加动态的loss scale来排查是哪种溢出情况:iterator = dataset.create_tuple_iterator() for i, data in enumerate(iterator): loss, overflow, scaling_sens = train_net(*data) print("step: {}, loss: {}, overflow:{}, scale:{}".format(i, loss, overflow, scaling_sens))train_net参考官网迁移指南-调试调优篇 包装训练网络和loss scale。注意需要使用动态的loss scale,默认scale值要大一点才好做判断。如果一直持续overflow,但是到scale值小到一定值就不overflow了,那之前应该是上溢,用小一点的loss scale就行;如果持续overflow,直至scale值到1还是会持续溢出,那不确定是上溢还是下溢,需要开溢出dump来继续排查了。溢出dumpMindSpore 异步dump有个dump溢出算子输入输出的功能,只需要将op_debug_mode设置成3就行,其他按需配置。按教程执行训练,整个过程会慢一点,并且需要dump目录留有足够的硬盘空间,当发生溢出时会dump该算子的输入和输出,可以直接用numpy打开看下输入数据是否合理,如果有不合理的数据的话,在代码里加措施规避,比如:Sqrt的输入是0,反向溢出,除法的除数是0等等。如果输入是合理的,那需要看下计算算子精度表达范围,float16表达范围:-65504~65504,超出这个范围也会有溢出,这时需要对计算输入加clip或者Norm操作缩小输入的范围。我这次遇到的情况就是数值超过float16能表达的上线了,接MatMul的Cast操作溢出。解决策略由于不想让网络变慢,保留了MatMul float16计算,增加了MatMul之前的LayerNorm的eps,从1e-5 -> 1e-3,保证MatMul输入不要过大,另外给MatMul的两个输入除一个系数,我这次是除了32,由于MatMul后面接的SoftMax,线性操作不影响其分布,所以可以这么做,这样修改完之后溢出情况基本解决。
-
按照教程,sd卡制卡显示成功,但是插入卡后上电只亮两个灯,之后检查sd卡分区,发现没有ascend_seclog这个目录。
-
↵大家好!我在跑MindScience中的MindElec时,遇到了一些安装上的问题。我基于ubuntu 22.04系统,使用anaoncda成功安装了mindspore-gpu,使用指令检测:python -c "import mindspore;mindspore.run_check()"得到:mindspore version 1.9.0The result of multiplication calculation is correct, MindSpore has been installed successfully!其中,为了安装MindElec库,安装的python=3.7,cuda=11.6。由于没有ascend硬件,使用的GPU,则在cid:link_0中,将代码train.py的device_target手动改为“GPU”:context.set_context(mode=context.GRAPH_MODE, save_graphs=False, device_target="GPU", save_graphs_path="./graph")然而,运行时报错如下,报错一:[ERROR] ME(9704:139975885083712,MainProcess):2023-01-02-19:17:19.449.580 [mindspore/run_check/_check_version.py:194] Cuda ['10.1', '11.1', '11.6'] version(libcu*.so need by mindspore-gpu) is not found, please confirm that the path of cuda is set to the env LD_LIBRARY_PATH, or check whether the CUDA version in wheel package and the CUDA runtime in current device matches, please refer to the installation guidelines: https://www.mindspore.cn/install[ERROR] ME(9704:139975885083712,MainProcess):2023-01-02-19:17:19.449.691 [mindspore/run_check/_check_version.py:194] Cuda ['10.1', '11.1', '11.6'] version(libcu*.so need by mindspore-gpu) is not found, please confirm that the path of cuda is set to the env LD_LIBRARY_PATH, or check whether the CUDA version in wheel package and the CUDA runtime in current device matches, please refer to the installation guidelines: https://www.mindspore.cn/install[ERROR] ME(9704:139975885083712,MainProcess):2023-01-02-19:17:19.455.499 [mindspore/run_check/_check_version.py:194] Cuda ['10.1', '11.1', '11.6'] version(libcudnn*.so need by mindspore-gpu) is not found, please confirm that the path of cuda is set to the env LD_LIBRARY_PATH, or check whether the CUDA version in wheel package and the CUDA runtime in current device matches, please refer to the installation guidelines: https://www.mindspore.cn/install[ERROR] ME(9704:139975885083712,MainProcess):2023-01-02-19:17:19.455.585 [mindspore/run_check/_check_version.py:194] Cuda ['10.1', '11.1', '11.6'] version(libcudnn*.so need by mindspore-gpu) is not found, please confirm that the path of cuda is set to the env LD_LIBRARY_PATH, or check whether the CUDA version in wheel package and the CUDA runtime in current device matches, please refer to the installation guidelines: https://www.mindspore.cn/install[ERROR] ME(9704,7f4eace85440,python):2023-01-02-19:17:19.504.811 [mindspore/ccsrc/runtime/hardware/device_context_manager.cc:46] LoadDynamicLib] Load dynamic library libmindspore_gpu failed, returns [libcudnn.so.8: cannot open shared object file: No such file or directory].报错二:RuntimeError: Create device context failed, please make sure target device:GPU is available.----------------------------------------------------- C++ Call Stack: (For framework developers)----------------------------------------------------mindspore/ccsrc/runtime/hardware/device_context_manager.cc:208 GetOrCreateDeviceContext这里表示未检测出cuda11.6和GPU,但我的python解释器里有cuda11.6,且python -c "import mindspore;mindspore.run_check()"测试都通过了。请问大家如何解决?非常感谢!
-
无论将生成好的hdf5数据文件放在哪个目录下,都会出现如上报错
-
我使用rpm -aq|grep yum|xargs rpm -e --nodeps 命令误删yum,之前的yum是 lyum-1.0.0-1.AOS3.0.aarch64,但是不能使用。我的系统是 Linux AOS 4.19.95-1.h1.AOS3.0.aarch64 #1 SMP Sat May 28 02:10:04 UTC 2022 aarch64 aarch64 aarch64 GNU/Linux,目前mdc210可以连接外网,请问我应该下载那些安装包进行yum的安装。
上滑加载中
推荐直播
-
TinyEngine低代码引擎系列.第1讲——低代码浪潮之下,带你走进TinyEngine
2024/11/11 周一 16:00-18:00
李老师 高级前端开发工程师
低代码浪潮之下,带你走进TinyEngine。李旭宏老师将从低代码的发展趋势、TinyEngine的项目介绍,三方物料组件的使用、跨技术栈的使用、源码生成能力的差异性对比等多个方面带大家对TinyEngine低代码引擎有一个更清晰的认知和了解。
即将直播 -
0代码智能构建AI Agent——华为云AI原生应用引擎的架构与实践
2024/11/13 周三 16:30-18:00
苏秦 华为云aPaaS DTSE技术布道师
大模型及生成式AI对应用和软件产业带来了哪些影响?从企业场景及应用开发视角,面向AI原生应用需要什么样的工具及平台能力?企业要如何选好、用好、管好大模型,使能AI原生应用快速创新?本期直播,华为云aPaaS DTSE技术布道师苏秦将基于华为云自身实践出发,深入浅出地介绍华为云AI原生应用引擎,通过分钟级智能生成Agent应用的方式帮助企业完成从传统应用到智能应用的竞争力转型,使能千行万业智能应用创新。
去报名
热门标签