-
安装toolkit安装包时,出现No space left on device的error,该怎么解决?
-
1.用的设备是mdc300f平台2.cann版本是5.0mdc3003.mindstudio版本是2.0.0(bete3)4.onnx模型链接:cid:link_05.在cann6.0可以成功转出om模型,但是最终需要部署到mdc300平台上,必须要用自带的cann转换。自带的5.0mdc300转换报错flatten算子axis必须改为1,于是将flatten算子的axis=3强制转为1,出现了如下图的错误,经过初步分析是flatten算子后gather算子没有起作用。想请教一下如何在改了flatten算子axis值的情况下,还能保持给gather算子正确的输入。
-
参考Mindpore 官方自定义算子文档,修改算子定义,构造正向及反向函数,执行报错,有哪位大神帮忙看下咩靴靴!Mindpore版本1.9.0
-
同一个基于AscendIndexIVFSQT检索方法的demo,在100000底库小数据集上可成功运行:Load data set successfull. index start index init train start Training IVF quantizer on 100000 vectors in 256D to 1024 cluster training computeCompressIndex on correlation matrix Clustering 100000 points in 256D to 1024 clusters, redo 1 times, 16 iterations Preprocessing in 0.03 s training computeCompressValue on 100000 vectors in 256D Iteration 15 (2.73 s, search 2.59 s): objective=87058.3 imbalance=1.155 nsplit=0 training scalar quantizer on 100000 vectors in 64D add start AscendIndex::add: adding 0:100000 / 100000 update start search start Search finished successfully Write result successfully但是在9000000底库规模的数据集上,执行到update时报错:Load data set successfull. index start index init train start Training IVF quantizer on 9147767 vectors in 256D to 1024 cluster training computeCompressIndex on correlation matrix Sampling a subset of 524288 / 9147767 for training Clustering 524288 points in 256D to 1024 clusters, redo 1 times, 16 iterations Preprocessing in 3.41 s training computeCompressValue on 9147767 vectors in 256D Iteration 15 (114.84 s, search 114.24 s): objective=472094 imbalance=1.097 nsplit=0 training scalar quantizer on 9147767 vectors in 64D add start AscendIndex::add: adding 0:882984 / 9147767 AscendIndex::add: adding 882984:1765968 / 9147767 AscendIndex::add: adding 1765968:2648952 / 9147767 AscendIndex::add: adding 2648952:3531936 / 9147767 AscendIndex::add: adding 3531936:4414920 / 9147767 AscendIndex::add: adding 4414920:5297904 / 9147767 AscendIndex::add: adding 5297904:6180888 / 9147767 AscendIndex::add: adding 6180888:7063872 / 9147767 AscendIndex::add: adding 7063872:7946856 / 9147767 AscendIndex::add: adding 7946856:8829840 / 9147767 AscendIndex::add: adding 8829840:9147767 / 9147767 update start terminate called after throwing an instance of 'faiss::FaissException' what(): Error in void faiss::ascend::AscendClusteringImpl::subClusExecInt8(int, uint16_t*, float*, int, size_t) at ascend/custom/impl/AscendClusteringImpl.cpp:117: Error: 'ret == RPC_ERROR_NONE' failed: RpcIndexClusteringExecInt8 failed(1).以下是一些参数配置: const size_t dim = 256; const size_t dimOut = 64; const size_t nlist = 1024; const size_t k = 10; const size_t nprobe = 24; const size_t lowerBound = 1000; const size_t mergeThres = 1000; const float memoryLimit = 100000000; const size_t addTotal = 100000000;求大佬帮忙解答下~~
-
参照https://gitee.com/ascend/modelzoo-GPL/tree/master/built-in/ACL_Pytorch/Yolov5_for_Pytorch进行环境配置,执行pip3 install -r requirements.txt显示源也换了好几次,但是还是报相同错误,执行sudo python3 -m pip install torch===1.8.1 torchvision===0.9.1 -f https://download.pytorch.org/whl/torch_stable.html -i https://pypi.douban.com/simple依旧报相同错误。还请专家帮忙指点!
-
根据文档制作dd镜像https://bbs.huaweicloud.com/forum/thread-139685-1-1.html,使用几天后,再给200dk上电,就不能启动了。无法ssh连接到200dk。重新制作卡,设备又可以启动。无法查明问题。
-
使用 MindStudio 将一个在 GPU 正常运行的项目迁移至 NPU,AICore 的利用率一直上不去。在平时的 RTX 3090 显卡训练,GPU的利用率能够一直维持在 99% 左右,训练时长大约为一个小时。但是,在 NPU 上一直不出结果,训练推进缓慢。是不是我训练的设置有问题?还是项目相应的 API 需要修改?
-
PKCS签名问题导致驱动或固件回退失败、npu-smi命令异常或davinci设备无法启动问题描述1驱动回退过程中出现图1所示报错信息,执行npu-smi命令异常,查看“ascend_install.log”日志信息,显示图2所示报错:图1 驱动回退报错图2 驱动日志信息固件回退过程中出现图3所示报错,查看“ascend_install.log”日志信息,显示图4所示报错:图3 固件回退报错图4 固件日志信息问题描述2驱动安装过程中davinci设备无法启动,出现图5所示报错:图5 davinci设备无法启动使用msnpureport -f 收集device侧日志,查看“hisi_logs/device-0/20221008103618-286885000/snapshot/hdr.log”日志,出现图6所示校验失败日志信息:图6 校验失败可能原因签名校验失败。解决方案安装NPU 22.0.3及以上版本驱动和配套固件。设置PKCS的状态为“使能”。执行如下命令:npu-smi set -t pkcs-enable -d 0如出现如下回显,则表示设置成功。 [WARNING]: Enabling pkcs will raise safety risks. Status : OK Message : The pkcs-enable is set successfully
-
[安装] mindspore-gpu版本安装后报错RuntimeError: There is a cuda error, errorno[100], no CUDA-capable device is detectedocker和pip两种方式尝试安装mindspore-gpu,cuda11.1,mindspore1.9.0均报相同错误,cuda 版本export | grep cuda-11.1declare -x LD_LIBRARY_PATH="/usr/local/cuda-11.1/lib64:"declare -x PATH="/home/sx/py_env/xingtian_pip/bin:/usr/local/cuda-11.1/bin:/usr/local/sbin:/usr/local/bin:/ usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games:/snap/bin:/usr/local/cuda/binnvcc --versionnvcc: NVIDIA (R) Cuda compiler driverCopyright (c) 2005-2020 NVIDIA CorporationBuilt on Mon_Oct_12_20:09:46_PDT_2020Cuda compilation tools, release 11.1, V11.1.105Build cuda_11.1.TC455_06.29190527_0python --versionPython 3.7.5mindspore-gpu 1.9.0cudnncat /usr/local/cuda-11.1/include/cudnn_version.h | grep CUDNN #ifndef CUDNN_VERSION_H_#define CUDNN_VERSION_H_#define CUDNN_MAJOR 8#define CUDNN_MINOR 7#define CUDNN_PATCHLEVEL 0#define CUDNN_VERSION (CUDNN_MAJOR * 1000 + CUDNN_MINOR * 100 + CUDNN_PATCHLEVEL)#define CUDNN_MAX_SM_MAJOR_NUMBER 9#define CUDNN_MAX_SM_MINOR_NUMBER 0#define CUDNN_MAX_DEVICE_VERSION (CUDNN_MAX_SM_MAJOR_NUMBER * 100) + (CUDNN_MAX_SM_MINOR_NUMBER * 10)#endif /* CUDNN_VERSION_H */python -c "import mindspore;mindspore.run_check()"测试正常MindSpore version:1.9.0 The result of multiplication calculation is correct, MindSpore has been installed successfully!运行报错docker,pip两种方式均尝试过,附件是软件包
-
在昇腾910芯片,训练Transformer大模型时,我们的序列长度特别长,例如8192的序列长度,这边遇到的一个问题是,当我们预先将数据处理为mindrecords格式的数据后,在设置 dataset_sink_mode=True 的情况下,数据迭代会因为超时而报错(如下错误信息)。[ERROR] DEVICE(301,fff158ff6160,python):2023-01-09-11:35:20.909.119 [mindspore/ccsrc/plugin/device/ascend/hal/device/ascend_kernel_runtime.cc:721] DumpTaskExceptionInfo] Dump node (Default/GetNext-op3507) task error input/output data to: ./rank_21/node_dump [WARNING] DEVICE(301,fff158ff6160,python):2023-01-09-11:35:20.909.161 [mindspore/ccsrc/plugin/device/ascend/hal/device/ascend_kernel_runtime.cc:728] DumpTaskExceptionInfo] GetNext error may be caused by slow data processing (bigger than 20s / batch) or transfer data to device error. [WARNING] DEVICE(301,fff158ff6160,python):2023-01-09-11:35:20.909.171 [mindspore/ccsrc/plugin/device/ascend/hal/device/ascend_kernel_runtime.cc:730] DumpTaskExceptionInfo] Suggestion: [WARNING] DEVICE(301,fff158ff6160,python):2023-01-09-11:35:20.909.180 [mindspore/ccsrc/plugin/device/ascend/hal/device/ascend_kernel_runtime.cc:731] DumpTaskExceptionInfo] 1) Set the parameter dataset_sink_mode=False of model.train(...) or model.eval(...) and try again. [WARNING] DEVICE(301,fff158ff6160,python):2023-01-09-11:35:20.909.188 [mindspore/ccsrc/plugin/device/ascend/hal/device/ascend_kernel_runtime.cc:733] DumpTaskExceptionInfo] 2) Reduce the batch_size in data processing and try again. [WARNING] DEVICE(301,fff158ff6160,python):2023-01-09-11:35:20.909.196 [mindspore/ccsrc/plugin/device/ascend/hal/device/ascend_kernel_runtime.cc:734] DumpTaskExceptionInfo] 3) You can create iterator by interface create_dict_iterator() of dataset class to independently verify the performance of data processing without training.我们的尝试在构建数据迭代类中,设置大的进程数,例如 dataset.map(operations=map_func, num_parallel_workers=32) 和 dataset.batch(batch_size, drop_remainder=drop, num_parallel_workers=32) 这样似乎会导致机器的内存占用过大。如果我将 dataset_sink_mode=False,那是不是会导致训练中CPU将成为瓶颈,降低昇腾芯片的利用率。
-
pipeline缺少插件怎么办,重装新的版本吗?
-
在源码中mindspore/ccsrc/cxx_api/graph/graph_data.h与mindspore/ccsrc/minddata/dataset/engine/gnn/graph_data.h两者是否存在联系,中间是否有引用关系呢?目前的最主要问题是哪一块代码是ms中计算图获取的部分?
-
这一节涉及一些实操的内容,但我的电脑还没有配置好,所以先看知识性的内容,以后弄好了填坑课程目标了解PyTorch与昇腾平台的适配了解Davinci硬件架构了解什么样的模型在昇腾上更亲和了解软件术语了解Ascend-PyTorch的安装步骤了解如何将原生的PyTorch模型代码适配至Ascend-PyTorchPyTorch==在线对接适配==方案最大限度继承pytorch框架动态图的特性最大限度继承原生pytorch上的使用方式:最小的开发方式和代码的重用最大限度继承pytorch原生的体系结构扩展性好,对于新的网络类型或结构,只涉及相关计算类算子的开发和实现,对于框架类的算子可以复用达芬奇架构计算单元Cube:矩阵运算fp16的16×16与16×16的矩阵乘相关操作:matmul、conv2d、linearVextor:向量运算算力低于Cube,但灵活性高计算类型:fp16、fp32、int8Scalar:各类型的标量数据运算&程序的流程控制功能上类似于小的CPU软件架构Ascend-PyTorch安装==挖坑==PyTorch模型迁移手工迁移脚本转换工具(msFmkTransplt)自动迁移(推荐) ==挖坑==
推荐直播
-
HDC深度解读系列 - Serverless与MCP融合创新,构建AI应用全新智能中枢2025/08/20 周三 16:30-18:00
张昆鹏 HCDG北京核心组代表
HDC2025期间,华为云展示了Serverless与MCP融合创新的解决方案,本期访谈直播,由华为云开发者专家(HCDE)兼华为云开发者社区组织HCDG北京核心组代表张鹏先生主持,华为云PaaS服务产品部 Serverless总监Ewen为大家深度解读华为云Serverless与MCP如何融合构建AI应用全新智能中枢
回顾中 -
关于RISC-V生态发展的思考2025/09/02 周二 17:00-18:00
中国科学院计算技术研究所副所长包云岗教授
中科院包云岗老师将在本次直播中,探讨处理器生态的关键要素及其联系,分享过去几年推动RISC-V生态建设实践过程中的经验与教训。
回顾中 -
一键搞定华为云万级资源,3步轻松管理企业成本2025/09/09 周二 15:00-16:00
阿言 华为云交易产品经理
本直播重点介绍如何一键续费万级资源,3步轻松管理成本,帮助提升日常管理效率!
回顾中
热门标签