• [其他问题] 【CANN】安装toolkit安装包时,出现No space left on device的error
    安装toolkit安装包时,出现No space left on device的error,该怎么解决?
  • [应用开发] 如何处理OM模型的输入
    pb模型的输入[1,1,9] 输出[1,4],1、如何设置ATC命令的参数,转成OM模型?2、AscendCL如何构造输入(c++代码),调用OM模型?
  • [应用开发] MDC300F设备onnx转om报错
    1.用的设备是mdc300f平台2.cann版本是5.0mdc3003.mindstudio版本是2.0.0(bete3)4.onnx模型链接:cid:link_05.在cann6.0可以成功转出om模型,但是最终需要部署到mdc300平台上,必须要用自带的cann转换。自带的5.0mdc300转换报错flatten算子axis必须改为1,于是将flatten算子的axis=3强制转为1,出现了如下图的错误,经过初步分析是flatten算子后gather算子没有起作用。想请教一下如何在改了flatten算子axis值的情况下,还能保持给gather算子正确的输入。
  • [AI类] 【求助】MindSpore 自定义算子运行出错
    参考Mindpore 官方自定义算子文档,修改算子定义,构造正向及反向函数,执行报错,有哪位大神帮忙看下咩靴靴!Mindpore版本1.9.0
  • [其他问题] 鲲鹏社区和昇腾社区为什么打不开网页了?
    鲲鹏和昇腾社区打不开网页了,浏览器一直再转。(如下图)
  • [常见问题汇总帖] 【MindX 3.0.T700 mxindex 特征检索】AscendIndexIVFSQT 运行update出错
    同一个基于AscendIndexIVFSQT检索方法的demo,在100000底库小数据集上可成功运行:Load data set successfull. index start index init train start Training IVF quantizer on 100000 vectors in 256D to 1024 cluster training computeCompressIndex on correlation matrix Clustering 100000 points in 256D to 1024 clusters, redo 1 times, 16 iterations Preprocessing in 0.03 s training computeCompressValue on 100000 vectors in 256D Iteration 15 (2.73 s, search 2.59 s): objective=87058.3 imbalance=1.155 nsplit=0 training scalar quantizer on 100000 vectors in 64D add start AscendIndex::add: adding 0:100000 / 100000 update start search start Search finished successfully Write result successfully但是在9000000底库规模的数据集上,执行到update时报错:Load data set successfull. index start index init train start Training IVF quantizer on 9147767 vectors in 256D to 1024 cluster training computeCompressIndex on correlation matrix Sampling a subset of 524288 / 9147767 for training Clustering 524288 points in 256D to 1024 clusters, redo 1 times, 16 iterations Preprocessing in 3.41 s training computeCompressValue on 9147767 vectors in 256D Iteration 15 (114.84 s, search 114.24 s): objective=472094 imbalance=1.097 nsplit=0 training scalar quantizer on 9147767 vectors in 64D add start AscendIndex::add: adding 0:882984 / 9147767 AscendIndex::add: adding 882984:1765968 / 9147767 AscendIndex::add: adding 1765968:2648952 / 9147767 AscendIndex::add: adding 2648952:3531936 / 9147767 AscendIndex::add: adding 3531936:4414920 / 9147767 AscendIndex::add: adding 4414920:5297904 / 9147767 AscendIndex::add: adding 5297904:6180888 / 9147767 AscendIndex::add: adding 6180888:7063872 / 9147767 AscendIndex::add: adding 7063872:7946856 / 9147767 AscendIndex::add: adding 7946856:8829840 / 9147767 AscendIndex::add: adding 8829840:9147767 / 9147767 update start terminate called after throwing an instance of 'faiss::FaissException' what(): Error in void faiss::ascend::AscendClusteringImpl::subClusExecInt8(int, uint16_t*, float*, int, size_t) at ascend/custom/impl/AscendClusteringImpl.cpp:117: Error: 'ret == RPC_ERROR_NONE' failed: RpcIndexClusteringExecInt8 failed(1).以下是一些参数配置: const size_t dim = 256; const size_t dimOut = 64; const size_t nlist = 1024; const size_t k = 10; const size_t nprobe = 24; const size_t lowerBound = 1000; const size_t mergeThres = 1000; const float memoryLimit = 100000000; const size_t addTotal = 100000000;求大佬帮忙解答下~~
  • [其他问题] ATLAS 200DK 安装pytorch报错
    参照https://gitee.com/ascend/modelzoo-GPL/tree/master/built-in/ACL_Pytorch/Yolov5_for_Pytorch进行环境配置,执行pip3 install -r requirements.txt显示源也换了好几次,但是还是报相同错误,执行sudo python3 -m pip install torch===1.8.1 torchvision===0.9.1 -f https://download.pytorch.org/whl/torch_stable.html -i https://pypi.douban.com/simple依旧报相同错误。还请专家帮忙指点!
  • [MindX SDK] 200dk上使用mind开发,使用几天后,200dk登录不上了
    根据文档制作dd镜像https://bbs.huaweicloud.com/forum/thread-139685-1-1.html,使用几天后,再给200dk上电,就不能启动了。无法ssh连接到200dk。重新制作卡,设备又可以启动。无法查明问题。
  • [问题求助] 关于将 GPU 项目迁移至 NPU 平台后,AICore利用率问题
    使用 MindStudio 将一个在 GPU 正常运行的项目迁移至 NPU,AICore 的利用率一直上不去。在平时的 RTX 3090 显卡训练,GPU的利用率能够一直维持在 99% 左右,训练时长大约为一个小时。但是,在 NPU 上一直不出结果,训练推进缓慢。是不是我训练的设置有问题?还是项目相应的 API 需要修改?
  • 【驱动系列 01】NPU 22.0.3版本回退22.0.2,回退失败
    PKCS签名问题导致驱动或固件回退失败、npu-smi命令异常或davinci设备无法启动问题描述1驱动回退过程中出现图1所示报错信息,执行npu-smi命令异常,查看“ascend_install.log”日志信息,显示图2所示报错:图1 驱动回退报错图2 驱动日志信息固件回退过程中出现图3所示报错,查看“ascend_install.log”日志信息,显示图4所示报错:图3 固件回退报错图4 固件日志信息问题描述2驱动安装过程中davinci设备无法启动,出现图5所示报错:图5 davinci设备无法启动使用msnpureport -f 收集device侧日志,查看“hisi_logs/device-0/20221008103618-286885000/snapshot/hdr.log”日志,出现图6所示校验失败日志信息:图6 校验失败可能原因签名校验失败。解决方案安装NPU 22.0.3及以上版本驱动和配套固件。设置PKCS的状态为“使能”。执行如下命令:npu-smi set -t pkcs-enable -d 0如出现如下回显,则表示设置成功。 [WARNING]: Enabling pkcs will raise safety risks. Status : OK Message : The pkcs-enable is set successfully
  • [安装] mindspore-gpu版本安装后报错RuntimeError: There is a cuda error, errorno[100], no CUDA-capable device is detecte
    docker和pip两种方式尝试安装mindspore-gpu,cuda11.1,mindspore1.9.0均报相同错误,cuda 版本export | grep cuda-11.1declare -x LD_LIBRARY_PATH="/usr/local/cuda-11.1/lib64:"declare -x PATH="/home/sx/py_env/xingtian_pip/bin:/usr/local/cuda-11.1/bin:/usr/local/sbin:/usr/local/bin:/                                                                               usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games:/snap/bin:/usr/local/cuda/binnvcc --versionnvcc: NVIDIA (R) Cuda compiler driverCopyright (c) 2005-2020 NVIDIA CorporationBuilt on Mon_Oct_12_20:09:46_PDT_2020Cuda compilation tools, release 11.1, V11.1.105Build cuda_11.1.TC455_06.29190527_0python --versionPython 3.7.5mindspore-gpu        1.9.0cudnncat /usr/local/cuda-11.1/include/cudnn_version.h | grep CUDNN                                                                              #ifndef CUDNN_VERSION_H_#define CUDNN_VERSION_H_#define CUDNN_MAJOR 8#define CUDNN_MINOR 7#define CUDNN_PATCHLEVEL 0#define CUDNN_VERSION (CUDNN_MAJOR * 1000 + CUDNN_MINOR * 100 + CUDNN_PATCHLEVEL)#define CUDNN_MAX_SM_MAJOR_NUMBER 9#define CUDNN_MAX_SM_MINOR_NUMBER 0#define CUDNN_MAX_DEVICE_VERSION (CUDNN_MAX_SM_MAJOR_NUMBER * 100) + (CUDNN_MAX_SM_MINOR_NUMBER * 10)#endif /* CUDNN_VERSION_H */python -c "import mindspore;mindspore.run_check()"测试正常MindSpore version:1.9.0 The result of multiplication calculation is correct, MindSpore has been installed successfully!运行报错docker,pip两种方式均尝试过,附件是软件包
  • [调试调优] 超长文本序列的数据迭代,超时报错
    在昇腾910芯片,训练Transformer大模型时,我们的序列长度特别长,例如8192的序列长度,这边遇到的一个问题是,当我们预先将数据处理为mindrecords格式的数据后,在设置 dataset_sink_mode=True 的情况下,数据迭代会因为超时而报错(如下错误信息)。[ERROR] DEVICE(301,fff158ff6160,python):2023-01-09-11:35:20.909.119 [mindspore/ccsrc/plugin/device/ascend/hal/device/ascend_kernel_runtime.cc:721] DumpTaskExceptionInfo] Dump node (Default/GetNext-op3507) task error input/output data to: ./rank_21/node_dump [WARNING] DEVICE(301,fff158ff6160,python):2023-01-09-11:35:20.909.161 [mindspore/ccsrc/plugin/device/ascend/hal/device/ascend_kernel_runtime.cc:728] DumpTaskExceptionInfo] GetNext error may be caused by slow data processing (bigger than 20s / batch) or transfer data to device error. [WARNING] DEVICE(301,fff158ff6160,python):2023-01-09-11:35:20.909.171 [mindspore/ccsrc/plugin/device/ascend/hal/device/ascend_kernel_runtime.cc:730] DumpTaskExceptionInfo] Suggestion: [WARNING] DEVICE(301,fff158ff6160,python):2023-01-09-11:35:20.909.180 [mindspore/ccsrc/plugin/device/ascend/hal/device/ascend_kernel_runtime.cc:731] DumpTaskExceptionInfo] 1) Set the parameter dataset_sink_mode=False of model.train(...) or model.eval(...) and try again. [WARNING] DEVICE(301,fff158ff6160,python):2023-01-09-11:35:20.909.188 [mindspore/ccsrc/plugin/device/ascend/hal/device/ascend_kernel_runtime.cc:733] DumpTaskExceptionInfo] 2) Reduce the batch_size in data processing and try again. [WARNING] DEVICE(301,fff158ff6160,python):2023-01-09-11:35:20.909.196 [mindspore/ccsrc/plugin/device/ascend/hal/device/ascend_kernel_runtime.cc:734] DumpTaskExceptionInfo] 3) You can create iterator by interface create_dict_iterator() of dataset class to independently verify the performance of data processing without training.我们的尝试在构建数据迭代类中,设置大的进程数,例如 dataset.map(operations=map_func, num_parallel_workers=32) 和 dataset.batch(batch_size, drop_remainder=drop, num_parallel_workers=32) 这样似乎会导致机器的内存占用过大。如果我将 dataset_sink_mode=False,那是不是会导致训练中CPU将成为瓶颈,降低昇腾芯片的利用率。
  • [问题求助] Pipeline缺少部分插件怎么处理
    pipeline缺少插件怎么办,重装新的版本吗?
  • [其他问题] mindspore计算图具体的获取代码是哪一块
    在源码中mindspore/ccsrc/cxx_api/graph/graph_data.h与mindspore/ccsrc/minddata/dataset/engine/gnn/graph_data.h两者是否存在联系,中间是否有引用关系呢?目前的最主要问题是哪一块代码是ms中计算图获取的部分?
  • [技术干货] 【CANN训练营第三季】【昇腾AI入门课】2PyTorch模型迁移与调优
    这一节涉及一些实操的内容,但我的电脑还没有配置好,所以先看知识性的内容,以后弄好了填坑课程目标了解PyTorch与昇腾平台的适配了解Davinci硬件架构了解什么样的模型在昇腾上更亲和了解软件术语了解Ascend-PyTorch的安装步骤了解如何将原生的PyTorch模型代码适配至Ascend-PyTorchPyTorch==在线对接适配==方案最大限度继承pytorch框架动态图的特性最大限度继承原生pytorch上的使用方式:最小的开发方式和代码的重用最大限度继承pytorch原生的体系结构扩展性好,对于新的网络类型或结构,只涉及相关计算类算子的开发和实现,对于框架类的算子可以复用达芬奇架构计算单元Cube:矩阵运算fp16的16×16与16×16的矩阵乘相关操作:matmul、conv2d、linearVextor:向量运算算力低于Cube,但灵活性高计算类型:fp16、fp32、int8Scalar:各类型的标量数据运算&程序的流程控制功能上类似于小的CPU软件架构Ascend-PyTorch安装==挖坑==PyTorch模型迁移手工迁移脚本转换工具(msFmkTransplt)自动迁移(推荐) ==挖坑==