• [技术干货] 2022年11月份昇腾问题求助合计
    1:Ascend 910使用pytorch报错:error code 507033cid:link_72:ATLAS原理图设计检视申请cid:link_8昇腾Atlas200DK的GPIO在python代码下如何作为输入端口?cid:link_9华为云AI服务器安装驱动固件cid:link_0基于Atlas310的云环境推理时出现报错cid:link_1安装CANN toolkit之后,执行npu-smi出错cid:link_2华为云ECS的AI加速型x86昇腾310镜像CentOS 7.6应该如何使用?cid:link_10ModelZoo里面的YOLOv5算法,训练出的模型支持CPU、Ascend310推理吗cid:link_3在运行Atlas500的样例时,上传文件到atlas中时出现问题,用的是mobaxtermcid:link_410.500小站如何挂载新的SSD固态硬盘NVMe M.2接口 TiPlus5000系列cid:link_511.昇腾设备相关信息查询 cid:link_11昇腾910B的训练服务器,装了mindspore1.9,搞点什么目标检测的模型实现起来比较快?cid:link_12请问 CANN 5.1.RC1.alpha005 版本的驱动下载链接在哪?昇腾官网下载列表里面没有这个版本的cid:link_6Atlaas200cid:link_13是否又视频时序进行多帧目标检测模型cid:link_14昇腾推理基础镜像的CentOS版本支持openEuler吗?cid:link_15MindStudio转换ONNX到OM模型时,Generating Model Graph没反应 https://bbs.huaweicloud.com/forum/thread-0245105173208313022-1-1.html
  • [软件平台] 使用mindspore框架训练出的mindir格式模型在MDC610上做推理任务部署问题
    用mindspore框架训练出的mindir格式模型进行推理任务开发,看了 https://www.mindspore.cn/tutorials/experts/zh-CN/r1.8/infer/ascend_310_mindir.html 此篇中的开发环境准备-参考安装指导准备Ascend环境与MindSpore,在实际MDC环境安装Ascend-cann-toolkit_5.1.RC2_linux-aarch64.run时出现下面问题:​从上面看应该是空间资源有限,不让安装Ascend-cann-toolkit。请问mindir格式模型能否直接转成om格式文件,在MDC上无需搭建mindspore框架直接部署,如可以有相关案例可以参考吗?请指导,谢谢!
  • [常见问题汇总帖] modelarts om initialize failure
    按照这个官方例子来做,做到最后部署报错。cid:link_0错误截图如下:详细日志参见附件。obs里生成的model目录如下:
  • [技术干货] 2022年10月份昇腾问题求助合计
    1:使用mindstudio 运行200dk的resnet50样例失败求助cid:link_02:ResNet50移植示例报错,怀疑训练设备设置错误cid:link_13:wlc 帖子 21 回复 61 发消息 关注 ATC 模型转换keep_dtype失败cid:link_24:ATC yolov7 模型转换失败cid:link_35:普通用户无法运行npu-smi info命令,报DrvMngGetConsoleLogLevel failed. (g_conLogLevel=3)错误cid:link_46:请问鲲鹏920+昇腾Atlas 300I或300T的服务器,安装openEuler是选aarch64对吧?cid:link_57:请问大家有用atlas 200DK成功应用pytorch进行推理的嘛?cid:link_68:【请求校正】昇腾兼容性认证服务器目录cid:link_79:昇腾综合考核问题cid:link_810:鲲鹏+昇腾+MindSpore+Python开发Web Service用什么框架比较好啊?cid:link_911:MindSpore中定义的张量支持矩阵乘法求逆等操作吗cid:link_1012:基于MindStudio开发TIK算子-UT测试使用问题求助cid:link_1113:transformer中matmul算子cid:link_1214:Mindstudio中的x2mindspore不能使用cid:link_1315:Ascend910 上运行torch resnet50算法问题cid:link_14
  • [问题求助] ModelArts部署om模型报“模型初始化失败”
    这是我之前发的一个issue,关于air转om的问题。cid:link_0最后在本地虚拟机环境将cann版本升级到达最新,转换成功。然后拿om去modelarts上创建应用(obs导入和选择昇腾模板都试过)并部署,在部署阶段报了这个问题:home/mind/model/1/model.om initialize failure!由于能力有限,没有发现其它有用信息,详细日志可以看我提的另一个issue哈,cid:link_1小白一个,希望有大神能帮忙看下,不胜感激!
  • [认证交流] 使用mindspore.SummaryLandscape收集loss地形图,loss不收敛
    在LeNet5示例模型中使用 mindspore.SummaryLandscape收集损失值地形图信息,训练过程loss收敛,但是绘制地形图过程中始终维持在2.3左右,不收敛。MindSpore 版本1.8.1,环境buntu 18.04代码如下:set_seed(1)def modelarts_pre_process(): pass@moxing_wrapper(pre_process=modelarts_pre_process)def train_lenet(): context.set_context(mode=context.GRAPH_MODE, device_target=config.device_target) ds_train = create_dataset(os.path.join(config.data_path, "train"), config.batch_size) if ds_train.get_dataset_size() == 0: raise ValueError("Please check dataset size > 0 and batch_size <= dataset size") network = LeNet5(config.num_classes) net_loss = nn.SoftmaxCrossEntropyWithLogits(sparse=True, reduction="mean") net_opt = nn.Momentum(network.trainable_params(), config.lr, config.momentum) time_cb = TimeMonitor(data_size=ds_train.get_dataset_size()) config_ck = CheckpointConfig(save_checkpoint_steps=config.save_checkpoint_steps, keep_checkpoint_max=config.keep_checkpoint_max) ckpoint_cb = ModelCheckpoint(prefix="checkpoint_lenet", directory=config.ckpt_path, config=config_ck) if config.device_target != "Ascend": if config.device_target == "GPU": context.set_context(enable_graph_kernel=True) model = Model(network, net_loss, net_opt, metrics={"Accuracy": Accuracy()}) else: model = Model(network, net_loss, net_opt, metrics={"Accuracy": Accuracy()}, amp_level="O2") print("============== Starting Training ==============") summary_collector = SummaryCollector(summary_dir="./summary/01") model.train(config.epoch_size, ds_train, callbacks=[time_cb, ckpoint_cb, LossMonitor(), summary_collector]) interval_1 = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10] summary_landscape = ms.SummaryLandscape('./summary/01') # generate loss landscape summary_landscape.gen_landscapes_with_multi_process(callback_fn, collect_landscape={"landscape_size": 10, "create_landscape": {"train": True, "result": False}, "num_samples": ds_train.get_dataset_size(), "intervals": [[1, 2, 3, 4, 5], [6, 7, 8, 9, 10] ]}, device_ids=[1]) def callback_fn(): network = LeNet5(config.num_classes) net_loss = nn.SoftmaxCrossEntropyWithLogits(sparse=True, reduction="mean") metrics = {"Loss": Loss()} model = ms.Model(network, net_loss, metrics=metrics) ds_train = create_dataset(os.path.join(config.data_path, "train"), config.batch_size) return model, network, ds_train, metricsif __name__ == "__main__": train_lenet()训练完成后,启动MindInsight服务,然后进入训练看板,查看损失函数多维分析,步骤选择区域的曲线图显示loss收敛;但地形图loss不收敛
  • [互动交流] RuntimeError: Exception thrown from PyFunc. map operation: [PvFunc] failed.
    这是哪里出问题了,我训练讯到一半就自动报错了
  • [内容拦截申诉] 博客拦截申诉
    博客链接:cid:link_0博客标题:MindSpore高效并行训练推荐算法Recommender踩坑记(一)专家解决问题要用。请尽快审核,谢谢~~
  • [互动交流] 项目运行报错
    mindspore零基础学习手写数字识别,跟着教程用jupyter notebook运行时报这个错是为啥呀?求大佬解答
  • [问题求助] Ascend910训练和Ascend310推理的样例中创建训练作业,选择数据集提示未拆分,但找不到拆分数据集的地方
    我按照 https://support.huaweicloud.com/bestpractice-modelarts/modelarts_10_0026.html#modelarts_10_0026__zh-cn_topic_0235073536_section87421022184315 提供的样例实践过程中,发现下载数据集、订阅算法后,创建训练作业时,提示“该算法不支持为拆分数据”。但找不到在哪里拆分数据。按照文章里面探索描述的,可以在发布数据集时设置拆分数据,但是目前的发布数据集页面并没有拆分数据的功能。而且几次尝试,都发布失败。下面附上界面图。请专家指教该如何处理?是不是功能更新后,文档没有更新呢?谢谢~
  • [知识分享] 带你徒手完成基于MindSpore的CycleGAN实现
    摘要:CycleGAN图像翻译模型,由两个生成网络和两个判别网络组成,通过非成对的图片将某一类图片转换成另外一类图片,可用于风格迁移本文分享自华为云社区《基于MindSpore的CycleGAN介绍和实现》,作者: Tianyi_Li 。前言我们这次介绍下著名的CycleGAN,同时提供了基于MindSpore的代码,方便大家运行验证。CycleGAN的介绍CycleGAN图像翻译模型,由两个生成网络和两个判别网络组成,通过非成对的图片将某一类图片转换成另外一类图片,可用于风格迁移,效果演示如下图所示:CycleGAN是GAN的一种,那什么是GAN呢?生成对抗网络(Generative Adversarial Network, 简称GAN) 是一种非监督学习的方式,通过让两个神经网络相互博弈的方法进行学习,该方法由lan Goodfellow等人在2014年提出。生成对抗网络由一个生成网络和一个判别网络组成,生成网络从潜在的空间(latent space)中随机采样作为输入,其输出结果需要尽量模仿训练集中的真实样本。判别网络的输入为真实样本或生成网络的输出,其目的是将生成网络的输出从真实样本中尽可能的分辨出来。而生成网络则尽可能的欺骗判别网络,两个网络相互对抗,不断调整参数。 生成对抗网络常用于生成以假乱真的图片。此外,该方法还被用于生成影片,三维物体模型等。好了,我们已经对GAN有了大体的了解,下面说回CycleGAN。CycleGAN由两个生成网络和两个判别网络组成,生成网络A是输入A类风格的图片输出B类风格的图片,生成网络B是输入B类风格的图片输出A类风格的图片。生成网络中编码部分的网络结构都是采用convolution-norm-ReLU作为基础结构,解码部分的网络结构由transpose convolution-norm-ReLU组成,判别网络基本是由convolution-norm-leaky_ReLU作为基础结构,详细的网络结构可以查看network/CycleGAN_network.py文件。生成网络提供两种可选的网络结构:Unet网络结构和普通的encoder-decoder网络结构。生成网络损失函数由LSGAN的损失函数,重构损失和自身损失组成,判别网络的损失函数由LSGAN的损失函数组成。CycleGAN最经典的地方是设计和提出了循环一致性损失。以黑白图片上色为例,循环一致性就是:黑白图(真实)—>网络—>彩色图—>网络—>黑白图(造假)。为了保证上色后的彩色图片中具有原始黑白图片的所有内容信息,文章中将生成的彩色图像还原回去,生成造假的黑白图,通过损失函数来约束真实白图和造假黑白图一致,达到图像上色的目的。除此之外,CycleGAN不像Pix2Pix一样,需要使用配对数据进行训练,CycleGAN直接使用两个域图像进行训练,而不用建立每个样本和对方域之间的配对关系,这就厉害了,一下子让风格迁移任务变得简单很多。看一下CycleGAN的网络结构图:如果想了解更多详情,可以阅读CycleGAN的原论文,推荐读一读,会有更深刻和更清楚的理解,下面给出链接:cid:link_3)CycleGAN的实现代码和数据集这里我提供了一个包含代码和数据集的仓库链接:https://git.openi.org.cn/tjulitianyi/CycleGAN_MindSpore,但是更建议使用最新版本代码,见下方特别说明。特别说明:我们将在华为云ModelArts的NoteBook,基于MindSpore-GPU 1.8.1 运行CycleGAN的代码,因为云环境的更新不确定性,所以运行可能会报错,这时可以参考如下最新代码:https://gitee.com/mindspore/models/tree/master/research/cv/CycleGAN。需要提醒大家的是,必须需要使用MindSpore 1.8.0以及以上的版本,之前版本会报错,因为某些API不支持。而最新的1.8.1版本有时也会报错,报错信息如下,怀疑可能是代码的设置有些问题:目前ModelArts最高支持到MindSpore 1.7,我们需要自行安装最新的MindSpore 1.8.1版本。先来看看我使用的NoteBook环境:这里特别提醒大家,NoteBook是要花钱的,我选择的单卡Tesla V100大约每小时28元,也有更便宜的,大概每小时8元的单卡Tesla P100,请大家根据自身情况选择,千万注意使用情况,别欠费了。准备环境下面进入NoteBook,打开一个Terminal:先来看看我们的显卡信息和CUDA Version:我们看到CUDA Version是10.2,下面到MindSpore官网看看安装教程,我们需要安装MindSpore 1.8.1,但是没有CUDA 10.2对应的版本,这里就选择就近的CUDA 10.1版本了。在Terminal执行如下命令:pip install https://ms-release.obs.cn-north-4.myhuaweicloud.com/1.8.1/MindSpore/gpu/x86_64/cuda-10.1/mindspore_gpu-1.8.1-cp37-cp37m-linux_x86_64.whl --trusted-host ms-release.obs.cn-north-4.myhuaweicloud.com -i https://pypi.tuna.tsinghua.edu.cn/simple下载速度很快,安装速度也是非常快:最后运行显示如下信息,表示安装成功了:获取代码接下来下载代码,执行如下命令(由于要下载整个仓库,时间有点长):git clone https://gitee.com/mindspore/models.git命令运行截图:下面我们将感兴趣的CycleGAN代码拷贝到当前目录下,执行如下命令:cp -r models/research/cv/CycleGAN/ ./准备数据集下面进入CycleGAN目录:cd CycleGAN我们这里使用的是monet2photo数据集,由于直接在ModelArts的NoteBook下载速度很慢,所以建议大家下载到本地,再上传到NoteBook的CycleGAN/data目录下,下载链接为:https://s3.openi.org.cn/opendata/attachment/7/b/7beb4534-6e79-463e-a7c6-032510bab215?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=1fa9e58b6899afd26dd3/20220814/us-east-1/s3/aws4_request&X-Amz-Date=20220814T085624Z&X-Amz-Expires=604800&X-Amz-SignedHeaders=host&response-content-disposition=attachment; filename="monet2photo.zip"&X-Amz-Signature=20fbfd9c798701efcbf21d811f3dfdd6b8d5744f388c799bc38715f7fe78c783上传完成后,解压数据集即可。我的运行截图如下图所示:启动训练注意,请在CycleGAN的目录下启动训练,如下图所示:我是在GPU下的单卡训练,所以启动训练的命令为:python train.py --platform GPU --device_id 0 --model ResNet --max_epoch 200 --dataroot ./data/monet2photo/ --outputs_dir ./outputs运行截图为:可以看到已经成功启动训练,打印出loss,此时我是用的Tesla V100显卡大约占了4GB显存,利用率接近100%,此时来看不适合用Tesla V100来跑,未能发挥其大显存的优势,而其计算能力其实一般。CycleGAN模型训练比较费时间,请注意花费,预计完成全部200epoch的训练需要72小时以上。评估模型python eval.py --platform GPU --device_id 0 --model ResNet --G_A_ckpt ./outputs/ckpt/G_A_200.ckpt --G_B_ckpt ./outputs/ckpt/G_B_200.ckpt注意,这里的.ckpt模型名称,请根据实际训练生成的具体轮数的模型名称太难写,比如目前只保存了20epoch的模型,那上述命令的200就应该改成20。更多命令或适配其他硬件平台和多卡情况,可参考scripts文件夹下脚本。结语我们简单介绍了著名的CycleGAN,给出了基于MindSpor的完整代码,并带着大家跑了一遍,目前有些问题,后续会更新。作为经典的GAN的一种,CycleGAN有很多值得我们学习的地方,还需要深入分析挖掘,以鉴今事。关于代码运行的问题,可以到官仓提交issue求助,下为链接:cid:link_2
  • [问题求助] 在ModelArts训练resnet模型报错
    模型是从ModelZoo下载的,数据集用的Cifar-10。日志里并没有定位具体问题。之前解决了一些日志定位的bug。目前的部分日志如下:omponent=ma-training-toolkit Platform=ModelArts-Service [2022-08-22T09:13:34+08:00][ModelArts Service Log][sidecar] training is completed [2022-08-22T09:13:34+08:00][ModelArts Service Log][sidecar] the reason for the failure of the training job is under analysis time="2022-08-22T09:13:34+08:00" level=warning msg="the log-preview-size parameter exceeds the limit and will be set to the default value 5242880" file="cli.go:192" Command=analyze Component=ma-training-toolkit Platform=ModelArts-Service [2022-08-22T09:13:34+08:00][ModelArts Service Log][sidecar] stop toolkit_obs_upload_by_channels_pid = 49 by signal SIGTERM time="2022-08-22T09:13:34+08:00" level=info msg="the periodic upload task exiting..." file="upload.go:216" Command=obs/upload_by_channels Component=ma-training-toolkit Platform=ModelArts-Service Task=log_url time="2022-08-22T09:13:34+08:00" level=info msg="the periodic upload task exiting..." file="upload.go:216" Command=obs/upload_by_channels Component=ma-training-toolkit Platform=ModelArts-Service Task=srt_log_collection time="2022-08-22T09:13:34+08:00" level=info msg="the periodic upload task exiting..." file="upload.go:216" Command=obs/upload_by_channels Component=ma-training-toolkit Platform=ModelArts-Service Task=train_url 
  • [常见问题汇总帖] mindspore的数据增强算子是不是不支持Tensor类型输入?
    mindspore的数据增强算子是不是不支持Tensor类型输入?
  • [其他] 华为开源人工智能框架MindSpore的主要特点
    1. 自动并行。通过一条语句声明,MindSpore就会帮你完成分布式并行能力。而现有的框架,大多需要数据工程师手动写分布式并行的策略。 2. 更快的参数优化。在进行参数优化时,传统梯度下降算法是一阶优化,相当于匀速找到目标。MindSpore可以实现二阶优化,相当于加速找到目标,某些场景下可以比传统算法训练时间缩短20%以上。 3. 云、边缘、端全场景协同。也就是利用MindSpore框架开发的程序,既可以用在云计算中心,也可以用在手机、电视等智能终端,也能用在例如自动驾驶汽车等边缘侧。例如手机打字的时候,人工智能可以实现自动纠错和联想,自动驾驶时,人工智能可以对信号进行实时判断,这些都无需每次都回传云计算中心。 4. 更好的信息安全。MindSpore可以实现信息脱敏,也就是把加密的信息上传云端进行训练,数据和模型都是脱敏的,就算别人拿到了数据,也不知道数据内容是什么。就算拿到了模型,也不知道模型怎么用。这在人脸识别等有安全需求的领域非常有用。 还有社区:类似于Github的代码社区MindSpore社区(https://gitee.com/mindspore)
  • [技术干货] 华为云AI论文精读会2021第九期:多卡昇腾环境实现MindSpore DenseNet 分类训练
    2021年7月5日如约举办了华为云AI论文精读会2021第九期:多卡昇腾环境实现MindSpore DenseNet 分类训练嘉宾是苏州大学计算机软件技术专业 周一锋本次论文精读的领域是MindSpore,嘉宾进行了超级详细的讲解,对MindSpore感兴趣又觉得困难的小伙伴,赶快快来学习一下~华为云AI论文精读会致力于让更多人低门槛使用经典算法,助力AI开发者基于ModelArts,实现高效率论文复现和挑战!观看地址:https://res-static.hc-cdn.cn/cloudbu-site/china/zh-cn/competition/1625448245600070042.mp4华为云AI论文精读会2021·论文算法实战赛报名地址:https://competition.huaweicloud.com/information/1000041393/introduction