昇腾_标签_开发者_华为云

博客(1.1k)
视频(22)
论坛(0)
云声(1.2k)
代码示例(0)

HCCL集合通信常见问题定位思路
HCCL（Huawei Collective Communication Library）是基于昇腾AI处理器的高性能集合通信库，提供单机多卡以及多机多卡间的集合通信能力，支持大模型的数据并行、模型并行、专家并行、pipeline并行、序列并行等多种加速方案。

昇腾CANN
发表于2024-09-30 10:47:32
7648 0 0

7.6k 0 0

HCCL（Huawei Collective Communication Library）是基于昇腾AI处理器的高性能集合通信库，提供单机多卡以及多机多卡间的集合通信能力，支持大模型的数据并行、模型并行、专家并行、pipeline并行、序列并行等多种加速方案。
人工智能昇腾
【CANN训练营深度开放特辑直播】持续解读基于深度开放的代码样例！每周三19:00准时开播，关注昇腾CANN视频号一键预约！
扫码关注【昇腾CANN】视频号快速预约直播，填写问卷在线收集问题并解答！B站观看链接：https://live.bilibili.com/h5/23361884 昇腾社区观看链接：https://www.hiascend.com/developer/cann20241 问卷链接：https://www.hiascend.com/zh/forms/shendukaifang?from=S0

哈小主
发表于2024-08-29 10:00:07
5775 0 0

5.7k 0 0

扫码关注【昇腾CANN】视频号快速预约直播，填写问卷在线收集问题并解答！B站观看链接：https://live.bilibili.com/h5/23361884 昇腾社区观看链接：https://www.hiascend.com/developer/cann20241 问卷链接：https://www.hiascend.com/zh/forms/shendukaifang?from=S0
昇腾视频直播
PaddleOCR推理的昇腾迁移
本文以PaddleOCR的模型推理为例，介绍如何将PaddleOCR模型的推理迁移至ModelArts的昇腾环境上，并部署成AI应用和在线服务。

FeiGe
发表于2024-08-22 10:54:21
11195 1 0

11.1k 1 0

本文以PaddleOCR的模型推理为例，介绍如何将PaddleOCR模型的推理迁移至ModelArts的昇腾环境上，并部署成AI应用和在线服务。
AI开发平台ModelArts 人工智能昇腾
配置启智Ascend环境
昇腾算子开发和应用开发环境配置

yd_246462758
发表于2024-06-21 21:09:52
5624 0 0

5.6k 0 0

昇腾算子开发和应用开发环境配置
昇腾
【昇腾】裸金属服务器中容器执行命令npu-smi失败错误码 8020
在昇腾裸金属服务器中，启动容器挂载XPU卡，容器创建成功，但是执行Npu-smi报错显示8020.

modelarts-dev-server
发表于2024-06-06 16:40:10
8702 0 0

8.7k 0 0

在昇腾裸金属服务器中，启动容器挂载XPU卡，容器创建成功，但是执行Npu-smi报错显示8020.
昇腾裸金属服务器 BMS
昇腾训练执行与推理部署与Ascend C算子开发系列课程系列课程笔记
华为CANN训练营昇腾训练执行与推理部署系列课程笔记一、课程介绍本次华为CANN训练营昇腾训练执行与推理部署系列课程旨在提供全面的指导和实践，让学员能够深入了解昇腾AI处理器的工作原理，并熟练掌握在CANN（Compute Architecture for Neural Networks）框架下进行深度学习模型的训练执行和推理部署。二、昇腾AI处理器与CANN概述昇腾AI处理器：华为自主研发...

yd_220691934
发表于2024-05-31 23:04:00
5171 0 0

5.1k 0 0

华为CANN训练营昇腾训练执行与推理部署系列课程笔记一、课程介绍本次华为CANN训练营昇腾训练执行与推理部署系列课程旨在提供全面的指导和实践，让学员能够深入了解昇腾AI处理器的工作原理，并熟练掌握在CANN（Compute Architecture for Neural Networks）框架下进行深度学习模型的训练执行和推理部署。二、昇腾AI处理器与CANN概述昇腾AI处理器：华为自主研发...
昇腾机器学习深度学习
【CANN训练营笔记】Atlas 200I DK A2体验手写数字识别模型训练&推理
【CANN训练营笔记】Atlas 200I DK A2体验手写数字识别模型训练&推理

JeffDing
发表于2024-03-30 10:38:06
4323 0 0

4.3k 0 0

【CANN训练营笔记】Atlas 200I DK A2体验手写数字识别模型训练&推理
昇腾
海思Hi3519DV500部署paddle版面分析算法
海思Hi3516DV500部署paddle的版型分析模型记录，包含了python版本以及c++版本的部署，同时根据需要制作自己的数据集并重新训练达到理想效果

warren_伟
发表于2024-02-27 15:40:38
6588 0 0

6.5k 0 0

海思Hi3516DV500部署paddle的版型分析模型记录，包含了python版本以及c++版本的部署，同时根据需要制作自己的数据集并重新训练达到理想效果
嵌入式昇腾深度学习音视频
【昇腾】Ascend Snt9B服务器HCCL_TEST profiling工具使用指导
Ascend Snt9B服务器上HCCL_TEST profiling工具使用

modelarts-dev-server
发表于2023-11-30 09:37:28
6263 0 0

6.2k 0 0

Ascend Snt9B服务器上HCCL_TEST profiling工具使用
昇腾
【昇腾】Ascend Snt9B RoCE网卡带宽测试指导方案
本文旨指导在华为云Ascend Snt9B裸金属服务器上进行 RoCE网卡带宽测试

modelarts-dev-server
发表于2023-11-27 11:41:36
10666 0 0

10.6k 0 0

本文旨指导在华为云Ascend Snt9B裸金属服务器上进行 RoCE网卡带宽测试
昇腾
【昇腾】Ascend Snt9B使用深度学习框架PyTorch1.11.0版本的解决方案
昇腾为使用PyTorch框架的开发者提供昇腾昇腾AI处理器的超强算力，需要安装PyTorch Adapter插件用于适配PyTorch，本文提供了解决方案指导用户安装Pytorch框架和Pytorch Adapter插件。

modelarts-dev-server
发表于2023-11-25 16:48:05
7524 0 0

7.5k 0 0

昇腾为使用PyTorch框架的开发者提供昇腾昇腾AI处理器的超强算力，需要安装PyTorch Adapter插件用于适配PyTorch，本文提供了解决方案指导用户安装Pytorch框架和Pytorch Adapter插件。
pytorch 昇腾深度学习
【昇腾】Snt9B服务器NPU驱动升级解决方案
华为云NPU驱动固件包商用版本周期性的发布。本文给出驱动固件新版本的升级方案。

modelarts-dev-server
发表于2023-11-24 18:16:01
9878 0 0

9.8k 0 0

华为云NPU驱动固件包商用版本周期性的发布。本文给出驱动固件新版本的升级方案。
昇腾
【昇腾】NPU Snt9B裸金属服务器使用nohup命令后台训练时中途偶现失败解决方案
1. 问题描述使用华为云Snt9B裸金属服务器，通过nohup命令基于pytorch框架进行大模型训练时，训练中途偶现如下报错导致训练中断：{'loss': 0.0759, 'learning_rate': 0.0005298913043478261, 'epoch': 3.15} 79%|███████▉ | 4640/5888 [2:28:56<5:39:33, 16.32s/it] ...

modelarts-dev-server
发表于2023-11-21 16:11:38
5842 0 0

5.8k 0 0

1. 问题描述使用华为云Snt9B裸金属服务器，通过nohup命令基于pytorch框架进行大模型训练时，训练中途偶现如下报错导致训练中断：{'loss': 0.0759, 'learning_rate': 0.0005298913043478261, 'epoch': 3.15} 79%|███████▉ | 4640/5888 [2:28:56<5:39:33, 16.32s/it] ...
昇腾机器学习裸金属服务器 BMS
【昇腾】NPU Snt9B裸金属服务器训练中途报错PytorchStreamWriter failed解决方案
1. 问题描述使用华为云昇腾Snt9B裸金属服务器，基于pytorch框架进行大模型训练时，需要迭代训练100轮，在第21轮训练时中途报错：RuntimeError: [enforce fail at inline_container.cc:471] . PytorchStreamWriter failed writing file data: file write failed具体报错信息...

modelarts-dev-server
发表于2023-11-21 15:28:48
7029 0 0

7.0k 0 0

1. 问题描述使用华为云昇腾Snt9B裸金属服务器，基于pytorch框架进行大模型训练时，需要迭代训练100轮，在第21轮训练时中途报错：RuntimeError: [enforce fail at inline_container.cc:471] . PytorchStreamWriter failed writing file data: file write failed具体报错信息...
昇腾机器学习裸金属服务器 BMS
【昇腾】Ascend Snt9B多机批量执行命令方案
1. 背景介绍在使用华为云裸金属服务器Ascend Snt9B机器进行多机训练/推理作业时，往往需要将多机的环境配置的完全一致。如果逐台登录主机，逐台使用环境配置脚本来配置，虽然可以完成任务，但是效率低下。为提高效率，可以在单节点通过脚本实现多台主机批量执行命令，具体步骤如下所示。2. 多机批量执行方案2.1 选择信任节点并生成密钥可以将多机中的一台作为信任节点，通过如下命令生成ssh的rs...

modelarts-dev-server
发表于2023-11-17 11:24:22
4548 0 0

4.5k 0 0

1. 背景介绍在使用华为云裸金属服务器Ascend Snt9B机器进行多机训练/推理作业时，往往需要将多机的环境配置的完全一致。如果逐台登录主机，逐台使用环境配置脚本来配置，虽然可以完成任务，但是效率低下。为提高效率，可以在单节点通过脚本实现多台主机批量执行命令，具体步骤如下所示。2. 多机批量执行方案2.1 选择信任节点并生成密钥可以将多机中的一台作为信任节点，通过如下命令生成ssh的rs...
昇腾

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript