- 本章节介绍 ONNX 模型如何转化为 OM 模型,并在昇腾AI处理器上做离线推理。昇腾张量编译器(Ascend Tensor Compiler,简称ATC)是异构计算架构CANN体系下的模型转换工具, 它可以将开源框架的网络模型或Ascend IR定义的单算子描述文件(json格式)转换为昇腾AI处理器支持的.om格式离线模型。ATC功能详见:https://www.hiascend.com... 本章节介绍 ONNX 模型如何转化为 OM 模型,并在昇腾AI处理器上做离线推理。昇腾张量编译器(Ascend Tensor Compiler,简称ATC)是异构计算架构CANN体系下的模型转换工具, 它可以将开源框架的网络模型或Ascend IR定义的单算子描述文件(json格式)转换为昇腾AI处理器支持的.om格式离线模型。ATC功能详见:https://www.hiascend.com...
- 本节介绍 PP-OCRv4 模型如何转化为 ONNX 模型。 环境准备需要准备 PaddleOCR、Paddle2ONNX 模型转化环境,和 ONNXRuntime 推理环境。 安装 Paddle2ONNXPaddle2ONNX 支持将 PaddlePaddle 模型格式转化到 ONNX 模型格式,安装命令如下:python3 -m pip install paddle2onnx 安装 ON... 本节介绍 PP-OCRv4 模型如何转化为 ONNX 模型。 环境准备需要准备 PaddleOCR、Paddle2ONNX 模型转化环境,和 ONNXRuntime 推理环境。 安装 Paddle2ONNXPaddle2ONNX 支持将 PaddlePaddle 模型格式转化到 ONNX 模型格式,安装命令如下:python3 -m pip install paddle2onnx 安装 ON...
- 性能优化问题定界在通过分析 profiling 文件找出性能瓶颈后,接下来将介绍相关的优化方法。算子时长主要由计算时间和调度时间两部分构成,下面将分别对计算时间长和调度时间长这两种情况进行探讨。 计算时间长的情况分析与优化计算时间长可能由以下三种情况导致: 算子运行于 AI_CPU若底层未对 AI_CORE 提供支持,就必须开发新的算子;若已有相关支持,计算时间长大概率是由 64 位数据类... 性能优化问题定界在通过分析 profiling 文件找出性能瓶颈后,接下来将介绍相关的优化方法。算子时长主要由计算时间和调度时间两部分构成,下面将分别对计算时间长和调度时间长这两种情况进行探讨。 计算时间长的情况分析与优化计算时间长可能由以下三种情况导致: 算子运行于 AI_CPU若底层未对 AI_CORE 提供支持,就必须开发新的算子;若已有相关支持,计算时间长大概率是由 64 位数据类...
- 性能调优思路性能优化是一项系统性工作,建议采用 “分析 - 定位 - 优化” 的流程,通过性能分析工具定位瓶颈后实施针对性优化。通过 profiling 工具获取算子级性能数据定位性能瓶颈点,主要涉及算子计算时间与调度通信时间。常用优化策略中,计算时间过长需依靠算子自身优化升级,可收集算子的 shape 和 dtype 向算子开发部门提交工单并跟踪进展;调度过程包含多个环节,目前最突出的问... 性能调优思路性能优化是一项系统性工作,建议采用 “分析 - 定位 - 优化” 的流程,通过性能分析工具定位瓶颈后实施针对性优化。通过 profiling 工具获取算子级性能数据定位性能瓶颈点,主要涉及算子计算时间与调度通信时间。常用优化策略中,计算时间过长需依靠算子自身优化升级,可收集算子的 shape 和 dtype 向算子开发部门提交工单并跟踪进展;调度过程包含多个环节,目前最突出的问...
- 本节介绍aclnn算子的三种适配场景。 Paddle-API 与 CANN-Kernel 差异剖析及适配策略对于Paddle-API与CANN-Kernel两者中常见的差别与适配方法如下: Paddle参数缺失或者参数无法直接对应如果Paddle算子只需要CANN提供的某个参数为默认值的功能,则可通过默认赋值的方式完成考虑通过计算取得需要参数 CANN参数缺失CANN算子没有某个Paddle... 本节介绍aclnn算子的三种适配场景。 Paddle-API 与 CANN-Kernel 差异剖析及适配策略对于Paddle-API与CANN-Kernel两者中常见的差别与适配方法如下: Paddle参数缺失或者参数无法直接对应如果Paddle算子只需要CANN提供的某个参数为默认值的功能,则可通过默认赋值的方式完成考虑通过计算取得需要参数 CANN参数缺失CANN算子没有某个Paddle...
- 适配代码仓介绍Paddle 针对除 CPU 和 Nvidia GPU 之外的其他硬件的适配代码,均存于[PaddleCustomDevice代码仓](https://github.com/PaddlePaddle/PaddleCustomDevice)以 NPU 适配代码为例,其路径为PaddleCustomDevice/backends/npu。在此路径下,有两个目录值得重点关注,分别是... 适配代码仓介绍Paddle 针对除 CPU 和 Nvidia GPU 之外的其他硬件的适配代码,均存于[PaddleCustomDevice代码仓](https://github.com/PaddlePaddle/PaddleCustomDevice)以 NPU 适配代码为例,其路径为PaddleCustomDevice/backends/npu。在此路径下,有两个目录值得重点关注,分别是...
- 训练系统的可用性,决定着智能化的速度。无法解决资源利用率低、系统稳定性差、通信带宽瓶颈的传统AI集群,已经不符合大模型的创新趋势。 训练系统的可用性,决定着智能化的速度。无法解决资源利用率低、系统稳定性差、通信带宽瓶颈的传统AI集群,已经不符合大模型的创新趋势。
- 精度对齐说明精度对齐旨在确保模型在训练一定轮次后,其损失(LOSS)或评分能够与原硬件训练的结果基本相符。 精度对齐标准下图所示为在原硬件GPU上的训练精度:迁移到NPU上后要求与GPU训练精度相差在千分之五左右,若精度误差过大则需要通过前向、反向对齐操作定位问题算子。 精度对齐思路一旦精度出现偏差,首先确认环境变量配置(例如,NPU私有格式环境变量是否关闭export FLAGS_npu... 精度对齐说明精度对齐旨在确保模型在训练一定轮次后,其损失(LOSS)或评分能够与原硬件训练的结果基本相符。 精度对齐标准下图所示为在原硬件GPU上的训练精度:迁移到NPU上后要求与GPU训练精度相差在千分之五左右,若精度误差过大则需要通过前向、反向对齐操作定位问题算子。 精度对齐思路一旦精度出现偏差,首先确认环境变量配置(例如,NPU私有格式环境变量是否关闭export FLAGS_npu...
- 本次案例以PaddleOCRv4的模型为例,介绍将模型迁移到NPU上的流程。迁移过程要保证原模型的功能在新的硬件上不会出现错误,可以借助各种日志辅助定位,此处尤其需要注意的是偶发性错误与长跑时才会出现的错误。 安装PaddleOCR套件# 下载 PaddleOCR 套件源码git clone https://github.com/PaddlePaddle/PaddleOCR# 进入 Padd... 本次案例以PaddleOCRv4的模型为例,介绍将模型迁移到NPU上的流程。迁移过程要保证原模型的功能在新的硬件上不会出现错误,可以借助各种日志辅助定位,此处尤其需要注意的是偶发性错误与长跑时才会出现的错误。 安装PaddleOCR套件# 下载 PaddleOCR 套件源码git clone https://github.com/PaddlePaddle/PaddleOCR# 进入 Padd...
- 训练常用环境变量本节介绍的环境变量建议在训练前提前设置好。 NPU私有格式0为关闭,建议关闭:export FLAGS_npu_storage_format=0 NPU在线编译false为关闭,建议小模型关闭,大模型打开:export FLAGS_npu_jit_compile=false aclnn_scale在大模型场景设置False性能更好,小模型场景设置True性能更好:expor... 训练常用环境变量本节介绍的环境变量建议在训练前提前设置好。 NPU私有格式0为关闭,建议关闭:export FLAGS_npu_storage_format=0 NPU在线编译false为关闭,建议小模型关闭,大模型打开:export FLAGS_npu_jit_compile=false aclnn_scale在大模型场景设置False性能更好,小模型场景设置True性能更好:expor...
- CANN环境准备 CANN镜像加载镜像下载完成后,使用 docker load 命令将下载好的镜像导入到昇腾主机上:docker load -i paddle-npu_cann80RC1-ubuntu20-aarch64-gcc84-py39.tar导入成功后,使用 docker images 查看镜像名称与标签:registry.baidubce.com/device/paddle-np... CANN环境准备 CANN镜像加载镜像下载完成后,使用 docker load 命令将下载好的镜像导入到昇腾主机上:docker load -i paddle-npu_cann80RC1-ubuntu20-aarch64-gcc84-py39.tar导入成功后,使用 docker images 查看镜像名称与标签:registry.baidubce.com/device/paddle-np...
- 全文给出三种模型的代码示例,以GraphSage为例主要讲解 GraphSage因为昇腾暂时还不支持PyG的torch_scatter,torch_sparse等加速库,所以还不能使用mini-batch方式训练GNN,此处都是in-memory的全图训练方式。首先构建一个GraphSAGE网络以下代码是一个两层的GraphSAGE网络,利用PyG提供的SAGEConv进行构建。class ... 全文给出三种模型的代码示例,以GraphSage为例主要讲解 GraphSage因为昇腾暂时还不支持PyG的torch_scatter,torch_sparse等加速库,所以还不能使用mini-batch方式训练GNN,此处都是in-memory的全图训练方式。首先构建一个GraphSAGE网络以下代码是一个两层的GraphSAGE网络,利用PyG提供的SAGEConv进行构建。class ...
- 环境昊算平台910b NPUdocker容器 下载中心Ascend/pytorch安装torch_npu插件-安装步骤-配置与安装-开发文档-昇腾社区 安装流程查阅所需的对应版本PyTorch Extension版本号采用{PyTorch版本}-{昇腾版本}命名规则,前者为PyTorch Extension匹配的PyTorch版本,后者用于匹配CANN版本,详细匹配如下:CANN版本支持的... 环境昊算平台910b NPUdocker容器 下载中心Ascend/pytorch安装torch_npu插件-安装步骤-配置与安装-开发文档-昇腾社区 安装流程查阅所需的对应版本PyTorch Extension版本号采用{PyTorch版本}-{昇腾版本}命名规则,前者为PyTorch Extension匹配的PyTorch版本,后者用于匹配CANN版本,详细匹配如下:CANN版本支持的...
- 环境昊算平台910b NPUdocker容器 安装步骤安装依赖-安装CANN(物理机场景)-软件安装-开发文档-昇腾社区apt安装miniconda安装 Apt首先进行换源,参考昇腾NPU容器内 apt 换源 Miniconda安装minicondamkdir -p ~/miniconda3wget https://repo.anaconda.com/miniconda/Miniconda... 环境昊算平台910b NPUdocker容器 安装步骤安装依赖-安装CANN(物理机场景)-软件安装-开发文档-昇腾社区apt安装miniconda安装 Apt首先进行换源,参考昇腾NPU容器内 apt 换源 Miniconda安装minicondamkdir -p ~/miniconda3wget https://repo.anaconda.com/miniconda/Miniconda...
- 环境昊算平台910b NPUdocker容器 下载中心社区版资源下载-资源下载中心-昇腾社区资源下载 安装流程此处以8.0.0.beta1为例下载对应版本Toolkithttps://ascend-repo.obs.cn-east-2.myhuaweicloud.com/CANN/CANN%208.0.0/Ascend-cann-toolkit_8.0.0_linux-aarch64.ru... 环境昊算平台910b NPUdocker容器 下载中心社区版资源下载-资源下载中心-昇腾社区资源下载 安装流程此处以8.0.0.beta1为例下载对应版本Toolkithttps://ascend-repo.obs.cn-east-2.myhuaweicloud.com/CANN/CANN%208.0.0/Ascend-cann-toolkit_8.0.0_linux-aarch64.ru...
上滑加载中
推荐直播
-
码道新技能,AI 新生产力——从自动视频生成到开源项目解析2026/04/08 周三 19:00-21:00
童得力-华为云开发者生态运营总监/何文强-无人机企业AI提效负责人
本次华为云码道 Skill 实战活动,聚焦两大 AI 开发场景:通过实战教学,带你打造 AI 编程自动生成视频 Skill,并实现对 GitHub 热门开源项目的智能知识抽取,手把手掌握 Skill 开发全流程,用 AI 提升研发效率与内容生产力。
回顾中 -
华为云码道:零代码股票智能决策平台全功能实战2026/04/18 周六 10:00-12:00
秦拳德-中软国际教育卓越研究院研究员、华为云金牌讲师、云原生技术专家
利用Tushare接口获取实时行情数据,采用Transformer算法进行时序预测与涨跌分析,并集成DeepSeek API提供智能解读。同时,项目深度结合华为云CodeArts(码道)的代码智能体能力,实现代码一键推送至云端代码仓库,建立起高效、可协作的团队开发新范式。开发者可快速上手,从零打造功能完整的个股筛选、智能分析与风险管控产品。
回顾中 -
华为云码道全新升级,多会话并行与多智能体协作2026/05/08 周五 19:00-21:00
王一男-华为云码道产品专家;张嘉冉-华为云码道工程师;胡琦-华为云HCDE;程诗杰-华为云HCDG
华为云码道4月份版本全新升级,此次直播深度解读4月份产品特性,通过“特性解读+实操演示+实战案例+设计创新”的组合,全方位展现码道在多会话并行与多智能体协作方面的能力,赋能开发者提升效率
正在直播
热门标签