昇腾_标签_开发者_华为云

博客(1.1k)
视频(22)
论坛(0)
云声(1.2k)
代码示例(0)

从+NV+Apex+到+Apex+for+Ascend：混合精度训练在昇腾平台的适配与编译全流程解析
从 NV Apex 到 Apex for Ascend：混合精度训练在昇腾平台的适配与编译全流程解析一、背景：从 NV Apex 到 Ascend 适配在 PyTorch 生态中，NVIDIA Apex 一直是混合精度训练（Automatic Mixed Precision, AMP）的核心工具。它能有效降低显存占用、加快模型训练速度，是深度学习训练中极为重要的性能优化手段。随着华为昇腾 N...

chi池
发表于2025-12-24 11:40:58
12404 0 0

12.4k 0 0

从 NV Apex 到 Apex for Ascend：混合精度训练在昇腾平台的适配与编译全流程解析一、背景：从 NV Apex 到 Ascend 适配在 PyTorch 生态中，NVIDIA Apex 一直是混合精度训练（Automatic Mixed Precision, AMP）的核心工具。它能有效降低显存占用、加快模型训练速度，是深度学习训练中极为重要的性能优化手段。随着华为昇腾 N...
昇腾机器学习
CANN算子开发实战：从概念到代码完整指南
CANN算子开发实战：从概念到代码完整指南昇腾CANN训练营简介2025年昇腾CANN训练营焕新升级，依托CANN全面开源开放，推出四大定制化专题课程，满足开发者不同阶段的学习需求，快速提升Ascend C算子开发技术。无论你是零基础入门还是进阶提升，都能在这里找到适合自己的学习路径。完成Ascend C算子中级认证和社区任务，即可领取精美证书，更有机会赢取华为手机、平板、开发板等大奖。报名...

摘星.
发表于2025-12-23 15:15:50
11826 0 0

11.8k 0 0

CANN算子开发实战：从概念到代码完整指南昇腾CANN训练营简介2025年昇腾CANN训练营焕新升级，依托CANN全面开源开放，推出四大定制化专题课程，满足开发者不同阶段的学习需求，快速提升Ascend C算子开发技术。无论你是零基础入门还是进阶提升，都能在这里找到适合自己的学习路径。完成Ascend C算子中级认证和社区任务，即可领取精美证书，更有机会赢取华为手机、平板、开发板等大奖。报名...
昇腾机器学习
昇腾CANN自定义算子：攻克多模态数据稀疏性与动态性的性能堡垒
昇腾CANN自定义算子：攻克多模态数据稀疏性与动态性的性能堡垒从文本到音频：多模态UGC数据的统一挑战在当今海量的用户生成内容（UGC）处理中，文本数据（评论、弹幕、标题）与音频数据（语音识别结果、背景音乐特征）正成为AI模型训练与推理的重要输入源。这些数据经过特征提取（如NLP的Token Embedding、音频的MFCC/梅尔频谱特征）后，普遍呈现出一个关键特征：高维稀疏性。以语音...

柠檬🍋
发表于2025-12-21 14:37:17
12322 0 0

12.3k 0 0

昇腾CANN自定义算子：攻克多模态数据稀疏性与动态性的性能堡垒从文本到音频：多模态UGC数据的统一挑战在当今海量的用户生成内容（UGC）处理中，文本数据（评论、弹幕、标题）与音频数据（语音识别结果、背景音乐特征）正成为AI模型训练与推理的重要输入源。这些数据经过特征提取（如NLP的Token Embedding、音频的MFCC/梅尔频谱特征）后，普遍呈现出一个关键特征：高维稀疏性。以语音...
昇腾
昇腾AI实战：基于AscendCL的YOLOv5目标检测应用开发【华为根技术】
昇腾AI实战：基于AscendCL的YOLOv5目标检测应用开发本文将详细介绍如何在昇腾芯片上使用AscendCL开发一个完整的目标检测应用，基于预训练的YOLOv5模型实现高效的目标检测推理流程。 1. 项目概述与准备项目目标开发一个能够实时检测图像中多种物体的目标检测程序，实现从输入图像到检测框和类别输出的完整推理流程。完整工作流程模型加载：将预编译的YOLOv5模型(.om文件)...

柠檬🍋
发表于2025-12-21 14:29:17
10923 0 0

10.9k 0 0

昇腾AI实战：基于AscendCL的YOLOv5目标检测应用开发本文将详细介绍如何在昇腾芯片上使用AscendCL开发一个完整的目标检测应用，基于预训练的YOLOv5模型实现高效的目标检测推理流程。 1. 项目概述与准备项目目标开发一个能够实时检测图像中多种物体的目标检测程序，实现从输入图像到检测框和类别输出的完整推理流程。完整工作流程模型加载：将预编译的YOLOv5模型(.om文件)...
昇腾
昇腾CANN性能调优实战：从数据驱动到极致优化
昇腾CANN性能调优实战：从数据驱动到极致优化摘要本文深入探讨昇腾平台Ascend C程序的系统化性能优化方法论。以msprof性能分析工具为核心，构建从性能瓶颈定位、数据依赖分析到资源利用率优化的完整技术体系。通过向量加法、矩阵乘法等真实场景案例，详细展示Double Buffer、内存访问模式优化、向量化计算等关键技术的实现与效果。提供企业级性能调优工作流，帮助开发者实现算子性能3-...

柠檬🍋
发表于2025-12-21 14:00:19
5787 0 0

5.7k 0 0

昇腾CANN性能调优实战：从数据驱动到极致优化摘要本文深入探讨昇腾平台Ascend C程序的系统化性能优化方法论。以msprof性能分析工具为核心，构建从性能瓶颈定位、数据依赖分析到资源利用率优化的完整技术体系。通过向量加法、矩阵乘法等真实场景案例，详细展示Double Buffer、内存访问模式优化、向量化计算等关键技术的实现与效果。提供企业级性能调优工作流，帮助开发者实现算子性能3-...
应用性能调优昇腾
超越Pow范式：在昇腾AI处理器上实现高性能自定义算子的系统化策略
无论选择哪种路径，都应建立“分析-优化-验证”的迭代流程。利用昇腾提供的Profiler、Memory Tracer等工具链，精准定位瓶颈，实施针对性优化。例如，一个2048x2048的MatMul算子，经过系统化优化后，性能可从初始的512ms（3.2 TFLOPS）提升至92ms（17.8 TFLOPS）。

柠檬🍋
发表于2025-12-21 12:16:41
5668 0 0

5.6k 0 0

无论选择哪种路径，都应建立“分析-优化-验证”的迭代流程。利用昇腾提供的Profiler、Memory Tracer等工具链，精准定位瓶颈，实施针对性优化。例如，一个2048x2048的MatMul算子，经过系统化优化后，性能可从初始的512ms（3.2 TFLOPS）提升至92ms（17.8 TFLOPS）。
昇腾
昇腾算力赋能：解密高性能算子与MoE模型落地新范式
昇腾算力赋能：解密高性能算子与MoE模型落地新范式在广州一场近700名开发者参与的盛会上，昇腾AI正以前所未有的速度更新其工具链。仅MoE模型推理一项，昇腾就能实现单卡吞吐量提升3倍以上，时延降低50%，成本下降超50%。随着大模型参数规模从千亿向万亿迈进，传统单一算力架构已无法满足需求。异构计算成为AI算力发展的关键路径，而华为昇腾系列AI处理器凭借其CANN（Compute Archi...

柠檬🍋
发表于2025-12-21 12:12:13
5786 0 0

5.7k 0 0

昇腾算力赋能：解密高性能算子与MoE模型落地新范式在广州一场近700名开发者参与的盛会上，昇腾AI正以前所未有的速度更新其工具链。仅MoE模型推理一项，昇腾就能实现单卡吞吐量提升3倍以上，时延降低50%，成本下降超50%。随着大模型参数规模从千亿向万亿迈进，传统单一算力架构已无法满足需求。异构计算成为AI算力发展的关键路径，而华为昇腾系列AI处理器凭借其CANN（Compute Archi...
昇腾
基于昇腾AI处理器的企业级模型推理平台容器化架构与工程实践【华为根技术】
本文深入探讨基于昇腾AI处理器的企业级AI模型推理平台容器化部署全生命周期管理。从云原生架构设计出发，系统性地介绍从开发环境容器化、Kubernetes生产部署、到CI/CD自动化流水线构建的全流程技术实践。文章结合真实生产环境经验，提供完整的架构设计模式、配置代码示例和运维最佳实践，为企业构建高效、稳定、可扩展的AI推理平台提供参考。

柠檬🍋
发表于2025-12-21 11:59:13
5622 0 0

5.6k 0 0

本文深入探讨基于昇腾AI处理器的企业级AI模型推理平台容器化部署全生命周期管理。从云原生架构设计出发，系统性地介绍从开发环境容器化、Kubernetes生产部署、到CI/CD自动化流水线构建的全流程技术实践。文章结合真实生产环境经验，提供完整的架构设计模式、配置代码示例和运维最佳实践，为企业构建高效、稳定、可扩展的AI推理平台提供参考。
容器昇腾
Triton-on-Ascend：解锁华为昇腾AI算力的高效编程新范式【华为根技术】
本文系统阐述Triton-on-Ascend技术如何通过高层编程抽象，解决AI算力爆发时代下的硬件编程难题。从昇腾硬件架构特性出发，深入解析SPMD并行模型在NPU上的实现机制，提供从环境搭建到企业级部署的全链路实践指南，并通过性能对比验证其在开发效率与运行效能间的卓越平衡。

柠檬🍋
发表于2025-12-21 11:46:04
5930 0 0

5.9k 0 0

本文系统阐述Triton-on-Ascend技术如何通过高层编程抽象，解决AI算力爆发时代下的硬件编程难题。从昇腾硬件架构特性出发，深入解析SPMD并行模型在NPU上的实现机制，提供从环境搭建到企业级部署的全链路实践指南，并通过性能对比验证其在开发效率与运行效能间的卓越平衡。
昇腾
CANN AI Core：揭开昇腾“核”心引擎的神秘面纱【华为根技术】
CANN AI Core：揭开昇腾“核”心引擎的神秘面纱【 5分钟搞懂：CANN 算子】在昇腾AI生态中，AI Core（人工智能核心）是算力爆发的心脏地带，但新手常被“核函数”“Vector Core”“Cube Core”等概念困扰。本文从「本质理解→核心构成→实践应用」三个层次，用生动类比+清晰图解，帮你快速掌握AI Core的工作原理。一、AI Core到底是什么？（直观类比）想...

柠檬🍋
发表于2025-12-20 18:06:19
5659 0 0

5.6k 0 0

CANN AI Core：揭开昇腾“核”心引擎的神秘面纱【 5分钟搞懂：CANN 算子】在昇腾AI生态中，AI Core（人工智能核心）是算力爆发的心脏地带，但新手常被“核函数”“Vector Core”“Cube Core”等概念困扰。本文从「本质理解→核心构成→实践应用」三个层次，用生动类比+清晰图解，帮你快速掌握AI Core的工作原理。一、AI Core到底是什么？（直观类比）想...
昇腾
于Ascend C的FlashAttention算子实现与性能优化研究
本文将带你从零实现一个昇腾原生的Attention + LayerNorm融合算子，通过一次核函数调用完成两个计算阶段，实测在典型LLM推理场景下可进一步提升端到端性能15%-20%！全文包含完整的融合策略、双缓冲设计、向量化优化与性能对比分析，助你掌握算子级联优化的核心技巧。

柠檬🍋
发表于2025-12-20 17:29:04
4874 0 0

4.8k 0 0

本文将带你从零实现一个昇腾原生的Attention + LayerNorm融合算子，通过一次核函数调用完成两个计算阶段，实测在典型LLM推理场景下可进一步提升端到端性能15%-20%！全文包含完整的融合策略、双缓冲设计、向量化优化与性能对比分析，助你掌握算子级联优化的核心技巧。
昇腾
EmbeddingLookup算子在Ascend 上的极致优化实战【华为根技术】
在当今的推荐系统、广告检索和自然语言处理应用中，EmbeddingLookup算子占据了超过60%的推理时间。这个看似简单的"查表"操作，实际上隐藏着深度的性能优化空间。本文将以华为昇腾NPU平台为背景，深入探讨如何通过算子融合、内存布局优化和硬件感知编程，将EmbeddingLookup的性能提升到极致。

柠檬🍋
发表于2025-12-20 16:00:41
258 0 0

258 0 0

在当今的推荐系统、广告检索和自然语言处理应用中，EmbeddingLookup算子占据了超过60%的推理时间。这个看似简单的"查表"操作，实际上隐藏着深度的性能优化空间。本文将以华为昇腾NPU平台为背景，深入探讨如何通过算子融合、内存布局优化和硬件感知编程，将EmbeddingLookup的性能提升到极致。
昇腾
Ascend CANN 深度算子开发实践：以 Conv2D 为例解析架构原理与实战【华为根技术】
Ascend CANN 深度算子开发实践：以 Conv2D 为例解析架构原理与实战【华为根技术】卷积运算（Conv2D）是计算机视觉与深度学习模型中最具代表性、计算最密集的核心算子之一。从经典的 ResNet 到前沿的 Vision Transformer，卷积层始终是模型效率和性能的关键决定因素。在 GPU 上，你可以依赖 cuDNN；在 CPU 上，可以调用 OneDNN。但在昇腾（A...

柠檬🍋
发表于2025-12-20 15:39:19
276 0 0

276 0 0

Ascend CANN 深度算子开发实践：以 Conv2D 为例解析架构原理与实战【华为根技术】卷积运算（Conv2D）是计算机视觉与深度学习模型中最具代表性、计算最密集的核心算子之一。从经典的 ResNet 到前沿的 Vision Transformer，卷积层始终是模型效率和性能的关键决定因素。在 GPU 上，你可以依赖 cuDNN；在 CPU 上，可以调用 OneDNN。但在昇腾（A...
昇腾神经网络
高性能AI应用：深度探索昇腾CANN模型量化实战全攻略【华为根技术】
高性能AI应用：深度探索昇腾CANN模型量化实战全攻略在昇腾CANN开发中，模型推理性能优化是平衡“计算效率”与“资源开销”的关键技术——通过采用模型量化、图优化、算子融合等手段，可显著提升推理速度，降低端侧部署门槛。本文聚焦CANN模型优化工具链的实战应用，从原理剖析、工具操作到性能调优，系统呈现高效模型的开发与部署全流程。一、CANN模型优化的核心理念与技术路径模型优化的本质是“在不...

柠檬🍋
发表于2025-12-20 15:28:06
370 0 0

370 0 0

高性能AI应用：深度探索昇腾CANN模型量化实战全攻略在昇腾CANN开发中，模型推理性能优化是平衡“计算效率”与“资源开销”的关键技术——通过采用模型量化、图优化、算子融合等手段，可显著提升推理速度，降低端侧部署门槛。本文聚焦CANN模型优化工具链的实战应用，从原理剖析、工具操作到性能调优，系统呈现高效模型的开发与部署全流程。一、CANN模型优化的核心理念与技术路径模型优化的本质是“在不...
昇腾
多场景博弈下的实验优先级排序与资源分配策略【华为根技术】
https://lab.huaweicloud.com/ I. 引言：当实验需求遭遇资源天花板某互联网巨头在2024年Q2面临一个典型困境：三条核心业务线（电商、金融、内容）同时提交了127个A/B实验需求，总流量需求达到日常活跃用户数的350%，而工程师团队仅有8人，实验平台吞吐量上限为50万QPS。更复杂的是，各业务线KPI相互博弈——电商提升GMV的实验可能降低用户停留时长，影响内容线...

数字扫地僧
发表于2025-12-19 15:14:46
296 0 0

296 0 0

https://lab.huaweicloud.com/ I. 引言：当实验需求遭遇资源天花板某互联网巨头在2024年Q2面临一个典型困境：三条核心业务线（电商、金融、内容）同时提交了127个A/B实验需求，总流量需求达到日常活跃用户数的350%，而工程师团队仅有8人，实验平台吞吐量上限为50万QPS。更复杂的是，各业务线KPI相互博弈——电商提升GMV的实验可能降低用户停留时长，影响内容线...
昇腾

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript