- 在当今的推荐系统、广告检索和自然语言处理应用中,EmbeddingLookup算子占据了超过60%的推理时间。这个看似简单的"查表"操作,实际上隐藏着深度的性能优化空间。本文将以华为昇腾NPU平台为背景,深入探讨如何通过算子融合、内存布局优化和硬件感知编程,将EmbeddingLookup的性能提升到极致。 在当今的推荐系统、广告检索和自然语言处理应用中,EmbeddingLookup算子占据了超过60%的推理时间。这个看似简单的"查表"操作,实际上隐藏着深度的性能优化空间。本文将以华为昇腾NPU平台为背景,深入探讨如何通过算子融合、内存布局优化和硬件感知编程,将EmbeddingLookup的性能提升到极致。
- Ascend CANN 深度算子开发实践:以 Conv2D 为例解析架构原理与实战【华为根技术】卷积运算(Conv2D)是计算机视觉与深度学习模型中最具代表性、计算最密集的核心算子之一。从经典的 ResNet 到前沿的 Vision Transformer,卷积层始终是模型效率和性能的关键决定因素。在 GPU 上,你可以依赖 cuDNN;在 CPU 上,可以调用 OneDNN。但在昇腾(A... Ascend CANN 深度算子开发实践:以 Conv2D 为例解析架构原理与实战【华为根技术】卷积运算(Conv2D)是计算机视觉与深度学习模型中最具代表性、计算最密集的核心算子之一。从经典的 ResNet 到前沿的 Vision Transformer,卷积层始终是模型效率和性能的关键决定因素。在 GPU 上,你可以依赖 cuDNN;在 CPU 上,可以调用 OneDNN。但在昇腾(A...
- 高性能AI应用:深度探索昇腾CANN模型量化实战全攻略在昇腾CANN开发中,模型推理性能优化是平衡“计算效率”与“资源开销”的关键技术——通过采用模型量化、图优化、算子融合等手段,可显著提升推理速度,降低端侧部署门槛。本文聚焦CANN模型优化工具链的实战应用,从原理剖析、工具操作到性能调优,系统呈现高效模型的开发与部署全流程。 一、CANN模型优化的核心理念与技术路径模型优化的本质是“在不... 高性能AI应用:深度探索昇腾CANN模型量化实战全攻略在昇腾CANN开发中,模型推理性能优化是平衡“计算效率”与“资源开销”的关键技术——通过采用模型量化、图优化、算子融合等手段,可显著提升推理速度,降低端侧部署门槛。本文聚焦CANN模型优化工具链的实战应用,从原理剖析、工具操作到性能调优,系统呈现高效模型的开发与部署全流程。 一、CANN模型优化的核心理念与技术路径模型优化的本质是“在不...
- https://lab.huaweicloud.com/ I. 引言:当实验需求遭遇资源天花板某互联网巨头在2024年Q2面临一个典型困境:三条核心业务线(电商、金融、内容)同时提交了127个A/B实验需求,总流量需求达到日常活跃用户数的350%,而工程师团队仅有8人,实验平台吞吐量上限为50万QPS。更复杂的是,各业务线KPI相互博弈——电商提升GMV的实验可能降低用户停留时长,影响内容线... https://lab.huaweicloud.com/ I. 引言:当实验需求遭遇资源天花板某互联网巨头在2024年Q2面临一个典型困境:三条核心业务线(电商、金融、内容)同时提交了127个A/B实验需求,总流量需求达到日常活跃用户数的350%,而工程师团队仅有8人,实验平台吞吐量上限为50万QPS。更复杂的是,各业务线KPI相互博弈——电商提升GMV的实验可能降低用户停留时长,影响内容线...
- 本文详细介绍了如何在华为云开发者空间的 AI Notebook 平台上,利用 NPU 910B 环境高效部署并运行 YOLOv9_for_PyTorch 目标检测模型。整个流程分为五个关键步骤:环境初始化、依赖安装、模型权重准备、测试数据准备和推理执行,最终实现了对测试图片的实时目标检测并可视化结果。 本文详细介绍了如何在华为云开发者空间的 AI Notebook 平台上,利用 NPU 910B 环境高效部署并运行 YOLOv9_for_PyTorch 目标检测模型。整个流程分为五个关键步骤:环境初始化、依赖安装、模型权重准备、测试数据准备和推理执行,最终实现了对测试图片的实时目标检测并可视化结果。
- Ascend C 核心技术特性一、Ascend C 技术定位:为何需要昇腾原生编程框架?在 AI 算力需求爆发的背景下,通用编程框架(如 CUDA)难以充分适配昇腾芯片的 达芬奇架构(Da Vinci Architecture) 特性(如张量计算单元、多级存储体系),导致算力利用率受限。Ascend C 作为昇腾芯片原生的 算子开发框架,定位为 “底层算力入口”,核心目标是:极致性能:直... Ascend C 核心技术特性一、Ascend C 技术定位:为何需要昇腾原生编程框架?在 AI 算力需求爆发的背景下,通用编程框架(如 CUDA)难以充分适配昇腾芯片的 达芬奇架构(Da Vinci Architecture) 特性(如张量计算单元、多级存储体系),导致算力利用率受限。Ascend C 作为昇腾芯片原生的 算子开发框架,定位为 “底层算力入口”,核心目标是:极致性能:直...
- 背景最近几年,AI 大模型火得一塌糊涂,特别是像 Llama 这样的开源模型,几乎成了每个技术团队都在讨论的热点。不过,这些"巨无霸"模型虽然能力超强,但对硬件的要求也高得吓人。这时候,华为的昇腾 NPU 就派上用场了。说实话,昇腾 NPU 在 AI 计算这块确实有两把刷子。它专门为神经网络计算设计,不仅算力强劲,功耗控制得也不错,最关键的是灵活性很好,可以根据不同场景进行裁剪。所以,用它来... 背景最近几年,AI 大模型火得一塌糊涂,特别是像 Llama 这样的开源模型,几乎成了每个技术团队都在讨论的热点。不过,这些"巨无霸"模型虽然能力超强,但对硬件的要求也高得吓人。这时候,华为的昇腾 NPU 就派上用场了。说实话,昇腾 NPU 在 AI 计算这块确实有两把刷子。它专门为神经网络计算设计,不仅算力强劲,功耗控制得也不错,最关键的是灵活性很好,可以根据不同场景进行裁剪。所以,用它来...
- 昇腾实战|算子模板库Catlass与CANN生态适配 昇腾实战|算子模板库Catlass与CANN生态适配
- 昇腾实战 | 昇腾 NPU 异构编程与 GEMM 调优核心方法 昇腾实战 | 昇腾 NPU 异构编程与 GEMM 调优核心方法
- 昇腾平台 PyTorch 迁移实操:从环境搭建到精度达标的完整步骤 昇腾平台 PyTorch 迁移实操:从环境搭建到精度达标的完整步骤
- 华为CANN算子开发全解析:从基础概念到高性能数据排布在深度学习领域,算子(Operator,简称OP)是模型计算的基本单元。每一个算子承载了特定的数学运算逻辑,例如卷积(Convolution)、池化(Pooling)、归一化(Softmax)、激活函数(ReLU)等。华为CANN(Compute Architecture for Neural Networks)框架提供了强大的算子支持... 华为CANN算子开发全解析:从基础概念到高性能数据排布在深度学习领域,算子(Operator,简称OP)是模型计算的基本单元。每一个算子承载了特定的数学运算逻辑,例如卷积(Convolution)、池化(Pooling)、归一化(Softmax)、激活函数(ReLU)等。华为CANN(Compute Architecture for Neural Networks)框架提供了强大的算子支持...
- 深入解析华为CANN算子开发:从入图到动态Shape推导随着AI计算的不断发展,华为昇腾AI处理器及其CANN算子开发框架在高性能算子实现和图优化中扮演着核心角色。本文将深入解析CANN算子开发的全流程,重点讲解入图阶段的Shape与DataType推导、数据依赖处理及动态输出Shape推导,为开发者提供实践参考。 一、算子开发与入图的概述在传统算子开发中,开发者通常关注算子核心计算逻辑,... 深入解析华为CANN算子开发:从入图到动态Shape推导随着AI计算的不断发展,华为昇腾AI处理器及其CANN算子开发框架在高性能算子实现和图优化中扮演着核心角色。本文将深入解析CANN算子开发的全流程,重点讲解入图阶段的Shape与DataType推导、数据依赖处理及动态输出Shape推导,为开发者提供实践参考。 一、算子开发与入图的概述在传统算子开发中,开发者通常关注算子核心计算逻辑,...
- 华为CANN多核Tiling算子开发详解随着AI算力需求的不断增长,如何高效利用华为Ascend处理器的多核计算能力,成为算子开发的关键技术点。在CANN(Compute Architecture for Neural Networks)框架下,算子开发不仅关注功能实现,更强调性能优化与多核协作。本文将以一个典型的Add算子为例,深入解析在Ascend C方式下,多核Tiling算子开发的... 华为CANN多核Tiling算子开发详解随着AI算力需求的不断增长,如何高效利用华为Ascend处理器的多核计算能力,成为算子开发的关键技术点。在CANN(Compute Architecture for Neural Networks)框架下,算子开发不仅关注功能实现,更强调性能优化与多核协作。本文将以一个典型的Add算子为例,深入解析在Ascend C方式下,多核Tiling算子开发的...
- 深入解析华为CANN算子开发:从Tiling到Kernel实现在AI算子开发中,性能优化与硬件利用率是核心关注点。华为昇腾(Ascend)平台的CANN(Compute Architecture for Neural Networks)提供了一套高效的算子编程框架,使开发者能够充分发挥NPU的计算能力。本文将从算子设计、Tiling策略、核函数实现到临时内存管理等方面,对华为CANN算子开... 深入解析华为CANN算子开发:从Tiling到Kernel实现在AI算子开发中,性能优化与硬件利用率是核心关注点。华为昇腾(Ascend)平台的CANN(Compute Architecture for Neural Networks)提供了一套高效的算子编程框架,使开发者能够充分发挥NPU的计算能力。本文将从算子设计、Tiling策略、核函数实现到临时内存管理等方面,对华为CANN算子开...
- 深入解析华为CANN算子开发:从Tiling到Kernel实现在AI算子开发中,性能优化与硬件利用率是核心关注点。华为昇腾(Ascend)平台的CANN(Compute Architecture for Neural Networks)提供了一套高效的算子编程框架,使开发者能够充分发挥NPU的计算能力。本文将从算子设计、Tiling策略、核函数实现到临时内存管理等方面,对华为CANN算子开... 深入解析华为CANN算子开发:从Tiling到Kernel实现在AI算子开发中,性能优化与硬件利用率是核心关注点。华为昇腾(Ascend)平台的CANN(Compute Architecture for Neural Networks)提供了一套高效的算子编程框架,使开发者能够充分发挥NPU的计算能力。本文将从算子设计、Tiling策略、核函数实现到临时内存管理等方面,对华为CANN算子开...
上滑加载中
推荐直播
-
Skill 构建 × 智能创作:基于华为云码道的 AI 内容生产提效方案2026/03/25 周三 19:00-20:00
余伟,华为云软件研发工程师/万邵业(万少),华为云HCDE开发者专家
本次直播带来两大实战:华为云码道 Skill-Creator 手把手搭建专属知识库 Skill;如何用码道提效 OpenClaw 小说文本,打造从大纲到成稿的 AI 原创小说全链路。技术干货 + OPC创作思路,一次讲透!
回顾中 -
码道新技能,AI 新生产力——从自动视频生成到开源项目解析2026/04/08 周三 19:00-21:00
童得力-华为云开发者生态运营总监/何文强-无人机企业AI提效负责人
本次华为云码道 Skill 实战活动,聚焦两大 AI 开发场景:通过实战教学,带你打造 AI 编程自动生成视频 Skill,并实现对 GitHub 热门开源项目的智能知识抽取,手把手掌握 Skill 开发全流程,用 AI 提升研发效率与内容生产力。
回顾中 -
华为云码道:零代码股票智能决策平台全功能实战2026/04/18 周六 10:00-12:00
秦拳德-中软国际教育卓越研究院研究员、华为云金牌讲师、云原生技术专家
利用Tushare接口获取实时行情数据,采用Transformer算法进行时序预测与涨跌分析,并集成DeepSeek API提供智能解读。同时,项目深度结合华为云CodeArts(码道)的代码智能体能力,实现代码一键推送至云端代码仓库,建立起高效、可协作的团队开发新范式。开发者可快速上手,从零打造功能完整的个股筛选、智能分析与风险管控产品。
回顾中
热门标签