- 昇腾算力赋能:解密高性能算子与MoE模型落地新范式在广州一场近700名开发者参与的盛会上,昇腾AI正以前所未有的速度更新其工具链。仅MoE模型推理一项,昇腾就能实现单卡吞吐量提升3倍以上,时延降低50%,成本下降超50%。随着大模型参数规模从千亿向万亿迈进,传统单一算力架构已无法满足需求。异构计算成为AI算力发展的关键路径,而华为昇腾系列AI处理器凭借其CANN(Compute Archi... 昇腾算力赋能:解密高性能算子与MoE模型落地新范式在广州一场近700名开发者参与的盛会上,昇腾AI正以前所未有的速度更新其工具链。仅MoE模型推理一项,昇腾就能实现单卡吞吐量提升3倍以上,时延降低50%,成本下降超50%。随着大模型参数规模从千亿向万亿迈进,传统单一算力架构已无法满足需求。异构计算成为AI算力发展的关键路径,而华为昇腾系列AI处理器凭借其CANN(Compute Archi...
- 本文深入探讨基于昇腾AI处理器的企业级AI模型推理平台容器化部署全生命周期管理。从云原生架构设计出发,系统性地介绍从开发环境容器化、Kubernetes生产部署、到CI/CD自动化流水线构建的全流程技术实践。文章结合真实生产环境经验,提供完整的架构设计模式、配置代码示例和运维最佳实践,为企业构建高效、稳定、可扩展的AI推理平台提供参考。 本文深入探讨基于昇腾AI处理器的企业级AI模型推理平台容器化部署全生命周期管理。从云原生架构设计出发,系统性地介绍从开发环境容器化、Kubernetes生产部署、到CI/CD自动化流水线构建的全流程技术实践。文章结合真实生产环境经验,提供完整的架构设计模式、配置代码示例和运维最佳实践,为企业构建高效、稳定、可扩展的AI推理平台提供参考。
- 本文系统阐述Triton-on-Ascend技术如何通过高层编程抽象,解决AI算力爆发时代下的硬件编程难题。从昇腾硬件架构特性出发,深入解析SPMD并行模型在NPU上的实现机制,提供从环境搭建到企业级部署的全链路实践指南,并通过性能对比验证其在开发效率与运行效能间的卓越平衡。 本文系统阐述Triton-on-Ascend技术如何通过高层编程抽象,解决AI算力爆发时代下的硬件编程难题。从昇腾硬件架构特性出发,深入解析SPMD并行模型在NPU上的实现机制,提供从环境搭建到企业级部署的全链路实践指南,并通过性能对比验证其在开发效率与运行效能间的卓越平衡。
- CANN AI Core:揭开昇腾“核”心引擎的神秘面纱【 5分钟搞懂:CANN 算子】在昇腾AI生态中,AI Core(人工智能核心)是算力爆发的心脏地带,但新手常被“核函数”“Vector Core”“Cube Core”等概念困扰。本文从「本质理解→核心构成→实践应用」三个层次,用生动类比+清晰图解,帮你快速掌握AI Core的工作原理。 一、AI Core到底是什么?(直观类比)想... CANN AI Core:揭开昇腾“核”心引擎的神秘面纱【 5分钟搞懂:CANN 算子】在昇腾AI生态中,AI Core(人工智能核心)是算力爆发的心脏地带,但新手常被“核函数”“Vector Core”“Cube Core”等概念困扰。本文从「本质理解→核心构成→实践应用」三个层次,用生动类比+清晰图解,帮你快速掌握AI Core的工作原理。 一、AI Core到底是什么?(直观类比)想...
- 本文将带你从零实现一个昇腾原生的Attention + LayerNorm融合算子,通过一次核函数调用完成两个计算阶段,实测在典型LLM推理场景下可进一步提升端到端性能15%-20%!全文包含完整的融合策略、双缓冲设计、向量化优化与性能对比分析,助你掌握算子级联优化的核心技巧。 本文将带你从零实现一个昇腾原生的Attention + LayerNorm融合算子,通过一次核函数调用完成两个计算阶段,实测在典型LLM推理场景下可进一步提升端到端性能15%-20%!全文包含完整的融合策略、双缓冲设计、向量化优化与性能对比分析,助你掌握算子级联优化的核心技巧。
- 在当今的推荐系统、广告检索和自然语言处理应用中,EmbeddingLookup算子占据了超过60%的推理时间。这个看似简单的"查表"操作,实际上隐藏着深度的性能优化空间。本文将以华为昇腾NPU平台为背景,深入探讨如何通过算子融合、内存布局优化和硬件感知编程,将EmbeddingLookup的性能提升到极致。 在当今的推荐系统、广告检索和自然语言处理应用中,EmbeddingLookup算子占据了超过60%的推理时间。这个看似简单的"查表"操作,实际上隐藏着深度的性能优化空间。本文将以华为昇腾NPU平台为背景,深入探讨如何通过算子融合、内存布局优化和硬件感知编程,将EmbeddingLookup的性能提升到极致。
- Ascend CANN 深度算子开发实践:以 Conv2D 为例解析架构原理与实战【华为根技术】卷积运算(Conv2D)是计算机视觉与深度学习模型中最具代表性、计算最密集的核心算子之一。从经典的 ResNet 到前沿的 Vision Transformer,卷积层始终是模型效率和性能的关键决定因素。在 GPU 上,你可以依赖 cuDNN;在 CPU 上,可以调用 OneDNN。但在昇腾(A... Ascend CANN 深度算子开发实践:以 Conv2D 为例解析架构原理与实战【华为根技术】卷积运算(Conv2D)是计算机视觉与深度学习模型中最具代表性、计算最密集的核心算子之一。从经典的 ResNet 到前沿的 Vision Transformer,卷积层始终是模型效率和性能的关键决定因素。在 GPU 上,你可以依赖 cuDNN;在 CPU 上,可以调用 OneDNN。但在昇腾(A...
- 高性能AI应用:深度探索昇腾CANN模型量化实战全攻略在昇腾CANN开发中,模型推理性能优化是平衡“计算效率”与“资源开销”的关键技术——通过采用模型量化、图优化、算子融合等手段,可显著提升推理速度,降低端侧部署门槛。本文聚焦CANN模型优化工具链的实战应用,从原理剖析、工具操作到性能调优,系统呈现高效模型的开发与部署全流程。 一、CANN模型优化的核心理念与技术路径模型优化的本质是“在不... 高性能AI应用:深度探索昇腾CANN模型量化实战全攻略在昇腾CANN开发中,模型推理性能优化是平衡“计算效率”与“资源开销”的关键技术——通过采用模型量化、图优化、算子融合等手段,可显著提升推理速度,降低端侧部署门槛。本文聚焦CANN模型优化工具链的实战应用,从原理剖析、工具操作到性能调优,系统呈现高效模型的开发与部署全流程。 一、CANN模型优化的核心理念与技术路径模型优化的本质是“在不...
- https://lab.huaweicloud.com/ I. 引言:当实验需求遭遇资源天花板某互联网巨头在2024年Q2面临一个典型困境:三条核心业务线(电商、金融、内容)同时提交了127个A/B实验需求,总流量需求达到日常活跃用户数的350%,而工程师团队仅有8人,实验平台吞吐量上限为50万QPS。更复杂的是,各业务线KPI相互博弈——电商提升GMV的实验可能降低用户停留时长,影响内容线... https://lab.huaweicloud.com/ I. 引言:当实验需求遭遇资源天花板某互联网巨头在2024年Q2面临一个典型困境:三条核心业务线(电商、金融、内容)同时提交了127个A/B实验需求,总流量需求达到日常活跃用户数的350%,而工程师团队仅有8人,实验平台吞吐量上限为50万QPS。更复杂的是,各业务线KPI相互博弈——电商提升GMV的实验可能降低用户停留时长,影响内容线...
- 本文详细介绍了如何在华为云开发者空间的 AI Notebook 平台上,利用 NPU 910B 环境高效部署并运行 YOLOv9_for_PyTorch 目标检测模型。整个流程分为五个关键步骤:环境初始化、依赖安装、模型权重准备、测试数据准备和推理执行,最终实现了对测试图片的实时目标检测并可视化结果。 本文详细介绍了如何在华为云开发者空间的 AI Notebook 平台上,利用 NPU 910B 环境高效部署并运行 YOLOv9_for_PyTorch 目标检测模型。整个流程分为五个关键步骤:环境初始化、依赖安装、模型权重准备、测试数据准备和推理执行,最终实现了对测试图片的实时目标检测并可视化结果。
- Ascend C 核心技术特性一、Ascend C 技术定位:为何需要昇腾原生编程框架?在 AI 算力需求爆发的背景下,通用编程框架(如 CUDA)难以充分适配昇腾芯片的 达芬奇架构(Da Vinci Architecture) 特性(如张量计算单元、多级存储体系),导致算力利用率受限。Ascend C 作为昇腾芯片原生的 算子开发框架,定位为 “底层算力入口”,核心目标是:极致性能:直... Ascend C 核心技术特性一、Ascend C 技术定位:为何需要昇腾原生编程框架?在 AI 算力需求爆发的背景下,通用编程框架(如 CUDA)难以充分适配昇腾芯片的 达芬奇架构(Da Vinci Architecture) 特性(如张量计算单元、多级存储体系),导致算力利用率受限。Ascend C 作为昇腾芯片原生的 算子开发框架,定位为 “底层算力入口”,核心目标是:极致性能:直...
- 背景最近几年,AI 大模型火得一塌糊涂,特别是像 Llama 这样的开源模型,几乎成了每个技术团队都在讨论的热点。不过,这些"巨无霸"模型虽然能力超强,但对硬件的要求也高得吓人。这时候,华为的昇腾 NPU 就派上用场了。说实话,昇腾 NPU 在 AI 计算这块确实有两把刷子。它专门为神经网络计算设计,不仅算力强劲,功耗控制得也不错,最关键的是灵活性很好,可以根据不同场景进行裁剪。所以,用它来... 背景最近几年,AI 大模型火得一塌糊涂,特别是像 Llama 这样的开源模型,几乎成了每个技术团队都在讨论的热点。不过,这些"巨无霸"模型虽然能力超强,但对硬件的要求也高得吓人。这时候,华为的昇腾 NPU 就派上用场了。说实话,昇腾 NPU 在 AI 计算这块确实有两把刷子。它专门为神经网络计算设计,不仅算力强劲,功耗控制得也不错,最关键的是灵活性很好,可以根据不同场景进行裁剪。所以,用它来...
- 昇腾实战|算子模板库Catlass与CANN生态适配 昇腾实战|算子模板库Catlass与CANN生态适配
- 昇腾实战 | 昇腾 NPU 异构编程与 GEMM 调优核心方法 昇腾实战 | 昇腾 NPU 异构编程与 GEMM 调优核心方法
- 昇腾平台 PyTorch 迁移实操:从环境搭建到精度达标的完整步骤 昇腾平台 PyTorch 迁移实操:从环境搭建到精度达标的完整步骤
上滑加载中
推荐直播
-
HDC深度解读系列 - Serverless与MCP融合创新,构建AI应用全新智能中枢2025/08/20 周三 16:30-18:00
张昆鹏 HCDG北京核心组代表
HDC2025期间,华为云展示了Serverless与MCP融合创新的解决方案,本期访谈直播,由华为云开发者专家(HCDE)兼华为云开发者社区组织HCDG北京核心组代表张鹏先生主持,华为云PaaS服务产品部 Serverless总监Ewen为大家深度解读华为云Serverless与MCP如何融合构建AI应用全新智能中枢
回顾中 -
关于RISC-V生态发展的思考2025/09/02 周二 17:00-18:00
中国科学院计算技术研究所副所长包云岗教授
中科院包云岗老师将在本次直播中,探讨处理器生态的关键要素及其联系,分享过去几年推动RISC-V生态建设实践过程中的经验与教训。
回顾中 -
一键搞定华为云万级资源,3步轻松管理企业成本2025/09/09 周二 15:00-16:00
阿言 华为云交易产品经理
本直播重点介绍如何一键续费万级资源,3步轻松管理成本,帮助提升日常管理效率!
回顾中
热门标签