- 本文详解昇腾流水线优化技术,涵盖NPU与GPU侧多级流水实现。通过Stage划分、异步调度与计算通信重叠,提升训练吞吐与硬件利用率。NPU基于Rec SDK实现五阶段流水,支持动态换入换出;GPU则利用CUDA Stream构建StagedTrainPipeline,实现高效prefetch与梯度更新协同。 本文详解昇腾流水线优化技术,涵盖NPU与GPU侧多级流水实现。通过Stage划分、异步调度与计算通信重叠,提升训练吞吐与硬件利用率。NPU基于Rec SDK实现五阶段流水,支持动态换入换出;GPU则利用CUDA Stream构建StagedTrainPipeline,实现高效prefetch与梯度更新协同。
- 单双层架构互补共存:单层追求极致性能,适用于小规模特征;双层突破内存瓶颈,支持大规模扩展。结合动态扩容、准入淘汰与高效查表,实现推荐系统大规模稀疏参数的高效训练与管理。 单双层架构互补共存:单层追求极致性能,适用于小规模特征;双层突破内存瓶颈,支持大规模扩展。结合动态扩容、准入淘汰与高效查表,实现推荐系统大规模稀疏参数的高效训练与管理。
- 昇腾推荐系统架构解析:嵌入表存储到多级缓存的全链路设计 1. 昇腾 A2 处理器架构与 Embedding 优化策略昇腾 A2 处理器采用独特的达芬奇架构,具备完整的片上多级缓存系统。其缓存体系并非“以 CPU 为中心的多级缓存替代方案”,而是基于自身架构理念设计了高效的多级缓存机制,与 NVIDIA GPU 在缓存策略上存在差异,但具备相当的高效缓存能力。在整体架构上,多个 AI 节点通... 昇腾推荐系统架构解析:嵌入表存储到多级缓存的全链路设计 1. 昇腾 A2 处理器架构与 Embedding 优化策略昇腾 A2 处理器采用独特的达芬奇架构,具备完整的片上多级缓存系统。其缓存体系并非“以 CPU 为中心的多级缓存替代方案”,而是基于自身架构理念设计了高效的多级缓存机制,与 NVIDIA GPU 在缓存策略上存在差异,但具备相当的高效缓存能力。在整体架构上,多个 AI 节点通...
- 使用torch+mindspeed训练时,可能出现类似“wait socket establish timeout, role[0] rank[1] timeout[120]”的报错,plog日志内容如下:上图中给出以下信息:1,本端device id(5)、本端rank(1)、对端rank(2)。本端rank和对端rank表示的是在通信域内的rank编号,如果是子通信域,需要注意devic... 使用torch+mindspeed训练时,可能出现类似“wait socket establish timeout, role[0] rank[1] timeout[120]”的报错,plog日志内容如下:上图中给出以下信息:1,本端device id(5)、本端rank(1)、对端rank(2)。本端rank和对端rank表示的是在通信域内的rank编号,如果是子通信域,需要注意devic...
- MindIE是昇腾自研推理框架,本实验手册可指导小白用户快速掌握MindIE在LLM(large language model)场景的基本功能,包括:大模型推理功能测试、大模型性能测试、大模型精度测试、服务化推理部署、benchmark测试等。 1 实验准备 1.1 软硬件环境本实验使用的设备是800I A2服务器,已经参考官网文档(安装驱动和固件-MindIE安装指南-环境准备-MindI... MindIE是昇腾自研推理框架,本实验手册可指导小白用户快速掌握MindIE在LLM(large language model)场景的基本功能,包括:大模型推理功能测试、大模型性能测试、大模型精度测试、服务化推理部署、benchmark测试等。 1 实验准备 1.1 软硬件环境本实验使用的设备是800I A2服务器,已经参考官网文档(安装驱动和固件-MindIE安装指南-环境准备-MindI...
- MindIE是昇腾自研推理框架,本实验手册可指导小白用户快速掌握MindIE在LLM(large language model)场景的基本功能,包括:大模型推理功能测试、大模型性能测试、大模型精度测试、服务化推理部署、benchmark测试等。 1 实验准备 1.1 软硬件环境本实验使用的设备是800I A2服务器,已经参考官网文档(安装驱动和固件-MindIE安装指南-环境准备-MindI... MindIE是昇腾自研推理框架,本实验手册可指导小白用户快速掌握MindIE在LLM(large language model)场景的基本功能,包括:大模型推理功能测试、大模型性能测试、大模型精度测试、服务化推理部署、benchmark测试等。 1 实验准备 1.1 软硬件环境本实验使用的设备是800I A2服务器,已经参考官网文档(安装驱动和固件-MindIE安装指南-环境准备-MindI...
- 最近有很多朋友都在部署deepseek模型,而且都用到了模型量化这个功能,目的是减少显存占用、提升推理速度。上图是w8a8量化算法流程,主要包含4步:①,使用昇腾 msmodelslim 仓库提供的量化接口对原始模型权重进行量化,生成int8格式的权重文件,以及后续在推理的时候要用到的激活值的量化参数和 matmul 结果的反量化参数;②,推理执行过程中,把Matmul的激活值(也就是输入... 最近有很多朋友都在部署deepseek模型,而且都用到了模型量化这个功能,目的是减少显存占用、提升推理速度。上图是w8a8量化算法流程,主要包含4步:①,使用昇腾 msmodelslim 仓库提供的量化接口对原始模型权重进行量化,生成int8格式的权重文件,以及后续在推理的时候要用到的激活值的量化参数和 matmul 结果的反量化参数;②,推理执行过程中,把Matmul的激活值(也就是输入...
- 1、跑通样例 为避免原先的sample有冲突, cd ~ mv samples/ samples_bak/ git clone https://gitee.com/ascend/samples.git ... 1、跑通样例 为避免原先的sample有冲突, cd ~ mv samples/ samples_bak/ git clone https://gitee.com/ascend/samples.git ...
- DoPrebuildOp Failed to call prebuild_op, need to check op info PreBuildTbeOp Failed to prebuild op. Name=[-1_0_add1] Traceback (most recent call last): File... DoPrebuildOp Failed to call prebuild_op, need to check op info PreBuildTbeOp Failed to prebuild op. Name=[-1_0_add1] Traceback (most recent call last): File...
- OSError: [Errno 22] Invalid argument: 'protocol' 改为这样不报错,但是报别的错: def __init__(self, family=-1, type=-1, proto=-1, fileno=None): # For use... OSError: [Errno 22] Invalid argument: 'protocol' 改为这样不报错,但是报别的错: def __init__(self, family=-1, type=-1, proto=-1, fileno=None): # For use...
- 叮!你有一份华为计算@HC2020攻略待查收 叮!你有一份华为计算@HC2020攻略待查收
- 这个感恩节,我们用“芯”去AI,感恩有你! 这个感恩节,我们用“芯”去AI,感恩有你!
- [俄罗斯,莫斯科,2019年11月13日] 近日,俄罗斯AI Journey大会在莫斯科国际会展中心召开,华为以“昇腾万里,共创AI新时代”为主题参展,分享华为在AI领域的最新技术及在全球行业数字化、智能化进程中的优秀实践,并介绍公司在俄罗斯AI生态建设的进展与下一步计划。在大会现场,华为展示了昇腾AI处理器等自研芯片、Atlas人工智能计算平台全系列产品及基于Atlas 500智能小站的人... [俄罗斯,莫斯科,2019年11月13日] 近日,俄罗斯AI Journey大会在莫斯科国际会展中心召开,华为以“昇腾万里,共创AI新时代”为主题参展,分享华为在AI领域的最新技术及在全球行业数字化、智能化进程中的优秀实践,并介绍公司在俄罗斯AI生态建设的进展与下一步计划。在大会现场,华为展示了昇腾AI处理器等自研芯片、Atlas人工智能计算平台全系列产品及基于Atlas 500智能小站的人...
上滑加载中
推荐直播
-
码道新技能,AI 新生产力——从自动视频生成到开源项目解析2026/04/08 周三 19:00-21:00
童得力-华为云开发者生态运营总监/何文强-无人机企业AI提效负责人
本次华为云码道 Skill 实战活动,聚焦两大 AI 开发场景:通过实战教学,带你打造 AI 编程自动生成视频 Skill,并实现对 GitHub 热门开源项目的智能知识抽取,手把手掌握 Skill 开发全流程,用 AI 提升研发效率与内容生产力。
回顾中 -
华为云码道:零代码股票智能决策平台全功能实战2026/04/18 周六 10:00-12:00
秦拳德-中软国际教育卓越研究院研究员、华为云金牌讲师、云原生技术专家
利用Tushare接口获取实时行情数据,采用Transformer算法进行时序预测与涨跌分析,并集成DeepSeek API提供智能解读。同时,项目深度结合华为云CodeArts(码道)的代码智能体能力,实现代码一键推送至云端代码仓库,建立起高效、可协作的团队开发新范式。开发者可快速上手,从零打造功能完整的个股筛选、智能分析与风险管控产品。
回顾中 -
华为云码道全新升级,多会话并行与多智能体协作2026/05/08 周五 19:00-21:00
王一男-华为云码道产品专家;张嘉冉-华为云码道工程师;胡琦-华为云HCDE;程诗杰-华为云HCDG
华为云码道4月份版本全新升级,此次直播深度解读4月份产品特性,通过“特性解读+实操演示+实战案例+设计创新”的组合,全方位展现码道在多会话并行与多智能体协作方面的能力,赋能开发者提升效率
正在直播
热门标签