- 性能调优思路性能优化是一项系统性工作,建议采用 “分析 - 定位 - 优化” 的流程,通过性能分析工具定位瓶颈后实施针对性优化。通过 profiling 工具获取算子级性能数据定位性能瓶颈点,主要涉及算子计算时间与调度通信时间。常用优化策略中,计算时间过长需依靠算子自身优化升级,可收集算子的 shape 和 dtype 向算子开发部门提交工单并跟踪进展;调度过程包含多个环节,目前最突出的问... 性能调优思路性能优化是一项系统性工作,建议采用 “分析 - 定位 - 优化” 的流程,通过性能分析工具定位瓶颈后实施针对性优化。通过 profiling 工具获取算子级性能数据定位性能瓶颈点,主要涉及算子计算时间与调度通信时间。常用优化策略中,计算时间过长需依靠算子自身优化升级,可收集算子的 shape 和 dtype 向算子开发部门提交工单并跟踪进展;调度过程包含多个环节,目前最突出的问...
- 本节介绍aclnn算子的三种适配场景。 Paddle-API 与 CANN-Kernel 差异剖析及适配策略对于Paddle-API与CANN-Kernel两者中常见的差别与适配方法如下: Paddle参数缺失或者参数无法直接对应如果Paddle算子只需要CANN提供的某个参数为默认值的功能,则可通过默认赋值的方式完成考虑通过计算取得需要参数 CANN参数缺失CANN算子没有某个Paddle... 本节介绍aclnn算子的三种适配场景。 Paddle-API 与 CANN-Kernel 差异剖析及适配策略对于Paddle-API与CANN-Kernel两者中常见的差别与适配方法如下: Paddle参数缺失或者参数无法直接对应如果Paddle算子只需要CANN提供的某个参数为默认值的功能,则可通过默认赋值的方式完成考虑通过计算取得需要参数 CANN参数缺失CANN算子没有某个Paddle...
- 适配代码仓介绍Paddle 针对除 CPU 和 Nvidia GPU 之外的其他硬件的适配代码,均存于[PaddleCustomDevice代码仓](https://github.com/PaddlePaddle/PaddleCustomDevice)以 NPU 适配代码为例,其路径为PaddleCustomDevice/backends/npu。在此路径下,有两个目录值得重点关注,分别是... 适配代码仓介绍Paddle 针对除 CPU 和 Nvidia GPU 之外的其他硬件的适配代码,均存于[PaddleCustomDevice代码仓](https://github.com/PaddlePaddle/PaddleCustomDevice)以 NPU 适配代码为例,其路径为PaddleCustomDevice/backends/npu。在此路径下,有两个目录值得重点关注,分别是...
- 训练系统的可用性,决定着智能化的速度。无法解决资源利用率低、系统稳定性差、通信带宽瓶颈的传统AI集群,已经不符合大模型的创新趋势。 训练系统的可用性,决定着智能化的速度。无法解决资源利用率低、系统稳定性差、通信带宽瓶颈的传统AI集群,已经不符合大模型的创新趋势。
- 别等服务器炸了才慌!深度学习让运维更“未卜先知” 别等服务器炸了才慌!深度学习让运维更“未卜先知”
- 精度对齐说明精度对齐旨在确保模型在训练一定轮次后,其损失(LOSS)或评分能够与原硬件训练的结果基本相符。 精度对齐标准下图所示为在原硬件GPU上的训练精度:迁移到NPU上后要求与GPU训练精度相差在千分之五左右,若精度误差过大则需要通过前向、反向对齐操作定位问题算子。 精度对齐思路一旦精度出现偏差,首先确认环境变量配置(例如,NPU私有格式环境变量是否关闭export FLAGS_npu... 精度对齐说明精度对齐旨在确保模型在训练一定轮次后,其损失(LOSS)或评分能够与原硬件训练的结果基本相符。 精度对齐标准下图所示为在原硬件GPU上的训练精度:迁移到NPU上后要求与GPU训练精度相差在千分之五左右,若精度误差过大则需要通过前向、反向对齐操作定位问题算子。 精度对齐思路一旦精度出现偏差,首先确认环境变量配置(例如,NPU私有格式环境变量是否关闭export FLAGS_npu...
- 传统与基于深度学习OCR在原理、实现、性能和应用等方面的差异 传统与基于深度学习OCR在原理、实现、性能和应用等方面的差异
- 深度解析谷歌 TPU 架构:从硬件原理到 AI 模型优化实战引言 (Foreword/Motivation)在过去十多年里,深度学习的快速发展极大地推动了人工智能的进步。然而,随之而来的是对计算能力指数级的需求。传统的 CPU 在执行大规模并行矩阵乘法等神经网络核心运算时效率有限,而 GPU 虽然在并行计算方面表现出色,但其通用性架构并非完全针对 AI 负载进行优化。为了应对这一挑战,谷歌自... 深度解析谷歌 TPU 架构:从硬件原理到 AI 模型优化实战引言 (Foreword/Motivation)在过去十多年里,深度学习的快速发展极大地推动了人工智能的进步。然而,随之而来的是对计算能力指数级的需求。传统的 CPU 在执行大规模并行矩阵乘法等神经网络核心运算时效率有限,而 GPU 虽然在并行计算方面表现出色,但其通用性架构并非完全针对 AI 负载进行优化。为了应对这一挑战,谷歌自...
- 智能运维新纪元:深度学习如何精准定位网络故障 智能运维新纪元:深度学习如何精准定位网络故障
- Afshine 和 Shervine Amidi 为斯坦福大学 CME 295 创建的Transformers & Large Language Models VIP 速查表,概述了他们的著作《超级学习指南:Transformers & Large Language Models》的内容,该书长达近 250 页,包含约 600 幅插图。 Afshine 和 Shervine Amidi 为斯坦福大学 CME 295 创建的Transformers & Large Language Models VIP 速查表,概述了他们的著作《超级学习指南:Transformers & Large Language Models》的内容,该书长达近 250 页,包含约 600 幅插图。
- MICCAI STSR 2025挑战赛,围绕两个具有挑战性的任务展开:CBCT与IOS图像的半监督配准,以及牙齿与根管结构的半监督分割。我们希望通过本次挑战,建立起更加全面且具代表性的牙科图像分析基准,加速人工智能在口腔疾病诊疗中的落地应用,推动临床实践中的辅助诊断工具向更高效、更精准的方向迈进。 MICCAI STSR 2025挑战赛,围绕两个具有挑战性的任务展开:CBCT与IOS图像的半监督配准,以及牙齿与根管结构的半监督分割。我们希望通过本次挑战,建立起更加全面且具代表性的牙科图像分析基准,加速人工智能在口腔疾病诊疗中的落地应用,推动临床实践中的辅助诊断工具向更高效、更精准的方向迈进。
- 别再全靠人眼盯日志了,深度学习帮你自动测出“炸锅点” 别再全靠人眼盯日志了,深度学习帮你自动测出“炸锅点”
- 随着深度学习在各个领域的广泛应用,模型训练的效率成为限制其进一步发展的关键因素。本文深入探讨了 MCP(Massive Cluster Processing,大规模集群处理)技术与深度学习相结合的创新方法,旨在加速模型训练过程。从 MCP 的基本概念、架构原理到其在深度学习不同场景下的应用策略,以及其带来的性能提升和优势分析,都进行了详细的阐述。同时,探讨了 MCP 与深度学习结合所面临的挑... 随着深度学习在各个领域的广泛应用,模型训练的效率成为限制其进一步发展的关键因素。本文深入探讨了 MCP(Massive Cluster Processing,大规模集群处理)技术与深度学习相结合的创新方法,旨在加速模型训练过程。从 MCP 的基本概念、架构原理到其在深度学习不同场景下的应用策略,以及其带来的性能提升和优势分析,都进行了详细的阐述。同时,探讨了 MCP 与深度学习结合所面临的挑...
- 算法服务器是专为运行复杂计算任务(如人工智能、深度学习、大数据分析)设计的高性能计算设备。其核心价值在于通过硬件架构创新和软件优化,将算法模型的理论价值转化为实际生产力。以华为云算法服务器为例,其通过昇腾 AI 处理器、鲲鹏通用计算芯片与擎天架构的深度协同,构建了从边缘推理到云端训练的全场景算力体系。二、核心技术架构解析异构计算平台华为云算法服务器采用 CPU + 昇腾 NPU 的异构架构,... 算法服务器是专为运行复杂计算任务(如人工智能、深度学习、大数据分析)设计的高性能计算设备。其核心价值在于通过硬件架构创新和软件优化,将算法模型的理论价值转化为实际生产力。以华为云算法服务器为例,其通过昇腾 AI 处理器、鲲鹏通用计算芯片与擎天架构的深度协同,构建了从边缘推理到云端训练的全场景算力体系。二、核心技术架构解析异构计算平台华为云算法服务器采用 CPU + 昇腾 NPU 的异构架构,...
- 别再靠拍脑袋做运维了!深度学习来给你“出主意” 别再靠拍脑袋做运维了!深度学习来给你“出主意”
上滑加载中
推荐直播
-
AI编码实干派,“码”力全开2026/02/26 周四 15:00-16:30
谈宗玮/于邦旭/丁俊卿/陈云亮/王一男
【中国,深圳,2026年2月26日】,以“AI编码实干派,码力全开”为主题的华为云码道(CodeArts)代码智能体新春发布会在线上成功召开。华为云码道公测版正式发布,为开发者和企业提供具备工程化能力的智能编码解决方案。
回顾中 -
华为云码道-玩转OpenClaw,在线养虾2026/03/11 周三 19:00-21:00
刘昱,华为云高级工程师/谈心,华为云技术专家/李海仑,上海圭卓智能科技有限公司CEO
OpenClaw 火爆开发者圈,华为云码道最新推出 Skill ——开发者只需输入一句口令,即可部署一个功能完整的「小龙虾」智能体。直播带你玩转华为云码道,玩转OpenClaw
回顾中 -
华为云码道-AI时代应用开发利器2026/03/18 周三 19:00-20:00
童得力,华为云开发者生态运营总监/姚圣伟,华为云HCDE开发者专家
本次直播由华为专家带你实战应用开发,看华为云码道(CodeArts)代码智能体如何在AI时代让你的创意应用快速落地。更有华为云HCDE开发者专家带你用码道玩转JiuwenClaw,让小艺成为你的AI助理。
回顾中
热门标签