• [技术干货] NPU服务器上配置Lite Server资源软件环境
    服务器SSH连接超时参数SSH登录到Lite Server服务器后,查看机器配置的超时参数。echo $TMOUT如果该值为300,则代表默认空闲等待5分钟后会断开连接,可以增大该参数延长空闲等待时间;如果该值为0可跳过当前步骤。修改方法如下:vim /etc/profile # 在文件最后修改TMOUT值,由300改为0,0表示不会空闲断开 export TMOUT=0执行如下命令使其在当前terminal生效。TMOUT=0export TMOUT=0这个命令在SSH连接Linux服务器时的作用是设置会话的空闲超时时间为0,意味着不会因为空闲而自动断开连接。默认情况下,SSH连接可能会在一段时间没有操作后自动断开,这是为了安全考虑。但是,如果您正在进行需要长时间保持连接的任务,可以使用这个命令来防止连接因为空闲而断开。您可以在当前的终端会话中直接执行TMOUT=0使设置立即生效,或者将export TMOUT=0添加到/etc/profile文件中,以确保所有用户的新会话都不会因为空闲而断开。但是在生产环境或多人使用的公共服务器上,不建议设置TMOUT=0,关闭自动注销功能会带来一定的安全风险。磁盘合并挂载首先通过“lsblk”查看是否有3个7T的磁盘未挂载编辑磁盘挂载脚本create_disk_partitions.sh。该脚本将“/dev/nvme0n1”挂载在“/home”下供每个开发者创建自己的家目录,将nvme1n1、nvme2n1两个本地盘合并挂载到“/docker”下供容器使用(如果不单独给“/docker”分配较大空间,当多人共用同一台Lite Server并创建多个容器实例时容易将根目录占满)vim create_disk_partitions.shcreate_disk_partitions.sh脚本内容如下,可以直接使用,不需要修改。# ============================================================================ # 将nvme0n1本地盘挂载到/home目录下, # 将nvme1n1、nvme2n1本地盘合并作为逻辑卷统一挂载到/docker目录下,并设置开机自动挂载。 # ============================================================================ set -e # 将nvme0n1挂载到用户目录 mkfs -t xfs /dev/nvme0n1 mkdir -p /tmp/home cp -r /home/* /tmp/home/ mount /dev/nvme0n1 /home mv /tmp/home/* /home/ rm -rf /tmp/home # 将nvme1n1、nvme2n1合并挂载到/docker目录 pvcreate /dev/nvme1n1 pvcreate /dev/nvme2n1 vgcreate nvme_group /dev/nvme1n1 /dev/nvme2n1 lvcreate -l 100%VG -n docker_data nvme_group mkfs -t xfs /dev/nvme_group/docker_data mkdir /docker mount /dev/nvme_group/docker_data /docker # 迁移docker文件到新的/docker目录 systemctl stop docker mv /var/lib/docker/* /docker sed -i '/"default-runtime"/i\ "data-root": "/docker",' /etc/docker/daemon.json systemctl start docker # 设置开机自动挂载 uuid=`blkid -o value -s UUID /dev/nvme_group/docker_data` && echo UUID=${uuid} /docker xfs defaults,nofail 0 0 >> /etc/fstab uuid=`blkid -o value -s UUID /dev/nvme0n1` && echo UUID=${uuid} /home xfs defaults,nofail 0 0 >> /etc/fstab mount -a df -h执行自动化挂载脚本create_disk_partitions.sh。sh create_disk_partitions.sh配置完成后,执行“df -h”可以看到新挂载的磁盘信息磁盘合并挂载后,即可在“/home”下创建自己的工作目录,以自己的名字命名安装驱动和固件、安装Docker环境、安装pip源、RoCE网络测试、容器化个人调测环境搭建请参考文档
  • [公告] 【华为云社区外部版主】2025年12月激励评比结果已公布!
    各位亲爱的版主们,大家好!经过大家一个月的努力角逐,12月外部版主激励评比结果已出炉,数据公示如下,请查看!·外部版主激励规则:点击了解更多转正礼/基础任务/额外任务(在线时长15小时+,主题帖15+,回帖30+,技术长文5+/原创技术干货1+,合集1+,有效回复问题求助帖10+,话题互动1+,完成这4项指标可获对应价值的代金券/实物礼品)请完成任务获得激励的版主,点击填写激励发放意愿统计问卷反馈截止时间:2026年2月20日,以便小编进行相应的激励发放。如若对统计有问题,可私信联系小助手~~~      
  • [技术干货] CANN社区版-8.5.0.alpha002/精度调试工具/GPU vs NPU(TensorFlow 1.15训练/在线推理)
    总体说明      TensorFlow 1.15训练/在线推理场景需准备的比对数据文件如下表所示文件说明获取方式TensorFlow原始训练网络npy文件标杆数据准备GPU侧npy文件计算图文件(*.txt)计算图文件准备NPU侧dump数据和计算图文件通过昇腾AI处理器运行生成的训练网络dump数据文件待比对数据 准备GPU侧npy文件      生成npy文件:a.  修改TensorFlow训练/在线推理脚本,添加debug选项设置b.  执行训练/在线推理脚本c.  训练/在线推理任务停止后,命令行视图自动进入tfdbg调试命令行交互模式,执行run命令For more details, see help.tfdbg> runrun命令执行完成后,可以依次执行lt命令查询已存储的张量,执行pt命令查看已存储的张量内容,保存数据为npy格式文件      收集npy文件:a. 执行lt > gpu_dump命令将所有tensor的名称暂存到自定义名称的gpu_dump文件里Wrote output to tensor_nameb. 重新开启一个命令行窗口,在新的命令行窗口进入gpu_dump文件所在目录(默认在训练/在线推理脚本所在目录),执行下述命令,用以生成在tfdbg命令行执行的命令timestamp=$[$(date +%s%N)/1000] ; cat gpu_dump | awk '{print "pt",$4,$4}' | awk '{gsub("/", "_", $3);gsub(":", ".", $3);print($1,$2,"-n 0 -w "$3".""'$timestamp'"".npy")}'c. 复制所有生成的存储tensor的命令(所有以“pt”开头的命令),回到tfdbg命令行视图所在窗口,粘贴执行,即可存储所有npy文件。存储路径为训练/在线推理脚本所在目录.d.检查生成的npy文件命名是否符合{op_name}.{output_index}.{timestamp}.npy格式准备NPU侧dump数据和计算图文件      dump参数配置:a. Estimator模式:通过NPURunConfig中的dump_config采集dump数据,在创建NPURunConfig之前,实例化一个DumpConfig类进行dump的配置(包括配置dump路径、dump哪些迭代的数据、dump算子的输入还是输出数据等)from npu_bridge.npu_init import *# dump_path:dump数据存放路径,该参数指定的目录需要在启动训练/在线推理的环境上(容器或Host侧)提前创建且确保安装时配置的运行用户具有读写权限# enable_dump:是否开启dump功能# dump_step:指定采集哪些迭代的dump数据# dump_mode:dump模式,取值:input/output/alldump_config = DumpConfig(enable_dump=True, dump_path = "/home/output", dump_step="0|5|10", dump_mode="all")config = NPURunConfig(  dump_config=dump_config,   session_config=session_config  )b. sess.run模式:通过session配置项enable_dump、dump_path、dump_step、dump_mode配置dump参数config = tf.ConfigProto()custom_op =  config.graph_options.rewrite_options.custom_optimizers.add()custom_op.name =  "NpuOptimizer"custom_op.parameter_map["use_off_line"].b = Truecustom_op.parameter_map["enable_dump"].b = Truecustom_op.parameter_map["dump_path"].s = tf.compat.as_bytes("/home/output") custom_op.parameter_map["dump_step"].s = tf.compat.as_bytes("0|5|10")custom_op.parameter_map["dump_mode"].s = tf.compat.as_bytes("all") custom_op.parameter_map["dump_layer"].s = tf.compat.as_bytes("nodename1 nodename2 nodename3")config.graph_options.rewrite_options.remapping = RewriterConfig.OFFwith tf.Session(config=config) as sess:  print(sess.run(cost))      获取dump数据文件和计算图文件:a. 执行训练/在线推理脚本,生成dump数据文件和计算图文件b. 选取计算图文件c. 选取dump数据文件了解更多请查阅昇腾社区文档:cid:link_1 
  • [热门活动] 【产品体验官】CodeArts代码智能体全新升级公测
    活动信息CodeArts代码智能体启动公测!这是一款集AI IDE、Code Agent、代码大模型为一体的智能编码产品,它面向项目级代码生成、代码续写、研发知识问答、单元测试用例生成、代码解释、代码注释、代码调试、代码翻译、代码检查、代码优化等场景,依据开发者输入的需求描述,准确且高效地生成高质量代码, 如同开发者身边的专属技术顾问。为了让CodeArts产品能力更贴合用户应用场景、进一步提升体验,我们发起本次产品体验官招募活动,邀请各位有热情、有想法的开发者们加入CodeArts代码智能体体验官阵营,提出真实的产品改进意见,以帮助产品开发和优化迭代,合力构建易用、好用、开放的AI Coding平台。活动时间:2026.1.17-2026.2.28活动流程:请点击链接到活动详情页面查看(CodeArts代码智能体产品体验交流群)完整完成了以上四步体验任务的开发者,将参与评奖,奖项设置奖项设置获奖要求获奖名额激励礼品礼品示例高价值建议奖被产品研发评选为高价值需求3每人价值500元开发者礼包1份华为手环9NFC版(黑色)华为云云宝一套 开发者定制鼠标建议贡献排名奖被采纳建议数≥3条,且根据积分*排名TOP55每人价值200元开发者礼包1份练秋湖纪念水杯U型按摩枕开发者定制鼠标完成任务激励前50名完整完成任务50每人价值20元开发者礼品1份开发者鼠标垫建议采纳奖通过官网云声·建议平台所提的建议被采纳100每人价值50元开发者礼品1份开发者鼠标说明1、每条被采纳建议累计1积分,被采纳建议数统计截止时间为2026年2月28日24点;同样的建议被采纳时,以提交先后顺序为准,先提交的可获得。2、若出现积分相同且排名一致的情况,因奖品数量有限,根据先到先得原则进行发放;3、同一用户仅限获评一个奖项;4、 如礼品库存不足将替换成等价值礼品活动流程:活动时间:2026年1月17日-2月28日联合评审:2026年3月1日-3月15日奖项公示:2026年3月15日-3月20日奖品发放:获奖名单公布后5个工作日内寄出 关于华为云CodeArts代码智能体平台下载安装指引页面:cid:link_3帮助文档:cid:link_1CodeArts代码智能体产品体验指定评论区:cid:link_2
  • [技术干货] CANN社区版-8.5.0.alpha002/分析迁移工具/迁移训练
    自动迁移方式迁移操作导入自动迁移的库代码。在训练入口.py文件的首行,插入以下引用内容。例如train.py中的首行插入以下引用内容。import torchimport torch_npufrom torch_npu.contrib import transfer_to_npu   .....迁移操作完成。请参考训练配置及原始脚本提供的训练流程,在昇腾NPU平台直接运行修改后的模型脚本训练完成后,迁移工具自动保存权重成功,说明迁移成功。若迁移失败,请参考迁移异常处理进行解决迁移异常处理如果模型包含评估、在线推理功能,也可在对应脚本中导入自动迁移库代码,并通过对比评估推理结果和日志打印情况,判断与GPU、CPU是否一致决定是否迁移成功。若训练过程中提示部分CUDA接口报错,可能是部分API(算子API或框架API)不支持引起,用户可参考以下方案进行解决PyTorch GPU2Ascend工具迁移方式进入迁移工具所在路径cd Ascend-cann-toolkit /ascend-toolkit/latest/tools/ms_fmk_transplt/     #${INSTALL_DIR}请替换为CANN软件安装后文件存储路径。若安装的Ascend-cann-toolkit软件包,以root安装举例,则安装后文件存储路径为:/usr/local/Ascend/ascend-toolkit/latest。启动迁移任务./pytorch_gpu2npu.sh -i /home/username/fmktransplt -o /home/username/fmktransplt_output -v 2.1.0 [-s] [distributed -m /home/train/train.py -t model]  # /home/username/fmktransplt为原始脚本路径,/home/username/fmktransplt_output为脚本迁移结果输出路径,2.1.0为原始脚本框架版本,/home/train/train.py为训练脚本的入口文件,model为目标模型变量名完成脚本迁移,进入脚本迁移结果的输出路径查看结果件请参考训练配置及原始脚本提供的训练流程,在昇腾NPU平台直接运行修改后的模型脚本。成功保存权重,说明保存权重功能迁移成功。训练完成后,迁移工具自动保存权重成功,说明迁移成功。训练配置为了提升模型运行速度,建议开启使用二进制算子,请参考安装CANN章节安装二进制kernels算子包后,参考如下方式开启a.单卡场景下,修改训练入口文件例如main.py文件,在import torch_npu下方添加如下加粗字体代码import torchimport torch_nputorch_npu.npu.set_compile_mode(jit_compile=False)......b.多卡场景下,如果拉起多卡训练的方式为mp.spawn,则torch_npu.npu.set_compile_mode(jit_compile=False)必须加在进程拉起的主函数中才能使能二进制,否则使能方式与单卡场景相同if is_distributed: mp.spawn(main_worker, nprocs=ngpus_per_node, args=(ngpus_per_node, args))else: main_worker(args.gpu, ngpus_per_node, args)def main_worker(gpu, ngpus_per_node, args): # 加在进程拉起的主函数中 torch_npu.npu.set_compile_mode(jit_compile=False) ......用户训练脚本中包含昇腾NPU平台不支持的torch.nn.DataParallel接口,需要手动修改为torch.nn.parallel.DistributedDataParallel接口执行多卡训练,参考GPU单卡脚本迁移为NPU多卡脚本进行修改若用户训练脚本中包含昇腾NPU平台不支持的amp_C模块,需要用户手动删除import amp_C相关代码内容后,再进行训练若用户训练脚本中包含torch.cuda.get_device_capability接口,迁移后在昇腾NPU平台上运行时,会返回“None”值torch.cuda.get_device_properties接口迁移后在昇腾NPU平台上运行时,返回值不包含minor和major属性,建议用户注释掉调用minor和major属性的代码了解更多请查阅昇腾社区文档:https://www.hiascend.com/document/detail/zh/CANNCommunityEdition/850alpha002/devaids/migrationtools/atlasfmkt_16_0019.html 
  • [技术干货] CANN社区版-8.5.0.alpha002/分析迁移工具/迁移分析
    迁移分析      PyTorch Analyse工具提供分析脚本,帮助用户在执行迁移操作前,分析基于GPU平台的PyTorch训练脚本中API、三方库套件、亲和API分析以及动态shape的支持情况前提条件      使用PyTorch Analyse工具前须安装如下依赖。如下命令若使用非root用户安装,需要在安装命令后加上--user,例如:pip3 install pandas --user,安装命令可在任意路径下执行pip3 install pandas         #pandas版本号需大于或等于1.2.4pip3 install libcst         #Python语法树解析器,用于解析Python文件pip3 install prettytable    #将数据可视化为图表形式pip3 install jedi           #三方库套件、亲和API分析时必须安装启动分析任务进入分析工具所在路径cd Ascend-cann-toolkit /ascend-toolkit/latest/tools/ms_fmk_transplt/     #${INSTALL_DIR}请替换为CANN软件安装后文件存储路径。若安装的Ascend-cann-toolkit软件包,以root安装举例,则安装后文件存储路径为:/usr/local/Ascend/ascend-toolkit/latest。启动分析任务./pytorch_analyse.sh -i /home/xxx/analysis -o /home/xxx/analysis_output -v 2.1.0 [-m torch_apis]    # /home/xxx/analysis为待分析脚本路径,/home/xxx/analysis_output为分析结果输出路径,2.1.0为待分析脚本框架版本,torch_apis为分析模式分析报告简介 分析模式为“torch_apis”时,分析结果如下所示├── xxxx_analysis // 分析结果输出目录│ ├── cuda_op_list.csv //CUDA API列表│ ├── unknown_api.csv //支持存疑的API列表│ ├── unsupported_api.csv //不支持的API列表│ ├── api_precision_advice.csv //API精度调优的专家建议│ ├── api_performance_advice.csv //API性能调优的专家建议│ ├── pytorch_analysis.txt // 分析过程日志分析模式为“third_party”时,分析结果如下所示├── xxxx_analysis // 分析结果输出目录│ ├── cuda_op.csv //CUDA API列表│ ├── framework_unsupported_op.csv //框架不支持的API列表│ ├── full_unsupported_results.csv //全量不支持的API列表│ ├── migration_needed_op.csv //待迁移的API列表│ ├── unknown_op.csv //支持情况存疑的API列表│ ├── pytorch_analysis.txt // 分析过程日志分析模式为“affinity_apis”时,分析结果如下所示├── xxxx_analysis // 分析结果输出目录│ ├── affinity_api_call.csv // 可替换为亲和API的原生API调用列表│ ├── pytorch_analysis.txt // 分析过程日志分析模式为“dynamic_shape”时,分析结果如下所示├── xxxx_analysis // 分析结果输出目录│ ├── 生成脚本文件 // 与分析前的脚本文件目录结构一致│ ├── msft_dynamic_analysis│ ├── hook.py //包含动态shape分析的功能参数│ ├── __init__.py了解更多请查阅昇腾社区文档:https://www.hiascend.com/document/detail/zh/CANNCommunityEdition/850alpha002/devaids/migrationtools/atlasfmkt_16_0018.html 
  • [技术干货] CANN社区版-8.5.0.alpha002/分析迁移工具/快速入门
    简介      PyTorch GPU2Ascend工具可将基于GPU的训练脚本迁移为支持NPU的脚本,大幅度提高脚本迁移速度,降低开发者的工作量。本样例可以让开发者快速体验自动迁移(推荐)和PyTorch GPU2Ascend工具的迁移效率前提条件准备一台基于Atlas 训练系列产品的训练服务器,并安装对应的驱动和固件。驱动和固件的安装请参考安装NPU驱动和固件安装开发套件包Ascend-cann-toolkit,具体请参考安装CANN以安装PyTorch 2.1.0版本为例,具体操作请参考“安装PyTorch”章节,完成PyTorch框架和torch_npu插件的安装使用PyTorch GPU2Ascend迁移前须执行如下命令安装依赖,如下命令如果使用非root用户安装,需要在安装命令后加上--user,例如:pip3 install pandas --userpip3 install pandas         #必选,pandas版本号需大于或等于1.2.4pip3 install libcst         #必选,语义分析库,用于解析Python文件pip3 install prettytable    #必选,将数据可视化为图表形式pip3 install jedi           #必选,用于跨文件解析下载main.py文件,将获得ResNet50模型放到用户自定义路径下(如/home/user)自动迁移(推荐)      修改内容少,只需在训练脚本中导入库代码,迁移后直接在昇腾NPU平台上运行。在训练脚本main.py文件中导入自动迁移的库代码。from torch.utils.data import Subsetimport torch_npu from torch_npu.contrib import transfer_to_npu   .....切换目录至迁移完成后的训练脚本所在路径(以/home/user为例),执行以下命令使用虚拟数据集进行训练,迁移完成后的训练脚本可在NPU上正常运行。开始打印迭代日志,说明训练功能迁移成功cd /home/userpython main.py -a resnet50 --gpu 1 --epochs 1 --dummy  # --gpu 1表示使用卡1,--epochs 1是指迭代次数为1迁移工具自动保存权重成功,说明迁移成功使用PyTorch GPU2Ascend工具迁移进入迁移工具所在路径cd Ascend-cann-toolkit /ascend-toolkit/latest/tools/ms_fmk_transplt/  # ${INSTALL_DIR}请替换为CANN软件安装后文件存储路径。若安装的Ascend-cann-toolkit软件包,以root安装举例,则安装后文件存储路径为:/usr/local/Ascend/ascend-toolkit/latest。执行脚本迁移任务,参考表1配置信息./pytorch_gpu2npu.sh -i /home/user -o /home/out -v 2.1.0  # /home/user为原始脚本路径, /home/out为脚本迁移结果输出路径,2.1.0为原始脚本的PyTorch框架版本切换目录至迁移完成后的训练脚本所在路径(以/home/user为例),执行以下命令使用虚拟数据集进行训练,迁移完成后的训练脚本可在NPU上正常运行。开始打印迭代日志,说明训练功能迁移成功cd /home/userpython main.py -a resnet50 --gpu 1 --epochs 1 --dummy  # --gpu 1表示使用卡1,--epochs 1是指迭代次数为1完成脚本迁移,进入脚本迁移结果的输出路径查看结果件迁移工具自动保存权重成功,说明迁移成功了解更多请查阅昇腾社区文档:https://www.hiascend.com/document/detail/zh/CANNCommunityEdition/850alpha002/devaids/migrationtools/atlasfmkt_16_0030.html 
  • [技术干货] CANN社区版-8.5.0.alpha002/AOE工具(EP)/IR构图场景下调优
    调优流程      部署开发环境和运行环境-》安装配置AOE-》配置环境变量-》获取IR构图对应的air文件-》执行调优环境准备      AOE工具运行依赖昇腾AI处理器,所以当前工具仅支持昇腾AI处理器所在设备既作开发环境又作运行环境的场景请参考《CANN 软件安装指南》完成驱动、固件以及开发套件包Ascend-cann-toolkit的安装,部署开发环境和运行环境安装第三方依赖配置环境变量      必选环境变量CANN软件基础环境变量:CANN组合包提供进程级环境变量设置脚本,供用户在进程中引用,以自动完成环境变量设置。执行命令参考如下,以下示例均为root或非root用户默认安装路径,请以实际安装路径为准# 以root用户安装toolkit包后配置环境变量source /usr/local/Ascend/ascend-toolkit/set_env.sh # 以非root用户安装toolkit包后配置环境变量source ${HOME}/Ascend/ascend-toolkit/set_env.sh AOE工具依赖Python,以Python3.7.5为例,请以运行用户执行如下命令设置Python3.7.5的相关环境变量#用于设置python3.7.5库文件路径export LD_LIBRARY_PATH=/usr/local/python3.7.5/lib:$LD_LIBRARY_PATH#如果用户环境存在多个python3版本,则指定使用python3.7.5版本export PATH=/usr/local/python3.7.5/bin:$PATH     可选环境变量:AOE调优环境变量,示例如下       export ASCEND_DEVICE_ID=0       export TUNE_BANK_PATH=/home/HwHiAiUser/custom_tune_bank       export TE_PARALLEL_COMPILER=8       export REPEAT_TUNE=False执行调优执行AOE调优引擎进行子图调优aoe --framework=1 --model=./xxxx.air --job_type=1执行AOE调优引擎进行子图重载调优aoe --framework=1 --model=./xxxx.air --job_type=1 --reload执行AOE调优引擎进行算子调优aoe --framework=1 --model=./xxxx.air --job_type=2查看调优结果自定义知识库和om模型:子图自定义知识库、算子自定义知识库算子调优结果文件:算子调优结果文件的存放路径优先级为:ASCEND_WORK_PATH > 默认(执行调优的工作目录),若未配置ASCEND_WORK_PATH(可以使用env命令查询是否配置,ASCEND_WORK_PATH详细信息请参考《环境变量参考》),算子调优结果文件存放在默认路径(执行调优的工作目录)。调优过程中,实时生成的结果文件命名为“aoe_result_opat_${timestamp}_${pidxxx}.json”,记录了调优过程中被调优的算子信息。其中${timestamp}为时间戳,格式为:年月日时分秒毫秒,“${pidxxx}”中的“xxx”为进程ID。子图调优结果文件:子图调优结果文件的存放路径优先级为:ASCEND_WORK_PATH > 默认(执行调优的工作目录),若未配置ASCEND_WORK_PATH(可以使用env命令查询是否配置,ASCEND_WORK_PATH详细信息请参考《环境变量参考》),子图调优结果文件存放在默认路径(执行调优的工作目录)。调优过程中,实时生成的结果文件命名为“aoe_result_sgat_${timestamp}_${pidxxx}.json”,记录了调优过程中被调优的子图信息。其中${timestamp}为时间戳,格式为:年月日时分秒毫秒,“${pidxxx}”中的“xxx”为进程ID。性能验证      调优完成后,请使用调优后的自定义知识库(如何使用请参见如何使用调优后的自定义知识库)编译并运行Graph,验证性能是否提高。此过程中如果调用aclgrphBuildModel接口,请刷新算子编译缓存,即将OP_COMPILER_CACHE_MODE设置为force(详见《图模式开发指南》)。否则会导致自定义的知识库无法匹配。了解更多请查阅昇腾社区文档:https://www.hiascend.com/document/detail/zh/CANNCommunityEdition/850alpha002/devaids/aoe/aoeep_16_062.html 
  • [技术干货] CANN社区版-8.5.0.alpha002/AOE工具(EP)/在线推理场景下调优
    在线推理场景下调优      TensorFlow在线推理场景支持子图调优和算子调优,TensorFlow在线推理场景下调优和TensorFlow训练场景下在线调优的过程基本相同,可参考TensorFlow训练场景下在线调优。     TensorFlow在线推理场景下调优和TensorFlow训练场景下在线调优的两个小区别如下通过设置环境变量进行调优时,在线推理场景执行的是在线推理脚本,TensorFlow训练场景执行的是训练脚本通过修改脚本进行调优时,在线推理场景仅支持sess.run模式,通过session配置项aoe_mode和work_path使能AOE调优。仅支持TensorFlow 1.15和TensorFlow 2.6.5PyTorch在线推理场景下调优      PyTorch在线推理场景支持算子调优,PyTorch在线推理场景下调优和PyTorch训练场景下调优的过程基本相同,可参考PyTorch训练场景下离线调优。     PyTorch在线推理场景下调优和PyTorch训练场景下调优的区别是:在线推理场景执行的是在线推理脚本,训练场景执行的是训练脚本了解更多请查阅昇腾社区文档:https://www.hiascend.com/document/detail/zh/CANNCommunityEdition/850alpha002/devaids/aoe/aoeep_16_059.html 
  • [技术干货] CANN社区版-8.5.0.alpha002/AOE工具(EP)/PyTorch训练场景下离线调优
    调优流程      部署开发环境和运行环境-》安装PyTorch训练相关软件-》dump算子图-》配置环境变量-》执行调优环境准备      AOE工具运行依赖昇腾AI处理器,所以当前工具仅支持昇腾AI处理器所在设备既作开发环境又作运行环境的场景。请参考《CANN 软件安装指南》完成驱动、固件、开发套件包Ascend-cann-toolkit和AI框架PyTorch的安装。算子调优      如何进行算子调优,包括调优前须知、dump算子图、配置环境变量和调优命令      调用前须知请保证训练脚本在昇腾AI处理器上执行成功,功能和精度满足预期不建议用户绑定训练进程到指定的CPU,请使用系统默认的CPU调度策略。否则,可能会影响调优效果为提高调优效率,希望用户尽量控制训练步数。一般情况下,通过一个step能完成一次完整的图执行过程,保证图中所有的算子都能遍历一遍完成调优即可目前仅支持静态算子,暂不支持动态算子仅支持1P脚本进行dump图AOE不支持不同用户同时使用同一device进行调优单个AOE进程时,请确保具备如下条件。多个AOE进程时,可参考如下条件自行扩展调优前,请确保关闭Profiling功能,避免影响调优结果。关闭Profiling功能具体操作请参见《性能调优工具用户指南》      dump算子图方式一:通过aclGenGraphAndDumpForOp接口dump出来算子图。方式二:在模型脚本中添加如下使能代码,将算子图dump到本地。      配置环境变量CANN软件基础环境变量:CANN组合包提供进程级环境变量设置脚本,供用户在进程中引用,以自动完成环境变量设置。执行命令参考如下,以下示例均为root或非root用户默认安装路径,请以实际安装路径为准。# 以root用户安装toolkit包后配置环境变量source /usr/local/Ascend/ascend-toolkit/set_env.sh # 以非root用户安装toolkit包后配置环境变量source ${HOME}/Ascend/ascend-toolkit/set_env.sh AOE工具依赖Python,以Python3.7.5为例,请以运行用户执行如下命令设置Python3.7.5的相关环境变量#用于设置python3.7.5库文件路径export LD_LIBRARY_PATH=/usr/local/python3.7.5/lib:$LD_LIBRARY_PATH#如果用户环境存在多个python3版本,则指定使用python3.7.5版本export PATH=/usr/local/python3.7.5/bin:$PATH调优前也可参考如下示例配置其他环境变量,但为可选配置export ASCEND_DEVICE_ID=0export TUNE_BANK_PATH=/home/HwHiAiUser/custom_tune_bankexport TE_PARALLEL_COMPILER=8export REPEAT_TUNE=False      执行调优aoe --job_type=2 --model_path=dump_path查看调优结果自定义知识库:自定义知识库存放路径的优先级为:TUNE_BANK_PATH>ASCEND_CACHE_PATH>默认;若未配置TUNE_BANK_PATH和ASCEND_CACHE_PATH(可以使用env命令查询是否配置),自定义知识库默认存储在:${HOME}/Ascend/latest/data/aoe/custom/op/${soc_version}。算子调优结果文件:算子调优结果文件的存放路径优先级为:ASCEND_WORK_PATH > 默认(执行调优的工作目录),若未配置ASCEND_WORK_PATH(可以使用env命令查询是否配置,ASCEND_WORK_PATH详细信息请参考《环境变量参考》),算子调优结果文件存放在默认路径(执行调优的工作目录)性能验证      调优完成后,请还原代码,并刷新算子编译缓存,即将ACL_OP_COMPILER_CACHE_MODE设置为force,使用方法示例如下。import torch import torch_npu option = {"ACL_OP_COMPILER_CACHE_MODE":"force"} torch_npu.npu.set_option(option)      使用调优后的自定义知识库前,请确保未开启二进制模式,使用方法如下。torch_npu.npu.set_compile_mode(jit_compile=True)了解更多请查阅昇腾社区文档:https://www.hiascend.com/document/detail/zh/CANNCommunityEdition/850alpha002/devaids/aoe/aoeep_16_041.html 
  • [活动公告] 沃土云创计划升级调整及代金券权益申请通道临时关闭通知
    尊敬的开发者:    您好!    感谢大家一直以来对沃土云创计划的关注与支持,为了给广大开发者提供更优质、更全面的服务与支持,沃土云创计划将在近期进行升级调整。2026年1月1日起,沃土云创代金券权益申请通道将暂时关闭,请各位开发者耐心等待。    本次调整旨在为2026年全新政策落地做好准备。我们诚挚邀请您持续关注后续发布的版本计划细则,届时将推出更完善更丰富的开发者支持权益。特别说明:对于2025年已成功提交申请的用户,凡符合当时政策要求的,我们将继续按原规则完成审核与权益发放,不受本次调整影响。    给大家带来的不便,我们深表歉意,敬请谅解。如有疑问,欢迎通过官方渠道联系我们。
  • [技术干货] CANN社区版-8.5.0.alpha002/AOE工具(EP)/TensorFlow训练场景下在线调优
    调优流程      训练场景的调优分如下两类子图调优和算子调优梯度调优环境准备      安装软件包及如何安装       软件部署:AOE工具运行依赖昇腾AI处理器,所以当前工具仅支持昇腾AI处理器所在设备既作开发环境又作运行环境的场景快速入门执行训练脚本查看调优结果训练过程中,调优的关键日志信息如下:# TFAdapter开启调优in tune mode, training graph handled by tools# 工具启动调优Aoe tuning graph.子图/算子调优      前提条件:添加环境变量CANN软件基础环境变量:CANN组合包提供进程级环境变量设置脚本,供用户在进程中引用,以自动完成环境变量设置。执行命令参考如下,以下示例均为root或非root用户默认安装路径,请以实际安装路径为准# 以root用户安装toolkit包后配置环境变量source /usr/local/Ascend/ascend-toolkit/set_env.sh # 以非root用户安装toolkit包后配置环境变量source ${HOME}/Ascend/ascend-toolkit/set_env.sh AOE工具依赖Python,以Python3.7.5为例,请以运行用户执行如下命令设置Python3.7.5的相关环境变量#用于设置python3.7.5库文件路径export LD_LIBRARY_PATH=/usr/local/python3.7.5/lib:$LD_LIBRARY_PATH#如果用户环境存在多个python3版本,则指定使用python3.7.5版本export PATH=/usr/local/python3.7.5/bin:$PATH调优前也可参考如下示例配置其他环境变量,但为可选配置export ASCEND_DEVICE_ID=0export TUNE_BANK_PATH=/home/HwHiAiUser/custom_tune_bankexport TE_PARALLEL_COMPILER=8export REPEAT_TUNE=Falseexport REPEAT_TUNE=False 梯度切分调优      前提条件:添加环境变量CANN软件基础环境变量:CANN组合包提供进程级环境变量设置脚本,供用户在进程中引用,以自动完成环境变量设置。执行命令参考如下,以下示例均为root或非root用户默认安装路径,请以实际安装路径为准AOE工具依赖Python,以Python3.7.5为例,请以运行用户执行如下命令设置Python3.7.5的相关环境变量# 以root用户安装toolkit包后配置环境变量source /usr/local/Ascend/ascend-toolkit/set_env.sh # 以非root用户安装toolkit包后配置环境变量source ${HOME}/Ascend/ascend-toolkit/set_env.sh 配置调优模式:# 调优模式,指定为4:GDAT调优,必选配置export AOE_MODE=4# 指定调优后自定义知识库的存储路径,可选配置export TUNE_BANK_PATH=/home/HwHiAiUser/custom_tune_bank了解更多请查阅昇腾社区文档:https://www.hiascend.com/document/detail/zh/CANNCommunityEdition/850alpha002/devaids/aoe/aoeep_16_032.html
  • [技术行业前沿] 博思云创应用上云迁移技术支持案例
    博思云创应用上云迁移技术支持案例一、客户信息及项目背景客户公司聚焦数字协同办公领域,企业持有高新技术企业、科技型中小企业资质,累计申请知识产权超85项。公 司核心产品包括Pixso设计协作工具和boardmix博思白板,其中Pixso具备国产化替代海外设计工具能力,boardmix集成AIGC创作功能。 形成了一套完善的“ToB+ToC”商业闭环,是华为的核心伙伴与解决方案供应商。公司正面临业务发展的关键转型阶段,随着人工智能大 模型的方兴未艾,公司计划对自己的核心产品功能进行进一步升级,依托生成式人工智能大模型构建多模态组件搜索、图生代码、以及文 生代码等全新功能。但在开发途中遇到了相当大的困难,希望通过借助华为DTSE专家团队提供解决方案设计与技术框架构建,并参与开发 过程,加快相关技术演进及工程化落地二、客户痛点及需求1. 规划功能无可参考案例:借助图像/文字描述实现对前端组件库的多模态搜索、将图片述转化成前端组件设计代码,这两个功能目前缺乏 公开的可参考案例,且公司内部的组件库此前并没有进行过系统性的标注和整理。此外,由于国有企业/政府机关等信息安全敏感的机构, 无法直接使用商用大模型接口,因此需要通过在开源大模型基础上进行模型微调,并通过系统性的AI应用框架弥补开源模型的性能短板, 同时又要尽量降低使用/推理成本。 2. 缺乏人工智能大模型选型经验:不同的人工智能大模型的性能优势存在差异,模型选型会直接影响最终的应用构建效果,而博思云创缺乏 对大模型性能细节熟悉的专业人才,因此在模型选型上也遭遇了技术瓶颈。 乏,短时间内很难补齐该短板,导致整体项目开发进度缓慢。3. 缺乏人工智能构建能力:人工智能应用构建需要相关技术人才的导入,但博思云创由于刚转向人工智能应用开发,相应的技术人才较为缺4. 缺乏整体技术路径:复杂的多模态搜索及图生前端代码功能由规模较小参数规模的开源模型实现会遭遇较大的瓶颈,需要通过合理的工程 化手段弥补模型性能短板,通过整体技术路径来补全大模型的劣势,但博思云创在开发之初并没有明确的技术路径。5. 功能运行需要稳定可靠:作为商业服务项目,博思云创对自身产品的稳定性与可靠性有较高需求,因此新功能不光要实现既定的规划任务, 也要保证准确率、稳定性、及可靠性,尽量规避AI幻觉。三、技术合作1. 完成了多轮大模型选型,最终找到了多模态搜索及图生代码各自最优的大模型。由于客户要求模型可以满足私有化部署需求,因此模 型选型既要考虑性能,也要考虑私有化部署所涉及的商业许可、模型规模、部署难度等问题。2. 找到了组件多模态搜索的最佳技术路径,利用多模态向量化技术提升模型对于不同组件的特征抓取,极大地提升了模型检索的精度, 同时改善了输出结果的准确率与排序合理性,图片搜索组件的准确率达到90%。3. 使用小参数模型实现高复现率的图生组件代码,通过使用CV模型+OCR切分+代码生成模型的技术组合,实现了对复杂图片快速组件 化的功能,同时拜托了对Claude、Gemini等超大规模闭源模型的依赖,极大地提升了部署灵活性,满足了用户信息安全管控需求。4. 实现了组件多模态搜索/图生组件代码的工程化落地,在DTSE技术专家协助下,博思云创成功上线了多模态搜索功能。供给标准化“AI三明治”:昇腾云+ 模型与AI开发平台+ AI应用开发技术支持,解决企业AI转型痛点问题,让国产AI生态在深圳生根发芽。四、华为算法工程师驻场支持;AI应用咨询:DTSE支持客户进行场景及目标定义、 识别高价值场景;协助行业趋势分析并进行技术可 行性验证;AI应用需求评估及AI应用架构设计等。AI应用编排与发布:DTSE基于客户资源现状和业务 • Pretrain增量预训练 数据预处理 • 数据清洗 • 数据校验 • 数据增强 • 调度优化 架构,进行工作流架构设计、搜索规划;帮助开发 者可视化编排、模型生成参数配置、提示词工程等。AI持续运营与运维:DTSE支撑提供效果评价体系, 协助开发者持续知识库更新、用户反馈与数据反哺; 支撑BadCase处理及业务应急干预等。搜索图片:DTSE借入项目开发优化后成功实现多模态组件搜索及图生代码/设计稿功能帮助客户进行多模态组件搜索及图生代码/设计稿功能的工程化实现,并针对客户原有技术架构提出建设性意见,与技术侧负 责人互锁关键动作时间节点,采用华为云云原生产品服务方案,在降低客户开发时间投入的同时,提升系统的技术粘性。支撑过程中解决客户技术问题,帮助开发者熟悉华为云技术栈并拥有良好的使用体验,对开发者进行持续的跟踪赋能。
  • [方案分享] 助力车卫士集团探索智慧车生活
    华为云DTSE助力车卫士 集团探索智慧车生活一、车卫士小马垂直领域AI智能体赋能集团及行业车卫士基于自主研发的多模态行业模型矩阵,构建了"基础层-应用层-场景层"三级AI赋能体系。通过智能体深度融合垂类领域大 数据模型,进行百万级场景数据 训练,孵化出AI保险管家、AI 客服、AI办公助手、AI医生等 核心应用。赋能覆盖城市交通优化、保险方 案定制、医疗健康管理等行业领 域。不仅助力车卫士构建数据驱 动的智慧决策中枢,还实现解决 了从模型底座到行业解决方案的 全链路智能化升级。二、问题与挑战车卫士集团迫切需要引入AI、云服务、数字化营销等新技术来满足业务发展,充分发挥存量用户和流量的价值, 希望进一步拓展市场份额和更多业务场景。01 服务体验;传统服务手段缺乏个性化、智能化的交互 方式和服务工具02 服务成本:传统业务模式和技术架构面临高昂的人力、技术等成本,数据价值挖掘也不充分03 系统稳定;互联网业务对系统的稳定性要求极高,高效存储和管理海量数据是难题04 网络安全;互联网企业面临各种网络攻击,且掌握大量用户敏感信息,需保障安全三、华为云DTSE专家深入业务场景,赋能车卫士提升服务能力来自华为云的技术专家团队驻场协助,共同优化分布式任务调度算法。并协助进行AI应用部署,这样深层次的技 术合作为服务能力和服务质量带来了显著提升。1.维护市场份额,提升用户体验车卫士产品APP完成鸿蒙化适配,避免用户流失,且利用鸿蒙系统的分布式架构、软硬协同、高安全性等特性对应于场景和产品体验进行升级,为客户带来更好的体验和服务;2.授人以渔,提升研发效率鸿蒙专家帮助开发者熟悉并掌握鸿蒙开发使用的各类工具,避免在代码编写过程中遵循规范、优化结构,避免常见的开发误区,让开发者能高效利用工具开展项目开发。四、华为云助力车卫士打造AI综合智能体方案,探索智慧车生活依托华为鸿蒙、云资源、等保三级测评以及赞奇工业云小站一体机,结合多模AI能力打造从车辆安全监控、智能客服、智能运维 到定制化服务等场景的全链路创新AI智能助手。经过本次重磅升级,预计可支持车卫士集团服务效能获得15~40%提升。1、鸿蒙原生应用开发范式:基于 ArkTS 语言的声明式语法,实现 UI 与逻辑的解耦。例如,通过 @Link 修饰符实现跨设备组件联动,在车机、手机、家居设备间保持状态同步;2.网络安全域划分:采用 "核心区 - 数据区 - 业务区" 的三层架构,通过云防火墙(CFW)实现不同安全域之间的访问控制。例如,限制外部网络对数据库服务器的直接访问,仅开放特定端口;3.弹性带宽和负载均衡:采用按需计费的弹性公网 IP,在业务高峰时段自动扩展带宽;部署 ELB 实现流量分发,结合 NAT 网关实现多可用区容灾。五、华为云DTSE及华为云伙伴联合打造全场景AI应用车卫士的各业务板块运用华为云MetaStudio数字内容生产线,基于赞奇AI硬件服务器,衍生出覆盖多业务的AI服务场景。降低了大量人工成本及低响应的处理效率,极大提升了用户服务范畴及质量。六、鸿蒙系统应用新场景:软硬协同开辟服务找人的营销新场景进入充电站或加油站可在用户授权情况下智能识别用户、智能推荐当前场景下合适的服务及各类优惠策略等。为线下 合作商户带来新的运营态势,对传统移动营销方式带来降维打击。DTSE赋能AI综合智能体方案,助力车卫士集团跃迁式发展 基于强大的硬件基础,车卫士依托华为云技术深入探索汽车后服务市场创新解决方案,持续提升服务质量,创建更多智 能化服务场景,为集团业务持续健康发展保驾护航。七、车卫士集团立足于华为云生态加持,持续深化合作1、强化安全,持续加强车卫士集团数据安全管 理,完善数据加密、访问控制等 安全机制,确保用户数据的安全 和隐私2、开拓场景 结合鸿蒙系统在移动端的分布式交互和软硬协同等特性,创建更多新业务场景,提升服务 能力与质量3、强化AI 持续优化车卫士 AI 智能助手的功能。不断引入新的技术和算法,提升智能助手的交互体验和服务能力4、先锋开发者 通过技术赋能、资源倾斜、生态协同三位一体的支持,帮助提升车卫士品牌认知与企业领 袖的个人影响力,实现持续技 术突破与商业创新5、构建生态 继续深化与华为云及其伙伴的 合作,构建更广泛的生态系统,为用户提供更全面的服务
  • [方案分享] 携手BISHENG,企业开发者创新的优质土壤
    携手BISHENG,企业开发者创新的优质土壤推荐概要:BISHENG作为AI应用层平台企业,面临技术、商业与服务的多重挑战。为满足市场对稳定算力与模型的迫切需求,BISHENG联合华为开发者空间,通过打造低代码平台与开箱即用环境,共同为客户提供高性能算力与大模型资源,携手推动AI应用生态的繁荣与商业落地。一、业务背景及痛点伙伴BISHENG希望达成以下几方面目标:①技术层面: 降低开发者使用门槛,提供高性能、易部署的AI开发环境;②商业层面: 打通从技术成果到市场变现的闭环,触达并服务企业级开发者;③生态层面: 建立品牌影响力,提升在AI领域的竞争力。二、方案设计华为开发者生态以“平台+服务”为核心,致力于构建开放、繁荣的开发者生态系统,为伙伴提供全栈支持,共同加速AI创新和落地。1、技术赋能-开发者空间:实现低代码平台+开箱即用环境,向伙伴提供稳定、高性能的底层算力支持和大模型,并合作完成案例。① 简易部署,提供开箱即用的鲲鹏云主机和Docker环境,开发者无需繁琐配置即可快速接入BISHENG平台,将精力聚焦于AI模型创新;② 算力支持,提供高性能MaaS服务(例如DeepSeek-R1接入),让开发者能便捷调用顶尖大模型,大幅缩短开发周期和试错成本。2、商业闭环:为伙伴提供变现路径,商业版已上架至云商店,触达更多开发者引流至云商店购买。3、生态协同-共建行业影响力:① 高端平台展示:深度合作参与行业顶级大会(如HC大会),开发者组织(HCDG)BISHENG作为主讲分享成功实践,华为提供技术演示平台和支撑,共同吸引开发者关注。三、核心业务流程合作完成开发者空间案例:华为开发者空间部署BISHENG平台实现DeepSeek vs GLM终极AI辩论赛。开发者空间&BISHENG平台开发AI辩论赛流程:华为开发者空间鲲鹏云主机部署BISHENG平台;开通华为云MaaS DeepSeek-V3模型服务,接入BISHENG平台;BISHENG平台构建工作流应用;BISHENG平台发布构建的AI模型辩论赛应用,浏览器访问体验。 【案例共创】华为开发者空间部署BISHENG平台实现DeepSeek vs GLM终极AI辩论赛cid:link_0四、合作达成成果及价值1.开发者-降低技术门槛,聚焦核心创新-从技术赋能到商业转化完整支持-让成果看得见、摸得着、有价值 2.伙伴-精准、高效地触达企业开发者-通过联合方案,建立行业影响力-让成果看得见、摸得着、有价值 3.华为侧-共同赢得企业及企业开发者-通过联合方案提升更多基于空间、学堂的活跃-输出场景案例批量复制
总条数:768 到第
上滑加载中