• [技术干货] Ascend>MindSpeed>Megatron MoE allgather dispatcher分支通信隐藏优化
    请查阅参考昇腾社区文档:https://gitee.com/ascend/MindSpeed/blob/master/docs/features/megatron_moe/megatron-moe-allgather-overlap-comm.md 
  • [技术干货] LLaMA-Factory多机多卡训练
    LLaMA-Factory多机多卡训练为了在多机多卡环境下训练大模型,我们可以使用LLaMA-Factory。它支持多种常见模型,集成了包括(增量)预训练、(多模态)指令监督微调、奖励模型训练、PPO 训练、DPO 训练、KTO 训练、ORPO 训练等等训练方法,并且有web-ui和命令行两种使用方式,是目前主流的模型训练框架之一。1 安装LLaMa-Factory下载 LLAMA-Factory 并进入项目目录,本文档所有操作均在该目录下进行:git clone https://github.com/hiyouga/LLaMA-Factory.gitcd LLaMA-Factory2、Python 环境创建创建并激活 Python 环境:conda create -y -n llamafactory python=3.10conda activate llamafactory3、LaMA-Factory 安装使用以下指令安装带有 torch-npu 的 LLaMA-Factory:pip install -e “.[torch-npu,metrics]” -i https://pypi.tuna.tsinghua.edu.cn/simple使用自定义数据集时,需要更新 data/dataset_info.json 文件。image.png多机多卡训练LLaMA-Factory支持多种多机多卡训练方式,包括DDP,DeepSpeed,FSDP。针对想要使用 NativeDDP 或 DeepSpeed 两种分布式训练引擎,推荐使用下列命令,区分两种训练引擎仅仅在于训练的yaml参数文件中。然后,必须在每个节点上使用export HCCL_SOCKET_IFNAME=eth0 来指定当前节点的 HCCL 通信网卡(请使用目标网卡名替换 eth0)。以两机环境为例,分别在主、从节点(机器)上执行如下两条命令即可启动多机训练:FORCE_TORCHRUN=1 NNODES=2 RANK=0 STER_ADDR=192.168.0.1 MASTER_PORT=29500 llamafactory-cli train examples/train_lora/llama3_lora_sft.yaml 主节点运行FORCE_TORCHRUN=1 NNODES=2 RANK=1STER_ADDR=192.168.0.1 MASTER_PORT=29500 llamafactory-cli train examples/train_lora/llama3_lora_sft.yaml 从节点运行使用此方式需要在每台机器上分别运行指令,同时每台机器上都需要安装LLaMA-Factory和相同的conda环境,都需要保存一份要训练的模型文件。参考yamlmodelmodel_name_or_path: Qwen/Qwen3-8B-Base # 更新为 本地路径(否则回去社区下载)methodstage: sftdo_train: truefinetuning_type: loralora_target: q_proj,v_proj # 可保留,也可扩展为更多模块(见下方建议)lora_rank: 64 # 推荐设置,LoRA 秩lora_dropout: 0.05 # 可选:增加轻微 dropout 提升泛化lora_alpha: 16 # 缩放参数,一般设为 r 的倍数ddpddp_timeout: 180000000deepspeed: examples/deepspeed/ds_z0_config.json # 根据显卡数量选择合适的 ZeRO 配置datasetdataset: identity,alpaca_en_demo # 示例数据集,可替换为你自己的template: qwen # 注意:Qwen3 支持新的 template 名称,但目前仍可用 qwencutoff_len: 8192 # Qwen3 支持最长 32768,但训练时建议从 8192 起步以节省显存max_samples: 1000overwrite_cache: truepreprocessing_num_workers: 16outputoutput_dir: saves/Qwen3-8B/lora/sft # 输出路径更新logging_steps: 10save_steps: 500eval_steps: 500plot_loss: trueoverwrite_output_dir: truetrainper_device_train_batch_size: 1 # 根据 GPU 显存调整(如 A100 80G 可尝试 2)gradient_accumulation_steps: 4 # 增大以补偿小 batch size,提升有效 batchlearning_rate: 2e-5 # 推荐 LoRA 学习率范围 1e-5 ~ 5e-5num_train_epochs: 3.0lr_scheduler_type: cosinewarmup_ratio: 0.1fp16: true # 如果使用 bf16,请确保硬件支持并改用 bf16: trueevalval_size: 0.1per_device_eval_batch_size: 1eval_strategy: stepseval_on_train: false # 是否在训练集上也评估(可选)additionalreport_to: tensorboard # 或 wandb,用于可视化监控seed: 42
  • [技术干货] Ascend>MindSpeed>Megatron MoE alltoall dispatcher分支通信隐藏优化
    请查阅参考昇腾社区文档:https://gitee.com/ascend/MindSpeed/blob/master/docs/features/megatron_moe/megatron-moe-alltoall-overlap-comm.md 
  • [技术干货] 华为云智果(AgentArts)智能体平台 案例中心-实操案例大合集
     为方便开发者们参照实操案例进行智果(AgentArts)产品体验特地把收录进案例中心的AgentArts相关案例搬运过来,方便查看后续持续更新~hi~ 来试试构建出彰显个人创意的AI Agent智能体(小助手) 案例标题入口更新时间推荐值案例创作方NEW~ 敏感词猎手:用AgentArts工作流一键扫描文档风险LINK2026/06/11 ⭐⭐⭐⭐⭐官方案例中心【免费版订阅指导】华为云智能体构建平台AgentArts Agent免费版订阅使用指导LINK2025/11/20⭐⭐⭐⭐官方案例中心基于华为开发者空间-Versatile Agent构建实时股票分析助手LINK2026/01/21 ⭐⭐⭐⭐官方案例中心基于华为开发者空间-Versatile Agent构建旅游出行助手LINK2025/10/22⭐⭐⭐⭐官方案例中心华为开发者空间云开发环境+Versatile Agent,构建AI轻量级智能办公助手LINK2025/11/25 ⭐⭐⭐⭐官方案例中心基于华为开发者空间开发平台 MCP资产快速构建AI Agent应用LINK2025/11/12 ⭐⭐⭐官方案例中心基于华为开发者空间开发平台构建We码会议助手LINK2025/10/10 ⭐⭐⭐⭐官方案例中心基于华为开发者空间-云开发环境(容器)与Versatile Agent构建AI自动评分助手 LINK2026/01/12 ⭐⭐⭐⭐⭐贡献用户:tmq244基于华为开发者空间-云开发环境(容器)与Versatile Agent构建AI轻量级智能笑话机器人助手LINK2026/01/29⭐⭐⭐⭐贡献用户:liujxu【案例共创】基于华为云开发者空间-Versatile Agent开发平台构建昇腾C算子开发知识库LINK2025/11/17⭐⭐⭐⭐⭐贡献用户:黄生【案例共创】使用开发者空间 AI Agent+RAG+高德地图MCP开发班车出行助手LINK2025/07/05 ⭐⭐⭐贡献用户:神一样的老师【案例共创】基于华为开发者空间Versatile agent平台快速搭建智能搜索可视化应用LINK2025/11/17 ⭐⭐⭐贡献用户:胡琦【案例共创】基于华为开发者空间-AI Agent开发平台构建旅游规划助手LINK2025/11/17 ⭐⭐⭐贡献用户:yd_272483742【案例共创】基于华为开发者空间开发平台 MCP资产快速构建税务AI助手服务LINK2025/11/17 ⭐⭐⭐贡献用户:小草飞上天【案例共创】基于华为云开发者空间-Versatile Agent开发平台零基础开发购房助手LINK2025/11/17 ⭐⭐⭐贡献用户:CC07   < 华为云智果(AgentArts)智能体平台 官网主页> (点击进入)
  • [技术干货] Ascend>MindSpeed>Megatron MoE TP拓展EP
    请查阅参考昇腾社区文档:https://gitee.com/ascend/MindSpeed/blob/master/docs/features/megatron_moe/megatron-moe-tp-extend-ep.md 
  • [技术干货] Ascend>MindSpeed>Alltoall Dispatcher 分支优化
    请查阅参考昇腾社区文档:https://gitee.com/ascend/MindSpeed/blob/master/docs/features/megatron_moe/megatron-moe-alltoall-dispatcher.md 
  • [技术干货] Ascend>MindSpeed>Allgather Dispatcher 分支优化
    请查阅参考昇腾社区文档:https://gitee.com/ascend/MindSpeed/blob/master/docs/features/megatron_moe/megatron-moe-allgather-dispatcher.md 
  • [技术干货] Ascend>MindSpeed>Megatron MoE Grouped GEMM (GMM)
    请查阅参考昇腾社区文档:https://gitee.com/ascend/MindSpeed/blob/master/docs/features/megatron_moe/megatron-moe-gmm.md 
  • [热门活动] 华为云沃土计划回来了,刚刚领了500元代金卷,据说能领1500元
    华为云沃土计划回来了,刚刚领了500元代金卷,据说能领1500元话不多说,先上刚刚领到的券加入流程加入沃土计划(个人) 在华为云空间构建一个应用  申请代金券(可以申请3次,每次500)快去领取:领取过程也太简单了吧,实名认证用户5分钟搞定申请:第一步:加入华为云沃土计划个人方向进入沃土云创计划_开发者中心-华为云,注册账号,实名认证后,使能方向选择“个人”跳到“开发者空间”,填写基础信息,提交后自动通过审核。第二步:在华为云空间构建一个应用(必选项!请注意文末应用构建相关审核规则,否则不通过审核)构建应用两种方式:第一种方式:访问 沃土计划个人开发者操作指导,参照“沃土云创方案构建”构建应用:https://res-static.hc-cdn.cn/cloudbu-site/china/zh-cn/developerprogram/developerprogram.pdf第二种方式(建议):访问 开发者空间(https://developer.huaweicloud.com/space/app/build),如下图红框,依次访问“应用管理 - 应用构建- 创建应用- 立即申请”,发布应用成功后,在如下图红框③位置复制ID第三步:申请代金券 (一定要填申请说明)“开发者空间 - 激励管理 - 计划权益 - 沃土云创计划-个人”中找到“通用权益”,点击 “申请”,注意申请说明中,需加上刚刚已完成的应用ID及券的用途(重要!!!),示意如下:审核通过后,500 元代金券立即发放到账户中,可以在“费用中心 – 优惠折扣 - 优惠券”页面查看详情代金券使用方案,精打细算:小技巧:不要直接选择1年套餐(会自带优惠导致代金券无法使用);1次最长买9个月,超过的,后续选续费;代金券到账后要尽快使用,避免过期买产品的地址:https://www.huaweicloud.com/pricing/calculator.html#/ecs最劲爆的!共可以申请3次1500元请注意审核要求:1、同一个应用构建ID只能申请一次,不能重复申请2、构建的Agent类型应用只申请一次,不能重复申请3、提供的证明材料中需要看到有应用ID信息和账户名信息4、附件要能体现是基于华为云构建的应用,如在华为云主机上运行的结果,服务器IP信息等5、提供的材料中要有账户信息,并和当前申请人的一致6、同一账户最多申请3次,请勿重复申请
  • [技术干货] Ascend>MindSpeed>高维张量并行
    请查阅参考昇腾社区文档:https://gitee.com/ascend/MindSpeed/blob/master/docs/features/tensor-parallel-2d.md 
  • [技术干货] Ascend>MindSpeed>Gloo 存档落盘优化
    请查阅参考昇腾社区文档:https://gitee.com/ascend/MindSpeed/blob/master/docs/features/hccl-replace-gloo.md 
  • [公告] 【华为云社区外部版主】2025年9月激励评比结果已公布!
    各位亲爱的版主们,大家好!经过大家一个月的努力角逐,9月外部版主激励评比结果已出炉,数据公示如下,请查看!(在新标签页打开图片可查看清晰大图/见附件)·外部版主激励规则:点击了解更多转正礼/基础任务/额外任务(在线时长15小时+,主题帖15+,回帖30+,技术长文5+/原创技术干货1+,合集1+,有效回复问题求助帖10+,话题互动1+,完成这4项指标可获对应价值的代金券/实物礼品)请完成任务获得激励的版主,点击填写激励发放意愿统计问卷反馈截止时间:2025年10月29日,以便小编进行相应的激励发放。 注:在线时长数据达标后,才会再去考察达标版主的三项任务完成情况;主题数+回帖数达标后,才会再去考察达标版主的技术长文数量情况。
  • [技术干货] Ascend>MindSpeed>fusion_attention_v2
    请查阅参考昇腾社区文档:https://gitee.com/ascend/MindSpeed/blob/master/docs/features/fusion-attn-v2.md 
  • [技术干货] Ascend>MindSpeed>Ascend MC2
    请查阅参考昇腾社区文档:https://gitee.com/ascend/MindSpeed/blob/master/docs/features/mc2.md 
  • 华为云CCI弹性伸缩策略配置指南
    华为云CCI的弹性伸缩策略旨在通过​​自动或手动调整容器实例数量​​,应对业务负载的动态变化,实现资源的高效利用与成本优化。配置方式主要分为两类:​​通过CCE集群集成Virtual Kubelet插件实现弹性扩展​​(将CCE负载弹性到CCI)、​​直接在CCI控制台配置负载弹性策略​​(告警、定时、周期)。 ​​一、通过CCE集群集成Virtual Kubelet插件配置弹性伸缩​​该方式适用于​​混合云场景​​,将CCE(云容器引擎)中的无状态负载(Deployment、StatefulSet、Job)弹性扩展至CCI,无需管理底层节点,实现秒级扩容。​​1. 前提条件​​已创建CCE集群(版本≥v1.11)。已开通CCI服务(CCI 2.0需提交工单申请白名单,1.0即将日落)。​​2. 安装Virtual Kubelet插件​​Virtual Kubelet是连接CCE与CCI的核心插件,负责将CCE负载调度至CCI。 ​​操作步骤​​:登录CCE控制台,进入目标集群。左侧导航栏选择​​插件管理​​→​​插件市场​​,找到“virtual-kubelet”插件,点击​​安装​​。在“规格配置”中,勾选​​跨服务互通​​(实现CCE与CCI的Service网络互通),点击​​安装​​。​​3. 配置CCI弹性承载策略​​通过策略控制CCE负载的弹性调度规则(如本地优先、强制调度、CCI最大实例数)。 ​​操作方式​​(以控制台为例):登录CCE控制台,进入目标集群,选择​​策略​​→​​CCI弹性承载策略​​。点击​​创建CCI弹性承载策略​​,填写以下参数:​​策略名称​​:自定义(如“nginx-cci-policy”)。​​命名空间​​:选择策略生效的命名空间(如“default”)。​​关联负载​​:通过标签匹配需弹性的负载(如app: nginx)。​​调度策略​​:​​强制调度(enforce)​​:所有Pod均弹性至CCI。​​本地优先(localPrefer)​​:优先调度至CCE节点,资源不足时弹性至CCI(推荐)。​​自动调度(auto)​​:根据CCE调度器打分结果自动决定是否弹性至CCI。​​分配策略​​:​​本地最大实例数​​:设置CCE集群运行的最大Pod数量(如“20”)。​​CCI最大实例数​​:设置CCI运行的最大Pod数量(如“30”)。​​缩容优先级​​:设置本地与CCI的缩容顺序(数值越大越先缩容,取值范围[-100,100])。点击​​确定​​,完成策略创建。​​4. 创建/修改工作负载​​在CCE中创建或修改工作负载时,需关联上述策略,使负载能够弹性至CCI。 ​​操作方式​​(以控制台为例):登录CCE控制台,进入目标集群,选择​​工作负载​​→​​创建工作负载​​。在“基本信息”中,选择​​弹性至CCI​​(如“本地优先调度”)。在“高级配置”→​​标签与注解​​中,添加与CCI弹性承载策略匹配的标签(如app: nginx)。完成负载创建,此时负载将根据策略自动弹性至CCI。​​5. 验证弹性伸缩​​当CCE集群资源不足(如CPU/内存利用率超过阈值)时,Virtual Kubelet会自动将Pod调度至CCI。登录CCI控制台,进入​​负载管理​​→​​无状态负载​​,查看弹性创建的Pod状态(如“运行中”)。​​二、直接在CCI控制台配置负载弹性策略​​该方式适用于​​纯CCI场景​​,直接为CCI中的无状态负载配置​​告警策略​​(基于CPU/内存使用率)、​​定时策略​​(固定时间点扩容)、​​周期策略​​(按天/周/月扩容)。​​1. 前提条件​​已创建CCI集群(版本≥2.0)。已创建无状态负载(Deployment)。​​2. 配置告警策略(推荐)​​告警策略通过监控CPU/内存使用率,自动调整Pod数量,应对突发负载。 ​​操作步骤​​(以控制台为例):登录CCI控制台,进入​​负载管理​​→​​无状态负载​​,选择目标负载。点击​​弹性伸缩​​→​​YAML创建​​,输入以下YAML配置(示例):kind: HorizontalPodAutoscalerapiVersion: cci/v2metadata: name: nginx-hpa # 策略名称 namespace: default # 命名空间spec: scaleTargetRef: kind: Deployment name: nginx # 目标负载名称 apiVersion: cci/v2 minReplicas: 1 # 最小副本数 maxReplicas: 5 # 最大副本数 metrics: - type: Resource resource: name: cpu # 监控指标(CPU/内存) target: type: Utilization # 扩缩类型(利用率) averageUtilization: 50 # 触发阈值(如CPU利用率超过50%扩容) - type: Resource resource: name: memory target: type: Utilization averageUtilization: 60 # 内存利用率超过60%扩容点击​​确定​​,完成策略创建。​​说明​​:策略生效后,CCI会定期监控负载的CPU/内存使用率,当超过阈值时自动增加副本数,低于阈值时减少副本数。可通过​​负载详情​​→​​弹性伸缩​​查看策略状态(如“已启动”)。​​3. 配置定时/周期策略(CCI 1.0)​​定时策略用于在​​特定时间点​​扩容(如秒杀活动前),周期策略用于​​按天/周/月​​周期性扩容(如工作日高峰)。 ​​操作步骤​​(以控制台为例):登录CCI 1.0控制台,进入​​负载管理​​→​​无状态负载​​,选择目标负载。点击​​弹性伸缩​​→​​添加伸缩策略​​,选择​​定时策略​​或​​周期策略​​:​​定时策略​​:填写​​触发时间​​(如“2025-10-21 20:00:00”)、​​执行操作​​(如“增加2个实例”)。​​周期策略​​:选择​​周期​​(如“每天”)、​​触发时间​​(如“18:00”)、​​执行操作​​(如“增加3个实例”)。点击​​确定​​,完成策略创建。​​说明​​:定时/周期策略仅在CCI 1.0中支持,CCI 2.0需使用告警策略或通过CCE集成实现。​​三、注意事项​​​​CCI版本差异​​:CCI 2.0支持告警策略、定时/周期策略(部分功能),需提交工单申请白名单。CCI 1.0支持告警、定时、周期策略,即将日落,建议迁移至CCI 2.0。​​资源规格要求​​:弹性至CCI的Pod需满足CCI的资源规范(如CPU≥0.25核、内存≥0.2GiB),否则会被自动规整。​​网络与存储​​:需确保CCE与CCI的VPC网络互通(通过VPC peering或专线)。Pod的存储需使用ConfigMap、Secret或CCI支持的云存储(如OBS、EVS),不支持本地磁盘。​​成本优化​​:使用​​按需计费​​模式,仅在需要时付费,降低成本。设置​​缩容优先级​​,优先缩容空闲实例,避免资源浪费。​​四、常见问题排查​​​​弹性伸缩未触发​​:检查告警策略的阈值设置是否合理(如CPU利用率阈值过低)。确认负载的CPU/内存使用率是否达到阈值(通过CCI控制台查看监控数据)。​​Pod无法调度至CCI​​:检查Virtual Kubelet插件是否安装并运行(通过CCE控制台查看插件状态)。确认负载的标签与CCI弹性承载策略匹配(如app: nginx)。​​网络不通​​:检查CCE与CCI的VPC网络是否互通(通过ping或telnet测试)。确认CCI的Service是否正确配置(如ClusterIP、NodePort)。​​总结​​一下下华为云CCI的弹性伸缩策略配置灵活,支持​​混合云集成​​与​​纯CCI场景​​,通过Virtual Kubelet插件或直接配置策略,可实现秒级扩容,应对突发负载。建议根据业务场景选择合适的配置方式(如混合云用CCE集成,纯CCI用告警策略),并定期优化策略参数,确保资源利用率与成本的最优平衡。 可以参考看看华为云官方文档:CCI弹性伸缩指南、CCE与CCI集成指南。
总条数:1670 到第
上滑加载中