-
请查阅参考昇腾社区文档:https://gitee.com/ascend/MindSpeed/blob/master/docs/features/megatron_moe/megatron-moe-allgather-overlap-comm.md
-
LLaMA-Factory多机多卡训练为了在多机多卡环境下训练大模型,我们可以使用LLaMA-Factory。它支持多种常见模型,集成了包括(增量)预训练、(多模态)指令监督微调、奖励模型训练、PPO 训练、DPO 训练、KTO 训练、ORPO 训练等等训练方法,并且有web-ui和命令行两种使用方式,是目前主流的模型训练框架之一。1 安装LLaMa-Factory下载 LLAMA-Factory 并进入项目目录,本文档所有操作均在该目录下进行:git clone https://github.com/hiyouga/LLaMA-Factory.gitcd LLaMA-Factory2、Python 环境创建创建并激活 Python 环境:conda create -y -n llamafactory python=3.10conda activate llamafactory3、LaMA-Factory 安装使用以下指令安装带有 torch-npu 的 LLaMA-Factory:pip install -e “.[torch-npu,metrics]” -i https://pypi.tuna.tsinghua.edu.cn/simple使用自定义数据集时,需要更新 data/dataset_info.json 文件。image.png多机多卡训练LLaMA-Factory支持多种多机多卡训练方式,包括DDP,DeepSpeed,FSDP。针对想要使用 NativeDDP 或 DeepSpeed 两种分布式训练引擎,推荐使用下列命令,区分两种训练引擎仅仅在于训练的yaml参数文件中。然后,必须在每个节点上使用export HCCL_SOCKET_IFNAME=eth0 来指定当前节点的 HCCL 通信网卡(请使用目标网卡名替换 eth0)。以两机环境为例,分别在主、从节点(机器)上执行如下两条命令即可启动多机训练:FORCE_TORCHRUN=1 NNODES=2 RANK=0 STER_ADDR=192.168.0.1 MASTER_PORT=29500 llamafactory-cli train examples/train_lora/llama3_lora_sft.yaml 主节点运行FORCE_TORCHRUN=1 NNODES=2 RANK=1STER_ADDR=192.168.0.1 MASTER_PORT=29500 llamafactory-cli train examples/train_lora/llama3_lora_sft.yaml 从节点运行使用此方式需要在每台机器上分别运行指令,同时每台机器上都需要安装LLaMA-Factory和相同的conda环境,都需要保存一份要训练的模型文件。参考yamlmodelmodel_name_or_path: Qwen/Qwen3-8B-Base # 更新为 本地路径(否则回去社区下载)methodstage: sftdo_train: truefinetuning_type: loralora_target: q_proj,v_proj # 可保留,也可扩展为更多模块(见下方建议)lora_rank: 64 # 推荐设置,LoRA 秩lora_dropout: 0.05 # 可选:增加轻微 dropout 提升泛化lora_alpha: 16 # 缩放参数,一般设为 r 的倍数ddpddp_timeout: 180000000deepspeed: examples/deepspeed/ds_z0_config.json # 根据显卡数量选择合适的 ZeRO 配置datasetdataset: identity,alpaca_en_demo # 示例数据集,可替换为你自己的template: qwen # 注意:Qwen3 支持新的 template 名称,但目前仍可用 qwencutoff_len: 8192 # Qwen3 支持最长 32768,但训练时建议从 8192 起步以节省显存max_samples: 1000overwrite_cache: truepreprocessing_num_workers: 16outputoutput_dir: saves/Qwen3-8B/lora/sft # 输出路径更新logging_steps: 10save_steps: 500eval_steps: 500plot_loss: trueoverwrite_output_dir: truetrainper_device_train_batch_size: 1 # 根据 GPU 显存调整(如 A100 80G 可尝试 2)gradient_accumulation_steps: 4 # 增大以补偿小 batch size,提升有效 batchlearning_rate: 2e-5 # 推荐 LoRA 学习率范围 1e-5 ~ 5e-5num_train_epochs: 3.0lr_scheduler_type: cosinewarmup_ratio: 0.1fp16: true # 如果使用 bf16,请确保硬件支持并改用 bf16: trueevalval_size: 0.1per_device_eval_batch_size: 1eval_strategy: stepseval_on_train: false # 是否在训练集上也评估(可选)additionalreport_to: tensorboard # 或 wandb,用于可视化监控seed: 42
-
请查阅参考昇腾社区文档:https://gitee.com/ascend/MindSpeed/blob/master/docs/features/megatron_moe/megatron-moe-alltoall-overlap-comm.md
-
为方便开发者们参照实操案例进行智果(AgentArts)产品体验特地把收录进案例中心的AgentArts相关案例搬运过来,方便查看后续持续更新~hi~ 来试试构建出彰显个人创意的AI Agent智能体(小助手) 案例标题入口更新时间推荐值案例创作方NEW~ 敏感词猎手:用AgentArts工作流一键扫描文档风险LINK2026/06/11 ⭐⭐⭐⭐⭐官方案例中心【免费版订阅指导】华为云智能体构建平台AgentArts Agent免费版订阅使用指导LINK2025/11/20⭐⭐⭐⭐官方案例中心基于华为开发者空间-Versatile Agent构建实时股票分析助手LINK2026/01/21 ⭐⭐⭐⭐官方案例中心基于华为开发者空间-Versatile Agent构建旅游出行助手LINK2025/10/22⭐⭐⭐⭐官方案例中心华为开发者空间云开发环境+Versatile Agent,构建AI轻量级智能办公助手LINK2025/11/25 ⭐⭐⭐⭐官方案例中心基于华为开发者空间开发平台 MCP资产快速构建AI Agent应用LINK2025/11/12 ⭐⭐⭐官方案例中心基于华为开发者空间开发平台构建We码会议助手LINK2025/10/10 ⭐⭐⭐⭐官方案例中心基于华为开发者空间-云开发环境(容器)与Versatile Agent构建AI自动评分助手 LINK2026/01/12 ⭐⭐⭐⭐⭐贡献用户:tmq244基于华为开发者空间-云开发环境(容器)与Versatile Agent构建AI轻量级智能笑话机器人助手LINK2026/01/29⭐⭐⭐⭐贡献用户:liujxu【案例共创】基于华为云开发者空间-Versatile Agent开发平台构建昇腾C算子开发知识库LINK2025/11/17⭐⭐⭐⭐⭐贡献用户:黄生【案例共创】使用开发者空间 AI Agent+RAG+高德地图MCP开发班车出行助手LINK2025/07/05 ⭐⭐⭐贡献用户:神一样的老师【案例共创】基于华为开发者空间Versatile agent平台快速搭建智能搜索可视化应用LINK2025/11/17 ⭐⭐⭐贡献用户:胡琦【案例共创】基于华为开发者空间-AI Agent开发平台构建旅游规划助手LINK2025/11/17 ⭐⭐⭐贡献用户:yd_272483742【案例共创】基于华为开发者空间开发平台 MCP资产快速构建税务AI助手服务LINK2025/11/17 ⭐⭐⭐贡献用户:小草飞上天【案例共创】基于华为云开发者空间-Versatile Agent开发平台零基础开发购房助手LINK2025/11/17 ⭐⭐⭐贡献用户:CC07 < 华为云智果(AgentArts)智能体平台 官网主页> (点击进入)
AgentArts运营小助手
发表于2025-10-24 14:23:11
2025-10-24 14:23:11
最后回复
yd_212847908
2026-05-20 18:29:38
598 4 -
请查阅参考昇腾社区文档:https://gitee.com/ascend/MindSpeed/blob/master/docs/features/megatron_moe/megatron-moe-tp-extend-ep.md
-
请查阅参考昇腾社区文档:https://gitee.com/ascend/MindSpeed/blob/master/docs/features/megatron_moe/megatron-moe-alltoall-dispatcher.md
-
请查阅参考昇腾社区文档:https://gitee.com/ascend/MindSpeed/blob/master/docs/features/megatron_moe/megatron-moe-allgather-dispatcher.md
-
请查阅参考昇腾社区文档:https://gitee.com/ascend/MindSpeed/blob/master/docs/features/megatron_moe/megatron-moe-gmm.md
-
华为云沃土计划回来了,刚刚领了500元代金卷,据说能领1500元话不多说,先上刚刚领到的券加入流程加入沃土计划(个人) 在华为云空间构建一个应用 申请代金券(可以申请3次,每次500)快去领取:领取过程也太简单了吧,实名认证用户5分钟搞定申请:第一步:加入华为云沃土计划个人方向进入沃土云创计划_开发者中心-华为云,注册账号,实名认证后,使能方向选择“个人”跳到“开发者空间”,填写基础信息,提交后自动通过审核。第二步:在华为云空间构建一个应用(必选项!请注意文末应用构建相关审核规则,否则不通过审核)构建应用两种方式:第一种方式:访问 沃土计划个人开发者操作指导,参照“沃土云创方案构建”构建应用:https://res-static.hc-cdn.cn/cloudbu-site/china/zh-cn/developerprogram/developerprogram.pdf第二种方式(建议):访问 开发者空间(https://developer.huaweicloud.com/space/app/build),如下图红框,依次访问“应用管理 - 应用构建- 创建应用- 立即申请”,发布应用成功后,在如下图红框③位置复制ID第三步:申请代金券 (一定要填申请说明)“开发者空间 - 激励管理 - 计划权益 - 沃土云创计划-个人”中找到“通用权益”,点击 “申请”,注意申请说明中,需加上刚刚已完成的应用ID及券的用途(重要!!!),示意如下:审核通过后,500 元代金券立即发放到账户中,可以在“费用中心 – 优惠折扣 - 优惠券”页面查看详情代金券使用方案,精打细算:小技巧:不要直接选择1年套餐(会自带优惠导致代金券无法使用);1次最长买9个月,超过的,后续选续费;代金券到账后要尽快使用,避免过期买产品的地址:https://www.huaweicloud.com/pricing/calculator.html#/ecs最劲爆的!共可以申请3次1500元请注意审核要求:1、同一个应用构建ID只能申请一次,不能重复申请2、构建的Agent类型应用只申请一次,不能重复申请3、提供的证明材料中需要看到有应用ID信息和账户名信息4、附件要能体现是基于华为云构建的应用,如在华为云主机上运行的结果,服务器IP信息等5、提供的材料中要有账户信息,并和当前申请人的一致6、同一账户最多申请3次,请勿重复申请
-
请查阅参考昇腾社区文档:https://gitee.com/ascend/MindSpeed/blob/master/docs/features/tensor-parallel-2d.md
-
请查阅参考昇腾社区文档:https://gitee.com/ascend/MindSpeed/blob/master/docs/features/hccl-replace-gloo.md
-
各位亲爱的版主们,大家好!经过大家一个月的努力角逐,9月外部版主激励评比结果已出炉,数据公示如下,请查看!(在新标签页打开图片可查看清晰大图/见附件)·外部版主激励规则:点击了解更多转正礼/基础任务/额外任务(在线时长15小时+,主题帖15+,回帖30+,技术长文5+/原创技术干货1+,合集1+,有效回复问题求助帖10+,话题互动1+,完成这4项指标可获对应价值的代金券/实物礼品)请完成任务获得激励的版主,点击填写激励发放意愿统计问卷反馈截止时间:2025年10月29日,以便小编进行相应的激励发放。 注:在线时长数据达标后,才会再去考察达标版主的三项任务完成情况;主题数+回帖数达标后,才会再去考察达标版主的技术长文数量情况。
-
请查阅参考昇腾社区文档:https://gitee.com/ascend/MindSpeed/blob/master/docs/features/fusion-attn-v2.md
-
请查阅参考昇腾社区文档:https://gitee.com/ascend/MindSpeed/blob/master/docs/features/mc2.md
-
华为云CCI的弹性伸缩策略旨在通过自动或手动调整容器实例数量,应对业务负载的动态变化,实现资源的高效利用与成本优化。配置方式主要分为两类:通过CCE集群集成Virtual Kubelet插件实现弹性扩展(将CCE负载弹性到CCI)、直接在CCI控制台配置负载弹性策略(告警、定时、周期)。 一、通过CCE集群集成Virtual Kubelet插件配置弹性伸缩该方式适用于混合云场景,将CCE(云容器引擎)中的无状态负载(Deployment、StatefulSet、Job)弹性扩展至CCI,无需管理底层节点,实现秒级扩容。1. 前提条件已创建CCE集群(版本≥v1.11)。已开通CCI服务(CCI 2.0需提交工单申请白名单,1.0即将日落)。2. 安装Virtual Kubelet插件Virtual Kubelet是连接CCE与CCI的核心插件,负责将CCE负载调度至CCI。 操作步骤:登录CCE控制台,进入目标集群。左侧导航栏选择插件管理→插件市场,找到“virtual-kubelet”插件,点击安装。在“规格配置”中,勾选跨服务互通(实现CCE与CCI的Service网络互通),点击安装。3. 配置CCI弹性承载策略通过策略控制CCE负载的弹性调度规则(如本地优先、强制调度、CCI最大实例数)。 操作方式(以控制台为例):登录CCE控制台,进入目标集群,选择策略→CCI弹性承载策略。点击创建CCI弹性承载策略,填写以下参数:策略名称:自定义(如“nginx-cci-policy”)。命名空间:选择策略生效的命名空间(如“default”)。关联负载:通过标签匹配需弹性的负载(如app: nginx)。调度策略:强制调度(enforce):所有Pod均弹性至CCI。本地优先(localPrefer):优先调度至CCE节点,资源不足时弹性至CCI(推荐)。自动调度(auto):根据CCE调度器打分结果自动决定是否弹性至CCI。分配策略:本地最大实例数:设置CCE集群运行的最大Pod数量(如“20”)。CCI最大实例数:设置CCI运行的最大Pod数量(如“30”)。缩容优先级:设置本地与CCI的缩容顺序(数值越大越先缩容,取值范围[-100,100])。点击确定,完成策略创建。4. 创建/修改工作负载在CCE中创建或修改工作负载时,需关联上述策略,使负载能够弹性至CCI。 操作方式(以控制台为例):登录CCE控制台,进入目标集群,选择工作负载→创建工作负载。在“基本信息”中,选择弹性至CCI(如“本地优先调度”)。在“高级配置”→标签与注解中,添加与CCI弹性承载策略匹配的标签(如app: nginx)。完成负载创建,此时负载将根据策略自动弹性至CCI。5. 验证弹性伸缩当CCE集群资源不足(如CPU/内存利用率超过阈值)时,Virtual Kubelet会自动将Pod调度至CCI。登录CCI控制台,进入负载管理→无状态负载,查看弹性创建的Pod状态(如“运行中”)。二、直接在CCI控制台配置负载弹性策略该方式适用于纯CCI场景,直接为CCI中的无状态负载配置告警策略(基于CPU/内存使用率)、定时策略(固定时间点扩容)、周期策略(按天/周/月扩容)。1. 前提条件已创建CCI集群(版本≥2.0)。已创建无状态负载(Deployment)。2. 配置告警策略(推荐)告警策略通过监控CPU/内存使用率,自动调整Pod数量,应对突发负载。 操作步骤(以控制台为例):登录CCI控制台,进入负载管理→无状态负载,选择目标负载。点击弹性伸缩→YAML创建,输入以下YAML配置(示例):kind: HorizontalPodAutoscalerapiVersion: cci/v2metadata: name: nginx-hpa # 策略名称 namespace: default # 命名空间spec: scaleTargetRef: kind: Deployment name: nginx # 目标负载名称 apiVersion: cci/v2 minReplicas: 1 # 最小副本数 maxReplicas: 5 # 最大副本数 metrics: - type: Resource resource: name: cpu # 监控指标(CPU/内存) target: type: Utilization # 扩缩类型(利用率) averageUtilization: 50 # 触发阈值(如CPU利用率超过50%扩容) - type: Resource resource: name: memory target: type: Utilization averageUtilization: 60 # 内存利用率超过60%扩容点击确定,完成策略创建。说明:策略生效后,CCI会定期监控负载的CPU/内存使用率,当超过阈值时自动增加副本数,低于阈值时减少副本数。可通过负载详情→弹性伸缩查看策略状态(如“已启动”)。3. 配置定时/周期策略(CCI 1.0)定时策略用于在特定时间点扩容(如秒杀活动前),周期策略用于按天/周/月周期性扩容(如工作日高峰)。 操作步骤(以控制台为例):登录CCI 1.0控制台,进入负载管理→无状态负载,选择目标负载。点击弹性伸缩→添加伸缩策略,选择定时策略或周期策略:定时策略:填写触发时间(如“2025-10-21 20:00:00”)、执行操作(如“增加2个实例”)。周期策略:选择周期(如“每天”)、触发时间(如“18:00”)、执行操作(如“增加3个实例”)。点击确定,完成策略创建。说明:定时/周期策略仅在CCI 1.0中支持,CCI 2.0需使用告警策略或通过CCE集成实现。三、注意事项CCI版本差异:CCI 2.0支持告警策略、定时/周期策略(部分功能),需提交工单申请白名单。CCI 1.0支持告警、定时、周期策略,即将日落,建议迁移至CCI 2.0。资源规格要求:弹性至CCI的Pod需满足CCI的资源规范(如CPU≥0.25核、内存≥0.2GiB),否则会被自动规整。网络与存储:需确保CCE与CCI的VPC网络互通(通过VPC peering或专线)。Pod的存储需使用ConfigMap、Secret或CCI支持的云存储(如OBS、EVS),不支持本地磁盘。成本优化:使用按需计费模式,仅在需要时付费,降低成本。设置缩容优先级,优先缩容空闲实例,避免资源浪费。四、常见问题排查弹性伸缩未触发:检查告警策略的阈值设置是否合理(如CPU利用率阈值过低)。确认负载的CPU/内存使用率是否达到阈值(通过CCI控制台查看监控数据)。Pod无法调度至CCI:检查Virtual Kubelet插件是否安装并运行(通过CCE控制台查看插件状态)。确认负载的标签与CCI弹性承载策略匹配(如app: nginx)。网络不通:检查CCE与CCI的VPC网络是否互通(通过ping或telnet测试)。确认CCI的Service是否正确配置(如ClusterIP、NodePort)。总结一下下华为云CCI的弹性伸缩策略配置灵活,支持混合云集成与纯CCI场景,通过Virtual Kubelet插件或直接配置策略,可实现秒级扩容,应对突发负载。建议根据业务场景选择合适的配置方式(如混合云用CCE集成,纯CCI用告警策略),并定期优化策略参数,确保资源利用率与成本的最优平衡。 可以参考看看华为云官方文档:CCI弹性伸缩指南、CCE与CCI集成指南。
上滑加载中
推荐直播
-
华为云码道 × 仓颉编程:工程化AI编码探索2026/05/27 周三 19:00-21:00
刘俊杰-华为云仓颉语言专家/李炎-华为云码道技术专家/王智鹏-OpenCangjie开源社区发起人
本场直播围绕华为云仓颉语言与华为云码道的深度结合,展示华为云智能编程从零基础到高效落地的完整生态能力。以华为云码道为引擎,仓颉语言为载体,带给大家日常提效、趣味创新到极速量产的开发体验。
回顾中
热门标签