-
请查阅参考昇腾社区文档:https://gitee.com/ascend/MindSpeed/blob/master/docs/features/hccl-replace-gloo.md
-
各位亲爱的版主们,大家好!经过大家一个月的努力角逐,9月外部版主激励评比结果已出炉,数据公示如下,请查看!(在新标签页打开图片可查看清晰大图/见附件)·外部版主激励规则:点击了解更多转正礼/基础任务/额外任务(在线时长15小时+,主题帖15+,回帖30+,技术长文5+/原创技术干货1+,合集1+,有效回复问题求助帖10+,话题互动1+,完成这4项指标可获对应价值的代金券/实物礼品)请完成任务获得激励的版主,点击填写激励发放意愿统计问卷反馈截止时间:2025年10月29日,以便小编进行相应的激励发放。 注:在线时长数据达标后,才会再去考察达标版主的三项任务完成情况;主题数+回帖数达标后,才会再去考察达标版主的技术长文数量情况。
-
请查阅参考昇腾社区文档:https://gitee.com/ascend/MindSpeed/blob/master/docs/features/fusion-attn-v2.md
-
请查阅参考昇腾社区文档:https://gitee.com/ascend/MindSpeed/blob/master/docs/features/mc2.md
-
华为云CCI的弹性伸缩策略旨在通过自动或手动调整容器实例数量,应对业务负载的动态变化,实现资源的高效利用与成本优化。配置方式主要分为两类:通过CCE集群集成Virtual Kubelet插件实现弹性扩展(将CCE负载弹性到CCI)、直接在CCI控制台配置负载弹性策略(告警、定时、周期)。 一、通过CCE集群集成Virtual Kubelet插件配置弹性伸缩该方式适用于混合云场景,将CCE(云容器引擎)中的无状态负载(Deployment、StatefulSet、Job)弹性扩展至CCI,无需管理底层节点,实现秒级扩容。1. 前提条件已创建CCE集群(版本≥v1.11)。已开通CCI服务(CCI 2.0需提交工单申请白名单,1.0即将日落)。2. 安装Virtual Kubelet插件Virtual Kubelet是连接CCE与CCI的核心插件,负责将CCE负载调度至CCI。 操作步骤:登录CCE控制台,进入目标集群。左侧导航栏选择插件管理→插件市场,找到“virtual-kubelet”插件,点击安装。在“规格配置”中,勾选跨服务互通(实现CCE与CCI的Service网络互通),点击安装。3. 配置CCI弹性承载策略通过策略控制CCE负载的弹性调度规则(如本地优先、强制调度、CCI最大实例数)。 操作方式(以控制台为例):登录CCE控制台,进入目标集群,选择策略→CCI弹性承载策略。点击创建CCI弹性承载策略,填写以下参数:策略名称:自定义(如“nginx-cci-policy”)。命名空间:选择策略生效的命名空间(如“default”)。关联负载:通过标签匹配需弹性的负载(如app: nginx)。调度策略:强制调度(enforce):所有Pod均弹性至CCI。本地优先(localPrefer):优先调度至CCE节点,资源不足时弹性至CCI(推荐)。自动调度(auto):根据CCE调度器打分结果自动决定是否弹性至CCI。分配策略:本地最大实例数:设置CCE集群运行的最大Pod数量(如“20”)。CCI最大实例数:设置CCI运行的最大Pod数量(如“30”)。缩容优先级:设置本地与CCI的缩容顺序(数值越大越先缩容,取值范围[-100,100])。点击确定,完成策略创建。4. 创建/修改工作负载在CCE中创建或修改工作负载时,需关联上述策略,使负载能够弹性至CCI。 操作方式(以控制台为例):登录CCE控制台,进入目标集群,选择工作负载→创建工作负载。在“基本信息”中,选择弹性至CCI(如“本地优先调度”)。在“高级配置”→标签与注解中,添加与CCI弹性承载策略匹配的标签(如app: nginx)。完成负载创建,此时负载将根据策略自动弹性至CCI。5. 验证弹性伸缩当CCE集群资源不足(如CPU/内存利用率超过阈值)时,Virtual Kubelet会自动将Pod调度至CCI。登录CCI控制台,进入负载管理→无状态负载,查看弹性创建的Pod状态(如“运行中”)。二、直接在CCI控制台配置负载弹性策略该方式适用于纯CCI场景,直接为CCI中的无状态负载配置告警策略(基于CPU/内存使用率)、定时策略(固定时间点扩容)、周期策略(按天/周/月扩容)。1. 前提条件已创建CCI集群(版本≥2.0)。已创建无状态负载(Deployment)。2. 配置告警策略(推荐)告警策略通过监控CPU/内存使用率,自动调整Pod数量,应对突发负载。 操作步骤(以控制台为例):登录CCI控制台,进入负载管理→无状态负载,选择目标负载。点击弹性伸缩→YAML创建,输入以下YAML配置(示例):kind: HorizontalPodAutoscalerapiVersion: cci/v2metadata: name: nginx-hpa # 策略名称 namespace: default # 命名空间spec: scaleTargetRef: kind: Deployment name: nginx # 目标负载名称 apiVersion: cci/v2 minReplicas: 1 # 最小副本数 maxReplicas: 5 # 最大副本数 metrics: - type: Resource resource: name: cpu # 监控指标(CPU/内存) target: type: Utilization # 扩缩类型(利用率) averageUtilization: 50 # 触发阈值(如CPU利用率超过50%扩容) - type: Resource resource: name: memory target: type: Utilization averageUtilization: 60 # 内存利用率超过60%扩容点击确定,完成策略创建。说明:策略生效后,CCI会定期监控负载的CPU/内存使用率,当超过阈值时自动增加副本数,低于阈值时减少副本数。可通过负载详情→弹性伸缩查看策略状态(如“已启动”)。3. 配置定时/周期策略(CCI 1.0)定时策略用于在特定时间点扩容(如秒杀活动前),周期策略用于按天/周/月周期性扩容(如工作日高峰)。 操作步骤(以控制台为例):登录CCI 1.0控制台,进入负载管理→无状态负载,选择目标负载。点击弹性伸缩→添加伸缩策略,选择定时策略或周期策略:定时策略:填写触发时间(如“2025-10-21 20:00:00”)、执行操作(如“增加2个实例”)。周期策略:选择周期(如“每天”)、触发时间(如“18:00”)、执行操作(如“增加3个实例”)。点击确定,完成策略创建。说明:定时/周期策略仅在CCI 1.0中支持,CCI 2.0需使用告警策略或通过CCE集成实现。三、注意事项CCI版本差异:CCI 2.0支持告警策略、定时/周期策略(部分功能),需提交工单申请白名单。CCI 1.0支持告警、定时、周期策略,即将日落,建议迁移至CCI 2.0。资源规格要求:弹性至CCI的Pod需满足CCI的资源规范(如CPU≥0.25核、内存≥0.2GiB),否则会被自动规整。网络与存储:需确保CCE与CCI的VPC网络互通(通过VPC peering或专线)。Pod的存储需使用ConfigMap、Secret或CCI支持的云存储(如OBS、EVS),不支持本地磁盘。成本优化:使用按需计费模式,仅在需要时付费,降低成本。设置缩容优先级,优先缩容空闲实例,避免资源浪费。四、常见问题排查弹性伸缩未触发:检查告警策略的阈值设置是否合理(如CPU利用率阈值过低)。确认负载的CPU/内存使用率是否达到阈值(通过CCI控制台查看监控数据)。Pod无法调度至CCI:检查Virtual Kubelet插件是否安装并运行(通过CCE控制台查看插件状态)。确认负载的标签与CCI弹性承载策略匹配(如app: nginx)。网络不通:检查CCE与CCI的VPC网络是否互通(通过ping或telnet测试)。确认CCI的Service是否正确配置(如ClusterIP、NodePort)。总结一下下华为云CCI的弹性伸缩策略配置灵活,支持混合云集成与纯CCI场景,通过Virtual Kubelet插件或直接配置策略,可实现秒级扩容,应对突发负载。建议根据业务场景选择合适的配置方式(如混合云用CCE集成,纯CCI用告警策略),并定期优化策略参数,确保资源利用率与成本的最优平衡。 可以参考看看华为云官方文档:CCI弹性伸缩指南、CCE与CCI集成指南。
-
在 GaussDB 中,通过 gs_ctl query命令获取的主集群信息中,sync_percent(同步百分比)字段表示 主节点(Primary)与备节点(Standby)之间 WAL 日志的同步进度。计算公式sync_percent = (备节点已接收的 WAL LSN - 主节点初始 LSN) / (主节点当前 LSN - 主节点初始 LSN) × 100%关键参数说明:主节点初始 LSN:主节点开始记录 WAL 日志的起始位置(通常为 0/0)。主节点当前 LSN:主节点最新生成的 WAL 日志位置(通过 pg_current_wal_lsn()获取)。备节点已接收的 LSN:备节点通过流复制接收的最新 WAL 日志位置(通过 pg_last_wal_receive_lsn()获取)。计算逻辑详解WAL 日志的生成与同步:主节点执行事务时,先将修改写入 WAL 日志(pg_wal目录),并同步到备节点。备节点接收 WAL 日志后,通过 pg_wal_lsn_diff()函数计算与主节点的 LSN 差异。同步状态判定:100% 同步:备节点的 LSN 等于主节点的当前 LSN(sync_percent = 100%)。部分同步:备节点的 LSN 滞后于主节点(sync_percent < 100%),表明存在延迟。异常状态:若备节点的 LSN 长期未更新,可能触发告警(如 sync_percent持续低于阈值)。示例计算:主节点初始 LSN:0/0。主节点当前 LSN:0/3000(总增量 3000)。备节点接收 LSN:0/1800。同步百分比:(1800 - 0) / (3000 - 0) × 100% = 60%。实际应用场景监控复制延迟:通过 sync_percent可实时监控主备同步状态,判断是否存在性能瓶颈(如网络延迟、备节点负载过高)。若 sync_percent长期低于 90%,需排查备节点资源或网络问题。故障恢复验证:主备切换后,检查 sync_percent是否恢复至 100%,确保数据一致性。性能调优依据:若同步延迟较高,可优化备节点硬件(如 SSD 存储)、调整 wal_buffers或 max_wal_senders参数。相关命令与查询查看 WAL LSN 信息:-- 主节点当前 LSNSELECT pg_current_wal_lsn();-- 备节点接收的 LSNSELECT pg_last_wal_receive_lsn();通过 gs_ctl query获取同步状态:gs_ctl query -D /data/cluster/var/lib/engine/data1/data/dn_6001 | grep sync_percent监控工具集成:GaussDB 的监控指标(如 pg_stat_replication视图)会直接暴露 sync_percent,供 Prometheus 等工具采集。注意一下下LSN 的物理意义:WAL 日志是追加写入的,LSN 代表日志文件中的字节偏移量,与事务的物理顺序一致。跨版本兼容性:不同 GaussDB 版本可能对 sync_percent的计算逻辑有细微差异,需参考对应版本的官方网页。主备角色切换:在故障切换后,原主节点可能变为备节点,需重新计算同步百分比。
-
在云原生技术快速发展的今天,华为云容器实例(CCI)与Kubernetes(K8s)集群已成为企业构建弹性容器化应用的核心组件。两者既存在功能定位的差异,又通过深度集成形成互补的生态体系。一、CCI与K8s集群的核心定位差异1. Kubernetes集群:企业级容器编排平台全栈管理能力:提供从节点运维、Pod调度、服务发现到存储网络管理的完整生命周期管理能力,适用于需要长期稳定运行的业务(如电商中台、微服务架构)。资源独占性:需预先创建并管理Master/Worker节点,资源按需分配但需持续付费。典型场景:混合云/多云环境下的统一调度有状态应用(如数据库、消息队列)的稳定运行需要自定义网络策略和存储卷的场景2. CCI:Serverless容器引擎无服务器架构:无需管理底层节点,直接以Pod粒度运行容器,按秒级计费,资源空闲时自动释放。Kubernetes兼容性:支持标准K8s API(如kubectl、Deployment/Job资源),但底层依赖华为云虚拟化资源池。典型场景:突发流量应对(如电商大促、直播活动)批处理任务(如数据分析、CI/CD流水线)临时测试环境搭建二、CCI与K8s集群的协同关系1. 架构互补:从“稳态”到“敏态”的延伸K8s集群作为控制平面:管理核心业务节点,保障高可用性和持久化存储。CCI作为弹性扩展层:通过Virtual Kubelet插件,将K8s集群的资源请求自动路由至CCI,实现秒级扩容。# 示例:在K8s Deployment中启用CCI弹性metadata: labels: virtual-kubelet.io/burst-to-cci: "auto" # 自动弹性策略2. 资源调度联动跨集群Pod调度:K8s集群资源不足时,CCI可动态承接溢出Pod,两者通过Service网络互通实现负载均衡。存储一致性:CCI支持挂载华为云OBS、EVS等存储,与K8s PersistentVolume(PV)无缝对接,保障数据持久性。3. 运维统一化监控与日志:通过华为云AOM(应用运维管理)统一采集K8s集群与CCI的指标,实现端到端可观测性。权限管理:使用华为云RAM角色统一授权,避免多账户密钥管理的复杂性。三、典型应用场景与操作实践场景1:混合云弹性伸缩需求:某电商大促期间,需将IDC内的K8s集群流量突增到云上。 实现步骤:安装弹性套件:在K8s集群中部署Virtual Kubelet插件,配置CCI访问权限。标签化资源:为Deployment添加burst-to-cci: "enforce"标签,强制弹性至CCI。流量切换:通过Service将新增流量导向CCI Pod,原集群处理核心业务。场景2:低成本批处理任务需求:运行周期性数据分析任务,避免长期占用K8s集群资源。 实现步骤:创建Job资源:在K8s中定义Job,指定backoffLimit和资源请求。自动路由至CCI:通过注解cloud.tencent.com/cci.enabled: "true"触发CCI执行。计费验证:任务完成后,CCI按实际运行时间(秒级)计费,成本降低60%以上。四、深度集成:从理论到实践1. 网络互通方案VPC对等连接:确保K8s集群与CCI所属VPC的CIDR块不重叠,通过华为云VPC Peering实现内网互通。Ingress跨集群路由:使用Nginx Ingress Controller同时管理K8s和CCI的流量,通过路径规则分流请求。2. 镜像同步策略SWR镜像仓库:将K8s集群使用的镜像同步至华为云容器镜像服务(SWR),CCI直接拉取私有镜像。自动化同步工具:使用skopeo或华为云镜像同步API,实现CI/CD流水线中镜像的跨仓库分发。3. 监控与告警联动Prometheus联邦:在K8s集群部署Prometheus,通过Federation采集CCI的指标(如CPU/内存使用率)。告警规则:当CCI Pod的错误率超过阈值时,触发企业微信/邮件通知,并自动回滚至K8s集群。五、选型建议与最佳实践1. 何时选择CCI?业务具有突发性、不可预测的流量特征。需要快速启动临时环境(如测试、演示)。希望彻底规避节点运维成本(如补丁更新、故障恢复)。2. 何时选择K8s集群?需要长期稳定运行有状态服务。对网络延迟敏感(如实时交易系统)。需要自定义调度策略(如GPU亲和性)。3. 混合架构设计原则核心业务保稳定:关键服务部署在K8s集群,通过HPA(水平Pod自动扩展)应对常规流量波动。边缘业务靠弹性:非核心任务(如日志处理、批量计算)迁移至CCI,按需付费。统一治理:通过Istio服务网格实现K8s与CCI的流量治理,保障服务发现和熔断机制一致性。六、总结一下下华为CCI与Kubernetes集群并非替代关系,而是通过Serverless能力补充传统K8s的弹性短板,形成“稳态+敏态”的混合架构。企业可根据业务特性灵活组合两者:K8s集群:作为基础设施的“控制平面”,保障核心业务稳定性。CCI:作为资源调度的“弹性层”,应对流量洪峰与临时需求。这种架构不仅降低了运维复杂度,还能通过按需付费模式显著优化成本。未来,随着云原生技术的演进,CCI与K8s的协同将更加紧密,成为企业构建下一代应用架构的基石。 参考资料: 华为云CCI与CCE功能对比 CCI产品网页(Serverless特性) 华为云DTSE Tech Talk:Cloud Bursting实践 CCI开发者指南(kubectl集成)
-
在华为云 CCI 的 CloudBursting 解决方案中,故障排除和调试需结合日志分析、监控指标、网络配置及插件状态等多维度进行。(横向分层架构,从左至右体现 “本地→连接→公有云” 弹性流向)+---------------------+ +-----------------------+ +---------------------+ | 本地数据中心 | | 混合云网络层 | | 公有云 | | (On-Premises) |<----->| (Hybrid Network) |<----->| (Public Cloud) | +---------------------+ +-----------------------+ +---------------------+ | - 物理服务器/ | | - VPN/专线(如 | | - IaaS层(EC2/VM) | | 私有云(OpenStack)| | 华为云ExpressRoute)| | - PaaS层(CCI/EKS)| | - Kubernetes集群 | | - SD-WAN | | - 对象存储(OBS/S3)| | - 本地负载均衡器 | | - 防火墙/ACL | | - 数据库(RDS) | | - 监控代理(如Prometheus)| +-----------------------+ +---------------------+ +---------------------+ ↑ ↑ | | +-----------v-----------+ +------v--------+ | 监控与控制平面 | | 弹性伸缩策略 | | (Monitoring & Control)| | (Auto Scaling)| +---------------------+ +---------------+ | - 指标采集(CPU/内存)| | - 触发条件(阈值)| | - 日志分析(LTS/CloudWatch)| | - 冷却时间 | | - 报警引擎(邮件/Slack)| | - 扩展方向(本地↔云)| +---------------------+ +---------------+ ↑ ↑ +-----------v-----------+ +------v--------+ | 应用与数据层 | | 云资源池 | | (Applications & Data) | | (Cloud Resources)| +---------------------+ +-----------------+ | - 微服务/容器化应用 | | - 预留实例 | | - 共享数据库/缓存 | | - 竞价实例 | +---------------------+ +-----------------+一、日志分析与监控体系1. 容器日志采集标准输出 / 错误日志:CCI 默认通过 Fluent-Bit 将容器stdout/stderr日志实时上传至华为云日志服务(LTS),支持 JSON 格式解析和关键词搜索。比如,在 LTS 控制台创建日志流app-stdout-stream,并通过标签app: my-demo-app过滤特定应用的日志。文件日志采集:若应用将日志写入容器内文件(如/app/logs/app.log),需在 CCI Pod 的 YAML 中挂载emptyDir卷,并在 LTS 中配置文件路径采集规则。日志生命周期管理:AOM 每月赠送 500M 免费日志存储空间,超过部分需按实际用量计费。建议定期清理历史日志或配置日志转储至 OBS 长期存储2. 指标监控与告警AOM Prometheus 服务:通过 ServiceMonitor 自动发现 CCI Pod 暴露的指标端点(如/metrics),并采集 CPU、内存、网络流量等基础指标。例如,在 Service 的注解中添加prometheus.io/scrape: 'true',AOM 将自动抓取指标并支持 Grafana 可视化。短生命周期任务指标:对于批处理作业,使用 Pushgateway+Remote Write 模式。任务启动时将指标推送到 Pushgateway,AOM 定期抓取后写入 LTS,确保指标不丢失。告警规则配置:在 AOM 或 LTS 中设置阈值告警(如 CPU 使用率 > 80%)或日志内容告警(如包含ERROR堆栈),通过 SMN 短信 / 邮件实时通知运维人员。二、Virtual Kubelet 插件状态检查1. 插件版本验证兼容性问题:插件版本需与 CCE 集群兼容。例如,插件回退至 1.5.18 以下版本后,可能导致新弹性到 CCI 的 Pod 无法通过 Service 访问,需升级至 1.5.18 + 或删除重建 Pod插件卸载失败:若因镜像拉取失败导致卸载失败,需手动删除resource-gc-jobs和namespace-gc-jobs kubectl get job -nkube-system | grep "virtual-kubelet-.*-resource-gc-jobs" kubectl delete job -nkube-system xxx kubectl get job -nkube-system | grep "virtual-kubelet-.*-namespace-gc-jobs" kubectl delete job -nkube-system yyy2. 弹性调度策略验证标签配置:确保工作负载添加了virtual-kubelet.io/burst-to-cci标签,并根据需求设置auto、localPrefer或enforce调度模式。例如,localPrefer表示优先使用本地 CCE 节点,不足时再弹性至 CCI。资源规格匹配:Pod 的 CPU / 内存请求需符合 CCI 要求(如 CPU 为 0.25 核倍数、内存为 1GiB 倍数,且存算比在 1:2~1:8 之间),否则会调度失败。三、网络连通性排查1. 跨云互通验证Service 发现:CCI Pod 通过 Sidecar 容器同步 Kubernetes Service 信息。若业务容器启动时依赖 Service 访问,可能因同步延迟导致首次失败,升级插件至 1.5.28 + 可解决此问题网络策略冲突:检查 CCE 集群子网是否与 CCI 命名空间的 Service 网段(如 10.247.0.0/16)重叠,若冲突需重新规划子网 2. 网络诊断工具命令行测试:使用kubectl exec进入 CCI Pod,通过curl或telnet验证与其他服务的连通性。kubectl exec -it cci-pod -- curl http://service-name.namespace.svc.cluster.local:port 流量抓包:在 CCE 节点或 CCI 实例中使用tcpdump抓包,分析网络层问题。例如,抓取 Pod 与 Service 之间的流量: tcpdump -i any port 80 -w cci-traffic.pcap 四、资源配额与实例状态管理1. 配额超限处理配额查看:在华为云控制台的 “我的配额” 页面查看 CCI 实例、vCPU、内存等资源的使用情况及配额限制。例如,单账户默认最多创建 100 个 CCI 实例。配额申请:若配额不足,可提交工单或在控制台申请扩容。注意 GPU 资源可能因库存不足无法立即申请。2. 实例状态监控CCI 控制台:在 CCI 管理界面查看实例列表,检查 Pod 状态(如Running、Failed)及详细信息(如启动时间、终止原因)。事件日志分析:通过kubectl describe pod查看 Pod 事件kubectl describe pod cci-pod | grep -A 10 "Events:" 常见事件包括镜像拉取失败(Failed to pull image)、资源不足(OOMKilled)等。五、常见故障处理流程1. 弹性失败(Pod 未创建)排查步骤:检查 Virtual Kubelet 插件是否正常运行(kubectl get pods -nkube-system | grep virtual-kubelet)。查看 CCE 集群事件,确认是否有调度失败原因(如NoNodesAvailable)。验证 CCI 配额是否充足,资源规格是否符合要求。2. Service 访问异常排查步骤:检查 Sidecar 容器状态(kubectl get pods -ncci-system)。验证 Service 的clusterIP是否可达,通过kubectl get service查看 IP 地址。若插件版本低于 1.5.18,尝试升级或重建 Pod3. 日志丢失或不完整排查步骤:确认 LTS 日志流配置正确,标签和过滤规则无误。检查 Fluent-Bit 插件是否正常运行(kubectl get pods -ncci-system)。对于文件日志,确保emptyDir卷挂载正确且路径配置正确。六、自动化运维工具链1. COC 云运维中心补丁管理:自动扫描 CCE 节点和 CCI 实例的 OS 补丁合规性,支持一键修复高危漏洞定时任务:通过脚本或作业编排,定期清理无效 CCI 实例、归档日志文件,减少人工操作 2. 混沌工程演练故障注入测试:使用 ChaosBlade 等工具模拟网络延迟、节点故障等场景,验证 CloudBursting 的容错能力和恢复机制。弹性策略优化:根据演练结果调整 HPA 阈值或 CronHPA 策略,确保资源弹性符合业务需求。七、一些文档参考1. 官方文档CCI 用户指南:包含日志采集、插件配置、常见问题等详细说明,可访问华为云帮助中心AOM/LTS 操作手册:提供监控指标定义、告警配置等操作指引。2. 技术支持工单系统:提交工单时需提供详细信息(如故障时间、Pod 名称、日志片段),以便工程师快速定位问题。社区资源:在华为云社区或开发者论坛搜索相似问题,参考其他用户的解决方案。八、常见场景的故障排除与解决方法1. 资源调度失败(如无法扩容至CCI)常见原因:CCI资源售罄(如virtual-kubelet节点被锁定);弹性伸缩策略配置错误(如阈值设置不合理、冷却时间过长);节点状态异常(如CCE集群节点不可用)。解决方法:检查节点状态:通过kubectl get node查看virtual-kubelet节点状态,若为SchedulingDisabled(锁定状态),需手动解锁节点(如通过CCE控制台或API);调整弹性策略:通过华为云控制台修改弹性伸缩策略的“触发条件”(如将CPU阈值从70%降至60%)和“冷却时间”(如从5分钟缩短至2分钟),避免频繁扩容失败;核查资源配额:确保CCE集群节点的资源配额足够(如CPU、内存),避免因节点资源不足导致调度失败。 2. 网络延迟或中断(如跨云通信缓慢)常见原因:混合云网络链路质量差(如VPN带宽不足、专线延迟高);路由规则配置错误(如DNS解析失败、安全组未开放端口);CCI实例网络配置问题(如弹性IP未绑定、安全组规则冲突)。解决方法:验证网络链路:使用traceroute命令测试本地集群到CCI的网络延迟,确保链路稳定;检查路由与安全组:通过华为云控制台确认VPC peering或VPN连接的“路由表”是否正确,安全组是否开放了CCI所需的端口(如TCP 80/443);配置DNS解析:若Pod需要访问外部服务,可通过kubectl edit deploy命令添加--cluster-dns参数,配置指定的DNS服务器地址(如华为云内网DNS),确保DNS解析正常。 3. 性能瓶颈(如CCI Pod CPU/内存过高)常见原因:弹性伸缩阈值设置不合理(如未及时触发扩容);应用程序未优化(如内存泄漏、线程池配置不当);CCI实例类型选择错误(如计算密集型应用使用了内存优化型实例)。解决方法:监控资源指标:通过华为云AOM(应用运维管理服务)查看CCI Pod的“CPU利用率”“内存使用率”指标,若持续高于80%,需调整弹性策略的“触发条件”(如将CPU阈值从70%降至60%);优化应用程序:使用华为云LTS(云日志服务)查看应用日志,分析是否存在内存泄漏或线程池配置不当的问题,优化应用代码;选择合适实例类型:根据应用负载类型(如计算密集型、内存密集型)选择对应的CCI实例类型(如c6.large计算优化型、r6.large内存优化型)。 4. 权限不足(如无法访问CCI资源)常见原因:IAM角色配置错误(如未授予CloudBursting所需的“cci:CreateInstance”权限);密钥对或证书过期(华为云Service Principal过期);安全组或网络ACL规则限制(如未允许本地IP访问CCI端口)。解决方法:核查IAM权限:通过华为云IAM控制台检查用户或角色的权限,确保包含“cci:CreateInstance”“cci:ScaleOut”等CloudBursting所需权限;更新密钥对:检查Access Key ID或证书的有效期,若过期需重新生成并配置;调整安全组规则:通过华为云控制台开放安全组的“入方向”规则,允许本地IP访问CCI的端口(如TCP 443)。 5. 监控与报警缺失(如无法及时发现故障)常见原因:木有配置关键指标的监控(如未监控CCI Pod的CPU利用率);报警阈值设置不合理(如阈值过高,导致报警不及时);报警渠道未配置(如未绑定Slack、邮件等通知方式)。解决方法:配置监控指标:通过华为云AOM对接CCI,添加“CPU利用率”“内存使用率”“网络吞吐量”等关键指标的监控;设置报警规则:在AOM控制台创建报警规则(如CPU利用率>80%持续5分钟触发报警),绑定邮件或短信通知;使用日志告警:通过华为云LTS(云日志服务)配置日志告警(如Pod事件中出现“FailedScheduling”时触发报警),及时发现调度失败问题。
-
华为云 CCI(云容器实例)的云原生 CloudBursting 解决方案提供灵活的计费方式和全托管能力,帮助企业降低资源成本与管理复杂度。一、CloudBursting 计费方式1. 按需计费(秒级结算)核心机制:弹性扩展至 CCI 的 Pod 按实际使用时长计费,秒级粒度,每小时整点结算计费项:CPU 与内存:按容器实例的 vCPU 核数和内存 GiB 数计算,公式为 核数 × 单价 × 时长。例如,2.5 核容器运行 2 小时,计费为 5 核时GPU 资源:若使用 GPU 加速型实例,额外按 GPU 型号和使用时长计费。适用场景:电商大促、金融交易等突发流量场景,资源按需释放,避免长期闲置临时测试、AI 训练等短期任务,支持分钟级资源池化 2. 套餐包计费(预付费折扣)核心机制:提前购买 CPU 核时或内存 GiB 时的资源包,按包周期价格使用,资源耗尽后自动转为按需计费。优势点:成本节省:包年套餐最低约为按需价格的 6 折,适合长期稳定业务。灵活扩容:套餐包可叠加使用,支持动态调整资源配额,避免传统包周期模式的资源僵化。套餐档位:提供 1000、10000、100000 核时 / GB 时三档,满足不同用量需求。3. 跨云资源计费规则混合云场景:本地 IDC 或 CCE 集群通过 Virtual Kubelet 插件弹性至 CCI 时,仅对 CCI 侧新增的 Pod 资源按上述方式计费,本地资源仍按原有计费模式结算资源规整优化:CCI 自动调整 Pod 规格(如 CPU 向上取 0.25 核倍数、内存取 1GiB 倍数),确保计费资源与实际需求匹配,避免超配浪费 二、降低管理维护成本的核心策略1. 全托管架构与自动化运维零集群管理:CCI 作为 Serverless 容器服务,用户无需维护 Kubernetes 集群、节点或 Master 组件,基础设施由华为云完全托管弹性策略自动化:HPA+CronHPA 组合:根据 CPU / 内存使用率(如阈值 60%)动态扩缩容,同时支持周期性弹性(如每日 21 点自动扩容),减少人工干预智能调度标签:在工作负载中添加 virtual-kubelet.io/burst-to-cci 标签,支持 auto(自动决策)、localPrefer(优先本地)、enforce(强制 CCI)三种调度模式,实现资源智能分配2. 工具链集成与统一监控COC 云运维中心:补丁管理:自动扫描 CCE 集群和 CCI 实例的 OS 补丁合规性,支持一键修复高危漏洞,降低安全运维成本定时任务:通过脚本或作业编排,实现周期性资源巡检、日志清理等操作,减少重复性工作AOM 监控与日志分析:多维度指标:实时监控 CPU、内存、网络流量等基础指标,支持 Prometheus 查询和 Grafana 可视化日志自动采集:CCI Pod 内置 Fluent-Bit 插件,将日志自动上传至 Kafka 或 LTS(日志服务),便于故障快速定位 3. 资源优化与弹性效率提升规格规整算法:按需调整:CCI 自动将 Pod 的 CPU / 内存规格调整至 0.25 核 / 1GiB 的整数倍,并确保存算比在 1:2~1:8 之间,避免资源碎片化增量同步:镜像和配置文件通过增量同步技术(如 SWR 镜像服务)减少带宽消耗,提升部署效率成本分析与预算管理:成本中心:通过华为云成本中心按企业项目、标签或子账号归集费用,实现精细化成本分摊预算告警:设置按需计费预算阈值(如每月 2000 元),当预测费用超过 80% 时自动发送通知,避免超支4. 混合云协同与零改造迁移无缝网络互通:跨云 Service:CCE 集群与 CCI 实例通过 Kubernetes 原生 Service 实现互通,支持南北向和东西向流量分发地址替换:通过正则表达式自动替换 Pod 配置中的镜像地址,实现业务零代码迁移至 CCI弹性容灾能力:秒级恢复:异常 Pod 自动重启,故障恢复时间控制在 10 分钟内,结合华为云高可用架构(如多可用区部署)保障业务连续性三、典型案例与成本收益电商大促场景:优化前:提前预置 100 台 16u 服务器应对峰值,低峰期资源利用率不足 10%,月成本约 15 万元。优化后:采用 CCE+CCI 混合架构,仅保留 20% 基础资源在 CCE,峰值流量自动弹性至 CCI,月成本降至 6 万元,节省 60%AI 训练场景:效率提升:结合 “朝推夜训” 策略,白天推理任务运行在 CCE,夜间训练任务弹性至 CCI,资源利用率提升 30%,训练周期缩短 50%四、总结一下下华为云 CCI 的 CloudBursting 通过按需计费 + 套餐包的灵活模式,结合全托管架构、自动化运维工具、资源优化算法,帮助企业实现:成本降低:按需释放资源,避免传统模式的 30%-60% 资源浪费运维提效:减少 80% 以上的集群管理工作量,故障响应时间从小时级缩短至分钟级弹性敏捷:支持 4000 Pods/30 秒的极速扩容,从容应对突发流量(如 50 + 次热点事件)建议企业根据业务波动性选择计费模式,优先启用自动化运维工具链,并通过资源规整和预算管理持续优化成本结构。
-
请查阅参考昇腾社区文档:https://gitee.com/ascend/MindSpeed/blob/master/docs/features/communication-over-computation.md#%E8%AE%A1%E7%AE%97%E9%80%9A%E4%BF%A1%E5%B9%B6%E8%A1%8C-coc-communication-over-computation
-
请查阅参考昇腾社区文档:https://gitee.com/ascend/MindSpeed/blob/master/docs/features/npu_matmul_add.md
-
请查阅参考昇腾社区文档:https://gitee.com/ascend/MindSpeed/blob/master/docs/features/moe-token-permute-and-unpermute.md
-
请查阅参考昇腾社区文档:https://gitee.com/ascend/MindSpeed/blob/master/docs/features/flash-attention.md
-
请查阅参考昇腾社区文档:https://gitee.com/ascend/MindSpeed/blob/master/docs/features/rotary-embedding.md
-
请查阅参考昇腾社区文档:https://gitee.com/ascend/MindSpeed/blob/master/docs/features/swiglu.md
上滑加载中
推荐直播
-
华为云码道-玩转OpenClaw,在线养虾2026/03/11 周三 19:00-21:00
刘昱,华为云高级工程师/谈心,华为云技术专家/李海仑,上海圭卓智能科技有限公司CEO
OpenClaw 火爆开发者圈,华为云码道最新推出 Skill ——开发者只需输入一句口令,即可部署一个功能完整的「小龙虾」智能体。直播带你玩转华为云码道,玩转OpenClaw
回顾中 -
华为云码道-AI时代应用开发利器2026/03/18 周三 19:00-20:00
童得力,华为云开发者生态运营总监/姚圣伟,华为云HCDE开发者专家
本次直播由华为专家带你实战应用开发,看华为云码道(CodeArts)代码智能体如何在AI时代让你的创意应用快速落地。更有华为云HCDE开发者专家带你用码道玩转JiuwenClaw,让小艺成为你的AI助理。
回顾中 -
Skill 构建 × 智能创作:基于华为云码道的 AI 内容生产提效方案2026/03/25 周三 19:00-20:00
余伟,华为云软件研发工程师/万邵业(万少),华为云HCDE开发者专家
本次直播带来两大实战:华为云码道 Skill-Creator 手把手搭建专属知识库 Skill;如何用码道提效 OpenClaw 小说文本,打造从大纲到成稿的 AI 原创小说全链路。技术干货 + OPC创作思路,一次讲透!
回顾中
热门标签