• [技术干货] Ascend>MindSpeed>Gloo 存档落盘优化
    请查阅参考昇腾社区文档:https://gitee.com/ascend/MindSpeed/blob/master/docs/features/hccl-replace-gloo.md 
  • [公告] 【华为云社区外部版主】2025年9月激励评比结果已公布!
    各位亲爱的版主们,大家好!经过大家一个月的努力角逐,9月外部版主激励评比结果已出炉,数据公示如下,请查看!(在新标签页打开图片可查看清晰大图/见附件)·外部版主激励规则:点击了解更多转正礼/基础任务/额外任务(在线时长15小时+,主题帖15+,回帖30+,技术长文5+/原创技术干货1+,合集1+,有效回复问题求助帖10+,话题互动1+,完成这4项指标可获对应价值的代金券/实物礼品)请完成任务获得激励的版主,点击填写激励发放意愿统计问卷反馈截止时间:2025年10月29日,以便小编进行相应的激励发放。 注:在线时长数据达标后,才会再去考察达标版主的三项任务完成情况;主题数+回帖数达标后,才会再去考察达标版主的技术长文数量情况。
  • [技术干货] Ascend>MindSpeed>fusion_attention_v2
    请查阅参考昇腾社区文档:https://gitee.com/ascend/MindSpeed/blob/master/docs/features/fusion-attn-v2.md 
  • [技术干货] Ascend>MindSpeed>Ascend MC2
    请查阅参考昇腾社区文档:https://gitee.com/ascend/MindSpeed/blob/master/docs/features/mc2.md 
  • 华为云CCI弹性伸缩策略配置指南
    华为云CCI的弹性伸缩策略旨在通过​​自动或手动调整容器实例数量​​,应对业务负载的动态变化,实现资源的高效利用与成本优化。配置方式主要分为两类:​​通过CCE集群集成Virtual Kubelet插件实现弹性扩展​​(将CCE负载弹性到CCI)、​​直接在CCI控制台配置负载弹性策略​​(告警、定时、周期)。 ​​一、通过CCE集群集成Virtual Kubelet插件配置弹性伸缩​​该方式适用于​​混合云场景​​,将CCE(云容器引擎)中的无状态负载(Deployment、StatefulSet、Job)弹性扩展至CCI,无需管理底层节点,实现秒级扩容。​​1. 前提条件​​已创建CCE集群(版本≥v1.11)。已开通CCI服务(CCI 2.0需提交工单申请白名单,1.0即将日落)。​​2. 安装Virtual Kubelet插件​​Virtual Kubelet是连接CCE与CCI的核心插件,负责将CCE负载调度至CCI。 ​​操作步骤​​:登录CCE控制台,进入目标集群。左侧导航栏选择​​插件管理​​→​​插件市场​​,找到“virtual-kubelet”插件,点击​​安装​​。在“规格配置”中,勾选​​跨服务互通​​(实现CCE与CCI的Service网络互通),点击​​安装​​。​​3. 配置CCI弹性承载策略​​通过策略控制CCE负载的弹性调度规则(如本地优先、强制调度、CCI最大实例数)。 ​​操作方式​​(以控制台为例):登录CCE控制台,进入目标集群,选择​​策略​​→​​CCI弹性承载策略​​。点击​​创建CCI弹性承载策略​​,填写以下参数:​​策略名称​​:自定义(如“nginx-cci-policy”)。​​命名空间​​:选择策略生效的命名空间(如“default”)。​​关联负载​​:通过标签匹配需弹性的负载(如app: nginx)。​​调度策略​​:​​强制调度(enforce)​​:所有Pod均弹性至CCI。​​本地优先(localPrefer)​​:优先调度至CCE节点,资源不足时弹性至CCI(推荐)。​​自动调度(auto)​​:根据CCE调度器打分结果自动决定是否弹性至CCI。​​分配策略​​:​​本地最大实例数​​:设置CCE集群运行的最大Pod数量(如“20”)。​​CCI最大实例数​​:设置CCI运行的最大Pod数量(如“30”)。​​缩容优先级​​:设置本地与CCI的缩容顺序(数值越大越先缩容,取值范围[-100,100])。点击​​确定​​,完成策略创建。​​4. 创建/修改工作负载​​在CCE中创建或修改工作负载时,需关联上述策略,使负载能够弹性至CCI。 ​​操作方式​​(以控制台为例):登录CCE控制台,进入目标集群,选择​​工作负载​​→​​创建工作负载​​。在“基本信息”中,选择​​弹性至CCI​​(如“本地优先调度”)。在“高级配置”→​​标签与注解​​中,添加与CCI弹性承载策略匹配的标签(如app: nginx)。完成负载创建,此时负载将根据策略自动弹性至CCI。​​5. 验证弹性伸缩​​当CCE集群资源不足(如CPU/内存利用率超过阈值)时,Virtual Kubelet会自动将Pod调度至CCI。登录CCI控制台,进入​​负载管理​​→​​无状态负载​​,查看弹性创建的Pod状态(如“运行中”)。​​二、直接在CCI控制台配置负载弹性策略​​该方式适用于​​纯CCI场景​​,直接为CCI中的无状态负载配置​​告警策略​​(基于CPU/内存使用率)、​​定时策略​​(固定时间点扩容)、​​周期策略​​(按天/周/月扩容)。​​1. 前提条件​​已创建CCI集群(版本≥2.0)。已创建无状态负载(Deployment)。​​2. 配置告警策略(推荐)​​告警策略通过监控CPU/内存使用率,自动调整Pod数量,应对突发负载。 ​​操作步骤​​(以控制台为例):登录CCI控制台,进入​​负载管理​​→​​无状态负载​​,选择目标负载。点击​​弹性伸缩​​→​​YAML创建​​,输入以下YAML配置(示例):kind: HorizontalPodAutoscalerapiVersion: cci/v2metadata: name: nginx-hpa # 策略名称 namespace: default # 命名空间spec: scaleTargetRef: kind: Deployment name: nginx # 目标负载名称 apiVersion: cci/v2 minReplicas: 1 # 最小副本数 maxReplicas: 5 # 最大副本数 metrics: - type: Resource resource: name: cpu # 监控指标(CPU/内存) target: type: Utilization # 扩缩类型(利用率) averageUtilization: 50 # 触发阈值(如CPU利用率超过50%扩容) - type: Resource resource: name: memory target: type: Utilization averageUtilization: 60 # 内存利用率超过60%扩容点击​​确定​​,完成策略创建。​​说明​​:策略生效后,CCI会定期监控负载的CPU/内存使用率,当超过阈值时自动增加副本数,低于阈值时减少副本数。可通过​​负载详情​​→​​弹性伸缩​​查看策略状态(如“已启动”)。​​3. 配置定时/周期策略(CCI 1.0)​​定时策略用于在​​特定时间点​​扩容(如秒杀活动前),周期策略用于​​按天/周/月​​周期性扩容(如工作日高峰)。 ​​操作步骤​​(以控制台为例):登录CCI 1.0控制台,进入​​负载管理​​→​​无状态负载​​,选择目标负载。点击​​弹性伸缩​​→​​添加伸缩策略​​,选择​​定时策略​​或​​周期策略​​:​​定时策略​​:填写​​触发时间​​(如“2025-10-21 20:00:00”)、​​执行操作​​(如“增加2个实例”)。​​周期策略​​:选择​​周期​​(如“每天”)、​​触发时间​​(如“18:00”)、​​执行操作​​(如“增加3个实例”)。点击​​确定​​,完成策略创建。​​说明​​:定时/周期策略仅在CCI 1.0中支持,CCI 2.0需使用告警策略或通过CCE集成实现。​​三、注意事项​​​​CCI版本差异​​:CCI 2.0支持告警策略、定时/周期策略(部分功能),需提交工单申请白名单。CCI 1.0支持告警、定时、周期策略,即将日落,建议迁移至CCI 2.0。​​资源规格要求​​:弹性至CCI的Pod需满足CCI的资源规范(如CPU≥0.25核、内存≥0.2GiB),否则会被自动规整。​​网络与存储​​:需确保CCE与CCI的VPC网络互通(通过VPC peering或专线)。Pod的存储需使用ConfigMap、Secret或CCI支持的云存储(如OBS、EVS),不支持本地磁盘。​​成本优化​​:使用​​按需计费​​模式,仅在需要时付费,降低成本。设置​​缩容优先级​​,优先缩容空闲实例,避免资源浪费。​​四、常见问题排查​​​​弹性伸缩未触发​​:检查告警策略的阈值设置是否合理(如CPU利用率阈值过低)。确认负载的CPU/内存使用率是否达到阈值(通过CCI控制台查看监控数据)。​​Pod无法调度至CCI​​:检查Virtual Kubelet插件是否安装并运行(通过CCE控制台查看插件状态)。确认负载的标签与CCI弹性承载策略匹配(如app: nginx)。​​网络不通​​:检查CCE与CCI的VPC网络是否互通(通过ping或telnet测试)。确认CCI的Service是否正确配置(如ClusterIP、NodePort)。​​总结​​一下下华为云CCI的弹性伸缩策略配置灵活,支持​​混合云集成​​与​​纯CCI场景​​,通过Virtual Kubelet插件或直接配置策略,可实现秒级扩容,应对突发负载。建议根据业务场景选择合适的配置方式(如混合云用CCE集成,纯CCI用告警策略),并定期优化策略参数,确保资源利用率与成本的最优平衡。 可以参考看看华为云官方文档:CCI弹性伸缩指南、CCE与CCI集成指南。
  • 解密GaussDB中sync_percent的计算
    在 GaussDB 中,通过 gs_ctl query命令获取的主集群信息中,sync_percent(同步百分比)字段表示 ​​主节点(Primary)与备节点(Standby)之间 WAL 日志的同步进度​​。​​计算公式​​sync_percent = (备节点已接收的 WAL LSN - 主节点初始 LSN) / (主节点当前 LSN - 主节点初始 LSN) × 100%​​关键参数说明​​:​​主节点初始 LSN​​:主节点开始记录 WAL 日志的起始位置(通常为 0/0)。​​主节点当前 LSN​​:主节点最新生成的 WAL 日志位置(通过 pg_current_wal_lsn()获取)。​​备节点已接收的 LSN​​:备节点通过流复制接收的最新 WAL 日志位置(通过 pg_last_wal_receive_lsn()获取)。​​计算逻辑详解​​​​WAL 日志的生成与同步​​:主节点执行事务时,先将修改写入 WAL 日志(pg_wal目录),并同步到备节点。备节点接收 WAL 日志后,通过 pg_wal_lsn_diff()函数计算与主节点的 LSN 差异。​​同步状态判定​​:​​100% 同步​​:备节点的 LSN 等于主节点的当前 LSN(sync_percent = 100%)。​​部分同步​​:备节点的 LSN 滞后于主节点(sync_percent < 100%),表明存在延迟。​​异常状态​​:若备节点的 LSN 长期未更新,可能触发告警(如 sync_percent持续低于阈值)。​​示例计算​​:主节点初始 LSN:0/0。主节点当前 LSN:0/3000(总增量 3000)。备节点接收 LSN:0/1800。同步百分比:(1800 - 0) / (3000 - 0) × 100% = 60%。​​实际应用场景​​​​监控复制延迟​​:通过 sync_percent可实时监控主备同步状态,判断是否存在性能瓶颈(如网络延迟、备节点负载过高)。若 sync_percent长期低于 90%,需排查备节点资源或网络问题。​​故障恢复验证​​:主备切换后,检查 sync_percent是否恢复至 100%,确保数据一致性。​​性能调优依据​​:若同步延迟较高,可优化备节点硬件(如 SSD 存储)、调整 wal_buffers或 max_wal_senders参数。​​相关命令与查询​​​​查看 WAL LSN 信息​​:-- 主节点当前 LSNSELECT pg_current_wal_lsn();-- 备节点接收的 LSNSELECT pg_last_wal_receive_lsn();​​通过 gs_ctl query获取同步状态​​:gs_ctl query -D /data/cluster/var/lib/engine/data1/data/dn_6001 | grep sync_percent​​监控工具集成​​:GaussDB 的监控指标(如 pg_stat_replication视图)会直接暴露 sync_percent,供 Prometheus 等工具采集。​​注意一下下​​LSN 的物理意义​​:WAL 日志是追加写入的,LSN 代表日志文件中的字节偏移量,与事务的物理顺序一致。​​跨版本兼容性​​:不同 GaussDB 版本可能对 sync_percent的计算逻辑有细微差异,需参考对应版本的官方网页。​​主备角色切换​​:在故障切换后,原主节点可能变为备节点,需重新计算同步百分比。
  • 华为CCI与Kubernetes集群的关系:从互补到协同的云原生实践
    在云原生技术快速发展的今天,​​华为云容器实例(CCI)​​与​​Kubernetes(K8s)集群​​已成为企业构建弹性容器化应用的核心组件。两者既存在功能定位的差异,又通过深度集成形成互补的生态体系。一、CCI与K8s集群的核心定位差异1. ​​Kubernetes集群:企业级容器编排平台​​​​全栈管理能力​​:提供从节点运维、Pod调度、服务发现到存储网络管理的完整生命周期管理能力,适用于需要长期稳定运行的业务(如电商中台、微服务架构)。​​资源独占性​​:需预先创建并管理Master/Worker节点,资源按需分配但需持续付费。​​典型场景​​:混合云/多云环境下的统一调度有状态应用(如数据库、消息队列)的稳定运行需要自定义网络策略和存储卷的场景2. ​​CCI:Serverless容器引擎​​​​无服务器架构​​:无需管理底层节点,直接以Pod粒度运行容器,按秒级计费,资源空闲时自动释放。​​Kubernetes兼容性​​:支持标准K8s API(如kubectl、Deployment/Job资源),但底层依赖华为云虚拟化资源池。​​典型场景​​:突发流量应对(如电商大促、直播活动)批处理任务(如数据分析、CI/CD流水线)临时测试环境搭建二、CCI与K8s集群的协同关系1. ​​架构互补:从“稳态”到“敏态”的延伸​​​​K8s集群作为控制平面​​:管理核心业务节点,保障高可用性和持久化存储。​​CCI作为弹性扩展层​​:通过​​Virtual Kubelet​​插件,将K8s集群的资源请求自动路由至CCI,实现秒级扩容。# 示例:在K8s Deployment中启用CCI弹性metadata: labels: virtual-kubelet.io/burst-to-cci: "auto" # 自动弹性策略2. ​​资源调度联动​​​​跨集群Pod调度​​:K8s集群资源不足时,CCI可动态承接溢出Pod,两者通过​​Service网络互通​​实现负载均衡。​​存储一致性​​:CCI支持挂载华为云OBS、EVS等存储,与K8s PersistentVolume(PV)无缝对接,保障数据持久性。3. ​​运维统一化​​​​监控与日志​​:通过华为云AOM(应用运维管理)统一采集K8s集群与CCI的指标,实现端到端可观测性。​​权限管理​​:使用华为云RAM角色统一授权,避免多账户密钥管理的复杂性。三、典型应用场景与操作实践场景1:混合云弹性伸缩​​需求​​:某电商大促期间,需将IDC内的K8s集群流量突增到云上。 ​​实现步骤​​:​​安装弹性套件​​:在K8s集群中部署Virtual Kubelet插件,配置CCI访问权限。​​标签化资源​​:为Deployment添加burst-to-cci: "enforce"标签,强制弹性至CCI。​​流量切换​​:通过Service将新增流量导向CCI Pod,原集群处理核心业务。场景2:低成本批处理任务​​需求​​:运行周期性数据分析任务,避免长期占用K8s集群资源。 ​​实现步骤​​:​​创建Job资源​​:在K8s中定义Job,指定backoffLimit和资源请求。​​自动路由至CCI​​:通过注解cloud.tencent.com/cci.enabled: "true"触发CCI执行。​​计费验证​​:任务完成后,CCI按实际运行时间(秒级)计费,成本降低60%以上。四、深度集成:从理论到实践1. ​​网络互通方案​​​​VPC对等连接​​:确保K8s集群与CCI所属VPC的CIDR块不重叠,通过华为云VPC Peering实现内网互通。​​Ingress跨集群路由​​:使用Nginx Ingress Controller同时管理K8s和CCI的流量,通过路径规则分流请求。2. ​​镜像同步策略​​​​SWR镜像仓库​​:将K8s集群使用的镜像同步至华为云容器镜像服务(SWR),CCI直接拉取私有镜像。​​自动化同步工具​​:使用skopeo或华为云镜像同步API,实现CI/CD流水线中镜像的跨仓库分发。3. ​​监控与告警联动​​​​Prometheus联邦​​:在K8s集群部署Prometheus,通过Federation采集CCI的指标(如CPU/内存使用率)。​​告警规则​​:当CCI Pod的错误率超过阈值时,触发企业微信/邮件通知,并自动回滚至K8s集群。五、选型建议与最佳实践1. ​​何时选择CCI?​​业务具有突发性、不可预测的流量特征。需要快速启动临时环境(如测试、演示)。希望彻底规避节点运维成本(如补丁更新、故障恢复)。2. ​​何时选择K8s集群?​​需要长期稳定运行有状态服务。对网络延迟敏感(如实时交易系统)。需要自定义调度策略(如GPU亲和性)。3. ​​混合架构设计原则​​​​核心业务保稳定​​:关键服务部署在K8s集群,通过HPA(水平Pod自动扩展)应对常规流量波动。​​边缘业务靠弹性​​:非核心任务(如日志处理、批量计算)迁移至CCI,按需付费。​​统一治理​​:通过Istio服务网格实现K8s与CCI的流量治理,保障服务发现和熔断机制一致性。六、总结一下下华为CCI与Kubernetes集群并非替代关系,而是通过​​Serverless能力补充传统K8s的弹性短板​​,形成“稳态+敏态”的混合架构。企业可根据业务特性灵活组合两者:​​K8s集群​​:作为基础设施的“控制平面”,保障核心业务稳定性。​​CCI​​:作为资源调度的“弹性层”,应对流量洪峰与临时需求。这种架构不仅降低了运维复杂度,还能通过按需付费模式显著优化成本。未来,随着云原生技术的演进,CCI与K8s的协同将更加紧密,成为企业构建下一代应用架构的基石。 ​​参考资料​​: 华为云CCI与CCE功能对比 CCI产品网页(Serverless特性) 华为云DTSE Tech Talk:Cloud Bursting实践 CCI开发者指南(kubectl集成)
  • 华为云 CCI 的 CloudBursting 解决方案中常见故障排除
    在华为云 CCI 的 CloudBursting 解决方案中,故障排除和调试需结合日志分析、监控指标、网络配置及插件状态等多维度进行。(横向分层架构,从左至右体现 “本地→连接→公有云” 弹性流向)+---------------------+ +-----------------------+ +---------------------+ | 本地数据中心 | | 混合云网络层 | | 公有云 | | (On-Premises) |<----->| (Hybrid Network) |<----->| (Public Cloud) | +---------------------+ +-----------------------+ +---------------------+ | - 物理服务器/ | | - VPN/专线(如 | | - IaaS层(EC2/VM) | | 私有云(OpenStack)| | 华为云ExpressRoute)| | - PaaS层(CCI/EKS)| | - Kubernetes集群 | | - SD-WAN | | - 对象存储(OBS/S3)| | - 本地负载均衡器 | | - 防火墙/ACL | | - 数据库(RDS) | | - 监控代理(如Prometheus)| +-----------------------+ +---------------------+ +---------------------+ ↑ ↑ | | +-----------v-----------+ +------v--------+ | 监控与控制平面 | | 弹性伸缩策略 | | (Monitoring & Control)| | (Auto Scaling)| +---------------------+ +---------------+ | - 指标采集(CPU/内存)| | - 触发条件(阈值)| | - 日志分析(LTS/CloudWatch)| | - 冷却时间 | | - 报警引擎(邮件/Slack)| | - 扩展方向(本地↔云)| +---------------------+ +---------------+ ↑ ↑ +-----------v-----------+ +------v--------+ | 应用与数据层 | | 云资源池 | | (Applications & Data) | | (Cloud Resources)| +---------------------+ +-----------------+ | - 微服务/容器化应用 | | - 预留实例 | | - 共享数据库/缓存 | | - 竞价实例 | +---------------------+ +-----------------+一、日志分析与监控体系1. 容器日志采集标准输出 / 错误日志:CCI 默认通过 Fluent-Bit 将容器stdout/stderr日志实时上传至华为云日志服务(LTS),支持 JSON 格式解析和关键词搜索。比如,在 LTS 控制台创建日志流app-stdout-stream,并通过标签app: my-demo-app过滤特定应用的日志。文件日志采集:若应用将日志写入容器内文件(如/app/logs/app.log),需在 CCI Pod 的 YAML 中挂载emptyDir卷,并在 LTS 中配置文件路径采集规则。日志生命周期管理:AOM 每月赠送 500M 免费日志存储空间,超过部分需按实际用量计费。建议定期清理历史日志或配置日志转储至 OBS 长期存储2. 指标监控与告警AOM Prometheus 服务:通过 ServiceMonitor 自动发现 CCI Pod 暴露的指标端点(如/metrics),并采集 CPU、内存、网络流量等基础指标。例如,在 Service 的注解中添加prometheus.io/scrape: 'true',AOM 将自动抓取指标并支持 Grafana 可视化。短生命周期任务指标:对于批处理作业,使用 Pushgateway+Remote Write 模式。任务启动时将指标推送到 Pushgateway,AOM 定期抓取后写入 LTS,确保指标不丢失。告警规则配置:在 AOM 或 LTS 中设置阈值告警(如 CPU 使用率 > 80%)或日志内容告警(如包含ERROR堆栈),通过 SMN 短信 / 邮件实时通知运维人员。二、Virtual Kubelet 插件状态检查1. 插件版本验证兼容性问题:插件版本需与 CCE 集群兼容。例如,插件回退至 1.5.18 以下版本后,可能导致新弹性到 CCI 的 Pod 无法通过 Service 访问,需升级至 1.5.18 + 或删除重建 Pod插件卸载失败:若因镜像拉取失败导致卸载失败,需手动删除resource-gc-jobs和namespace-gc-jobs kubectl get job -nkube-system | grep "virtual-kubelet-.*-resource-gc-jobs" kubectl delete job -nkube-system xxx kubectl get job -nkube-system | grep "virtual-kubelet-.*-namespace-gc-jobs" kubectl delete job -nkube-system yyy2. 弹性调度策略验证标签配置:确保工作负载添加了virtual-kubelet.io/burst-to-cci标签,并根据需求设置auto、localPrefer或enforce调度模式。例如,localPrefer表示优先使用本地 CCE 节点,不足时再弹性至 CCI。资源规格匹配:Pod 的 CPU / 内存请求需符合 CCI 要求(如 CPU 为 0.25 核倍数、内存为 1GiB 倍数,且存算比在 1:2~1:8 之间),否则会调度失败。三、网络连通性排查1. 跨云互通验证Service 发现:CCI Pod 通过 Sidecar 容器同步 Kubernetes Service 信息。若业务容器启动时依赖 Service 访问,可能因同步延迟导致首次失败,升级插件至 1.5.28 + 可解决此问题网络策略冲突:检查 CCE 集群子网是否与 CCI 命名空间的 Service 网段(如 10.247.0.0/16)重叠,若冲突需重新规划子网 2. 网络诊断工具命令行测试:使用kubectl exec进入 CCI Pod,通过curl或telnet验证与其他服务的连通性。kubectl exec -it cci-pod -- curl http://service-name.namespace.svc.cluster.local:port 流量抓包:在 CCE 节点或 CCI 实例中使用tcpdump抓包,分析网络层问题。例如,抓取 Pod 与 Service 之间的流量:  tcpdump -i any port 80 -w cci-traffic.pcap  四、资源配额与实例状态管理1. 配额超限处理配额查看:在华为云控制台的 “我的配额” 页面查看 CCI 实例、vCPU、内存等资源的使用情况及配额限制。例如,单账户默认最多创建 100 个 CCI 实例。配额申请:若配额不足,可提交工单或在控制台申请扩容。注意 GPU 资源可能因库存不足无法立即申请。2. 实例状态监控CCI 控制台:在 CCI 管理界面查看实例列表,检查 Pod 状态(如Running、Failed)及详细信息(如启动时间、终止原因)。事件日志分析:通过kubectl describe pod查看 Pod 事件kubectl describe pod cci-pod | grep -A 10 "Events:" 常见事件包括镜像拉取失败(Failed to pull image)、资源不足(OOMKilled)等。五、常见故障处理流程1. 弹性失败(Pod 未创建)排查步骤:检查 Virtual Kubelet 插件是否正常运行(kubectl get pods -nkube-system | grep virtual-kubelet)。查看 CCE 集群事件,确认是否有调度失败原因(如NoNodesAvailable)。验证 CCI 配额是否充足,资源规格是否符合要求。2. Service 访问异常排查步骤:检查 Sidecar 容器状态(kubectl get pods -ncci-system)。验证 Service 的clusterIP是否可达,通过kubectl get service查看 IP 地址。若插件版本低于 1.5.18,尝试升级或重建 Pod3. 日志丢失或不完整排查步骤:确认 LTS 日志流配置正确,标签和过滤规则无误。检查 Fluent-Bit 插件是否正常运行(kubectl get pods -ncci-system)。对于文件日志,确保emptyDir卷挂载正确且路径配置正确。六、自动化运维工具链1. COC 云运维中心补丁管理:自动扫描 CCE 节点和 CCI 实例的 OS 补丁合规性,支持一键修复高危漏洞定时任务:通过脚本或作业编排,定期清理无效 CCI 实例、归档日志文件,减少人工操作 2. 混沌工程演练故障注入测试:使用 ChaosBlade 等工具模拟网络延迟、节点故障等场景,验证 CloudBursting 的容错能力和恢复机制。弹性策略优化:根据演练结果调整 HPA 阈值或 CronHPA 策略,确保资源弹性符合业务需求。七、一些文档参考1. 官方文档CCI 用户指南:包含日志采集、插件配置、常见问题等详细说明,可访问华为云帮助中心AOM/LTS 操作手册:提供监控指标定义、告警配置等操作指引。2. 技术支持工单系统:提交工单时需提供详细信息(如故障时间、Pod 名称、日志片段),以便工程师快速定位问题。社区资源:在华为云社区或开发者论坛搜索相似问题,参考其他用户的解决方案。八、常见场景的故障排除与解决方法​​​​1. 资源调度失败(如无法扩容至CCI)​​​​常见原因​​:CCI资源售罄(如virtual-kubelet节点被锁定);弹性伸缩策略配置错误(如阈值设置不合理、冷却时间过长);节点状态异常(如CCE集群节点不可用)。​​解决方法​​:​​检查节点状态​​:通过kubectl get node查看virtual-kubelet节点状态,若为SchedulingDisabled(锁定状态),需手动解锁节点(如通过CCE控制台或API);​​调整弹性策略​​:通过华为云控制台修改弹性伸缩策略的“触发条件”(如将CPU阈值从70%降至60%)和“冷却时间”(如从5分钟缩短至2分钟),避免频繁扩容失败;​​核查资源配额​​:确保CCE集群节点的资源配额足够(如CPU、内存),避免因节点资源不足导致调度失败。 ​​2. 网络延迟或中断(如跨云通信缓慢)​​​​常见原因​​:混合云网络链路质量差(如VPN带宽不足、专线延迟高);路由规则配置错误(如DNS解析失败、安全组未开放端口);CCI实例网络配置问题(如弹性IP未绑定、安全组规则冲突)。​​解决方法​​:​​验证网络链路​​:使用traceroute命令测试本地集群到CCI的网络延迟,确保链路稳定;​​检查路由与安全组​​:通过华为云控制台确认VPC peering或VPN连接的“路由表”是否正确,安全组是否开放了CCI所需的端口(如TCP 80/443);​​配置DNS解析​​:若Pod需要访问外部服务,可通过kubectl edit deploy命令添加--cluster-dns参数,配置指定的DNS服务器地址(如华为云内网DNS),确保DNS解析正常。 ​​3. 性能瓶颈(如CCI Pod CPU/内存过高)​​​​常见原因​​:弹性伸缩阈值设置不合理(如未及时触发扩容);应用程序未优化(如内存泄漏、线程池配置不当);CCI实例类型选择错误(如计算密集型应用使用了内存优化型实例)。​​解决方法​​:​​监控资源指标​​:通过华为云AOM(应用运维管理服务)查看CCI Pod的“CPU利用率”“内存使用率”指标,若持续高于80%,需调整弹性策略的“触发条件”(如将CPU阈值从70%降至60%);​​优化应用程序​​:使用华为云LTS(云日志服务)查看应用日志,分析是否存在内存泄漏或线程池配置不当的问题,优化应用代码;​​选择合适实例类型​​:根据应用负载类型(如计算密集型、内存密集型)选择对应的CCI实例类型(如c6.large计算优化型、r6.large内存优化型)。 ​​4. 权限不足(如无法访问CCI资源)​​​​常见原因​​:IAM角色配置错误(如未授予CloudBursting所需的“cci:CreateInstance”权限);密钥对或证书过期(华为云Service Principal过期);安全组或网络ACL规则限制(如未允许本地IP访问CCI端口)。​​解决方法​​:​​核查IAM权限​​:通过华为云IAM控制台检查用户或角色的权限,确保包含“cci:CreateInstance”“cci:ScaleOut”等CloudBursting所需权限;​​更新密钥对​​:检查Access Key ID或证书的有效期,若过期需重新生成并配置;​​调整安全组规则​​:通过华为云控制台开放安全组的“入方向”规则,允许本地IP访问CCI的端口(如TCP 443)。 ​​5. 监控与报警缺失(如无法及时发现故障)​​​​常见原因​​:木有配置关键指标的监控(如未监控CCI Pod的CPU利用率);报警阈值设置不合理(如阈值过高,导致报警不及时);报警渠道未配置(如未绑定Slack、邮件等通知方式)。​​解决方法​​:​​配置监控指标​​:通过华为云AOM对接CCI,添加“CPU利用率”“内存使用率”“网络吞吐量”等关键指标的监控;​​设置报警规则​​:在AOM控制台创建报警规则(如CPU利用率>80%持续5分钟触发报警),绑定邮件或短信通知;​​使用日志告警​​:通过华为云LTS(云日志服务)配置日志告警(如Pod事件中出现“FailedScheduling”时触发报警),及时发现调度失败问题。 
  • 华为云 CCI的云原生 CloudBursting 解决方案计费模式详解
    华为云 CCI(云容器实例)的云原生 CloudBursting 解决方案提供灵活的计费方式和全托管能力,帮助企业降低资源成本与管理复杂度。一、CloudBursting 计费方式1. 按需计费(秒级结算)核心机制:弹性扩展至 CCI 的 Pod 按实际使用时长计费,秒级粒度,每小时整点结算计费项:CPU 与内存:按容器实例的 vCPU 核数和内存 GiB 数计算,公式为 核数 × 单价 × 时长。例如,2.5 核容器运行 2 小时,计费为 5 核时GPU 资源:若使用 GPU 加速型实例,额外按 GPU 型号和使用时长计费。适用场景:电商大促、金融交易等突发流量场景,资源按需释放,避免长期闲置临时测试、AI 训练等短期任务,支持分钟级资源池化 2. 套餐包计费(预付费折扣)核心机制:提前购买 CPU 核时或内存 GiB 时的资源包,按包周期价格使用,资源耗尽后自动转为按需计费。优势点:成本节省:包年套餐最低约为按需价格的 6 折,适合长期稳定业务。灵活扩容:套餐包可叠加使用,支持动态调整资源配额,避免传统包周期模式的资源僵化。套餐档位:提供 1000、10000、100000 核时 / GB 时三档,满足不同用量需求。3. 跨云资源计费规则混合云场景:本地 IDC 或 CCE 集群通过 Virtual Kubelet 插件弹性至 CCI 时,仅对 CCI 侧新增的 Pod 资源按上述方式计费,本地资源仍按原有计费模式结算资源规整优化:CCI 自动调整 Pod 规格(如 CPU 向上取 0.25 核倍数、内存取 1GiB 倍数),确保计费资源与实际需求匹配,避免超配浪费 二、降低管理维护成本的核心策略1. 全托管架构与自动化运维零集群管理:CCI 作为 Serverless 容器服务,用户无需维护 Kubernetes 集群、节点或 Master 组件,基础设施由华为云完全托管弹性策略自动化:HPA+CronHPA 组合:根据 CPU / 内存使用率(如阈值 60%)动态扩缩容,同时支持周期性弹性(如每日 21 点自动扩容),减少人工干预智能调度标签:在工作负载中添加 virtual-kubelet.io/burst-to-cci 标签,支持 auto(自动决策)、localPrefer(优先本地)、enforce(强制 CCI)三种调度模式,实现资源智能分配2. 工具链集成与统一监控COC 云运维中心:补丁管理:自动扫描 CCE 集群和 CCI 实例的 OS 补丁合规性,支持一键修复高危漏洞,降低安全运维成本定时任务:通过脚本或作业编排,实现周期性资源巡检、日志清理等操作,减少重复性工作AOM 监控与日志分析:多维度指标:实时监控 CPU、内存、网络流量等基础指标,支持 Prometheus 查询和 Grafana 可视化日志自动采集:CCI Pod 内置 Fluent-Bit 插件,将日志自动上传至 Kafka 或 LTS(日志服务),便于故障快速定位 3. 资源优化与弹性效率提升规格规整算法:按需调整:CCI 自动将 Pod 的 CPU / 内存规格调整至 0.25 核 / 1GiB 的整数倍,并确保存算比在 1:2~1:8 之间,避免资源碎片化增量同步:镜像和配置文件通过增量同步技术(如 SWR 镜像服务)减少带宽消耗,提升部署效率成本分析与预算管理:成本中心:通过华为云成本中心按企业项目、标签或子账号归集费用,实现精细化成本分摊预算告警:设置按需计费预算阈值(如每月 2000 元),当预测费用超过 80% 时自动发送通知,避免超支4. 混合云协同与零改造迁移无缝网络互通:跨云 Service:CCE 集群与 CCI 实例通过 Kubernetes 原生 Service 实现互通,支持南北向和东西向流量分发地址替换:通过正则表达式自动替换 Pod 配置中的镜像地址,实现业务零代码迁移至 CCI弹性容灾能力:秒级恢复:异常 Pod 自动重启,故障恢复时间控制在 10 分钟内,结合华为云高可用架构(如多可用区部署)保障业务连续性三、典型案例与成本收益电商大促场景:优化前:提前预置 100 台 16u 服务器应对峰值,低峰期资源利用率不足 10%,月成本约 15 万元。优化后:采用 CCE+CCI 混合架构,仅保留 20% 基础资源在 CCE,峰值流量自动弹性至 CCI,月成本降至 6 万元,节省 60%AI 训练场景:效率提升:结合 “朝推夜训” 策略,白天推理任务运行在 CCE,夜间训练任务弹性至 CCI,资源利用率提升 30%,训练周期缩短 50%四、总结一下下华为云 CCI 的 CloudBursting 通过按需计费 + 套餐包的灵活模式,结合全托管架构、自动化运维工具、资源优化算法,帮助企业实现:成本降低:按需释放资源,避免传统模式的 30%-60% 资源浪费运维提效:减少 80% 以上的集群管理工作量,故障响应时间从小时级缩短至分钟级弹性敏捷:支持 4000 Pods/30 秒的极速扩容,从容应对突发流量(如 50 + 次热点事件)建议企业根据业务波动性选择计费模式,优先启用自动化运维工具链,并通过资源规整和预算管理持续优化成本结构。
  • [技术干货] Ascend>MindSpeed>计算通信并行 CoC (Communication Over Computation)
    请查阅参考昇腾社区文档:https://gitee.com/ascend/MindSpeed/blob/master/docs/features/communication-over-computation.md#%E8%AE%A1%E7%AE%97%E9%80%9A%E4%BF%A1%E5%B9%B6%E8%A1%8C-coc-communication-over-computation 
  • [技术干货] Ascend>MindSpeed>matmul_add融合优化
    请查阅参考昇腾社区文档:https://gitee.com/ascend/MindSpeed/blob/master/docs/features/npu_matmul_add.md 
  • [技术干货] Ascend>MindSpeed>MoE Token Permute and Unpermute 融合优化
    请查阅参考昇腾社区文档:https://gitee.com/ascend/MindSpeed/blob/master/docs/features/moe-token-permute-and-unpermute.md
  • [技术干货] Ascend>MindSpeed>Flash attention
    请查阅参考昇腾社区文档:https://gitee.com/ascend/MindSpeed/blob/master/docs/features/flash-attention.md 
  • [技术干货] Ascend>MindSpeed>Rotary Position Embedding 融合优化
    请查阅参考昇腾社区文档:https://gitee.com/ascend/MindSpeed/blob/master/docs/features/rotary-embedding.md
  • [技术干货] Ascend>MindSpeed>swiglu融合优化
    请查阅参考昇腾社区文档:https://gitee.com/ascend/MindSpeed/blob/master/docs/features/swiglu.md
总条数:1616 到第
上滑加载中