- Resources Scaleup in Kubernetes: Unleashing the Power of Efficient Resource Management作为 Kubernetes 开源项目的贡献者和资深技术专家,我将深入介绍 Kubernetes 中的 “Resources Scaleup” 概念,并提供详细的示例,以便更好地理解这一关键特性。 1. 什么是 Resou... Resources Scaleup in Kubernetes: Unleashing the Power of Efficient Resource Management作为 Kubernetes 开源项目的贡献者和资深技术专家,我将深入介绍 Kubernetes 中的 “Resources Scaleup” 概念,并提供详细的示例,以便更好地理解这一关键特性。 1. 什么是 Resou...
- 本文记录《幻域编年史》3D手游云原生化实战过程,针对测试阶段的核心问题提出解决方案:面对“城邦守卫战”NPC算力失衡,设计基于K8s的任务分片与Pod调度方案,降低卡顿率;解决跨Pod NPC行为不同步,引入ServiceMesh与时序补偿优化;针对模型资源回收漏洞,构建双端校验机制保障服务器稳定;适配多端云渲染,通过设备画像动态调整参数;搭建ELK与Jaeger系统实现日志分析与问题溯源。 本文记录《幻域编年史》3D手游云原生化实战过程,针对测试阶段的核心问题提出解决方案:面对“城邦守卫战”NPC算力失衡,设计基于K8s的任务分片与Pod调度方案,降低卡顿率;解决跨Pod NPC行为不同步,引入ServiceMesh与时序补偿优化;针对模型资源回收漏洞,构建双端校验机制保障服务器稳定;适配多端云渲染,通过设备画像动态调整参数;搭建ELK与Jaeger系统实现日志分析与问题溯源。
- 人们眼中的天才之所以卓越非凡,并非天资超人一等而是付出了持续不断的努力。1万小时的锤炼是任何人从平凡变成超凡的必要条件。———— 马尔科姆·格拉德威尔🌟 Hello,我是Xxtaoaooo!🌈 “代码是逻辑的诗篇,架构是思想的交响”作为一名在云原生领域摸爬滚打多年的开发者,我深知Kubernetes网络模型的复杂性和重要性。最近在深入学习K8s网络架构时,我尝试了一种全新的学习方式——与... 人们眼中的天才之所以卓越非凡,并非天资超人一等而是付出了持续不断的努力。1万小时的锤炼是任何人从平凡变成超凡的必要条件。———— 马尔科姆·格拉德威尔🌟 Hello,我是Xxtaoaooo!🌈 “代码是逻辑的诗篇,架构是思想的交响”作为一名在云原生领域摸爬滚打多年的开发者,我深知Kubernetes网络模型的复杂性和重要性。最近在深入学习K8s网络架构时,我尝试了一种全新的学习方式——与...
- 本文聚焦云原生边缘计算与分布式AI训练场景的两类高频隐蔽Bug,结合真实技术环境展开深度分析与修复。在AI训练场景中,K8s与NVIDIA GPU Operator协同下出现“GPU资源假分配”,因调度器与Device Plugin绑定存在时间差,通过多线程优化插件、添加初始化容器等解决; 本文聚焦云原生边缘计算与分布式AI训练场景的两类高频隐蔽Bug,结合真实技术环境展开深度分析与修复。在AI训练场景中,K8s与NVIDIA GPU Operator协同下出现“GPU资源假分配”,因调度器与Device Plugin绑定存在时间差,通过多线程优化插件、添加初始化容器等解决;
- 本文围绕某智能物流调度系统在云原生架构下的故障排查与优化展开。该系统基于Kubernetes、Istio等构建,业务扩张后高峰时段频发订单提交失败、调度信息延迟等问题。经分层排查,发现根源在于应用层连接池配置不合理、服务网格路由与负载均衡策略缺陷、资源调度及云边通信瓶颈等多层级协同失效。 本文围绕某智能物流调度系统在云原生架构下的故障排查与优化展开。该系统基于Kubernetes、Istio等构建,业务扩张后高峰时段频发订单提交失败、调度信息延迟等问题。经分层排查,发现根源在于应用层连接池配置不合理、服务网格路由与负载均衡策略缺陷、资源调度及云边通信瓶颈等多层级协同失效。
- 本文以智慧园区基于Istio 1.18构建的微服务体系为背景,聚焦设备调度服务与能源管理服务间的间歇性通信超时问题展开分析。通过抓包分析、日志追踪及配置校验,最终定位根源:研发团队更新VirtualService时采用“replace”策略,覆盖运维团队全局配置中“allow_headers”字段,导致新增HTTP头部触发Envoy配置校验失败,进而使连接限流参数回滚至默认值引发连接溢出。 本文以智慧园区基于Istio 1.18构建的微服务体系为背景,聚焦设备调度服务与能源管理服务间的间歇性通信超时问题展开分析。通过抓包分析、日志追踪及配置校验,最终定位根源:研发团队更新VirtualService时采用“replace”策略,覆盖运维团队全局配置中“allow_headers”字段,导致新增HTTP头部触发Envoy配置校验失败,进而使连接限流参数回滚至默认值引发连接溢出。
- 本文以Kubernetes 1.26混合云原生集群中核心交易Pod早高峰扩容时频发的调度失效问题为切入点,详细阐述了故障排查与解决全过程。通过分析cadvisor原生指标、启用调度器详细追踪模式并对比etcd快照,最终定位到自定义调度器因移除事件去重机制、延长缓存校验周期,在多事件叠加场景下出现缓存与etcd标签不一致的核心问题。 本文以Kubernetes 1.26混合云原生集群中核心交易Pod早高峰扩容时频发的调度失效问题为切入点,详细阐述了故障排查与解决全过程。通过分析cadvisor原生指标、启用调度器详细追踪模式并对比etcd快照,最终定位到自定义调度器因移除事件去重机制、延长缓存校验周期,在多事件叠加场景下出现缓存与etcd标签不一致的核心问题。
- 本文以某企业级云原生平台遭遇的集群资源耗尽故障为切入点,复盘了由ServiceAccount权限溢出引发的危机处置全流程。故障源于默认ServiceAccount过度授权与微服务镜像隐性缺陷叠加,导致临时Pod无节制创建并吞噬资源。文章详细阐述了从内核级监控定位根因、多维度紧急止损,到构建“分级授权+联动校验+底层加固”的权限治理体系的实践路径。 本文以某企业级云原生平台遭遇的集群资源耗尽故障为切入点,复盘了由ServiceAccount权限溢出引发的危机处置全流程。故障源于默认ServiceAccount过度授权与微服务镜像隐性缺陷叠加,导致临时Pod无节制创建并吞噬资源。文章详细阐述了从内核级监控定位根因、多维度紧急止损,到构建“分级授权+联动校验+底层加固”的权限治理体系的实践路径。
- 本文以某大型金融机构核心交易中台接入Istio服务网格后的流量劫持异常故障为案例,剖析云原生环境下服务网格的隐性风险。该故障因Istiod单实例跨可用区部署、无效XDS推送引发Envoy连接池频繁重建,叠加默认资源配置不足,导致批量清算时段调用成功率骤降。排查过程通过指标分析、日志追踪及代码层溯源,定位到控制面推送机制缺陷与数据面资源错配的核心问题。 本文以某大型金融机构核心交易中台接入Istio服务网格后的流量劫持异常故障为案例,剖析云原生环境下服务网格的隐性风险。该故障因Istiod单实例跨可用区部署、无效XDS推送引发Envoy连接池频繁重建,叠加默认资源配置不足,导致批量清算时段调用成功率骤降。排查过程通过指标分析、日志追踪及代码层溯源,定位到控制面推送机制缺陷与数据面资源错配的核心问题。
- 微服务实战:在 openEuler 上把微服务架构落地(实操篇) 微服务实战:在 openEuler 上把微服务架构落地(实操篇)
- 现代软件开发中,持续集成和持续部署(CI/CD)已经成为团队快速迭代、稳定交付产品的重要方式。在容器编排领域,Kubernetes(k8s)凭借强大的调度和自动化能力,成为构建 CI/CD 流水线的理想平台。而 Jenkins 与 ArgoCD 则是两个强大的工具,前者擅长自动化构建与测试,后者在 Kubernetes 环境中的应用部署中表现优异。目前使用这些工具的组合,已经成为国内外互联网... 现代软件开发中,持续集成和持续部署(CI/CD)已经成为团队快速迭代、稳定交付产品的重要方式。在容器编排领域,Kubernetes(k8s)凭借强大的调度和自动化能力,成为构建 CI/CD 流水线的理想平台。而 Jenkins 与 ArgoCD 则是两个强大的工具,前者擅长自动化构建与测试,后者在 Kubernetes 环境中的应用部署中表现优异。目前使用这些工具的组合,已经成为国内外互联网...
- 本文结合云原生开发中的三个真实故障案例,深入拆解底层逻辑与排查思路。案例涉及数据分析服务容器无规律重启、用户数据存储服务PV挂载死锁、电商促销场景Pod调度倾斜,均突破“常识认知”,根源分别在于容器启动进程脱离cgroup管控、存储Class与PV参数隐性不匹配、调度策略与节点规格适配失衡。文章还原了从问题定位到方案落地的全过程,强调云原生排障需回归组件底层原理,而非停留在表面配置核对。 本文结合云原生开发中的三个真实故障案例,深入拆解底层逻辑与排查思路。案例涉及数据分析服务容器无规律重启、用户数据存储服务PV挂载死锁、电商促销场景Pod调度倾斜,均突破“常识认知”,根源分别在于容器启动进程脱离cgroup管控、存储Class与PV参数隐性不匹配、调度策略与节点规格适配失衡。文章还原了从问题定位到方案落地的全过程,强调云原生排障需回归组件底层原理,而非停留在表面配置核对。
- 本文深入剖析了云原生架构中ConfigMap热更新失效这一看似简单却复杂的难题。通过一个真实生产环境案例,揭示了Istio服务网格与应用配置管理机制的隐性冲突,以及Kubernetes客户端库的兼容性问题。文章不仅提供了从Kubernetes原生API重构、服务网格协同配置到配置变更健康检查的系统性解决方案,更从架构哲学层面提出"配置即代码"的深层理解、原生能力优先、服务网格协同设计等核心观点。 本文深入剖析了云原生架构中ConfigMap热更新失效这一看似简单却复杂的难题。通过一个真实生产环境案例,揭示了Istio服务网格与应用配置管理机制的隐性冲突,以及Kubernetes客户端库的兼容性问题。文章不仅提供了从Kubernetes原生API重构、服务网格协同配置到配置变更健康检查的系统性解决方案,更从架构哲学层面提出"配置即代码"的深层理解、原生能力优先、服务网格协同设计等核心观点。
- 本文聚焦云原生集群中因网络策略配置缺陷引发的跨节点服务通信故障。某开源分布式存储系统的数据平面组件突发大规模连接中断,跨节点gRPC请求失败率激增,但基础网络层与节点状态显示正常,呈现隐蔽的"策略级"故障特征。技术团队排查发现,新升级节点的CNI插件与网络策略控制器版本不匹配,叠加节点亲和性(指定网卡型号)与网络能力(驱动兼容性)的错配,导致工作负载被调度至功能不完整的节点。 本文聚焦云原生集群中因网络策略配置缺陷引发的跨节点服务通信故障。某开源分布式存储系统的数据平面组件突发大规模连接中断,跨节点gRPC请求失败率激增,但基础网络层与节点状态显示正常,呈现隐蔽的"策略级"故障特征。技术团队排查发现,新升级节点的CNI插件与网络策略控制器版本不匹配,叠加节点亲和性(指定网卡型号)与网络能力(驱动兼容性)的错配,导致工作负载被调度至功能不完整的节点。
- 本文围绕一次云原生环境中的严重服务故障展开深度剖析。金融客户核心交易链路突发大面积超时,监控显示服务调用异常,但传统容量指标却无异常,故障呈现非对称扩散的复杂特征。技术团队通过层层排查,从服务网格流量异常切入,发现节点调度与网络能力错配、网络策略级联冲突是根源所在—新节点CNI插件与策略控制器版本不匹配,且不同厂商CNI对策略规则解析存在差异。 本文围绕一次云原生环境中的严重服务故障展开深度剖析。金融客户核心交易链路突发大面积超时,监控显示服务调用异常,但传统容量指标却无异常,故障呈现非对称扩散的复杂特征。技术团队通过层层排查,从服务网格流量异常切入,发现节点调度与网络能力错配、网络策略级联冲突是根源所在—新节点CNI插件与策略控制器版本不匹配,且不同厂商CNI对策略规则解析存在差异。
上滑加载中
推荐直播
-
HDC深度解读系列 - Serverless与MCP融合创新,构建AI应用全新智能中枢2025/08/20 周三 16:30-18:00
张昆鹏 HCDG北京核心组代表
HDC2025期间,华为云展示了Serverless与MCP融合创新的解决方案,本期访谈直播,由华为云开发者专家(HCDE)兼华为云开发者社区组织HCDG北京核心组代表张鹏先生主持,华为云PaaS服务产品部 Serverless总监Ewen为大家深度解读华为云Serverless与MCP如何融合构建AI应用全新智能中枢
回顾中 -
关于RISC-V生态发展的思考2025/09/02 周二 17:00-18:00
中国科学院计算技术研究所副所长包云岗教授
中科院包云岗老师将在本次直播中,探讨处理器生态的关键要素及其联系,分享过去几年推动RISC-V生态建设实践过程中的经验与教训。
回顾中 -
一键搞定华为云万级资源,3步轻松管理企业成本2025/09/09 周二 15:00-16:00
阿言 华为云交易产品经理
本直播重点介绍如何一键续费万级资源,3步轻松管理成本,帮助提升日常管理效率!
回顾中
热门标签