• [技术干货] Volcano v1.12 正式发布!驱动云原生AI与批量计算向智能高效新阶段演进
    随着AI大模型技术的快速发展,企业对计算资源利用效率和应用性能的要求日益提高。在AI、大数据及高性能计算(HPC)等复杂应用场景下,如何高效利用GPU等异构加速器、保障系统高可用性并精细化管理资源,是Volcano社区[1]持续探索和创新的核心方向。Volcano[2]  的每一次版本迭代,都是对这些挑战的积极回应。在来自全球30余个国家、超过1000名开发者、近40000次贡献的共同建设下,Volcano已在国内外60多家企业的生产环境中得到应用,其调度性能与资源管理能力在实践中获得了广泛认可。Volcano社区现已正式发布 v1.12 版本[3] ,新版本聚焦于AI与大数据等前沿场景的核心需求,带来了一系列关键特性与体验优化:新版本亮点一览网络拓扑感知调度 (Alpha): 优化大规模AI训练与推理任务部署,通过感知网络拓扑减少跨交换机通信,提升运行效率。GPU虚拟化方案增强: 在原有vCUDA方案基础上,新增对NVIDIA GPU动态MIG切分的支持,为用户提供软件与硬件两种虚拟化选择,实现更灵活、高效的GPU资源共享。DRA支持: 增强异构资源管理的灵活性与能力。Volcano Global支持队列容量管理: 在多集群环境下,支持对租户队列的资源配额(capability)进行统一限制和管理。安全性全面增强: 从API访问控制到容器运行时权限,实施多维度安全加固,提升系统稳健性。大规模场景性能优化: 通过减少不必要的Webhook调用等手段,有效提升高并发任务处理效率。增强通用工作负载的Gang调度控制: 现已支持通过Annotation为Deployment、StatefulSet等通用工作负载自定义Gang调度所需的最小成员数(minAvailable),提供了更精细的Gang Scheduling调度策略。Job Flow功能增强: 提升了内置工作流编排引擎的健壮性与可观测性。以及更多稳定性与易用性改进。我们相信,v1.12版本的这些更新将进一步提升任务调度的智能化水平、资源利用效率和系统的整体性能,帮助用户更好地应对AI和大数据时代的挑战。  核心功能详解  ▍网络拓扑感知调度 (Alpha Release)Volcano 的网络拓扑感知调度功能,在 v1.11 中作为预览版发布后,现已在 v1.12 中达到 Alpha 发布状态。此功能旨在优化大规模训练和推理场景(如模型并行训练、Leader-Worker 推理)中 AI 任务的部署。它通过将任务调度到同一网络拓扑性能域内,减少跨交换机通信,从而显著提升任务效率。Volcano 使用 HyperNode CRD 来抽象和表示异构硬件网络拓扑,并支持层级结构以方便管理。v1.12 版本集成了以下关键特性:HyperNode 自动发现 (HyperNode Auto-Discovery): Volcano 提供了集群网络拓扑的自动发现能力。用户可配置发现类型,系统将自动创建和维护反映集群真实网络拓扑的层级 HyperNode。目前支持 InfiniBand (IB) 网络下通过 UFM (Unified Fabric Manager) 接口获取网络拓扑信息,并自动更新 HyperNode。未来计划支持 RoCE 等更多网络协议。 HyperNode 优选策略 (Prioritized HyperNode Selection): 引入了基于节点级别和 HyperNode 级别的打分策略,累加后作为 HyperNode 的最终得分。 节点级别 (Node-level): 建议配置 BinPack 插件以优先填满 HyperNode,减少资源碎片。 HyperNode 级别 (HyperNode-level): 优先选择层级更低的 HyperNode 以获得更优性能,因其涉及的跨交换机次数较少;对于相同层级的 HyperNode,包含更多任务的 HyperNode 得分更高,旨在减少 HyperNode 级别的资源碎片。 支持通过 Label Selector 匹配节点 (Support for Label Selector Node Matching): HyperNode 叶子节点与集群中的物理节点关联,支持以下三种匹配策略:            精确匹配 (Exact Match): 直接匹配节点名称。            正则匹配 (Regex Match): 通过正则表达式匹配节点名称。            标签匹配 (Label Match): 通过标准 Label Selector 匹配节点。相关参考文档:网络拓扑感知调度介绍与使用[4]网络拓扑感知调度设计文档[5]网络拓扑自动发现设计文档[6]网络拓扑自动发现使用文档[7]Related PRs: https://github.com/volcano-sh/volcano/pull/3874, https://github.com/volcano-sh/volcano/pull/3894, https://github.com/volcano-sh/volcano/pull/3969, https://github.com/volcano-sh/volcano/pull/3971, https://github.com/volcano-sh/volcano/pull/4068, https://github.com/volcano-sh/volcano/pull/4213, https://github.com/volcano-sh/volcano/pull/3897, https://github.com/volcano-sh/volcano/pull/3887由衷感谢社区开发者: @ecosysbin, @weapons97, @Xu-Wentao, @penggu,@JesseStutler, @Monokaix对该特性的贡献!▍GPU 虚拟化支持动态 MIG 切分Volcano 提供的 GPU 虚拟化功能支持按显存和算力申请部分 GPU 资源,通过与 Device Plugin 配合实现硬件隔离,从而提升 GPU 利用率。传统 GPU 虚拟化通过拦截 CUDA API 方式限制 GPU 使用。NVIDIA Ampere 架构引入的 MIG (Multi-Instance GPU) 技术允许将单个物理 GPU 划分为多个独立实例。然而,通用 MIG 方案通常预先固定实例大小,存在资源浪费和灵活性不足的问题。Volcano v1.12 提供了动态 MIG 切分与调度能力,可根据用户申请的 GPU 用量实时选择合适的 MIG 实例大小,并使用 Best-Fit 算法减少资源浪费。同时支持 BinPack 和 Spread 等 GPU 打分策略,以减少资源碎片并提升 GPU 利用率。用户可使用统一的 volcano.sh/vgpu-number、volcano.sh/vgpu-cores、volcano.sh/vgpu-memory API 申请资源,无需关注底层实现。设计文档:Dynamic MIG 设计文档[8]使用文档:Dynamic MIG 使用文档[9]Related PRs: https://github.com/volcano-sh/volcano/pull/4290, https://github.com/volcano-sh/volcano/pull/3953由衷感谢社区开发者: @sailorvii, @archlitchi 对该特性的贡献!▍支持 DRA (Dynamic Resource Allocation)Kubernetes DRA (Dynamic Resource Allocation,动态资源分配) 是一项内置的 Kubernetes 功能,旨在提供一种更灵活、更强大的方式来管理集群中的异构硬件资源,例如 GPU、FPGA、高性能网卡等。它解决了传统设备插件 (Device Plugin) 在某些高级场景下的局限性。Volcano v1.12 增加了对 DRA 的支持,允许集群动态分配和管理外部资源,增强了 Volcano 与 Kubernetes 生态系统的集成能力及资源管理的灵活性。使用文档:在Volcano中启用DRA[10]Related PR: https://github.com/volcano-sh/volcano/pull/3799由衷感谢社区开发者: @JesseStutler 对该特性的贡献!▍Volcano Global 支持队列容量管理队列是 Volcano 的核心概念。为支持多集群和多租户场景下的租户配额管理,Volcano 在 v1.12 中扩展了其全局队列容量管理能力。现在,用户可以在多集群环境中统一限制租户的资源使用,其配置方式与单集群场景一致:通过在队列配置中设置 capability 字段来限制租户配额。Related PR: https://github.com/volcano-sh/volcano-global/pull/16由衷感谢社区开发者: @tanberBro 对该特性的贡献!▍安全性增强Volcano 社区持续关注安全性。在 v1.12 中,除了对 ClusterRole 等敏感权限的精细控制外,还修复了以下潜在安全风险并进行了加固:HTTP Server 设置超时时间: Volcano 各组件的 Metric 和 Healthz 端点均已设置服务器端的 ReadHeader、Read、Write 超时,避免资源长时间占用。(PR: https://github.com/volcano-sh/volcano/pull/4208)跳过 SSL 证书验证时增加警告日志: 当客户端请求设置insecureSkipVerify为 true时,添加警告日志,建议生产环境启用 SSL 证书验证。(PR: https://github.com/volcano-sh/volcano/pull/4211)默认关闭 Volcano Scheduler 的 pprof 端点: 为避免敏感程序信息泄露,默认关闭用于定位问题的 Profiling 数据端口。(PR: https://github.com/volcano-sh/volcano/pull/4173)移除不必要的文件权限: 移除 Go 源文件不必要的执行权限,保持文件最小权限。(PR: https://github.com/volcano-sh/volcano/pull/4171)为容器设置 Security Context 并以非 Root 权限运行: 所有 Volcano 组件均以非 Root 权限运行,并增加了 seccompProfile, SELinuxOptions,设置 allowPrivilegeEscalation避免容器提权,同时仅保留必要的 Linux Capabilities,全面限制容器权限。(PR: https://github.com/volcano-sh/volcano/pull/4207)限制 HTTP 请求返回体大小: 针对 Extender Plugin 和 Elastic Search Service 发送的 HTTP 请求,限制其返回体大小,避免资源过度消耗导致的 OOM 等问题。(披露地址: https://github.com/volcano-sh/volcano/security/advisories/GHSA-hg79-fw4p-25p8)▍大规模场景性能提升Volcano 持续优化性能。新版本在不影响功能的前提下,默认移除和关闭了部分非必要的 Webhook,提升了大规模批创建场景下的性能:默认关闭 PodGroup 的 Mutating Webhook: 在创建 PodGroup 未指定队列时,可从 Namespace 读取进行填充。由于该场景不常见,故默认关闭此 Webhook。用户可按需开启。任务提交时的队列状态校验从 Pod 迁移到 PodGroup: 当队列处于关闭状态时,不允许提交任务。原校验逻辑在创建 Pod 时进行,而 Volcano 的调度基本单位是 PodGroup,将校验迁移至 PodGroup 创建时更为合理。因 PodGroup 数量少于 Pod,此举可减少 Webhook 调用,提升性能。Related PRs: https://github.com/volcano-sh/volcano/pull/4128, https://github.com/volcano-sh/volcano/pull/4132由衷感谢社区开发者: @Monokaix 对该特性的贡献!▍多种负载类型支持 Gang 调度Gang 调度是 Volcano 的核心能力。对于 Volcano Job 和 PodGroup 对象,用户可直接设置 minMember 来定义所需最小副本数。在新版本中,用户可通过在 Deployment、StatefulSet、Job 等其他类型工作负载上设置 Annotation scheduling.volcano.sh/group-min-member 来指定所需最小副本数。这意味着在使用 Volcano 调度时,要么指定数量的副本全部调度成功,要么一个也不调度,从而为多种负载类型实现了 Gang 调度。例如,为 Deployment 设置 minMember=10:apiVersion: apps/v1 kind: Deployment metadata: name: volcano-group-deployment annotations: # Set min member=10 scheduling.volcano.sh/group-min-member: "10"Related PR: https://github.com/volcano-sh/volcano/pull/4000由衷感谢社区开发者: @sceneryback  对该特性的贡献!▍Job Flow 功能增强Job Flow 是 Volcano 提供的轻量级 Volcano Job 工作流编排框架。在 v1.12 版本中,Job Flow 进行了以下增强:新增监控指标: 增加了对成功和失败的 Job Flow 数量的度量支持。DAG 合法性校验: 引入了对 Job Flow DAG (有向无环图) 结构进行合法性校验的功能。状态同步问题修复: 解决了 Job Flow 状态同步不准确的问题。Related PRs: https://github.com/volcano-sh/volcano/pull/4169, https://github.com/volcano-sh/volcano/pull/4090, https://github.com/volcano-sh/volcano/pull/4135, https://github.com/volcano-sh/volcano/pull/4169由衷感谢社区开发者: @dongjiang1989 对该特性的贡献!▍多租户场景下更细粒度的权限控制Volcano 原生支持多租户环境,并重视多租户场景下的权限控制。在新版本中,Volcano 增强了对 Volcano Job 的权限控制,增加了只读和读写的 ClusterRole,用户可根据需要为不同租户分配不同的读写权限,以实现权限隔离。Related PR: https://github.com/volcano-sh/volcano/pull/4174由衷感谢社区开发者: @Hcryw 对该特性的贡献!▍支持 Kubernetes 1.32Volcano 版本紧随 Kubernetes 社区版本。v1.12 支持最新的 Kubernetes v1.32 版本,并通过完整的 UT 和 E2E 测试用例确保功能和可靠性。如需参与 Volcano 对新 Kubernetes 版本的适配工作,请参考:adapt-k8s-todo[11]。Related PR: https://github.com/volcano-sh/volcano/pull/4099由衷感谢社区开发者: @guoqinwill, @danish9039 对该特性的贡献!▍队列监控指标增强Volcano 队列新增了多项关键资源度量指标。现在支持对 CPU、Memory 及扩展资源的请求量 (request)、已分配量 (allocated)、应得量 (deserved)、容量 (capacity) 和 实际容量 (real_capacity) 等指标进行监控与可视化,提供队列关键资源状态的详细视图。Related PR: https://github.com/volcano-sh/volcano/pull/3937由衷感谢社区开发者:  @zedongh 对该特性的贡献!▍支持模糊测试模糊测试 (Fuzz Testing) 是一种自动化软件测试技术。Volcano 在新版本中引入了模糊测试框架,对关键函数单元进行了模糊测试,并使用 Google 开源的 OSS-Fuzz 模糊测试框架进行持续测试,旨在提前发现潜在漏洞和缺陷,增强 Volcano 的安全性和健壮性。Related PR: https://github.com/volcano-sh/volcano/pull/4205由衷感谢社区开发者: @AdamKorcz 对该特性的贡献!▍稳定性增强新版本中修复了多项稳定性问题,包括队列容量设置不合理导致的 Panic、层级队列校验失败、PodGroup 无意义刷新以及 StatefulSet 副本为0时仍占用队列资源等问题,进一步提升了系统在复杂场景下的稳定运行能力。Related PRs:https://github.com/volcano-sh/volcano/pull/4273, https://github.com/volcano-sh/volcano/pull/4272, https://github.com/volcano-sh/volcano/pull/4179, https://github.com/volcano-sh/volcano/pull/4141, https://github.com/volcano-sh/volcano/pull/4033, https://github.com/volcano-sh/volcano/pull/4012, https://github.com/volcano-sh/volcano/pull/3603由衷感谢社区开发者: @halcyon-r,  @guoqinwill, @JackyTYang, @JesseStutler, @zhutong196, @Wang-Kai, @HalfBuddhist 的贡献!  升级前注意事项  在升级到 Volcano v1.12 之前,请注意以下改动:PodGroup Mutating Webhook 默认关闭: 在 v1.12 中,PodGroup 的 Mutating Webhook 默认处于关闭状态。若您有依赖此行为(创建 PodGroup 未指定队列时从 Namespace 填充)的特定工作流,请确保在升级后手动开启此 Webhook。队列状态校验迁移及行为变更: 任务提交时的队列状态校验逻辑已从 Pod 创建阶段迁移到 PodGroup 创建阶段。当队列处于关闭状态时,系统将在 PodGroup 创建时即阻止任务提交。然而,如果在队列关闭后继续向该队列提交独立的 Pod(非通过 PodGroup 提交),这些 Pod 可以提交成功,但 Volcano Scheduler 将不会对其进行调度。Volcano Scheduler pprof 端点默认禁用: 出于安全增强考虑,Volcano Scheduler 的 pprof 端点在此版本中默认禁用。如需使用,可通过 Helm 参数 custom.scheduler_pprof_enable=true 或命令行参数 --enable-pprof=true 显式启用。  总结与展望  Volcano v1.12 版本的发布,得益于社区贡献者和用户的共同努力。此版本在 AI 任务调度、GPU 资源利用率、异构资源管理、安全性以及大规模场景下的性能与稳定性等多个方面进行了增强。v1.12 版本旨在提升用户在云原生环境中运行 AI、大数据等批量计算任务的性能和效率。我们建议用户升级并体验新版本,并欢迎通过社区渠道提供使用反馈与改进建议。未来,Volcano 社区将继续关注 CNAI 和大数据等领域的核心需求,持续进行迭代。  未来展望与需求征集  Volcano 社区始终致力于构建更加强大、灵活和易用的批量计算平台,并积极响应快速发展的技术趋势与用户需求。在接下来的版本迭代中,我们计划重点投入以下方向:深化网络拓扑感知调度能力:在v1.12 Alpha版本的基础上,我们将持续演进网络拓扑感知能力。重点包括提供对RoCE网络的自动发现支持、节点标签的智能识别与利用,并向更细粒度的任务级(Task-level)拓扑感知调度迈进。同时,我们也将积极探索和实现更多高级调度特性,以应对复杂AI训练等场景的极致性能需求。相关issue:HyperNode based binpack scheduling policy needed[12]Support task level network topology constrain[13]Support identifying network topology from node labels and converted into hyperNode resources[14]Network-topology-aware scheduling optimization: node reordering for tasks[15]引入高级资源管理机制:重点开发和完善作业重调度(Rescheduling)与资源预留(Resource Reservation)功能。这将有助于更灵活地应对集群动态负载变化,保障关键任务的资源确定性,并进一步提升整体集群的资源利用效率。相关issue:GPU fragmentation across nodes and Job/Pod rescheduling strategy request[16]增强队列调度灵活性:提供队列级别的调度策略(Queue-level Scheduling Policy)精细化配置能力。用户将能根据不同业务队列的特性、优先级和SLA需求,更灵活地定制其调度行为和资源分配策略。相关issue:volcano supports queue-level scheduling policies[17]深化生态协同与集成:我们将积极推进与Kubernetes上游社区及其他云原生项目的协作。例如,推动LWS(Leader Worker Set)与Volcano的集成,以便更好地为分布式应用提供Gang Scheduling能力。相关issue:Support custom scheulder to enable gang scheduling[18]我们热忱欢迎更多优秀的开源项目与Volcano携手,共同构建和繁荣云原生批量计算生态。拓展异构硬件支持与合作:加强与硬件生态伙伴的合作,如昇腾(Ascend)的Device Plugin和DRA Driver的适配与优化,以及与主流GPU厂商在DRA Driver上的协作,确保Volcano能高效、稳定地调度和管理各类前沿异构加速器资源。JobFlow工作流能力提升:持续优化Volcano内置的轻量级工作流引擎JobFlow。计划增强其在复杂作业依赖管理、状态监控、错误处理及用户自定义扩展等方面的能力,为用户提供更强大、更易用的工作流编排解决方案。相关issue:Support JobFlowTemplate CRD[19]Enhance JobFlow Functionality[20]引入Volcano调度模拟器,提升调度透明度与可测试性:为提升调度过程的透明度并简化测试验证,Volcano计划引入调度模拟器。这一工具将允许用户在轻量级环境中,通过灵活配置模拟集群状态(节点、Pod、队列配置等),精准复现Volcano核心调度流程——从队列选择、节点过滤与打分到最终绑定。通过输出详尽的调度日志及可选的性能分析,模拟器将极大地便利开发者测试新特性,帮助用户深入理解和验证Volcano在不同场景下的调度行为,并高效评估各类调度策略的实际影响。相关issue:Implement Volcano Scheduler Simulator[21]     社区参与  以上 Roadmap 为社区的初步规划。我们欢迎开发者和用户通过以下渠道参与讨论,为 Volcano 的发展贡献新的想法和建议。GitHub Issues: 在 Volcano GitHub 仓库中创建 kind/feature 类型的 Issue,详细说明您的使用场景和功能期望。社区交流: 参与社区会议,或在微信交流群/Slack 频道及邮件列表中发起讨论,与开发者和社区成员进行交流。Roadmap 共建: 针对我们提出的 Roadmap 或您认为重要的其他特性,欢迎随时提出建议。  致谢贡献者  Volcano v1.12 版本包含了来自46位社区贡献者的上百次代码提交,在此对各位贡献者表示由衷的感谢,贡献者GitHub ID:参考资料[1] Volcano Website: https://volcano.sh[2] Volcano GitHub: https://github.com/volcano-sh/volcano[3] Volcano社区正式发布 v1.12 版本: https://github.com/volcano-sh/volcano/releases/tag/v1.12.0[4] 网络拓扑感知调度介绍与使用: https://volcano.sh/en/docs/network_topology_aware_scheduling/[5] 网络拓扑感知调度设计文档: https://github.com/volcano-sh/volcano/blob/master/docs/design/Network%20Topology%20Aware%20Scheduling.md[6] 网络拓扑自动发现设计文档: https://github.com/volcano-sh/volcano/blob/master/docs/design/hyperNode-auto-discovery.md[7] 网络拓扑自动发现使用文档: https://github.com/volcano-sh/volcano/blob/master/docs/user-guide/how_to_use_hypernode_auto_discovery.md[8] Dynamic MIG 设计文档: https://github.com/volcano-sh/volcano/blob/master/docs/design/dynamic-mig.md[9] Dynamic MIG 使用文档: https://volcano.sh/zh/docs/gpu_virtualization/[10] 在Volcano中启用DRA: https://volcano.sh/zh/docs/unified_scheduling/#2-1-2-%E5%9C%A8volcano%E4%B8%AD%E5%90%AF%E7%94%A8dra-dynamic-resource-allocation[11] adapt-k8s-todo: https://github.com/volcano-sh/volcano/pull/4318[12] HyperNode based binpack scheduling policy needed: https://github.com/volcano-sh/volcano/issues/4331[13] Support task level network topology constrain: https://github.com/volcano-sh/volcano/issues/4188[14] Support identifying network topology from node labels and converted into hyperNode resources: https://github.com/volcano-sh/volcano/issues/4145[15] Network-topology-aware scheduling optimization: node reordering for tasks: https://github.com/volcano-sh/volcano/issues/4233[16] GPU fragmentation across nodes and Job/Pod rescheduling strategy request: https://github.com/volcano-sh/volcano/issues/3948[17] volcano supports queue-level scheduling policies: https://github.com/volcano-sh/volcano/issues/3992[18] Support custom scheulder to enable gang scheduling: https://github.com/kubernetes-sigs/lws/issues/407[19] Support JobFlowTemplate CRD: https://github.com/volcano-sh/volcano/issues/4098[20] Enhance JobFlow Functionality: https://github.com/volcano-sh/volcano/issues/4275[21] Implement Volcano Scheduler Simulator: https://github.com/volcano-sh/volcano/issues/4276Volcano 是业界首个云原生批量计算引擎,也是 CNCF 首个和唯一的批量计算项目。项目主要用于 AI、大数据、基因、渲染等诸多高性能计算场景,对主流通用计算框架均有很好的支持。目前,Volcano在人工智能、大数据、基因测序等海量数据计算和分析场景已得到快速应用,已完成对 Spark、Flink、Ray、 Tensorflow、PyTorch、Argo、MindSpore、Paddlepaddle 、Kubeflow、MPI、Horovod、Mxnet、KubeGene 等众多主流计算框架的支持,并构建起完善的上下游生态。Website:https://volcano.shGitHub: https://github.com/volcano-sh/volcano每周例会:https://zoom.us/j/91804791393添加社区小助手回复“Volcano”进入技术交流群
  • [公告] 科大讯飞基于Volcano实现AI基础设施突破,赢得CNCF最终用户案例研究竞赛
    [ 中国,香港,2025年6月10日 ] 云原生计算基金会(CNCF)宣布,科大讯飞赢得 CNCF 最终用户案例研究竞赛。CNCF致力于构建可持续的云原生软件生态,科大讯飞凭借其在 Volcano 上的创新应用脱颖而出,获得本次殊荣,于6月10日至11日在香港举行的KubeCon + CloudNativeCon China 大会上,分享其大规模 AI 模型训练的成功经验。作为专注于语音和语言 AI 的中国科技公司,科大讯飞在业务快速增长过程中遇到了扩展难题。调度效率低导致 GPU 资源利用不足,工作流管理复杂,团队间资源争抢激烈,这些问题拖慢了研发进度,也给基础设施带来压力。使用 Volcano 后,科大讯飞实现了弹性调度、基于 DAG 的工作流和多租户隔离,简化了操作流程,显著提升了资源利用率。“在使用 Volcano 之前,跨团队协调大规模 GPU 集群训练就像不断‘灭火’,资源瓶颈、任务失败和复杂的训练管道调试层出不穷,”科大讯飞高级平台架构师 DongJiang 表示。“Volcano 让我们拥有更灵活的控制权,能够高效可靠地扩展 AI 训练。CNCF 对我们的认可令我们倍感荣幸,我们也很期待在 KubeCon + CloudNativeCon China 现场与更多同行分享我们的实践经验。”Volcano 是基于 Kubernetes 构建的云原生批处理系统,专为 AI/机器学习训练、大数据处理和科学计算等高性能工作负载设计。它提供先进的调度功能,如任务编排、资源公平分配和队列管理,能够高效管理大规模分布式任务。自 2020 年加入 CNCF Sandbox 项目,2022 年晋升为 Incubating 阶段项目,Volcano 已成为处理计算密集型任务的关键工具。随着 AI 需求不断增长,科大讯飞选择 Volcano 来应对训练基础设施日益复杂和庞大的挑战。工程团队需要更高效的资源分配方案,管理多阶段复杂训练工作流,减少任务中断,并保障不同团队的公平资源使用。借助 Volcano,他们实现了:GPU 利用率提升 40%,显著降低基础设施成本和计算资源闲置。任务失败恢复速度提升 70%,确保训练过程不中断。超参数搜索加速 50%,推动更快的迭代和创新。CNCF 首席技术官 Chris Aniszczyk 表示:“科大讯飞的案例展示了开源技术如何解决复杂且关键的规模化挑战。通过 Volcano 提升 GPU 效率和优化训练工作流,他们降低了成本,加快了开发,并在 Kubernetes 平台上构建了更可靠的 AI 基础设施,这对所有致力于 AI 领先的组织都至关重要。”随着 AI 工作负载变得更加复杂和资源密集,科大讯飞的实践证明,Volcano 等云原生工具能够帮助团队简化运营、提升扩展能力。其在 KubeCon + CloudNativeCon China 的分享,带来如何在 Kubernetes 环境下更有效管理分布式训练的实用经验,参考Keynote议题:https://kccncchn2025.sched.com/event/23EWS?iframe=no本文转载自CNCFVolcano 是业界首个云原生批量计算引擎,也是 CNCF 首个和唯一的批量计算项目。项目主要用于 AI、大数据、基因、渲染等诸多高性能计算场景,对主流通用计算框架均有很好的支持。目前,Volcano在人工智能、大数据、基因测序等海量数据计算和分析场景已得到快速应用,已完成对 Spark、Flink、Ray、 Tensorflow、PyTorch、Argo、MindSpore、Paddlepaddle 、Kubeflow、MPI、Horovod、Mxnet、KubeGene 等众多主流计算框架的支持,并构建起完善的上下游生态。Website:https://volcano.shGitHub: https://github.com/volcano-sh/volcano每周例会:https://zoom.us/j/91804791393添加社区小助手回复“Volcano”进入技术交流群
  • [热门活动] KubeCon China 2025 | 与KubeEdge畅聊毕业经验与创新未来
    6 月 10 日-11 日,云原生计算基金会(CNCF)旗舰会议 KubeCon + CloudNativeCon China 2025 ,将在中国香港盛开召开。作为全球云原生与开源顶级会议,大会汇聚全球顶尖开源开发者、技术领袖、企业代表及终端用户,围绕 Kubernetes、云原生架构、人工智能及开源生态展开深入交流与分享,为参与者呈现一场前沿技术的学习与交流盛宴。KubeEdge云原生边缘计算社区即将亮相 KubeCon + CloudNativeCon China 2025。KubeEdge是业界首个云原生边缘计算框架、CNCF唯一毕业级边缘计算开源项目。KubeEdge 连接云原生和边缘计算生态,聚焦于提供一致的云边资源协同、数据协同、智能协同和应用协同体验,为边缘计算领域的应用提供更好的支持和解决方案,在全球已拥有1800+贡献者和120+贡献组织,在 GitHub 获得 8.1k+Stars 和 2.3k+Forks。  KubeEdge 议题看点  本届大会上,来自华为云、DaoCloud、谐云、QingCloud等KubeEdge社区技术专家,将带来多场云原生边缘计算技术演讲、圆桌讨论,与全球开发者与企业,畅聊云原生边缘计算技术创新与应用,赋能多领域、多场景边云协同AI智算,敬请期待!▍KubeEdge Updates and Use Cases in Multiple Scenarios演讲嘉宾:Yue Bao, Huawei Cloud时间:Tuesday June 10, 2025 11:49 - 11:54 HKT会场:Level 16 | Grand Ballroom I技术看点: KubeEdge是业界首个云原生开源边缘计算项目,已于去年实现CNCF毕业。在本次会议中,我们将分享毕业以来社区治理的新特性和进展。KubeEdge 已广泛应用于智能交通、智慧城市、智慧园区、智慧能源、智慧工厂、智慧银行、智慧站点、CDN等行业,为用户提供一体化的边缘云端协同解决方案。本次演讲还将分享10+个KubeEdge在各行业的用户案例,帮助用户了解云原生边缘计算和边缘AI的实践经验。议程链接:https://sched.co/1xjzK▍Building Ultra-Large-Scale Cloud Native Edge Systems Using Chaos Engineering演讲嘉宾:Yue Bao, Huawei Cloud & Yue Li, DaoCloud时间:Tuesday June 10, 2025 13:45 - 14:15 HKT会场:Level 19 | Crystal Court II技术看点: 5G网络、工业互联网和人工智能等技术的快速发展,使边缘计算在推动数字化转型中发挥了重要作用。每项新技术在带来好处的同时,也带来了挑战。首先,大量异构边缘设备的出现,包含了广泛的设备类型。其次,边缘设备往往处于不稳定和复杂的物理和网络环境中,例如带宽受限、高延迟等,如何克服这些挑战,构建稳定、大规模的边缘计算平台是需要解决的问题。KubeEdge是一个开源的边缘计算框架,它将Kubernetes的功能从中心云扩展到边缘。现在,由KubeEdge提供支持的Kubernetes集群可以稳定支持10万个边缘节点,管理超过100万个Pod。在本次分享中,我们将分享大规模异构边缘节点管理中的关键挑战,并讲述如何在大规模边缘节点中使用ChaosMesh使KubeEdge更可靠。议程链接:https://sched.co/1x5hu▍KubeEdge DeepDive: Architecture, Use Cases, and Project Graduation Updates演讲嘉宾:Yue Bao, Huawei Cloud & Hongbing Zhang, DaoCloud时间:Wednesday June 11, 2025 11:45 - 12:15 HKT会场:Level 21 | Pearl Pavilion技术看点: 在本次分享中,KubeEdge项目维护者将概述KubeEdge的架构及其特定于行业的用例。议题首先简要介绍边缘计算及其在物联网和分布式系统中日益增长的重要性。然后,维护者将深入探讨KubeEdge的核心组件和架构,展示它如何扩展Kubernetes的功能以高效地管理边缘计算工作负载。他们将分享已在各种边缘环境(如智慧城市、工业物联网、边缘AI、机器人和零售)中部署KubeEdge的组织的成功案例和见解,强调切实的好处和变革的可能性。此外,会议还将介绍认证的KubeEdge一致性测试、硬件测试、KubeEdge课程和认证,讨论KubeEdge项目中的技术进步和社区治理,并分享项目毕业状态的最新更新。议程链接:https://sched.co/1x5hQ▍Exploring KubeEdge Graduation: Build a Diverse and Collaborative Open Source Community From Scratch演讲嘉宾: Yue Bao & Fei Xu, Huawei Cloud; Hongbing Zhang, DaoCloud; Huan Wei, Hangzhou HarmonyCloud; Benamin Huo, QingCloud时间:Wednesday June 11, 2025 14:30 - 15:00 HKT会场:Level 19 | Crystal Court II技术看点: 当前,开源项目的健康性,特别是供应商多样性和中立性成为讨论的一个关键话题。由于缺乏供应商多样性,许多项目面临挑战,威胁到其可持续性。越来越清楚的是,在项目成长过程中建立正确的治理结构和项目团队至关重要。在本场圆桌中,我们将讨论KubeEdge社区毕业之旅的经验教训,重点讨论技术规划、社区治理、开发者成长和项目维护方面的关键策略。欢迎参与我们的讨论,探讨如何建立一个多供应商和多样化的社区,以及如何将这份经验应用到不同的行业。议程链接:https://sched.co/1x5jw更多云原生边缘计算相关议题,欢迎关注大会官网。KubeEdge邀您共聚KubeCon + CloudNativeCon  China 2025! 添加小助手k8s2222回复KubeEdge进群【更多KubeEdge资讯推荐】玩转KubeEdge保姆级攻略——环境搭建篇玩转KubeEdge保姆级攻略——环境搭建篇《玩转KubeEdge保姆级攻略——环境搭建篇》课程主要介绍如何通过华为云服务快速搭建一套KubeEdge边缘计算开发平台及部署Sedna、EdgeMesh等KubeEdge生态组件。课程免费学习链接:https://connect.huaweicloud.com/courses/learn/course-v1:HuaweiX+CBUCNXNX022+Self-paced/aboutKubeEdge社区介绍:KubeEdge是业界首个云原生边缘计算框架、云原生计算基金会(CNCF)唯一毕业级边缘计算开源项目,社区已完成业界最大规模云原生边云协同高速公路项目(统一管理10万边缘节点/50万边缘应用)、业界首个云原生星地协同卫星、业界首个云原生车云协同汽车、业界首个云原生油田项目,开源业界首个分布式协同AI框架Sedna及业界首个边云协同终身学习范式,并在持续开拓创新中。KubeEdge网站 :  https://kubeedge.ioGitHub地址 : cid:link_0Slack地址 : https://kubeedge.slack.com邮件列表 : https://groups.google.com/forum/#!forum/kubeedge每周社区例会 : https://zoom.us/j/4167237304Twitter : https://twitter.com/KubeEdge文档地址 : https://docs.kubeedge.io/en/latest/
  • [热门活动] KubeCon 抢鲜 | Kmesh与你共创高性能流量治理更优方案
    6 月 10 日-11 日,由云原生计算基金会(CNCF)和 Linux 基金会联合主办的 KubeCon + CloudNativeCon China 2025 ,将在中国香港盛开召开。Kmesh技术团队将在本届KubeCon China 上带来多个精彩议题,覆盖云原生流量治理Sidecarless创新方案、流量治理认证、Kmesh行业实践等多个用户关心的技术话题,欢迎现场一聚!Kmesh(https://github.com/kmesh-net/kmesh)是集高性能、低开销及安全可靠于一身的内核级云原生流量治理框架。基于可编程内核 + eBPF实现的高性能流量治理引擎,采用Sidecarless架构,用户无需在数据面部署代理组件,即可实现服务网格场景下服务间多跳变一跳的服务访问,相比业界方案性能提升3~5倍。  KubeCon China 2025 Kmesh 议题看点  以下是Kmesh在本次大会上的精彩议题:▍Revolutionizing Sidecarless Service Mesh With eBPF演讲嘉宾:Zhonghu Xu & Muyang Tian, Huawei时间:Tuesday June 10, 2025 15:30 - 16:00 HKT会场:Level 19 | Crystal Court II技术看点: 众所周知服务网格sidecar引入了大量的资源开销,对内存和CPU利用率产生不利影响。此外,sidecars 与工作负载的紧耦合使生命周期管理变得复杂。本议题将对比Istio、Ambient和cilium的优缺点,并演示eBPF和可编程内核模块如何显著缓解这些问题。同时,本议题也将介绍几个关于采用它来提高微服务性能,同时最小化基础设施升级期间对应用程序的中断的用例。议程链接:https://sched.co/1x5iI▍Best Practices for Upgrading Service Mesh Seamlessly 演讲嘉宾:Hang Yin, Alibaba Cloud & Zhencheng Lee, Huawei 时间:Tuesday June 10, 2025 15:51 - 15:56HKT会场:Level 16 | Grand Ballroom I技术看点: Service Mesh正在蓬勃发展,新版本总是包含令人兴奋的功能和重要的CVE修复,为用户带来可观的好处。然而,由于Service Mesh升级或重启导致的服务流量中断,导致系统不稳定,仍然是Service Mesh在生产环境中使用的主要障碍。在大多数sidecar模型中,升级服务网格的数据平面会导致重新部署服务;在某些情况下,这几乎是不可接受的,因为某些业务应用程序可能会面临巨大的冷启动成本。即使对于方兴未艾的sidecarless模式,仍然需要解决中断现有用户连接的问题,这需要做出艰难的选择。本主题将从实际案例出发,由来自华为云和阿里云的技术专家将与用户分享真实生产场景下Service Mesh无缝升级的实践经验。议程链接:https://sched.co/1x5iU▍High-Performance Cloud Native Traffic Authentication Solutions 演讲嘉宾:Muyang Tian & Zengzeng Yao, Huawei时间:Wednesday June 11, 2025 16:15 - 16:45HKT会场:Level 19 | Crystal Court II技术看点: 云计算和微服务架构快速发展,高效且安全地管理服务之间的通信已成为一项关键挑战。传统的网络流量认证方法往往成为性能瓶颈,尤其是在处理大规模数据流时。本议题介绍了一个创新的解决方案——利用Linux内核技术XDP (eXpress Data Path)实现服务到服务通信的高效流量认证。我们将深入研究如何使用XDP在数据包进入系统的协议栈之前对其进行快速过滤和处理,从而显著降低延迟并提高整体系统吞吐量。此外,我们还将分享Kmesh等项目的实际应用经验,包括但不限于性能调优、安全注意事项以及与其他网络安全策略的集成。议程链接:https://sched.co/1x5kE   欢迎莅临Kmesh展位交流  Kmesh技术专家将于6月11日早上时段,与大家在CNCF Project Pavilion与大家面对面畅聊,请记得我们的展位号:P-7Kmesh 始终以开放中立的态度发展社区,持续打造 Sidecarless 服务网格业界标杆方案,服务千行百业,促进服务网格健康有序的发展。期待与您在 KubeCon + CloudNativeCon China 2025 见面,共同探讨云原生流量治理更优选择!Kmesh社区地址[1] Kmesh GitHub: https://github.com/kmesh-net/kmesh[2] Kmesh Website: https://kmesh.net/ 扫码添加社区小助手回复Kmesh进交流群【更多华为云云原生干货推荐】华为云云原生王者之路集训营华为云云原生王者之路集训营为帮助广大技术爱好者快速掌握云原生相关技能,华为云云原生团队与华为云学院联合CNCF开源软件大学启动人才培养计划,推出《华为云云原生王者之路集训营》,从云原生基础知识介绍到最佳实践讲解、底层原理和方案架构深度剖析,层层深入,满足不同云原生技术基础和学习目标人群的需求。本课程还精选数十个企业典型应用场景,作为学员上机实践案例,帮助学员将所学技术快速与企业业务相结合,服务于企业生产。点击免费参加华为云云原生王者之路集训营:cid:link_3 学习后记得小试牛刀,看看测评效果~ 华为云云原生王者之路-黄金课程测评 华为云云原生王者之路-钻石课程测评 华为云云原生王者之路-王者课程测评
  • [热门活动] 议程一览 | KubeCon China 2025 华为云精彩前瞻
    6 月 10 日-11 日,由云原生计算基金会(CNCF)和 Linux 基金会联合主办的 KubeCon + CloudNativeCon China 2025 ,将在中国香港盛大召开。作为 Linux 基金会旗下云原生与开源顶级盛会,大会汇聚全球顶尖技术专家与前沿企业,共同开启这场技术盛宴。华为云一直是云原生技术创新的践行者,先后主导开源了业界首个智能边缘计算项目 KubeEdge、业界首个云原生 AI 调度引擎 Volcano、业界首个云原生多云容器编排引擎 Karmada 等多个 CNCF 项目,并持续带来了 Kuasar、Kmesh、openGemini 等项目创新。基于云原生容器技术,华为云云原生团队领先构建 AI-Native云原生基础设施,在业界首发多个云原生革命性产品,Omdia评价产品战略与执行全球第一,并连续8次蝉联中国容器软件市场份额第一,打造业界领先的云原生解决方案,为企业数智化转型提供强大动力。本次大会上,华为将带来多场主题演讲与技术分享,覆盖云原生AI 调度、智能边缘、多云容器、数据库、流量治理等领域的前沿技术与解决方案,与您共创云原生 × AI 的无限可能!更多云原生技术动向关注容器魔方【更多华为云云原生干货推荐】华为云云原生王者之路集训营华为云云原生王者之路集训营为帮助广大技术爱好者快速掌握云原生相关技能,华为云云原生团队与华为云学院联合CNCF开源软件大学启动人才培养计划,推出《华为云云原生王者之路集训营》,从云原生基础知识介绍到最佳实践讲解、底层原理和方案架构深度剖析,层层深入,满足不同云原生技术基础和学习目标人群的需求。本课程还精选数十个企业典型应用场景,作为学员上机实践案例,帮助学员将所学技术快速与企业业务相结合,服务于企业生产。点击免费参加华为云云原生王者之路集训营:cid:link_3 学习后记得小试牛刀,看看测评效果~ 华为云云原生王者之路-黄金课程测评 华为云云原生王者之路-钻石课程测评 华为云云原生王者之路-王者课程测评
  • [公告] 「小红书」正式加入 Karmada 用户组!携手社区共建多集群生态
    Karmada 社区非常高兴地宣布小红书正式加入Karmada 用户组[1](Karmada Adopter Group),成为该开源社区的重要成员。作为云原生计算基金会(CNCF)旗下的开源项目,Karmada 致力于为用户提供强大的多集群管理和调度能力,帮助企业在复杂的分布式环境中实现高效的应用部署和管理。小红书的加入将进一步丰富 Karmada 社区的生态,并为项目的持续创新注入新的动力。   关 于 小 红 书  小红书[2]是年轻人的生活方式平台,由毛文超和瞿芳于2013年在上海创立。小红书以“Inspire Lives 分享和发现世界的精彩”为使命,用户可以通过短视频、图文等形式记录生活点滴,分享生活方式,并基于兴趣形成互动。小红书借助Karmada构建其多云 IT 基础设施,打造面向应用的统一平台入口,应对业务的飞速发展进程中的集群和资源管理挑战,提升应用跨集群分发与弹性能力,做好应用跨集群调度,实现多集群场景下的联邦自动化运维,进一步升级云原生基础架构。更详细的案例分享请参考 KubeCon China 2024 的演讲,《多集群助力小红书打造面向混合云的高可用弹性架构》:https://youtu.be/05M7bqj2VJE?si=0H7EjmBnTvjIv_ih   关于Karmada用户组  作为连接社区与用户的核心纽带,Karmada 用户组致力于打造一个深度融合、开放协作的高价值平台,推动成员间的高效联动与经验共享。通过技术支持、活动共创及最佳实践交流,Karmada 用户组将持续赋能用户在多云管理领域的能力提升,助力云原生多云多集群生态系统的蓬勃发展。其主要目标和功能包括:分享知识:促进 Karmada 用户之间的经验、挑战和解决方案交流促进协作:提供一个用户可以协作、分享想法并解决共同问题的平台支持用户:提供资源、教程和指导,帮助用户有效利用 Karmada收集反馈:倾听用户声音,以指导 Karmada 未来的发展方向社区活动组织:通过定期 meetup、网络研讨会和其他活动,增强社区参与度截至目前,Karmada 用户组已吸纳来自全球的30+家机构和组织。更多使用场景及案例研究请查阅:https://karmada.io/adopters   欢迎加入用户组   任何在生产环境中使用 Karmada 的公司,其开发者均可申请加入 Karmada 用户组。无论您是最终用户还是云厂商,我们都欢迎您的加入。最终用户:指在其内部 IT 基础设施中直接部署和使用 Karmada 进行多云或多集群管理的企业或组织。这些公司利用 Karmada 作为关键技术底座来管理和优化算力资源。供应商:指那些将 Karmada 集成到他们的产品或服务中,以提供给其他企业或组织使用的公司。加入 Karmada 用户组,您可以与面临类似挑战的同行建立联系并分享 Karmada 实践经验,一同探索多云多集群生态,包括但不限于以下内容:社区技术支持:包括且不限于方案评估、日常运维、问题定位、版本升级等社区支持公司知名度提升:您的公司和团队将获得全球范围内更多的曝光机会技术影响力构建:邀请共建技术演讲,包括 KubeCon 等海内外业界大会,Karmada 社区伙伴举办的线上、线下系列会议保持信息同步:及时接收重要信息更新,包括新版本的关键特性、重要 Bug 修复、安全风险等内容,确保您的项目能够第一时间受益于新的改进和增强。顶尖人才招募:利用社区渠道招聘宣传,全球范围内精准招募优秀人才拓展商业机会:与 Karmada 生态系统其他成员建立潜在的商业联系和合作当前,加入 Karmada 用户组对社区贡献没有硬性要求,我们鼓励成员积极参与社区活动,分享经验与见解。然而,请注意,未来可能会要求成员对 Karmada 社区做出一定的贡献,以维持其用户组成员身份。这种贡献可以包括但不限于代码提交、文档编写、问题修复、使用案例分享等。访问下方 Karmada 用户组申请表单 [3],提交 issue 申请,即可接收申请进度。手机端可扫描下方二维码快捷填写申请表单。扫码申请加入用户组更多信息,请访问:[1] Karmada Adopter Group 详细信息,请查阅: https://github.com/karmada-io/community/tree/main/adopter-group[2] 小红书: www.xiaohongshu.com[3] Karmada Adopter Group 申请加入表单地址: https://github.com/karmada-io/community/issues/new?template=adopter-group-application.yamlKarmada Adopter Group 欢迎您的加入!期待与您共同创建一个友好而活跃的空间,共享知识、最佳实践和经验,为企业与社区发展缔造更多可能。如需了解更多关于Karmada Adopter Group的信息,请联系: Maintainer Mailing Listcncf-karmada-maintainers@lists.cncf.ioKarmada 是CNCF 首个多云多集群容器编排项目(孵化级),旨在帮助用户像使用单个集群一样轻松管理跨云多集群,让基于 Karmada 的多云方案无缝融入云原生技术生态。社区吸引了来自华为、道客、浙江大学、腾讯、中国电子云、滴滴、Zendesk、携程等100多家公司的全球贡献者,广泛分布于20+国家和地区。Karmada 现已在华为云、道客、兴业数金、中国移动、中国联通、携程、360集团、新浪、中通快递等众多企业单位生产应用,为企业提供从单集群到多云架构的平滑演进方案。添加社区小助手k8s2222回复Karmada进入技术交流群Karmada官网:https://karmada.io/项目地址:https://github.com/karmada-io/karmadaSlack地址:https://slack.cncf.io/(#karmada)
  • [公告] 【调研】请为 Karmada Concept <Host Cluster> 提供宝贵建议
    ▍调研背景Kubernetes SIG-Multicluster 正在提议为 central cluster 制定一个标准化定义[1](目前在 Karmada[2] 中称为“Host Cluster”),以统一 Karmada、OCM、clusternet、kubefleet、MCO、KubeAdmiral 等多集群管理项目之间的术语。此倡议旨在减少生态系统的碎片化,提高跨项目的互操作性。Karmada 社区[3]有可能修改当前在使用的 Concept (即 Host Cluster),为了评估其对用户的影响,特发起了本次社区调研。您的反馈将直接影响 Karmada 与 SIG-Multicluster 提案的一致性,并指导我们的兼容性策略。▍调研目的了解是否有用户将 Karmada Concept 用于产品界面,例如API、可视化UI、产品文档等,如存在此情况请务必反馈。征集用户对术语的偏好(Host Cluster vs. Hub Cluster 等)。 ▍参与方式在 Karmada issue 137 留下您对此问题的评论,或填写在线问卷。本次调研截止日期为2025年6月10日。方式1:在 Karmada issue 137 直接评论:https://github.com/karmada-io/community/issues/137方式2:参与在线问卷,问卷地址:https://docs.google.com/forms/d/e/1FAIpQLSdsFibCZlkOo6xVCx-FlFcAwghy2YgT9DhFP4h7jrLxnn_PNA/viewform相关链接[1] standardized definition for the central cluster: https://github.com/kubernetes/community/pull/8210[2] Karmada: https://karmada.io/[3] Karmada 社区: https://github.com/karmada-io/karmada添加社区小助手k8s2222回复Karmada进入技术交流群👉Karmada 是CNCF 首个多云多集群容器编排项目(孵化级),旨在帮助用户像使用单个集群一样轻松管理跨云多集群,让基于 Karmada 的多云方案无缝融入云原生技术生态。社区吸引了来自华为、道客、浙江大学、腾讯、中国电子云、滴滴、Zendesk、携程等100多家公司的全球贡献者,广泛分布于20+国家和地区。Karmada 现已在华为云、道客、兴业数金、中国移动、中国联通、携程、360集团、新浪、中通快递等众多企业单位生产应用,为企业提供从单集群到多云架构的平滑演进方案。Karmada官网:https://karmada.io/项目地址:https://github.com/karmada-io/karmadaSlack地址:https://slack.cncf.io/(#karmada)
  • [热门活动] 5月27日截止 | Volcano社区2025夏季LFX Mentorship欢迎你的加入
    由Linux Foundation组织的LFX Mentorship计划,从19年开始为CNCF各个开源社区中的开发人员持续提供带薪实习和指导。往年已获20K+申请,发起1300+课题,毕业1000+实习生,发放超过310万美金报酬。LFX Mentorship 2025 Term 2 Mentee 报名正在进行,截止时间为太平洋夏令时 5 月 27 日星期二上午 11:00 (18:00 UTC),远程实习将从 6 月 9 日开始为期三个月。参与到LFX Mentorship计划中,为开源项目做贡献、获得开源社区的认可同时,完成工作还能获取报酬 (位于中国的开发者报酬为$3000美金,约合¥20000人民币)。Volcano社区在LFX Mentorship的课题申请正在火热进行中,欢迎前往官方平台申请: https://mentorship.lfx.linuxfoundation.org/ 🏷️ 需要留意的是, LFX Mentorship 2025 面向在校及已毕业申请者同时开放,而在校学生可同时关注Volcano开源之夏《大咖领路+高额奖金!Volcano社区开源之夏8大课题邀你挑战 》获取更多暑期开源社区工作机会。 Volcano社区介绍 Volcano 是业界首个云原生批量计算引擎,也是 CNCF 首个和唯一的批量计算项目。Volcano 云原生批量计算项目主要用于 AI、大数据、基因、渲染等诸多高性能计算场景,对主流通用计算框架均有很好的支持。社区已吸引5.8万+全球开发者,并获得4.7k Star 和1.1K+Fork,参与贡献企业包括华为、AWS、百度、腾讯、博云、京东、小红书、第四范式、bilibili等。社区地址:https://github.com/volcano-sh/volcano目前,Volcano在人工智能、大数据、基因测序等海量数据计算和分析场景已得到广泛应用,完成对 Spark、Flink、Ray 、Tensorflow、PyTorch、Argo、MindSpore、Paddlepaddle 、Kubeflow、MPI、Horovod、Mxnet、KubeGene等众多主流计算框架的支持,并构建起完善的上下游生态。在LFX Mentorship 2025 Term 2 ,Volcano期待与你协作开拓AI大数据等场景调度的更多可能。面向对象  LFX Mentorship 2025 Term 2申请者需在2025年5月27日前在LFX官网完成Mentee注册及项目申请。若被接收作为Mentee,您将能在开源社区经验丰富、积极贡献的Mentor指导下为开源项目做出贡献。依据官方规定[1],对Mentee申请者有以下要求:计划开始时至少年满18周岁所在单位和组织不禁止该实习未参加另外的Linux Mentorship计划开发者以个人身份参与(在校或已毕业均可)具备所注册国家中工作权利且所注册国家未被计划禁止 (中国已获许可)并非社区中高于最低限度贡献成员(如Maintainer、Recurring Contributor)满足具体所属项目中提及的其它前置需求课题参与方式 根据官方安排 [2],LFX Mentorship 2025年夏季活动流程如下:Mentee报名申请:5月15日-5月27日申请者审核期: 5月28日-6月3日申请者入选通知: 6月4日实习启动: 6月9日中期考核:7月15日首次津贴支付 :7月16日结项考核、实习生报告提交,最终津贴支付批准 :8月26日-27日活动结束 :8月29日申请指南详见 [3]:https://docs.linuxfoundation.org/lfx/mentorship/mentee-guide/how-to-apply实习申请结果预计将在 6 月 4 日通知到申请人。主线开发日期为2025年6月9日-8月26日,全程线上协作,无需线下参与。结项需要在2025年8月26日前以 PR 的形式提交到项目所在的开源社区仓库中并完成合并。 Volcano课题   在LFX Mentorship 2025 Term 2,CNCF Volcano社区带来以下课题:▍Enhance JobFlow Functionality课题描述:Volcano 社区引入了 JobFlow 来解决作业间的依赖关系。通过 JobTemplate 和 JobFlow API ,用户可以声明和编排多个 Volcano 作业,并利用顺序执行、并行执行、条件执行、分支执行和循环执行等控制流原语。JobFlow 旨在促进 AI、大数据和 HPC 工作负载向云原生环境的迁移。当前的 JobFlow 功能需要进一步增强,以满足更复杂的实际场景需求。参考:https://github.com/volcano-sh/volcano/tree/master/docs/design/jobflow预期成果:1. 支持在 JobFlow 中引用 JobTemplate 时修改其参数,例如更改容器镜像版本、调整资源限制等。2. 在 JobFlow 中为失败的作业实现可配置的重试机制,例如支持指数退避重试策略、设置最大重试次数等。3. 引入更丰富的控制流语句,例如 if、switch 和 for 语句,例如基于上游任务状态的条件分支、特定任务集的迭代执行等。前置技能:Kubernetes,Volcano,GO课题导师:Xuzheng Chang(@Monokaix )2536818783@qq.comDong Jiang (@dongjiang1989)dongjiang2010@gmail.com 课题链接:https://mentorship.lfx.linuxfoundation.org/project/6e853798-e2a3-445f-89f4-63c2e5acc58b▍Implement Volcano Scheduler Simulator课题描述:对于 Kubernetes 和 Volcano 调度器的用户来说,调度过程通常像一个黑盒。理解调度决策的执行过程以及评估调度器的功能和性能(尤其是在引入新的调度功能时)可能颇具挑战性。搭建一个功能齐全的 Kubernetes 集群并生成真实的工作负载来观察调度行为可能非常耗时且比较消耗资源。用户需要一种轻量级且高效的方法来验证调度器变更的正确性和性能影响,无需搭建一个真实集群,即可完成模拟调度。预期成果:1. 实现一个能够模拟 Volcano 调度器核心调度逻辑的 Volcano 调度器模拟器。2. 该模拟器应该能够接收模拟的 Kubernetes 集群状态(例如,节点、Pod、队列)和 Volcano 配置作为输入。3. 模拟器应输出模拟调度结果,包括 Pod 被调度到的节点,以及决策过程信息(例如,考虑的节点、筛选和评分结果)。4. (可选)模拟器可以提供基本的性能指标输出,例如模拟调度延迟。5. 提供清晰的使用文档和示例,方便用户验证功能前置技能:Kubernetes, Go, Volcano课题导师:Xuzheng Chang(@Monokaix )2536818783@qq.comlowang-bh(@lowang-bh)lhui_wang@163.com课题链接:https://mentorship.lfx.linuxfoundation.org/project/017774aa-f821-49c6-b701-fef1a0fae17b▍Enhance Volcano Dashboard UX and Functionality课题描述:Volcano Dashboard 是 Volcano 资源的前端展示平台。目前,它支持 Volcano 作业、队列和 Pod 等资源,但编辑通常需要使用原始 YAML 格式,这对于修改或创建新资源并不方便。为了提升用户体验,本项目旨在增强 Dashboard 的交互性和用户友好性,并支持显示层级队列和超节点 (HyperNode) 资源。预期成果:1. 改进资源显示和编辑界面,提供更友好的交互方式,例如使用表单或可视化编辑器代替直接编辑 YAML 格式来创建和修改资源。2. 支持显示层级队列和超节点资源,并提供鼠标点击展开/折叠功能,以便清晰地可视化资源关系。3. 优化用户界面设计,提升美观度和易用性。4. 重构后端代码,提高可维护性和可扩展性。5. 显示资源的关键信息和完整信息,并可在视图之间切换。6. (可选)支持更多资源类型的显示和管理。前置技能:Kubernetes, React, Node.js, JS课题导师:Xuzheng Chang(@Monokaix )2536818783@qq.comZicong Chen (@JesseStutler )jesseincomparable@hotmail.com课题链接:https://mentorship.lfx.linuxfoundation.org/project/e81c895a-69f9-4c63-b4fe-e9352c3fa2e7▍Enhance Volcano Official Documentation课题描述:随着 Volcano 功能的不断丰富以及与更广泛生态系统集成的不断深入,社区文档需要不断更新迭代,以提供更优质的用户指南和体验。清晰全面的文档有助于用户快速上手 Volcano,并降低使用和配置成本。目前,部分文档分散在 GitHub 仓库中,需要迁移至官网,为用户提供统一的入口。预期成果:1. 将 GitHub 仓库中尚未上线的文档迁移至官网。2. 详细讲解 Volcano Scheduler、Volcano Controller、Volcano Agent 和 Volcano Admission 组件的功能,包括其各自启动参数的含义。3. 补充核心功能(例如 JobFlow 和 vGPU 虚拟化)的文档。4. 添加“最佳实践”部分,提供在各种场景下使用 Volcano 的建议和配置示例。5. 添加“故障排除”部分,用于收集和整理常见问题及其解决方案。前置技能:Technical Writing, Markdown,Git,Hugo or other static site generators课题导师:Xuzheng Chang(@Monokaix )2536818783@qq.comZicong Chen (@JesseStutler )jesseincomparable@hotmail.com课题链接:https://mentorship.lfx.linuxfoundation.org/project/a8bafeea-f608-4e73-9a44-ca60c309536f 如果对课题内容有任何问题,欢迎向课题导师发送邮件或在GitHub仓库提交Issue提问。扫码回复“Volcano” 进入技术群参考资料[1] LFX Mentorship - Application Requirement: https://docs.linuxfoundation.org/lfx/mentorship/mentee-guide/am-i-eligible [2] LFX Mentorship - Program Readme: https://github.com/cncf/mentoring/tree/main/programs/lfx-mentorship/2025/02-Jun-Aug[3] LFX Mentorship - Mentee Application Guideline: https://docs.linuxfoundation.org/lfx/mentorship/mentee-guide/how-to-applyVolcano 是业界首个云原生批量计算引擎,也是 CNCF 首个和唯一的批量计算项目。项目主要用于 AI、大数据、基因、渲染等诸多高性能计算场景,对主流通用计算框架均有很好的支持。目前,Volcano在人工智能、大数据、基因测序等海量数据计算和分析场景已得到快速应用,已完成对 Spark、Flink、Ray、 Tensorflow、PyTorch、Argo、MindSpore、Paddlepaddle 、Kubeflow、MPI、Horovod、Mxnet、KubeGene 等众多主流计算框架的支持,并构建起完善的上下游生态。Website:https://volcano.shGitHub: https://github.com/volcano-sh/volcano每周例会:https://zoom.us/j/91804791393
  • [热门活动] 华为邀您相聚KubeCon China 2025,共绘云原生新一个十年
    6月10日-11日,由Linux基金会、云原生计算基金会(CNCF)联合主办的KubeCon+CloudNativeConChina2025将于中国香港盛大召开。作为全球云原生与开源顶级会议,大会汇聚世界顶尖技术专家与前沿企业,深入Kubernetes、云原生架构、人工智能、开源生态系统等领域的技术与应用创新探讨,促进行业领导者、项目维护者和最终用户之间的合作,共绘云原生新一个十年。更多云原生技术动向关注容器魔方【更多华为云云原生干货推荐】华为云云原生王者之路集训营华为云云原生王者之路集训营为帮助广大技术爱好者快速掌握云原生相关技能,华为云云原生团队与华为云学院联合CNCF开源软件大学启动人才培养计划,推出《华为云云原生王者之路集训营》,从云原生基础知识介绍到最佳实践讲解、底层原理和方案架构深度剖析,层层深入,满足不同云原生技术基础和学习目标人群的需求。本课程还精选数十个企业典型应用场景,作为学员上机实践案例,帮助学员将所学技术快速与企业业务相结合,服务于企业生产。点击免费参加华为云云原生王者之路集训营:cid:link_3 学习后记得小试牛刀,看看测评效果~ 华为云云原生王者之路-黄金课程测评 华为云云原生王者之路-钻石课程测评 华为云云原生王者之路-王者课程测评
  • [公告] Kmesh v1.1.0 正式发布!官网焕新升级
    我们非常高兴地宣布 Kmesh v1.1.0 版本正式发布,这是Kmesh社区在过去三个月共同努力的成果。在此,我们特别感谢 LFX Mentorship 的贡献者,他们的贡献对推动此版本的发布至关重要。在 v1.0.0 的基础上,此版本对 Kmesh 的架构、可观察性和生态系统集成进行了重大改进。Kmesh 官方网站经过了全面的重新设计,提供了直观的界面和精简的文档,以增强用户和开发者的体验。此外,我们还重构了 DNS 模块并添加了长连接指标,从而能够更深入地洞察更多流量模式。在 Kernel-Native 模式下,我们减少了对内核的侵入式修改。另外,我们使用全局变量替换 BPF 配置映射,以简化底层复杂性。与 Istio 1.25 的兼容性也经过了严格的验证,确保与该版本的 Istio 实现无缝互操作。值得注意的是,长期以来一直存在的 TestKmeshRestart E2E 测试用例不稳定问题,通过对底层 BPF 程序的长期调查和重构,已得到解决,标志着运行时可靠性的飞跃。  Kmesh v1.1.0 版本主要特性  网站全新改版Kmesh 官方网站经过了彻底的重新设计,提供了更直观的用户体验,改进了文档,重新组织了内容层次结构,并简化了导航。在处理上一次迭代中的反馈时,我们专注于可以提升用户体验的关键领域。之前的界面存在一些可用性问题,偶尔会导致查找比较困难。我们的博客模块尤其需要关注,因为它的内容组织和视觉层次结构已经影响了内容的可发现性和可读性。从工程角度来看,我们认识到可以通过更好的组件组织和更系统的样式方法来改进代码结构,因为现有的实现随着时间的推移已经变得越来越复杂,难以维护。为了解决这些问题,我们转向了 React 和 Docusaurus,这是一个对开发人员更加友好的现代文档框架。这使我们能够创建模块化组件,并通过可重用性消除冗余代码。 Docusaurus 提供专为文档和博客设计的内置导航系统,以及版本控制的文档功能。我们实现了文档的多语言支持,添加了高级搜索功能,并彻底重构了内容结构。这些举措显著提升了用户体验,使 Kmesh 网站对所有用户来说都更易于访问,也更具价值。长连接指标在此版本之前,Kmesh 仅在 TCP 连接终止和建立期间提供访问日志,其中包含有关连接的详细信息,例如发送和接收的字节数、数据包丢失、RTT 和重传次数。Kmesh 还提供特定于工作负载和服务的指标,例如发送和接收的字节数、丢失的数据包、最小 RTT 以及 Pod 打开和关闭的总连接数。这些指标仅在连接关闭后更新。在此版本中,我们实现了 TCP 长连接的访问日志和指标,并开发了一种持续的监控和报告机制,可在长连接整个生命周期内捕获详细的实时数据。访问日志会定期报告,其中包含报告时间、连接建立时间、发送字节数、接收字节数、丢包率、RTT、重传次数和状态等信息。长连接还会定期报告发送字节数、接收字节数、丢包率和重传次数等指标。DNS 重构当前的 DNS 进程包含 CDS 刷新进程。因此,DNS 与内核原生模式深度耦合,无法在双引擎模式下使用。在 1.1 版本中,我们重构了 Kmesh 的 DNS 模块。DNS 中循环遍历刷新队列的数据不再是一个包含 CDS 的结构,而是变成了一个域名,因此 DNS 模块不再关心 Kmesh 模式,只提供待解析的主机名。BPF 配置映射优化Kmesh 已删除专用的 kmesh_config_map BPF map,该map之前存储了全局运行时配置,例如 BPF 日志记录级别和监控开关。现在,这些设置通过全局变量进行管理。利用全局变量可以简化 BPF 配置管理,从而提高运行时效率和可维护性。优化内核原生模式,减少对内核的侵入式修改内核原生模式需要大量侵入式内核重构才能实现基于 HTTP 的流量控制。其中一些修改可能会对内核产生重大影响,这使得内核原生模式难以在实际产品中部署和使用。为了解决这个问题,我们同步修改了内核原生模式下的内核以及相关的 ko 和 eBPF。通过本次版本的优化,在内核 5.10 中,内核修改限制为四个,在内核 6.6 中,内核修改减少为只有一个。最后一个修改将尽可能地被消除,最终目标是在原生版本 6.6 及以上版本上运行内核原生模式。Istio 1.25 兼容性验证Kmesh 已验证与 Istio 1.25 的兼容性,并在 CI 中添加了相应的端到端测试。Kmesh 社区负责在 CI 中对三个 Istio 版本进行验证,因此 Istio 1.22 的端到端测试已从 CI 中移除。  关键 Bug 修复  1. kmeshctl 安装waypoint错误: https://github.com/kmesh-net/kmesh/issues/1287 2. TestKmeshRestart flaky问题: https://github.com/kmesh-net/kmesh/issues/1192  致 谢 贡 献 者  Kmesh v1.1.0 版本包含了来自14位贡献者的118次代码提交,在此对各位贡献者表示由衷的感谢:我们始终以开放中立的态度发展 Kmesh,持续打造 Sidecarless 服务网格业界标杆方案,服务千行百业,促进服务网格健康有序的发展。Kmesh 当前正处于高速发展阶段,我们诚邀广大有志之士加入!参考资料[1] Kmesh Release v1.1.0: https://github.com/kmesh-net/kmesh/releases/tag/v1.1.0[2] Kmesh GitHub: https://github.com/kmesh-net/kmesh[3] Kmesh Website: https://kmesh.net/扫码添加社区小助手回复Kmesh进交流群【更多华为云云原生干货推荐】华为云云原生王者之路集训营华为云云原生王者之路集训营为帮助广大技术爱好者快速掌握云原生相关技能,华为云云原生团队与华为云学院联合CNCF开源软件大学启动人才培养计划,推出《华为云云原生王者之路集训营》,从云原生基础知识介绍到最佳实践讲解、底层原理和方案架构深度剖析,层层深入,满足不同云原生技术基础和学习目标人群的需求。本课程还精选数十个企业典型应用场景,作为学员上机实践案例,帮助学员将所学技术快速与企业业务相结合,服务于企业生产。点击免费参加华为云云原生王者之路集训营:cid:link_3 学习后记得小试牛刀,看看测评效果~ 华为云云原生王者之路-黄金课程测评 华为云云原生王者之路-钻石课程测评 华为云云原生王者之路-王者课程测评
  • [技术干货] KubeEdge-Ianvs v0.3.0版本:大模型与数据集发布,支持行业大模型、协同推理范式及智能体等算法
    北京时间2025年4月10日,KubeEdge-Ianvs v0.3.0版本正式发布。在智能涌现的大模型时代,云边协同技术是保障实时性能、确保安全合规、承接定制化需求和资源高效利用的关键。本文探讨云边协同人工智能在大模型时代的边侧场景壁垒问题、云边协同架构问题及边侧需求多样化问题。面向这三大问题,文章重点介绍 KubeEdge-Ianvs v0.3.0 版本中基于大模型的全新功能升级,包括行业大模型基准测试。除支持一站式流程、多种数据格式及第三方工具等基础大模型评测能力外,开发对大模型进行政务领域、具身智能领域、代码领域及边缘系统领域的基准测试,开源对应2k+政务数据集 (Gov-aff)、2.5k+具身智能数据集 (Cloud-Robotics)、以及指标和测试工具;大模型协同推理范式。发布大模型云边协同推理范式及其查询路由、投机解码算法,发布多边协同推理范式,开源对应示例代码和使用文档;大模型自适应系列算法。开发了个性化智能体算法、多模态联合学习算法以及未知任务终身学习算法,开源对应示例代码和使用文档。 一、背景:云边大模型基准测试三大问题  随着大模型在各行业加速落地,实时性、定制化、安全合规及资源受限等实际需求不断涌现,越来越多的应用需要云边协同技术将强大的大模型能力延展到边缘侧。然而,大模型跨云边的测试、协同优化以及性能验证,往往缺乏统一标准和成熟工具,KubeEdge SIG AI 识别在开发与部署落地过程中的三大问题:问题1:场景壁垒问题。行业大模型大量应用于边侧特定领域,而现有基准测试通常围绕通用大语言模型、通用视觉大模型等开展,通用基准测试的测试集、测试指标乃至测试环境用于政务、具身、代码、边缘系统等特定行业领域往往出现巨大误差,对相关产品质量评估存在挑战。问题2:云边协同架构问题。随着大模型推理业务场景的不断拓展,单一云端或静态边缘模型难以满足高时效、低成本和个性化的实际需求。虽然 KubeEdge SIG AI 历史项目中包含云边协同推理范式,但仅适用于视觉深度学习,在大模型尤其是自然语言大模型场景,云边各模块已不再适用。问题3:边侧需求多样化问题。现有基准测试通常围绕通用大模型开展,但边侧场景往往存在边缘定制化、多种模态和开放世界未知任务等情况,对通用大模型的边侧适应性诉求及冲突愈发尖锐。二、解决方案:围绕大模型全面升级  为了解决上述挑战,KubeEdge-Ianvs v0.3.0  版本带来了三项关键升级:方案1:行业大模型基准测试。支持大语言模型本地部署和公共 API 接口(如 OpenAI)测试,支持政务、具身、代码、边缘系统四大领域的行业大模型能力测试,开源对应测试集、指标和测试工具方案2:大模型协同推理范式。开发高效的大语言模型云边协同推理架构,集成查询路由、投机解码等前沿算法,推理加速20%+,显著降低推理资源消耗。支持多边联合推理范式,覆盖分布式推理场景方案3:发布自适应系列算法。新增个性化 LLM Agent、多模态联合学习、未知任务终身学习等算法模块。覆盖更多真实应用需求,助力大模型能力持续演进👇🏻下面深入解读三大升级功能:▍1. 行业大模型基准测试图1 KubeEdge-Ianvs大模型基准测试架构如前述,传统基准测试是针对通用模型设计,其评测方法迁移到边侧垂直领域时,表现出测试集适配性不足、评价指标偏差显著且验证环境兼容性差等系统性缺陷,这已对行业专用模型的精准性能评估形成实质性障碍。对应地,KubeEdge-Ianvs v0.3 分别基于大模型及行业领域进行功能升级。首先,KubeEdge-Ianvs v0.3 为本地和云端多类型大模型提供评测工具集,为后续高阶大模型评测奠定基础。在基础功能中,开发者和企业可快速获取模型跨场景真实能力数据,支撑大模型落地前的全流程验证与优化。提供一站式 Benchmark 接口:为不同类型的大模型基准测试提供统一接口,支持自定义 Prompt 模板、多样化推理场景(零样本、少样本、检索增强等)开箱即用,支持主客观评测、自动统计及评测报告自动生成。兼容多种数据格式与任务类型:支持主流 json/jsonl 格式的数据文件,摆脱传统 index 文件限制。适配自然语言、多模态、视觉等多领域测试数据。一体化集成第三方工具:对接开源测试工具 OpenCompass,涵盖百余主流标准 Benchmarks,支持主流公有云大模型 API 调用及本地模型测试。进一步地,由于高阶大模型大量应用于边侧特定行业领域,KubeEdge-Ianvs 支持高阶大模型基准测试,包括政务、代码和边缘系统领域。政务领域基准测试:开源政务领域首个政务问答测试数据集(GovAff[1] )及对应套件(CGAUE[2]),测试数据集包含1600道选择题和1045道主观题,贴合各地政策问答,附设计文档[3]及期刊论文[4]。图2 KubeEdge-Ianvs政务大模型基准测试CGAUE架构具身智能领域基准测试:开源具身智能领域测试数据集 (Cloud-Robotics)[5][6]及其对应套件[7],测试数据集包含30类对象2500+图像,套件则集成了基于 RFNet 等预训练大模型的多模态联合学习能力,附设计文档[8]及测试示例[7]。图3 KubeEdge-Ianvs具身智能数据集Cloud-Robotics边缘系统领域基准测试:通过测量 CPU 负载和带宽消耗等关键指标,评估大模型在边缘设备上的性能,了解边缘部署的资源需求和局限性,附设计文档[9]、测试示例[10]及测试样本[11]。代码领域基准测试:针对编程、问答、推理等多样化测试,评测结果可通过准确率、BLEU 等主流指标一站式输出,附设计文档[12]及测试示例[13]。▍2. 大模型协同推理范式随着大模型推理业务向多元场景延伸,传统纯云架构与边缘部署模式暴露出推理时延冗余、分布式成本失控及服务个性化受限等典型矛盾。KubeEdge SIG AI 原有云边协同推理虽然在视觉深度学习领域实现了初步整合应用,但在处理大模型时,其核心框架组件出现功能适配断层,此类技术瓶颈正制约大模型在智能客服、工业质检等场景的端到端产业化部署。对应地,KubeEdge-Ianvs v0.3 版本发布大模型云边协同推理范式及多边协同推理范式。图4 大模型云边协同推理范式架构大模型云边协同推理范式。Ianvs v0.3 引入先进的云-边协同推理范式,通过灵活分配推理任务,实现云端算力与边缘设备高效协作,适配各种网络条件和设备异构环境,广泛支持政务、工业物联网、智慧城市等多种垂直应用部署。详见设计文档[14]及示例[15]。该范式引入查询路由机制,通过评估请求的复杂程度,自动判断是否应该在云端大型模型还是边端小型模型完成,查询路由 (Query-Routing)降低至少 50% 的首字时延,同时还能带来额外12.38% (相比 Qwen 自身) 和 8.23%(相比 gpt-4o-mini) 的绝对精度提升。图5 大模型云边协同推理-查询路由机制该范式支持 state-of-the-art 投机解码(Speculative Decoding)算法EAGLE (ICML’24),通过目标模型 (Target Model) 和草稿模型 (Draft Model) 协作,在不影响推理准确性的前提下,将大型 LLM 推理加速到2x以上,极大提升系统推理速度。详见设计文档[16]及示例[17]。图6 投机解码算法示例该范式支持多种推理引擎,支持 transformers, vLLM, EAGLE 等丰富的推理引擎,并可根据需要快速支持其他推理引擎。该范式还支持多样指标统计,包括对精度(Accuracy), 首字时延(Time-to-First-Token, TTFT),吞吐量(Throughput),Token 数等指标的监测记录。图7 多边协同推理范式架构多边协同推理范式。以行人追踪为例,利用 Graph Scheduling 与 ByteTrack 模型优化,实现多设备分布式联合推理,支持特殊场景下(如园区安防、工业生产线)AI 能力的端到端协同部署。详见设计文档[18]及示例[19]。图8 多边协同推理示例▍3. 大模型场景新算法支持当前大模型基准评测仍然偏重于通用模型评估,未能有效覆盖边缘计算环境本地化需求,诸如边缘定制化、多种模态和开放世界未知任务等情况普遍存在。这些边缘原生需求与通用模型能力边界之间的矛盾正持续升级,凸显出云边协同通用模型算法及测试的理论缺失与实践空白。KubeEdge-Ianvs v0.3全面升级了大模型适配能力,集成多项创新算法,让 AI 真正“因场而变”,实现从基础推理到个性化、多模态与终身学习的全场景覆盖。个性化大模型智能体算法。基于 Bloom 等主流大模型,结合用户自身数据与任务,实现边缘侧的任务个性化优化。支持单任务定制化训练,让每个终端都能拥有独特的 AI 助手,覆盖如客户交互、智能问答、定制自动化等场景。该算法可无缝对接云边协同推理框架,在保证隐私和响应速度的前提下,最大化个体或组织的智能服务体验。详见设计文档[20]及示例[21]。图9 个性化大模型智能体架构与示例未知任务终身学习算法。面对快速变化的应用环境和任务需求,Ianvs 提供了基于预训练模型的“未知任务处理”与终身学习算法。能够自动适配新任务,实现模型的增量学习和知识迁移,让大模型在不断变化的现实世界中,持续保持领先的泛化能力和处理效率。详见设计文档[22]及示例[23]。图10 未知任务终身学习算法架构与示例三、Release Note  如果读者对于本次版本发布的更多细节感兴趣,欢迎查阅 KubeEdge Ianvs v0.3.0 Release Note[24]。后续 KubeEdge SIG AI 将发布系列文章,陆续具体介绍新版本升级的特性,欢迎各位读者继续关注社区动态及持续关注 KubeEdge-Ianvs,获取前沿开源数据集、基准测试和云边 AI 创新动态!🔗 开源仓库 GitHub 地址:https://github.com/kubeedge/ianvs 相关链接:[1] The Chinese Government Affairs Dataset (GovAff) : https://www.kaggle.com/datasets/kubeedgeianvs/the-government-affairs-dataset-govaff/[2] 政务大模型基准测试套件 (Chinese Gov. Affairs Understanding Evaluation Benchmark, CGAUE): https://github.com/kubeedge/ianvs/tree/main/examples/government/singletask_learning_bench[3] 政务大模型基准测试设计文档: https://github.com/kubeedge/ianvs/blob/main/docs/proposals/scenarios/llm-benchmarks/llm-benchmarks-zh.md[4] 边侧大模型基准测试:政务大模型初探: https://d.wanfangdata.com.cn/periodical/zdhbl202502037[5] The Cloud-Robotics Dataset: https://www.kaggle.com/datasets/kubeedgeianvs/cloud-robotics#[6] The Cloud-Robotics Dataset 数据集介绍: https://github.com/kubeedge/ianvs/blob/main/docs/proposals/scenarios/Cloud-Robotics/Cloud-Robotics_zh.md[7] 具身智能领域基准测试示例: https://github.com/kubeedge/ianvs/tree/main/examples/Cloud_Robotics/singletask_learning_bench/Semantic_Segmentation[8] 具身智能领域基准测试设计文档: https://github.com/kubeedge/ianvs/blob/main/docs/proposals/scenarios/Cloud_robotics/single_task_learning.md[9] 边侧系统基准测试设计文档: https://github.com/kubeedge/ianvs/blob/main/docs/proposals/scenarios/llm-benchmark-suite/llm-edge-benchmark-suite.md [10] 边侧系统基准测试示例:: https://github.com/kubeedge/ianvs/tree/main/examples/llm-edge-benchmark-suite [11] 边侧系统基准测试样本: https://github.com/kubeedge/ianvs/tree/main/examples/llm_simple_qa [12] 代码大模型基准测试设计文档: https://github.com/kubeedge/ianvs/blob/main/docs/proposals/scenarios/Smart_Coding/Smart%20Coding%20benchmark%20suite%20Proposal.md [13] 代码大模型测试示例: https://github.com/kubeedge/ianvs/tree/main/examples/smart_coding/smart_coding_learning_bench[14] 大模型云边协同推理设计文档: https://github.com/kubeedge/ianvs/blob/main/docs/proposals/algorithms/joint-inference/cloud-edge-collaboration-inference-for-llm.md [15] 大模型云边协同推理示例: https://github.com/kubeedge/ianvs/tree/main/examples/cloud-edge-collaborative-inference-for-llm[16] 大模型云边协同推理-投机解码算法设计文档: https://github.com/kubeedge/ianvs/blob/main/docs/proposals/algorithms/joint-inference/cloud-edge-speculative-decoding-for-llm.md[17] 大模型云边协同推理-投机解码示例:  https://github.com/kubeedge/ianvs/tree/main/examples/cloud-edge-collaborative-inference-for-llm[18] 多边协同推理示例: https://github.com/kubeedge/ianvs/blob/main/docs/proposals/algorithms/multi-edge-inference/Heterogeneous%20Multi-Edge%20Collaborative%20Neural%20Network%20Inference%20for%20High%20Mobility%20Scenarios.md[19] 多边协同推理示例: https://github.com/kubeedge/ianvs/tree/main/examples/MOT17/multiedge_inference_bench/pedestrian_tracking [20] 个性化大模型智能体设计文档: https://github.com/Frank-lilinjie/ianvs/blob/main/docs/proposals/algorithms/single-task-learning/Personalized%20LLM%20Agent%20based%20on%20KubeEdge-Ianvs%20Cloud-Edge%20Collaboration.md [21] 个性化大模型智能体示例: https://github.com/kubeedge/ianvs/tree/main/examples/llm-agent/singletask_learning_bench[22] 未知任务终身学习算法设计文档: https://github.com/kubeedge/ianvs/blob/main/docs/proposals/algorithms/lifelong-learning/Unknown_Task_Processing_Algorithm_based_on_Lifelong_Learning_of_Ianvs.md[23] 未知任务终身学习算法示例: https://github.com/kubeedge/ianvs/tree/main/examples/cityscapes/lifelong_learning_bench/unseen_task_processing-GANwithSelfTaughtLearning[24] KubeEdge-Ianvs v0.3.0 Release Note: cid:link_0【更多KubeEdge资讯推荐】玩转KubeEdge保姆级攻略——环境搭建篇玩转KubeEdge保姆级攻略——环境搭建篇《玩转KubeEdge保姆级攻略——环境搭建篇》课程主要介绍如何通过华为云服务快速搭建一套KubeEdge边缘计算开发平台及部署Sedna、EdgeMesh等KubeEdge生态组件。课程免费学习链接:https://connect.huaweicloud.com/courses/learn/course-v1:HuaweiX+CBUCNXNX022+Self-paced/aboutKubeEdge社区介绍:KubeEdge是业界首个云原生边缘计算框架、云原生计算基金会(CNCF)唯一毕业级边缘计算开源项目,社区已完成业界最大规模云原生边云协同高速公路项目(统一管理10万边缘节点/50万边缘应用)、业界首个云原生星地协同卫星、业界首个云原生车云协同汽车、业界首个云原生油田项目,开源业界首个分布式协同AI框架Sedna及业界首个边云协同终身学习范式,并在持续开拓创新中。KubeEdge网站 :  https://kubeedge.ioGitHub地址 : cid:link_1Slack地址 : https://kubeedge.slack.com邮件列表 : https://groups.google.com/forum/#!forum/kubeedge每周社区例会 : https://zoom.us/j/4167237304Twitter : https://twitter.com/KubeEdge文档地址 : https://docs.kubeedge.io/en/latest/
  • [技术干货] KubeEdge-Sedna v0.7.0 发布:联合推理引擎原生集成K8S HPA,系统稳定性全面升级
    本文以智慧工业园区为例,探讨了云边协同AI在案例实践过程发现的高峰期资源调度问题、系统维护时的“幽灵实例”、及底座版本问题。文章重点介绍北京时间 2025年4月20日,KubeEdge-Sedna 发布的 v0.7.0 版本。此版本为联合推理提供原生的HPA(Horizontal Pod Autoscaling)支持、联合推理与联邦学习控制器功能优化、底座架构升级。本文重点展示了 KubeEdge-Sedna v0.7.0 版本升级的主要内容,包括:联合推理支持 HPA:在人工智能快速发展的背景下,深度学习模型对计算资源的需求呈现显著波动,尤其在高峰期更为突出。为此,本次更新引入 HPA(Horizontal Pod Autoscaling)机制,该技术通过实时监控系统负载,动态调节推理实例数量,有效保障高并发场景下的系统稳定性。升级后的 HPA 不仅适配云边协同架构,还可无缝兼容 Sedna 历史版本,显著提升了系统扩展性和资源利用率。控制器优化与增强:本次更新也迎来了联合推理与联邦学习控制器的重要优化。针对以往版本中存在的任务删除不彻底、实例重建不及时等问题,本次更新通过引入 Deployment 管理机制,实现了推理任务的动态伸缩与生命周期管理。此外,联邦学习任务的控制器也得到了改进,在稳定性上有了重大提升。底座架构升级:本次更新同步将 Kubernetes 版本升级至 v1.30.7,Golang 版本升级至 v1.22.9。以及一系列问题修复,大幅提升 Sedna 整体性能与可靠性。一、背景:以智慧工业园区为例  截止2025年,KubeEdge Sedna 相关算法及系统已应用于20+案例中。在中国、印度多项大型智慧工业园区案例中,KubeEdge Sedna 使能的边缘 AI 安全帽检测系统持续保障工地安全生产。随着接入的工地和摄像头数量不断增加,系统面临着高峰期资源调度问题、系统维护时的“幽灵实例”问题、底座版本架构问题。问题1:高峰期的资源调度。在每天早班和晚班交接时段,工地出入口的人员流动量激增,边缘节点的安全帽检测请求量比平时增长300%,导致系统响应延迟增加50%,影响了对违规未戴安全帽行为的实时识别和预警。引入 HPA 机制后,系统能够根据 CPU 利用率自动扩展检测实例,将响应时间控制在可接受范围内;而在非高峰时段,系统又会自动缩减实例数量,整体节省了40%的计算资源成本。问题2:系统维护时的“幽灵实例”。在系统升级或维护期间,删除旧的安全帽检测任务后,系统中常常残留检测实例。这些“幽灵实例”会导致新检测任务无法正常创建,运维团队不得不花费大量时间手动清理残留资源。更棘手的是,如果误删了正在运行的检测实例,系统无法自动重建,导致部分区域的安全帽检测中断数小时,存在安全隐患。问题3:底座版本陈旧。随着部署时间过去,底座 Kubernetes 版本、Golang  版本均有功能升级,但 KubeEdge Sedna 仍在使用数年前的陈旧版本,存在性能和可靠性风险。  二、解决方案:智慧工业园区的AI升级之路  为了解决上述挑战,sedna v0.7.0 版本带来了三项关键升级方案1:引入了 HPA(Horizontal Pod Autoscaling)机制,能根据实际负载自动调节检测实例数量方案2:优化了控制器,实现了检测实例的自动清理和重建方案3:将 Kubernetes 版本升级至 v1.30.7,Golang 版本升级至 v1.22.9,并修复一系列问题新版本在各地工业园区应用中效果显著在人员流动高峰期,系统能够自动感知负载变化,及时增加检测实例,确保安全帽检测的实时性和准确性;在低峰期,系统自动释放多余资源,极大降低了运维成本。系统维护时,无需再手动清理残留实例,新检测任务可以顺利创建和运行,即使发生误删,系统也能自动重建检测实例,保障工地安全管理的连续性和可靠性。底座版本实现无缝升级,大幅提升 Sedna 整体性能与可靠性。👇🏻下面详细介绍实现方案:▍1. 联合推理原生支持 HPA 能力图1 HPA架构:以联合推理为例HPA 是 k8s (Kubernetes )原生提供的 pod 动态扩缩容能力,详细可参考 horizontal-pod-autoscale[1],其可以直接应用于 Deployment[2]或者 StatefulSet[3] 等 k8s 原生资源,为了直接复用 HPA 能力且与老版本 Sedna 兼容,本次更新我们将联合推理的 pod 实例采用 Deployment 进行管理 (详细内容在后续介绍),这样,我们就可以直接在联合推理范式的 API 中引入 HPA 的配置。联合推理范式的 API 设计可参见 附录1: HPA API 设计。其设计中,HPA 的配置与 k8s 的原生配置保持一致,用户可以直接参考 HPA 官方文档[1]进行配置。HPA 的配置支持 “同时在云边配置”、“只在云配置”、“只在边配置”以及“不配置”四种模式。当用户不配置时,将与 Sedna 历史版本使用完全一致。🔗具体方案设计以及实现请参考:proposal[4] 、implementation[5]🔗使用案例参考:附录2: HPA 配置示例▍2. 联合推理&联邦学习控制器优化图2 联合推理控制器优化联合推理方案设计:推理任务可以认为是一种无状态工作负载,因此可以利用 Kubernetes 的本地组件 Deployment 来实现 Pod 生命周期管理。通过使用 k8s 的 Informer 机制来监听推理任务的变化事件,然后通过调用addDeployment/deleteDeployment/updateDeployment等函数对 Deployment 资源进行对应的操作。此外,这一改变也可以直接对接上一章节提到的 HPA 能力,实现推理实例的动态伸缩。🔗更多细节请参考:proposal[6]、implementation[7]图3 联邦学习控制器优化联邦学习方案设计:在 Sedna 中,联邦学习属于一种训练任务,其会涉及到一些中间态的参数保存,其 pod 实例存在先后次序关系(即重新启动的 pod 实例可能需要访问上次失败 pod 的中间参数),因此其不再适合使用 Deployment 进行管理。所以对于联邦学习的控制器优化,依然采用原始方案,对其进行改进优化。🔗更多细节请参考:proposal[8] 、implementation[9]▍3. 底座架构升级本次升级将 Sedna 的 k8s 和 go 版本升级到了与 kubeedge 保持一致,并移除了大量 k8s 中已经废弃的函数和工具包。🔗更多详细信息请参考:Upgrade K8s and Go versions[10]本次升级也修复一系列问题,提高系统稳定性修复对象搜索范式中的级联删除问题:PR #443[11]修复联邦学习任务无法删除问题:PR #467[12]修复 helm chart 包中 crd 未更新问题:PR #472[13]修复 github CI 中的工作流版本问题:PR #475[14] 三、Release Note  如果读者对于本次版本发布的更多细节感兴趣,欢迎查阅 Sedna v0.7.0 Release Note[15]。后续 KubeEdge SIG AI 将发布系列文章,陆续具体介绍新版本升级的特性,欢迎各位读者继续关注社区动态。相关链接:[1] Pod 水平自动扩缩: https://kubernetes.io/zh-cn/docs/tasks/run-application/horizontal-pod-autoscale/[2] Deployments: https://kubernetes.io/zh-cn/docs/concepts/workloads/controllers/deployment/[3] StatefulSet: https://kubernetes.io/zh-cn/docs/concepts/workloads/controllers/statefulset/[4] joint-inference-hpa.md: https://github.com/kubeedge/sedna/blob/main/docs/proposals/joint-inference-hpa.md[5] feature: hpa for jointinference : https://github.com/kubeedge/sedna/pull/465 [6] sedna-controller-enhancement.md: https://github.com/kubeedge/sedna/blob/main/docs/proposals/sedna-controller-enhancement.md[7] JointInferenceService controller enhancement: https://github.com/kubeedge/sedna/pull/445[8] sedna-controller-enhancement.md: https://github.com/kubeedge/sedna/blob/main/docs/proposals/sedna-controller-enhancement.md [9] Sedna FederatedLearning controller enhancement: https://github.com/kubeedge/sedna/pull/446 [10] Upgrade K8s and Go versions: https://github.com/kubeedge/sedna/pull/462 [11] fix objectsearch bug of joint delete: https://github.com/kubeedge/sedna/pull/443 [12] fix FederatedLearningJob delete error: https://github.com/kubeedge/sedna/pull/467 [13] fix helm crd can not generete error: https://github.com/kubeedge/sedna/pull/472 [14] update workfow actions from v2 to v4: https://github.com/kubeedge/sedna/pull/475 [15] Sedna v0.7.0 release: https://github.com/kubeedge/sedna/releases/tag/v0.7.0 附录1:HPA API设计// HPA describes the desired functionality of the HorizontalPodAutoscaler.type HPA struct { // +optional MinReplicas *int32`json:"minReplicas,omitempty"` MaxReplicas int32`json:"maxReplicas"` // +optional Metrics []autoscalingv2.MetricSpec `json:"metrics,omitempty"` // +optional Behavior *autoscalingv2.HorizontalPodAutoscalerBehavior `json:"behavior,omitempty"`}// EdgeWorker describes the data a edge worker should havetype EdgeWorker struct { Model SmallModel `json:"model"` HardExampleMining HardExampleMining `json:"hardExampleMining"` Template v1.PodTemplateSpec `json:"template"` // HPA describes the desired functionality of the HorizontalPodAutoscaler. // +optional HPA *HPA `json:"hpa"`}// CloudWorker describes the data a cloud worker should havetype CloudWorker struct { Model BigModel `json:"model"` Template v1.PodTemplateSpec `json:"template"` // HPA describes the desired functionality of the HorizontalPodAutoscaler. // +optional HPA *HPA `json:"hpa"`}附录2:HPA 配置示例apiVersion: sedna.io/v1alpha1kind: JointInferenceServicemetadata: name: helmet-detection-inference-example namespace: defaultspec: edgeWorker: hpa: maxReplicas: 2 metrics: - resource: name: cpu target: averageUtilization: 50 type: Utilization type: Resource minReplicas: 1 model: name: "helmet-detection-inference-little-model" hardExampleMining: name: "IBT" parameters: - key: "threshold_img" value: "0.9" - key: "threshold_box" value: "0.9" template: spec: nodeName: $Edge-NodeName hostNetwork: true dnsPolicy: ClusterFirstWithHostNet containers: - image: kubeedge/sedna-example-joint-inference-helmet-detection-little:v0.5.0 imagePullPolicy: IfNotPresent name: little-model env: # user defined environments - name: input_shape value: "416,736" - name: "video_url" value: "rtsp://localhost/video" - name: "all_examples_inference_output" value: "/data/output" - name: "hard_example_cloud_inference_output" value: "/data/hard_example_cloud_inference_output" - name: "hard_example_edge_inference_output" value: "/data/hard_example_edge_inference_output" resources: # user defined resources requests: memory: 64M cpu: 50m limits: memory: 2Gi cpu: 500m volumeMounts: - name: outputdir mountPath: /data/ volumes: # user defined volumes - name: outputdir hostPath: # user must create the directory in host path: /joint_inference/output type: Directory cloudWorker: hpa: maxReplicas: 5 metrics: - resource: name: cpu target: averageUtilization: 20 type: Utilization type: Resource minReplicas: 1 model: name: "helmet-detection-inference-big-model" template: spec: nodeName: $Cloud-NodeName dnsPolicy: ClusterFirstWithHostNet containers: - image: kubeedge/sedna-example-joint-inference-helmet-detection-big:v0.5.0 name: big-model imagePullPolicy: IfNotPresent env: # user defined environments - name: "input_shape" value: "544,544" resources: # user defined resources requests: cpu: 1024m memory: 2Gi limits: cpu: 1024m memory: 2Gi附录3:HPA 部署效果[root@master-01 ~]# kubectl get hpa -wNAME REFERENCE TARGETS MINPODS MAXPODS REPLICAS AGEhpa-helmet-detection-inference-example-deployment-cloud Deployment/helmet-detection-inference-example-deployment-cloud 37%/20% 1 5 3 92shpa-helmet-detection-inference-example-deployment-edge Deployment/helmet-detection-inference-example-deployment-edge 348%/50% 1 2 2 92shpa-helmet-detection-inference-example-deployment-cloud Deployment/helmet-detection-inference-example-deployment-cloud 37%/20% 1 5 4 106shpa-helmet-detection-inference-example-deployment-edge Deployment/helmet-detection-inference-example-deployment-edge 535%/50% 1 2 2 106shpa-helmet-detection-inference-example-deployment-cloud Deployment/helmet-detection-inference-example-deployment-cloud 18%/20% 1 5 4 2m1shpa-helmet-detection-inference-example-deployment-edge Deployment/helmet-detection-inference-example-deployment-edge 769%/50% 1 2 2 2m1shpa-helmet-detection-inference-example-deployment-cloud Deployment/helmet-detection-inference-example-deployment-cloud 12%/20% 1 5 4 2m16s[root@master-01 jointinference]# kubectl get poNAME READY STATUS RESTARTS AGEhelmet-detection-inference-example-deployment-cloud-7dffd47c6fl 1/1 Running 0 4m34shelmet-detection-inference-example-deployment-cloud-7dffd4dpnnh 1/1 Running 0 2m49shelmet-detection-inference-example-deployment-cloud-7dffd4f4dtw 1/1 Running 0 4m19shelmet-detection-inference-example-deployment-cloud-7dffd4kcvwd 1/1 Running 0 5m20shelmet-detection-inference-example-deployment-cloud-7dffd4shk86 1/1 Running 0 5m50shelmet-detection-inference-example-deployment-edge-7b6575c52s7k 1/1 Running 0 5m50shelmet-detection-inference-example-deployment-edge-7b6575c59g48 1/1 Running 0 5m20s【更多KubeEdge资讯推荐】玩转KubeEdge保姆级攻略——环境搭建篇玩转KubeEdge保姆级攻略——环境搭建篇《玩转KubeEdge保姆级攻略——环境搭建篇》课程主要介绍如何通过华为云服务快速搭建一套KubeEdge边缘计算开发平台及部署Sedna、EdgeMesh等KubeEdge生态组件。课程免费学习链接:https://connect.huaweicloud.com/courses/learn/course-v1:HuaweiX+CBUCNXNX022+Self-paced/aboutKubeEdge社区介绍:KubeEdge是业界首个云原生边缘计算框架、云原生计算基金会(CNCF)唯一毕业级边缘计算开源项目,社区已完成业界最大规模云原生边云协同高速公路项目(统一管理10万边缘节点/50万边缘应用)、业界首个云原生星地协同卫星、业界首个云原生车云协同汽车、业界首个云原生油田项目,开源业界首个分布式协同AI框架Sedna及业界首个边云协同终身学习范式,并在持续开拓创新中。KubeEdge网站 :  https://kubeedge.ioGitHub地址 : cid:link_0Slack地址 : https://kubeedge.slack.com邮件列表 : https://groups.google.com/forum/#!forum/kubeedge每周社区例会 : https://zoom.us/j/4167237304Twitter : https://twitter.com/KubeEdge文档地址 : https://docs.kubeedge.io/en/latest/
  • [热门活动] 码力全开!2025开源之夏Karmada社区6项课题邀您共创
    开源之夏是由中国科学院软件研究所“开源软件供应链点亮计划”发起并长期支持的一项暑期开源活动,旨在鼓励在校学生积极参与开源软件的开发维护,培养和发掘更多优秀的开发者,促进优秀开源软件社区的蓬勃发展,助力开源软件供应链建设。学生通过远程线上协作方式,通过社区资深导师指导,参与到开源社区各组织项目开发中,收获证书及8000/12000元奖金。活动官网:https://summer-ospp.ac.cn/云原生多云容器引擎Karmada社区今年为同学们带来6项课题,欢迎高校同学选报,报名于5月9日启动,截止时间6月9日18:00 (UTC+8)。 Karmada 社区介绍 Karmada (https://github.com/karmada-io)是业界首个多云多集群容器编排项目,云原生计算基金会(CNCF)孵化级项目。Karmada 社区由华为云、工商银行、小红书、中国一汽等八家企业联合发起,于2021年4月正式开源。Karmada 的贡献者来自世界各地,覆盖全球22个国家和地区的60多家组织。截至目前,项目在开源软件项目托管平台 GitHub 已收获超过4.8k Star。作为开放的多云多集群容器编排引擎,Karmada 旨在帮助用户在多云环境下部署和运维业务应用。凭借兼容 Kubernetes 原生 API 的能力,Karmada 可以平滑迁移单集群工作负载,并且仍可保持与 Kubernetes 周边生态工具链协同。 Karmada社区开源之夏2025课题 课题一:Karmada 禁止同一资源被多个资源跟随分发项目编码:255c40195项目难度:进阶/Advanced课题导师:XiShanYongYe-Chang导师联系邮箱:changzhen5@huawei.com项目简述:Karmada (Kubernetes Armada) 是一个 Kubernetes 管理系统,它使您能够在多个 Kubernetes 集群和云平台中运行云原生应用程序,而无需更改应用程序。通过使用 Kubernetes 原生 API 并提供高级调度功能,Karmada 实现了真正的开放式、多云 Kubernetes。Karmada 支持资源的跟随分发,例如 configmap 资源不需要创建额外的 PropagationPolicy 进行分发,可以直接跟随 deployment 资源进行分发。根据用户的使用反馈,有的用户不会涉及到单个资源被多个资源依赖分布的场景,但也有的用户会使用,比如共享同一个秘籍拉取镜像。在 Karmada 中,如果允许同一个资源被多个资源跟随分发,会给用户带来一定的风险。因此我们需要对这些风险进行分析,来思考是否可以通过某种方式来化解,或者明确禁止用户这样做。Track issue: https://github.com/karmada-io/karmada/issues/6000项目链接:https://summer-ospp.ac.cn/org/prodetail/255c40195 (请在PC端打开,下同)课题二:Karmada cluster failover 优化项目编码:255c40205项目难度:基础/Basic项目社区导师:whitewindmills导师联系邮箱:jayfantasyhjh@gmail.com项目简述:Karmada (Kubernetes Armada) 是一个 Kubernetes 管理系统,它使您能够在多个 Kubernetes 集群和云平台中运行云原生应用程序,而无需更改应用程序。通过使用 Kubernetes 原生 API 并提供高级调度功能,Karmada 实现了真正的开放式、多云 Kubernetes。Cluster Failover 特性旨在显著提升多集群环境下业务的可用性。作为一项关键且功能丰富的特性,我们始终高度重视用户反馈,并持续对其进行迭代优化,致力于为用户打造更卓越的使用体验。本次项目我们计划对 Failover 特性进行了一次大规模的全面升级。 在该项目中,我们计划对 Failover 特性的架构进行了深度调整。为集群故障机制添加了明确的约束条件,从而能够统一管控因集群故障引发的资源迁移行为,确保迁移过程更加规范有序。在可配置性方面,我们从系统配置和策略 API 定义等多个维度进行了优化,为用户提供了更广泛的自定义空间,能够满足多样化的业务需求。Track issue: https://github.com/karmada-io/karmada/issues/6317项目链接:https://summer-ospp.ac.cn/org/prodetail/255c40205课题三:Karmadactl init 支持设置组件启动参数项目编码:255c40243项目难度:基础项目社区导师:张壮导师联系邮箱:m17799853869@163.com项目简述:Karmada (Kubernetes Armada) 是一个 Kubernetes 管理系统,它使您能够在多个 Kubernetes 集群和云平台中运行云原生应用程序,而无需更改应用程序。通过使用 Kubernetes 原生 API 并提供高级调度功能,Karmada 实现了真正的开放式、多云 Kubernetes。Karmadactl init 用于用户自定义安装 Karmada 控制面组件。组件启动参数是指在启动软件或服务时传递给可执行文件的参数,这些参数用于控制组件的行为、配置运行环境或指定特定的操作模式。它们可以影响从日志级别、监听端口到性能调优选项等多个方面。具体的作用取决于每个参数的设计目的和使用场景。因此,我们计划在命令 karmadactl init 中引入支持设置组件启动参数的能力,提高用户可自定义程度。项目链接:https://summer-ospp.ac.cn/org/prodetail/255c40243课题四:Karmada 官方文档体系优化与国际化建设项目编码:255c40339项目难度:基础项目社区导师:任洪彩导师联系邮箱:qdurenhongcai@163.com项目简述:Karmada (Kubernetes Armada) 是一个 Kubernetes 管理系统,它使您能够在多个 Kubernetes 集群和云平台中运行云原生应用程序,而无需更改应用程序。通过使用 Kubernetes 原生 API 并提供高级调度功能,Karmada 实现了真正的开放式、多云 Kubernetes。作为 CNCF 孵化的多云编排核心项目,Karmada 的官方文档体系直接影响着全球开发者对多云集群管理技术的采用效率与社区贡献意愿。本项目旨在构建符合 CNCF 标准的文档体系,通过重构知识架构、补充场景化指南、实现中英实时同步,并引入交互式工具链,系统性降低多云编排技术的使用门槛。项目链接:https://summer-ospp.ac.cn/org/prodetail/255c40339课题五:为 Karmada Dashboard 引入自动化测试项目编码:255c40413项目难度:基础项目社区导师:船长导师联系邮箱:samzong.lu@gmail.com项目简述:Karmada (Kubernetes Armada) 是一个 Kubernetes 管理系统,它使您能够在多个 Kubernetes 集群和云平台中运行云原生应用程序,而无需更改应用程序。通过使用 Kubernetes 原生 API 并提供高级调度功能,Karmada 实现了真正的开放式、多云 Kubernetes。Karmada Dashboard 已经发布第一个正式的版本。为了保证Karmada Dashboard 可以在快速迭代的过程中保证功能的稳定性,因此希望可以为Karmada Dashboard引入自动化测试的能力,结合CI能力,保证每次提交代码时运行自动化测试用例,保证Karmada Dashboard 功能的稳定性。 由于Karmada Dashboard是一个全栈项目(包含了go后端、react前端、npm组件包),设计自动化测试需要了解的技术栈相对较多。项目链接:https://summer-ospp.ac.cn/org/prodetail/255c40413课题六:在Karmada Dashboard中集成Karmada-MCP-Server项目编码:255c40415项目难度:基础项目社区导师:warjiang导师联系邮箱:1096409085@qq.com项目简述:Karmada (Kubernetes Armada) 是一个 Kubernetes 管理系统,它使您能够在多个 Kubernetes 集群和云平台中运行云原生应用程序,而无需更改应用程序。通过使用 Kubernetes 原生 API 并提供高级调度功能,Karmada 实现了真正的开放式、多云 Kubernetes。自OpenAI推出大模型以来,各个领域都在尝试落地大模型应用。MCP协议是Anthropic公司推出的一个标准化协议,旨在通过标准化的方式将各个垂直领域的能力快速、标准化的接入到现有的工作流中。Karmada 社区也尝试探索大模型落地的方案,比如结合MCP协议开发了Karmada-MCP-Server,在支持MCP协议的客户端中通过自然语言完成多集群管理的工作。但是现有的使用方式用户做诸多配置,相对复杂,同时考虑到MCP是标准协议。 因此我们希望可以在Karmada Dashboard中整合Karmada-MCP-Server,通过ChatUI的形式为用户提供开箱即用的大模型能力,提升集群管理效率。项目链接:https://summer-ospp.ac.cn/org/prodetail/255c40415  如何报名开源之夏Karmada课题?报名对象本活动面向年满 18 周岁的高校在校学生。在9月30日开发结束之前,学生需保持在校学生状态。若已收到研究生或博士生录取通知,可提供录取通知书及相关说明材料。中国籍学生参与活动时需提供有效期内的身份证、学生证、教育部学籍在线验证报告(学信网)或在读证明。外籍学生参与活动时需提供护照,同时提供录取通知书、有效期内的学生证、在读证明等文件。学生报名时间学生可在系统(https://summer-ospp.ac.cn/)注册账号并填写个人资料提交审核。资料审核通过的学生 5月9日 起可在系统提交项目申请书,学生课题申请截止时间为6月9日18:00。学生可以收获什么?结识开源界小伙伴和技术大牛获得社区导师的专业指导,与开源项目开发者深度交流丰富项目实践经验,提升项目开发技能,为工作履历增光添彩为学习方向提供参考,为职业发展积累人脉通过结项考核的学生将获得结项奖金和结项证书(基础难度税前8000元RMB,进阶难度税前12000元RMB),更有机会获选优秀学生▍Karmada社区联系对课题感兴趣的同学,请直接📧邮件对应课题导师,更快了解、锁定课题,您也可以添加社区小助手微信,进入Karmada交流群。添加社区小助手k8s2222回复Karmada开源之夏👉Karmada 是CNCF 首个多云多集群容器编排项目(孵化级),旨在帮助用户像使用单个集群一样轻松管理跨云多集群,让基于 Karmada 的多云方案无缝融入云原生技术生态。社区吸引了来自华为、道客、浙江大学、腾讯、中国电子云、滴滴、Zendesk、携程等100多家公司的全球贡献者,广泛分布于20+国家和地区。Karmada 现已在华为云、道客、兴业数金、中国移动、中国联通、携程、360集团、新浪、中通快递等众多企业单位生产应用,为企业提供从单集群到多云架构的平滑演进方案。Karmada官网:https://karmada.io/项目地址:https://github.com/karmada-io/karmadaSlack地址:https://slack.cncf.io/(#karmada)
  • [公告] 「哔哩哔哩」正式加入 Karmada 用户组!携手社区共建多集群生态
    Karmada 社区非常高兴地宣布哔哩哔哩正式加入Karmada 用户组[1](Karmada Adopter Group),成为该开源社区的重要成员。作为云原生计算基金会(CNCF)旗下的开源项目,Karmada 致力于为用户提供强大的多集群管理和调度能力,帮助企业在复杂的分布式环境中实现高效的应用部署和管理。哔哩哔哩的加入将进一步丰富 Karmada 社区的生态,并为项目的持续创新注入新的动力。 关于哔哩哔哩 哔哩哔哩[2],简称“B站”,一个有用有趣的综合性视频社区,被用户们亲切地称为“百科全书式的网站、没有围墙的图书馆,成长道路上的加油站,创作者的舞台”。截止2024年第四季度,B站日均活跃用户达1.03亿,月活跃用户达3.4亿。围绕用户、创作者和内容,B站构建了一个源源不断产生优质内容的生态系统。中国最优秀的专业创作者都聚集在B站创作内容,涵盖生活、游戏、时尚、知识、音乐等数千个品类和圈层,引领着流行文化的风潮,成为中文互联网极其独特的存在。在此基础之上,B站提供了移动游戏、直播、付费内容、广告、漫画、电商等商业化产品服务,并对电竞、虚拟偶像等前沿领域展开战略布局。公司于2018年3月登陆美国纳斯达克,并于2021年3月在港交所二次上市。  关于Karmada用户组  作为连接社区与用户的核心纽带,Karmada 用户组致力于打造一个深度融合、开放协作的高价值平台,推动成员间的高效联动与经验共享。通过技术支持、活动共创及最佳实践交流,Karmada 用户组将持续赋能用户在多云管理领域的能力提升,助力云原生多云多集群生态系统的蓬勃发展。其主要目标和功能包括:分享知识:促进 Karmada 用户之间的经验、挑战和解决方案交流促进协作:提供一个用户可以协作、分享想法并解决共同问题的平台支持用户:提供资源、教程和指导,帮助用户有效利用 Karmada收集反馈:倾听用户声音,以指导 Karmada 未来的发展方向社区活动组织:通过定期 meetup、网络研讨会和其他活动,增强社区参与度截至目前,Karmada 用户组已吸纳来自全球的30+家机构和组织。更多使用场景及案例研究请查阅:https://karmada.io/adopters   欢迎加入用户组    任何在生产环境中使用 Karmada 的公司,其开发者均可申请加入 Karmada 用户组。无论您是最终用户还是云厂商,我们都欢迎您的加入。最终用户:指在其内部 IT 基础设施中直接部署和使用 Karmada 进行多云或多集群管理的企业或组织。这些公司利用 Karmada 作为关键技术底座来管理和优化算力资源。供应商:指那些将 Karmada 集成到他们的产品或服务中,以提供给其他企业或组织使用的公司。加入 Karmada 用户组,您可以与面临类似挑战的同行建立联系并分享 Karmada 实践经验,一同探索多云多集群生态,包括但不限于以下内容:社区技术支持:包括且不限于方案评估、日常运维、问题定位、版本升级等社区支持公司知名度提升:您的公司和团队将获得全球范围内更多的曝光机会技术影响力构建:邀请共建技术演讲,包括 KubeCon 等海内外业界大会,Karmada 社区伙伴举办的线上、线下系列会议保持信息同步:及时接收重要信息更新,包括新版本的关键特性、重要 Bug 修复、安全风险等内容,确保您的项目能够第一时间受益于新的改进和增强。顶尖人才招募:利用社区渠道招聘宣传,全球范围内精准招募优秀人才拓展商业机会:与 Karmada 生态系统其他成员建立潜在的商业联系和合作当前,加入 Karmada 用户组对社区贡献没有硬性要求,我们鼓励成员积极参与社区活动,分享经验与见解。然而,请注意,未来可能会要求成员对 Karmada 社区做出一定的贡献,以维持其用户组成员身份。这种贡献可以包括但不限于代码提交、文档编写、问题修复、使用案例分享等。访问下方 Karmada 用户组申请表单 [3],提交 issue 申请,即可接收申请进度。手机端可扫描下方二维码快捷填写申请表单。扫码申请加入用户组更多信息,请访问:[1] Karmada Adopter Group 详细信息,请查阅: https://github.com/karmada-io/community/tree/main/adopter-group [2] 哔哩哔哩: https://www.bilibili.com/ [3] Karmada Adopter Group 申请加入表单地址: https://github.com/karmada-io/community/issues/new?template=adopter-group-application.yamlKarmada Adopter Group 欢迎您的加入!期待与您共同创建一个友好而活跃的空间,共享知识、最佳实践和经验,为企业与社区发展缔造更多可能。如需了解更多关于Karmada Adopter Group的信息,请联系:Maintainer Mailing Listcncf-karmada-maintainers@lists.cncf.io👉Karmada 是CNCF 首个多云多集群容器编排项目(孵化级),旨在帮助用户像使用单个集群一样轻松管理跨云多集群,让基于 Karmada 的多云方案无缝融入云原生技术生态。社区吸引了来自华为、道客、浙江大学、腾讯、中国电子云、滴滴、Zendesk、携程等100多家公司的全球贡献者,广泛分布于20+国家和地区。Karmada 现已在华为云、道客、兴业数金、中国移动、中国联通、携程、360集团、新浪、中通快递等众多企业单位生产应用,为企业提供从单集群到多云架构的平滑演进方案。Karmada官网:https://karmada.io/项目地址:https://github.com/karmada-io/karmadaSlack地址:https://slack.cncf.io/(#karmada)
  • [热门活动] 开源之夏2025重磅来袭!KubeEdge社区18项课题报名启动
    开源之夏介绍开源之夏是由中国科学院软件研究所“开源软件供应链点亮计划”发起并长期支持的一项暑期开源活动,旨在鼓励在校学生积极参与开源软件的开发维护,培养和发掘更多优秀的开发者,促进优秀开源软件社区的蓬勃发展,助力开源软件供应链建设。学生通过远程线上协作方式,通过社区资深导师指导,参与到开源社区各组织项目开发中,收获证书及8000/12000元奖金。活动官网:https://summer-ospp.ac.cn/开源之夏学生报名将于5月9日正式开启。KubeEdge 云原生边缘计算社区已连续6年参与开源之夏,在本届开源之夏共带来18个精选课题,包括AI大模型、机器学习、深度学习、工业物联网、系统研发与集成等多个领域,由来自高校、产业等资深学者、产业巨擘与技术领英组成的导师带队,引领同学们迈向顶尖开发者之路。历届开源之夏 KubeEdge 社区课题聚焦行业前沿方向,为学生职业生涯增添浓墨重彩的一笔,KubeEdge 学生已连续多年入选组委会官方优秀学生。为帮助学生更好地了解与选报课题,KubeEdge 社区将于5月14日、5月15日开展课题线上宣讲会(详见下文),同学们不可错过。▍KubeEdge云原生边缘计算社区KubeEdge(https://github.com/kubeedge)是业界首个云原生边缘计算框架、云原生计算基金会(CNCF)唯一毕业级边缘计算开源项目。KubeEdge 连接云原生和边缘计算生态,聚焦于提供一致的云边资源协同、数据协同、智能协同和应用协同体验,为边缘计算领域的应用提供更好的支持和解决方案,在全球已拥有1800+贡献者和120+贡献组织,在 GitHub 获得 8.1k+Stars 和 2.3k+Forks。KubeEdge 社区持续开拓创新,目前已完成业界最大规模云原生边云协同高速公路项目(统一管理10万边缘节点/50万边缘应用)、业界首个云原生星地协同卫星、业界首个云原生车云协同汽车、业界首个云原生油田项目,开源业界首个分布式协同 AI 框架 Sedna 及业界首个边云协同终身学习范式。▍KubeEdge开源之夏2025课题项目1:KubeEdge设备管理实践案例优化项目编号:2598a0305项目难度:基础/Basic导师联系:王彬丞 wangbincheng4@huawei.com项目简述:目前 KubeEdge 在边缘 IoT 设备管理领域提出了基于物模型的设备管理 API,并构建了 mapper 开发框架 mapper-framework,实现 IoT 设备的云原生化管理。随着 KubeEdge Device IoT 能力日趋成熟,需要构建针对最新版本的最佳实践案例,并对旧版本的案例进行迭代优化,为用户使用提供参考。项目链接:https://summer-ospp.ac.cn/org/prodetail/2598a0305 (请在PC端打开,下同)项目2:面向工业制造的具身智能基准测试套件项目编号:2598a0349项目难度:进阶/Advanced导师联系:郑子木 zimu.zheng@huawei.com项目简述:随着工业制造智能化进程加速以及工业机器人、柔性产线、检测装备持续升级,云边协同成为支撑具身智能系统在复杂生产场景中落地的关键技术。当前工业领域对具身智能服务的需求已从单一任务执行向高精度感知决策、实时动态适应性、跨设备协同控制等方向演进,但通用具身智能基准测试普遍缺乏对工业场景具身特性的针对性评价,本项目基于 KubeEdge-Ianvs 协同人工智能基准测试框架,配套工业场景测试数据集、测试环境和性能指标,构建面向工业制造的行业级具身智能测试能力。项目链接:https://summer-ospp.ac.cn/org/prodetail/2598a0349项目3:支持在Windows OS上使用KubeEdge部署工具keadm项目编号:2598a0315项目难度:基础/Basic导师联系:胡炜 wei.hu@daocloud.io项目简述:keadm 是 KubeEdge 的安装部署工具,可以使用 keadm join/reset/upgrade 等子命令对 KubeEdge 边缘组件 EdgeCore 进行安装、重置、升级等操作。在工业场景中有很多设备使用 Windows 操作系统,而且许多企业级应用(如 .NET Framework、IIS、SQL Server等)依赖 Windows 生态,无法直接迁移到  Linux。为了让企业能在统一平台上管理混合操作系统,Kubernetes 和 Containerd 都已支持 Windows,EdgeCore 也已经能在 Windows 上正常运行及工作。然而由于 keadm 工具依旧没有适配 windows,目前 EdgeCore 在 Windows 上只能手动使用二进制包启动,运维管理存在着很多问题。本课题需要重新设计如何用 keadm 工具和边缘子命令操作 EdgeCore 在 Windows 设备上的部署升级等,进行生命周期管理。项目链接:https://summer-ospp.ac.cn/org/prodetail/2598a0315项目4:基于c语言实现MapperFramework项目编号:2598a0320项目难度:进阶/Advanced导师联系:杨志佳 2938893385@qq.com项目简述:KubeEdge 的 Mapper-Framework 提供了全新的 Mapper 自动生成框架,集成了 DMI 设备管理面与数据面能力。目前 KubeEdge 多语言 Mapper-Framework 已实现了 golang 和 java 版,然而在 IoT 领域,边缘端侧设备驱动大多是基于C语言编写的,因此在本课题中,我们希望能够给予C语言实现 Mapper-Framework,为用户提供基于C语言的设备驱动 Mapper,提升用户开发效率。项目链接:https://summer-ospp.ac.cn/org/prodetail/2598a0320项目5:从 kubeedge-ianvs 迁移联合推理大模型 example 至 kubeedge-sedna项目编号:2598a0311项目难度:基础/Basic导师联系:唐明 ming.tang@daocloud.io项目简述:Sedna 是一个通用的云边协同 AI 平台,能够便捷地在云端和边缘部署、管理各类 AI 模型。当前,Sedna 已支持多种 AI 协同范式,包括联合推理、联邦学习、增量学习和终生学习,并在多个行业场景中实现了落地应用。我们已针对传统判别式模型,提供了丰富的协同范式案例,帮助用户快速搭建符合自身需求的应用。随着案例数量的增加,用户对模型性能评估的需求也日益增长。为此,我们推出了 kubeedge-ianvs 基准测试平台,为模型在部署到 Sedna 之前提供标准化的测试流程,确保其性能满足生产环境要求。近年来,大语言模型(LLM)在云边协同场景下的应用逐渐增多,ianvs 项目中已孵化出多个优秀的云边协同大语言模型案例。然而,Sedna 平台目前尚未提供相关的大语言模型应用案例,导致有此类需求的用户缺乏参考和借鉴。因此,本项目旨在将 kubeedge-ianvs 中优秀的联合推理大语言模型案例迁移至 Sedna 平台,丰富 Sedna 的应用案例库,为开发云边协同大语言模型的用户提供实践参考。同时,在迁移过程中,我们将梳理和总结案例迁移中遇到的问题,为后续实现案例自动化迁移和 Sedna 框架的持续优化提供依据和建议。项目链接:https://summer-ospp.ac.cn/org/prodetail/2598a0311项目6:基于现实设备产品的边缘设备模型设计项目编号:2598a0334项目难度:进阶/Advanced导师联系:jiawei  jiawei.liu@daocloud.io项目简述:当前 KubeEdge 对设备模型的定义比较简单,起到的实质作用并不大,而且其设计在使用时会让使用者产生困扰。在传统 IOT 中,设备会被设计成:物模型、产品、设备实例,由于历史原因,现在拆成3类对象的成本会很大,而且这么细粒度的抽象意义也不是很大,因此我们将模型定义成现实设备产品的概念(物模型+产品),即用于描述一种设备产品的规格、连接协议、属性获取方式等,这样设备的实例就可以共享这些配置,无非连接的地址对于不同的设备配置不一样。这样的设计,能一定程度的复用配置信息,并且定位更加的清晰。项目链接:https://summer-ospp.ac.cn/org/prodetail/2598a0334项目7:基于KubeEdge-Ianvs的大模型联邦微调算法项目编号:2598a0326项目难度:进阶/Advanced导师联系:胡创 hchuchuang@gmail.com项目简述:随着大语言模型(LLM)在医疗、金融、政务等多个隐私敏感行业的广泛应用,利用本地数据对 LLM 进行微调以满足领域定制化需求成为趋势。传统的联邦学习方法在面对 LLM 的超大参数量与计算成本时显得力不从心。目前 KubeEdge-Ianvs 及 KubeEdge-Sedna 已支持协同推理和协同训练方式,但并未支持大模型联邦微调。为此,本项目拟在 KubeEdge-Ianvs 框架下构建一个联邦学习范式流程以及支持参数高效微调的大模型联邦微调算法。未来可能利用 KubeEdge-Sedna 的边缘节点调度、资源管理能力,实现低通信、低计算、高适配性的大模型联邦学习流程。项目链接:https://summer-ospp.ac.cn/org/prodetail/2598a0326项目8:基于KubeEdge-Ianvs的多LLM云边路由范式:面向具身智能应用项目编号:2598a0350项目难度:进阶/Advanced导师联系:胡时京 sjhu21@m.fudan.edu.cn项目简述:当前,大模型研究面临算力垄断、训练成本高企和技术路径单一等挑战,“路由 LLM(Routing LLM)”范式为突破这些瓶颈提供了新思路。该范式通过智能调度和协同多个开源(及闭源)小模型,以“组合创新”替代传统“规模竞赛”,具备异构兼容、多目标优化和灵活部署等多重优势。例如,它能够兼容 GPT-4、Llama 等多类模型,实现性能、成本和风险的动态权衡,并可按需快速定制针对如代码生成、医疗问答等场景的解决方案,而无需从头训练大模型。KubeEdge-Ianvs 目前已支持云边协同推理,可视为“多 LLM 云边路由”的一种雏形,未来在云+边多模型的智能协同必将成为 LLM 性能优化的重要趋势。本项目将基于 KubeEdge-Ianvs,进一步拓展和实现多 LLM 云边路由能力,打造支持多模型注册、调度、分发与动态路由的开源平台,为云边智能推理和产业实际应用提供创新高效的技术路径。项目链接:https://summer-ospp.ac.cn/org/prodetail/2598a0350项目9:基于KubeEdge-Ianvs的VLA微调数据配比优化算法项目编号:2598a0359项目难度:进阶/Advanced导师联系:苏敬勇 sujingyong@hit.edu.cn项目简述:视觉-语言-动作(Vision-Language-Action, VLA)模型在机器人操作和具身智能等领域获得广泛应用,其中 VLA 模型在云侧训练、边侧推理是具身智能领域的一种常见范式。但是如何在训练过程中合理配置多源异构数据以提升模型在复杂任务中的泛化能力,成为亟需解决的问题。相比计算机视觉与自然语言处理领域,VLA 数据配比策略的研究仍然薄弱,当前多采用静态经验权重或均匀混合,难以适应不同数据子域对特定下游任务的差异化贡献。尽管已有如 OpenVLA、Re-Mix 等在数据加权方面的探索,复杂多模态 VLA 任务下的数据配比仍缺乏系统性方案。为此,本项目拟依托 KubeEdge-Ianvs 分布式协同 AI 基准测试框架,构建一套面向 VLA 任务的数据配比优化流程,结合 Ianvs 提供的仿真、超参搜索、评测报告等工具,探索多源数据在具身智能训练中的合理配比,推动 VLA 模型在机器人与具身智能应用中的泛化能力与训练效率的提升。项目链接:https://summer-ospp.ac.cn/org/prodetail/2598a0359项目10:物理一致可交互室内仿真场景生成:基于KubeEdge-Ianvs实现项目编号:2598a0424项目难度:进阶/Advanced导师联系:蒋晨阳 787773295@qq.com项目简述:边缘计算业务下的具身智能场景生成往往在云侧协助具身智能模型训练,训练所得的具身智能模型部署到边侧推理。目前已有诸多研究致力于室内场景生成问题,如 ProcTHOR、PhyScene、HOLODECK 等,通过自动构建三维室内环境,广泛应用于具身智能仿真任务。然而,这些仿真平台在物理交互属性上与真实世界存在显著差距,缺乏对物体形变反馈、力觉反馈、触觉反馈、温度反馈等多维物理特性的建模。例如,当机械臂接触窗帘时,窗帘应展现出柔性形变、相应的反馈力、触觉信号乃至热传导特性,这些在当前仿真环境中难以真实还原。如何在生成高保真物理场景的同时,赋予场景内物体与现实世界一致的可交互性与物理属性,仍是亟需解决的关键问题。为此,本项目计划基于 KubeEdge-Ianvs 分布式协同基准测试框架,构建一套物理一致的可交互室内仿真场景生成流程。借助 Ianvs 提供的仿真控制、超参搜索、性能评测等工具,系统性评估和优化仿真场景中的物理属性建模效果,助力合成高质量具身智能训练数据,提升模型在复杂交互任务中的泛化能力,加速具身智能系统的训练与迭代。项目链接:https://summer-ospp.ac.cn/org/prodetail/2598a0424项目11:基于KubeEdge-Ianvs的政务智能体基准测试项目编号:2598a0360项目难度:进阶/Advanced导师联系:陈孟卓 icyfeather@foxmail.com项目简述:随着云边协同大模型技术的快速发展,其在政务场景中的应用潜力日益凸显。政务服务的智能化升级涉及政府内部协同、公众服务及企业服务三大核心场景,亟需通过大模型技术提升效率与服务质量。然而,政务场景具有高度的专业性、规范性和安全性要求,现有的大模型评测体系缺乏针对政务垂直领域的标准化评估方法,导致技术落地面临准确性、合规性及场景适配性等挑战。因此,本项目旨在基于 KubeEdge-Ianvs 分布式协同框架,构建面向政务场景的智能体评测 Pipeline 与 Benchmark,为政务智能化提供可量化、可复用的能力评估工具,推动大模型技术在政务服务、政府办公、城市治理等典型场景中的安全高效应用。项目链接:https://summer-ospp.ac.cn/org/prodetail/2598a0360项目12:基于KubeEdge-Ianvs云边协同推理的大模型隐私保护算法项目编号:2598a0388项目难度:进阶/Advanced导师联系:沈家星 jiaxingshen@ln.edu.hk项目简述:随着大型语言模型(LLM)在各行业的广泛应用,用户隐私保护成为关键挑战。传统云端 LLM 部署要求用户将敏感提示上传至远程服务器,造成严重隐私风险。本项目旨在基于 KubeEdge-Ianvs 的云边协同推理框架,开发一个大模型隐私保护算法,在边缘侧对敏感提示进行不可逆变换处理,确保即使使用最先进的嵌入重构攻击也无法恢复原始数据。项目链接:https://summer-ospp.ac.cn/org/prodetail/2598a0388项目13:KubeEdge Dashboard前端组件升级优化项目编号:2598a0405项目难度:基础导师联系:Hongbing hongbing.zhang@daocloud.io项目简述:升级优化 dashboard 前端组件及性能,重点优化 ProTable、TableView 等公用表单组件。另外可考虑引入 mui 新加入的 Dashboard Layout 等组件。项目链接:https://summer-ospp.ac.cn/org/prodetail/2598a0405项目14:优化KubeEdge Dashboard数据处理逻辑,引入新特性项目编号:2598a0406项目难度:基础/Basic导师联系:Chen Su ghosind@gmail.com项目简述:在现有 KubeEdge Dashboard 的基础上,优化其数据处理逻辑。建立数据处理中间层,用于对数据进行预处理,并引入数据筛选、排序、分页等新功能,用以提升用户前端性能及用户体验。项目链接:https://summer-ospp.ac.cn/org/prodetail/2598a0406项目15:基于 KubeEdge 的云边视频流通信机制扩展项目编号:2598a0410项目难度:进阶导师联系:沈立炜 shenliwei@fudan.edu.cn项目简述:随着远程感知、视觉识别等边缘智能场景的持续发展,对于云边之间实时视频流传输的支持需求日益增长。然而,KubeEdge 现有的云边通信主要面向日志和控制信号的传输,缺乏对流式数据(如实时视频流)的支持,限制了以视觉为核心的应用在复杂网络环境下的落地与拓展。本项目将在 KubeEdge 框架基础上扩展新的通信机制以支持边缘节点稳定向云端推送视频流,并围绕流式数据在典型边缘场景中的传输问题,探索更具弹性和资源效率的通信方式。项目将关注在多源请求环境下的链路共享、传输稳定性和连接管理问题,使得 KubeEdge 具备视觉数据流通信能力,从而进一步支撑船岸远程监控等应用场景。项目链接:https://summer-ospp.ac.cn/org/prodetail/2598a0410项目16:基于 KubeEdge 的主题化设备数据发布/订阅框架项目编号:2598a0411项目难度:进阶导师联系:崔云娜 21110240061@m.fudan.edu.cn项目简述:在工业物联网场景中,设备数据的实时发布与灵活订阅是支撑 AI 分析(如预测性维护、工艺优化)和精细化运维(如故障告警响应、能效监控)的关键基础。通过主题化数据分发和动态路由策略,可精准区分高优先级事件(如设备异常)与低优先级属性数据(如能耗统计),避免混合传输导致的解析负担和响应延迟。统一的发布/订阅机制能简化多协议设备接入、提升边缘-云协同效率,为智能化应用提供低时延、高可靠的数据供给,同时满足动态扩容场景下的灵活扩展需求。为此,本项目旨在设计并实现一套基于 KubeEdge 的统一主题化设备数据发布/订阅系统,通过定义层级化主题模型(如 sensor/temperature, camera/objectDetected等)),实现动态订阅机制与边缘-云协同路由策略,支持应用按主题灵活订阅数据、事件数据(高优先级实时推送)与属性数据(低优先级批量传输)的分类处理,最终与 KubeEdge 的 DeviceTwin 等原生组件集成,提升工业物联网场景中数据分发的实时性、灵活性与可扩展性。项目链接:https://summer-ospp.ac.cn/org/prodetail/2598a0411项目17:KubeEdge Dashboard UI优化与多语言(中文)支持项目编号:2598a0414项目难度:基础导师联系:chuanhao 15221580643@163.com 项目简述:全面优化 KubeEdge Dashboard 的 UI 体验,统一界面风格、提升交互友好性,并引入中文语言包支持。针对页面结构、交互逻辑、表单体验等方面进行逐步改进,使其更加贴合用户使用习惯。同时提供国际化方案基础框架,未来可拓展至更多语言。项目链接:https://summer-ospp.ac.cn/org/prodetail/2598a0414项目18:面向隐私-效用评测的云边协同大模型仿真环境项目编号:2598a0389项目难度:进阶/Advanced导师联系:江山 jiangsh73@mail.sysu.edu.cn项目简述:用户隐私保护是边侧大模型应用一大关键需求,这是因为传统云端 LLM 部署要求用户将敏感提示上传至远程服务器,造成严重隐私风险。然而,纯边缘部署的轻量级模型性能有限。本项目旨在基于 KubeEdge-Ianvs 的云边协同推理过程,对隐私保护和模型效用进行量化权衡,并提供仿真方法。 项目链接:https://summer-ospp.ac.cn/org/prodetail/2598a0389▍如何报名开源之夏KubeEdge课题?报名对象本活动面向年满 18 周岁的高校在校学生。在9月30日开发结束之前,学生需保持在校学生状态。若已收到研究生或博士生录取通知,可提供录取通知书及相关说明材料。中国籍学生参与活动时需提供有效期内的身份证、学生证、教育部学籍在线验证报告(学信网)或在读证明。外籍学生参与活动时需提供护照,同时提供录取通知书、有效期内的学生证、在读证明等文件。学生报名时间学生可在系统(https://summer-ospp.ac.cn/)注册账号并填写个人资料提交审核。资料审核通过的学生 5月9日 起可在系统提交项目申请书,学生课题申请截止时间为6月9日18:00。学生可以收获什么?结识开源界小伙伴和技术大牛获得社区导师的专业指导,与开源项目开发者深度交流丰富项目实践经验,提升项目开发技能为学习方向提供参考,为职业发展积累人脉通过结项考核的学生将获得结项奖金和结项证书(基础难度税前8000元RMB,进阶难度税前12000元RMB),更有机会获选优秀学生如何快速选定课题?对 KubeEdge 社区开源之夏课题感兴趣的同学,欢迎通过本文上方导师邮箱,提前联系导师沟通锁定课题。为方便同学们更快了解与找到最适合自己的课题方向,KubeEdge 社区将于5月14日、5月15日特别组织18个课题线上宣讲会,大咖导师空降,帮你更快速了解课题,欢迎同学们通过以下方式参会: 开源之夏2025KubeEdge社区课题宣讲如群满,请添加社区小助手微信k8s2222,回复KubeEdge开源之夏进入宣讲群 KubeEdge宣讲第一场:2025.05.14 周三下午16:00SIG Device-IoT,SIG Cluster-Lifecycle,Example,Dashboard等课题KubeEdge宣讲第二场:2025.05.15 周四下午16:30 SIG AI课题学生参会统一链接:https://zoom.us/my/kubeedge添加社区小助手微信k8s2222回复KubeEdge开源之夏咨询 这个夏天,KubeEdge 社区期待和计算机领域新生力量一起薪火相传,以云原生为舟,以边缘计算为桨,加速迈向智能未来的星辰征途。  【更多KubeEdge资讯推荐】玩转KubeEdge保姆级攻略——环境搭建篇玩转KubeEdge保姆级攻略——环境搭建篇《玩转KubeEdge保姆级攻略——环境搭建篇》课程主要介绍如何通过华为云服务快速搭建一套KubeEdge边缘计算开发平台及部署Sedna、EdgeMesh等KubeEdge生态组件。课程免费学习链接:https://connect.huaweicloud.com/courses/learn/course-v1:HuaweiX+CBUCNXNX022+Self-paced/aboutKubeEdge社区介绍:KubeEdge是业界首个云原生边缘计算框架、云原生计算基金会(CNCF)唯一毕业级边缘计算开源项目,社区已完成业界最大规模云原生边云协同高速公路项目(统一管理10万边缘节点/50万边缘应用)、业界首个云原生星地协同卫星、业界首个云原生车云协同汽车、业界首个云原生油田项目,开源业界首个分布式协同AI框架Sedna及业界首个边云协同终身学习范式,并在持续开拓创新中。KubeEdge网站 :  https://kubeedge.ioGitHub地址 : cid:link_0Slack地址 : https://kubeedge.slack.com邮件列表 : https://groups.google.com/forum/#!forum/kubeedge每周社区例会 : https://zoom.us/j/4167237304Twitter : https://twitter.com/KubeEdge文档地址 : https://docs.kubeedge.io/en/latest/
总条数:158 到第
上滑加载中