• [技术干货] KubeEdge SIG AI: 基于KubeEdge-Ianvs的大模型联邦微调算法
    摘要 本文介绍了基于 KubeEdge-Ianvs 分布式协同AI基准测试框架的大语言模型联邦微调系统。该系统针对企业应用大模型面临的算力门槛高、数据孤岛严重等挑战,通过联邦学习实现"数据不动模型动"的隐私保护训练模式。系统集成 LoRA 和 P-Tuning 两种参数高效微调技术,大幅降低通信成本和计算开销,支持 FedAvg 和 FedAvgM 聚合算法,并创新性地设计了 GPU 感知任务调度机制以避免显存溢出。在 MedQuad 医疗问答数据集上的实验验证了不同 PEFT 方法与聚合算法组合的有效性,为垂直领域的联邦大模型应用提供了可行方案。本文还提供了详细的安装配置和使用教程,帮助用户快速上手联邦大模型微调实践。代码请见:cid:link_1一、背 景近年来,以大语言模型(LLM)为代表的人工智能技术迅猛发展,ChatGPT、LLaMA、GLM 等模型在自然语言理解、代码生成、智能问答等任务中展现出卓越能力,推动各行业迈向智能化新阶段。这些模型不仅能够理解复杂的语义,还能进行创造性的内容生成,为各行各业带来了前所未有的智能化机遇。然而,企业在实际落地大语言模型过程中仍面临两大核心挑战,制约技术普及并可能加剧数字鸿沟。这些挑战不仅制约了技术的普及,更可能加剧数字鸿沟,让 AI 的红利难以惠及更广泛的群体。📌 挑战一:算力门槛高,中小企业难以承担大语言模型训练对算力需求巨大,通常需数十亿至千亿级参数,依赖大规模 GPU 集群持续运行数周乃至数月。据估算,训练一个类似 GPT-3 规模的模型,成本可能高达数百万美元。高昂的资源投入使大模型能力逐渐成为大型科技公司的专属优势。对于资源有限的中小企业而言,即便拥有宝贵的行业数据和应用场景,也往往因算力不足难以自主完成模型训练,限制了技术普惠与创新多样性。📌 挑战二: 数据孤岛困境,高质量数据难以整合高质量训练数据是大模型能力的核心基础。大语言模型的强大能力,很大程度上依赖于海量、多样化的训练数据。然而现实情况是,真正有价值的数据往往分散在不同的企业、机构和组织中,形成了一个个难以逾越的"数据孤岛"。这种数据分散的局面,源于多重因素:隐私合规要求:医疗、金融等领域的敏感数据受到严格的法律保护,不能随意共享或传输商业竞争壁垒:企业积累的私有数据往往是核心竞争力,难以对外开放数据主权意识:各方对数据控制权的重视,使得数据集中面临信任难题更为严峻的是,研究表明互联网上的公开数据可能即将耗尽。随着大模型训练需求的持续增长,如何在保护隐私的前提下,合理利用分散在各方的私有领域数据,已成为行业亟需解决的关键问题。破局方向:联邦学习赋能大模型微调。面对这些挑战,联邦学习(Federated Learning)为我们开辟了一条创新路径。联邦学习作为一种隐私保护的协同机器学习范式,通过“数据不动模型动”的方式,使各参与方本地数据保留不动,仅交换模型参数或梯度信息,实现多方协同训练。这种技术范式带来的价值是多维度的:在资源层面:联邦学习允许多个企业汇聚各自的算力资源,采用分布式的方式共同承担大模型训练的计算负担。一家企业可能无力独立训练大模型,但十家、百家企业的算力聚合,就能让 AI 能力的获取不再是大公司的专利。这种"众人拾柴火焰高"的协作模式,有望打破算力垄断,推动AI的普惠化发展。在数据层面:联邦学习通过同态加密、安全多方计算、差分隐私等密码学和隐私保护技术,在保护各方数据隐私和安全的前提下,充分挖掘分散数据的集体智慧。各参与方既能贡献自己的数据价值,又无需担心隐私泄露,真正实现了"数据可用不可见"。在合规层面:联邦学习天然契合数据保护法规的要求,为跨机构、跨地域的数据协作提供了合法合规的技术方案,让数据要素的价值释放有了坚实的制度保障。联邦学习与大语言模型结合形成联邦大模型学习(FedLLM),进一步引入参数高效微调技术(如 LoRA、P-Tuning),显著降低通信与计算开销。这一技术融合不仅继承了联邦学习的隐私保护优势,还针对大模型的特点进行了创新性的优化设计。联邦大模型学习通过参数高效微调(如 LoRA、P-Tuning)等技术,大幅降低了通信成本和计算开销,使得在联邦场景下训练和微调大模型成为可能。这为企业提供了突破资源和数据瓶颈的可行方案,更开启了 AI 协作发展的新时代。该方案使中小企业能够与行业领先者协同构建领域大模型,医院之间可以在保护患者隐私的前提下,协作提升医疗 AI 的诊断能力;金融机构可以联合建立更精准的风控模型,而无需担心客户数据的泄露风险。二、基于KubeEdge-Ianvs的大模型联邦微调算法实现本项目基于 KubeEdge-Ianvs 分布式协同 AI 基准测试框架,设计并实现了一套完整的联邦大模型微调系统。该系统充分继承了 Ianvs 的模块化架构优势,并针对大语言模型的特点进行了专门优化,在保持原有 federated learning 范式完全向后兼容的前提下,构建了适用于大规模语言模型的联邦学习解决方案。▍2.1 总体架构设计整体架构采用分层设计理念,从底层到上层依次为测试环境管理层、测试用例控制层和故事管理层,如图1所示。测试环境管理层负责基准测试指标的定义与计算,新增支持 ROUGE-1、ROUGE-2、ROUGE-L、BLEU-4 等自然语言生成评估指标,同时提供数据预处理和分割工具,支持 JSONL 格式的大语言模型数据集处理,并实现联邦场景下的数据分区策略以模拟真实的数据分散情况。测试用例控制层基于现有的联邦学习范式扩展实现了全新的联邦大模型微调算法,标准化了联邦微调的完整训练和评估流程,采用模块化设计使得用户只需指定相关模型与聚合接口即可完成算法配置。故事管理层则为用户提供直观的排行榜视图和详细的测试报告,支持跨联邦轮次的 LLM 基准指标可视化,便于算法性能的横向对比和纵向追踪。图1 整体架构设计在核心技术方案上,系统针对大语言模型参数规模庞大、全量微调成本高昂的问题,集成了 LoRA 和 P-Tuning 两种主流的参数高效微调技术,如图2所示。 LoRA 通过在权重矩阵中插入低秩可训练适配器,仅需训练极少量额外参数(通常小于1%模型参数量),推理时无需合并即可保持原模型结构。P-Tuning 则在嵌入层学习连续的提示向量,仅修改输入表示,对不同任务具有良好的灵活性且参数量更小,适合资源受限场景。根据实验数据,LoRA 方式的通信成本与 P-Tuning-v2 的通信成本均小于1%,这种数量级的降低使得联邦大模型学习在实际生产环境中具备了可行性。图2 算法设计方案系统支持 FedAvg 和 FedAvgM 两种聚合算法供用户根据场景灵活选择。FedAvg 对客户端模型参数进行加权平均,权重通常基于各客户端的数据量,简单高效且适合同构场景。FedAvgM 则在服务器端引入动量机制,提供更稳定的收敛性能,在非独立同分布数据下表现更优。每轮训练中,仅 LoRA 适配器或 P-Tuning 提示向量在客户端与服务器间传输,原始 LLM 的主体参数始终冻结,既保护了模型知识产权,又极大降低了通信负担。针对传统联邦学习多线程方法在大模型场景下容易导致 GPU 显存溢出的问题,系统创新性地设计了 GPU 感知任务调度机制。该机制将所有客户端训练任务放入全局任务队列,为每个可见 GPU 启动专属工作线程,线程通过 torch.cuda.set_device 绑定到特定设备后采用 FIFO 方式逐个处理客户端任务,训练完成后立即释放显存。这种设计确保每个 GPU 同时只加载一个 LoRA 增强模型,使得峰值显存使用量可预测且恒定,同时严格的 FIFO 顺序保证所有 GPU 得到均衡利用。实践证明,该调度器能够在单个节点的多 GPU 环境(如4×Nvidia A100)上稳定运行数十个7B参数级别的 LLM 客户端微调任务,避免 OOM 错误,实现了固定内存上限、负载均衡和线性扩展的设计目标。系统的完整训练流程如图3所示。从初始化阶段开始,服务器加载预训练大模型(如ChatGLM-6B、LLaMA等)并初始化全局 LoRA 适配器或 P-Tuning 提示向量,配置联邦参数包括客户端数量、通信轮次和聚合策略等。进入迭代训练阶段后,每一轮都经历客户端采样、模型分发、本地训练、参数上传、安全聚合和性能评估等步骤。服务器从所有客户端中采样参与本轮训练的子集,将当前全局适配器或提示向量下发给选中的客户端,各客户端在私有数据上执行 PEFT 微调更新本地适配器参数,随后将训练后的适配器参数上传至服务器,服务器使用选定的聚合算法更新全局模型并在测试集上评估性能。当达到预设轮次或性能指标后停止训练,将最终的全局适配器与基础模型结合并部署到实际应用环境。整个流程中,原始训练数据始终保留在各客户端本地,仅交换模型参数,真正实现了"数据不动模型动"的隐私保护目标。图3 任务时序图▍2.2 案例分析为了全面验证系统的有效性,我们在 MedQuad 医疗问答数据集上进行了深入的实验研究[1]。实验采用 ChatGLM-6B 作为基础大语言模型,该模型包含60亿参数,在中文理解与生成任务上表现优异。硬件配置方面,单机4张 NVIDIA A100 GPU。联邦配置模拟4个客户端参与学习,训练总轮次设置为5轮。评估指标采用自然语言生成领域的标准体系,包括衡量单词级别重叠度的 ROUGE-1、衡量二元组重叠度的 ROUGE-2、基于最长公共子序列的 ROUGE-L,以及评估 n-gram 精确匹配度的 BLEU-4 指标。图4 医疗联邦示例图5 部分实验效果展示从图4的排行榜可以看出,FedAvg-LoRA 组合取得了最佳性能,在所有评估指标上均位列第一,ROUGE-1 达到0.3283,ROUGE-2 为0.0965,ROUGE-L 为0.1907,BLEU-4 为0.0525。对比相同聚合算法下的不同微调方法,LoRA 始终优于 P-Tuning,以 FedAvg 为例,LoRA 方案在 ROUGE-1 指标上比 P-Tuning 高出13.5%,在 ROUGE-2 上优势更为明显,提升了34.2%。这种差异源于两种方法的本质区别:LoRA 通过在模型权重矩阵中注入低秩适配器能够更深入地调整模型内部表征,而 P-Tuning 仅在输入层学习连续提示,在医疗问答这类需要深度理解专业术语和复杂语义的任务中,LoRA 的优势得以充分体现。聚合算法方面,FedAvg 与 FedAvgM 的对比结果揭示了有趣的交互作用:在 LoRA 场景下 FedAvg 显著优于 FedAvgM(ROUGE-1相差12.8%),但在 P-Tuning 场景下两者性能相当接近(差距仅为0.8%),这表明 FedAvgM 的动量机制在 LoRA 较大的参数空间中可能引入额外不稳定性,而在 P-Tuning 的低维参数空间中则能更好发挥平滑作用。实验结果为实践应用提供了明确指导:资源充足时推荐 FedAvg-LoRA 获得最佳性能,资源受限场景下 FedAvgM-P-Tuning 能够在保持稳定收敛的同时最小化通信开销,数据异构场景则建议优先尝试 FedAvgM 应对非独立同分布挑战。值得注意的是,所有方案的 ROUGE-2 和 BLEU-4 指标相对较低,反映了医疗问答任务需要生成精确匹配的专业术语和复杂句式的固有难度,未来可探索引入领域知识增强、对比学习等技术进一步提升联邦大模型在垂直领域的表现。通信成本分析揭示了 PEFT 方法的巨大优势。LoRA 方法仅需传输 3.6MB 的参数,占模型总参数的0.058%,这意味着在 10Mbps 的网络下单次通信仅需约3秒,相比全量微调通信成本降低了1724倍,极其适合带宽受限的边缘设备或跨地域联邦学习。P-Tuning-v2 虽然参数量为是 LoRA 的1.25倍。 三、基于KubeEdge-lanvs的使用教程在本章中,我们通过运行 Ianvs 联邦学习的 FedLLM-PEFT 样例向大家讲解基于 KubeEdge-Ianvs 实现大语言模型联邦微调的基本流程。Ianvs 安装流程以及联邦学习更详细的介绍可以参考:Ianvs官方文档[2]。▍3.1 准备环境首先确保您的系统满足以下要求:Python 3.8.18PyTorch 2.4.1+cu118兼容 CUDA 的 GPU(建议使用 Nvidia A100 80GB)建议 32GB 以上内存我们需要配置好联邦学习的数据集,先创建数据集的文件夹,注意如果你把数据集放到别的位置,本教程中的部分路径配置也要一并修改。mkdir /data cd /data mkdir fedllm_datasets cd fedllm_datasets下载 MedQuad 医疗问答数据集:# 从HuggingFace下载数据集 wget https://huggingface.co/datasets/keivalya/MedQuad-MedicalQnADataset/resolve/main/train.jsonl wget https://huggingface.co/datasets/keivalya/MedQuad-MedicalQnADataset/resolve/main/test.jsonl💭 注意:下载原始 JSONL 文件后,需要创建测试拆分,并删除冗余的 qtype 字段。数据集格式应为每行一个 JSON 对象,至少包含 question 和 answer 两个字段:{"question": "What is diabetes?", "answer": "Diabetes is a chronic disease..."}配置好数据集后,我们需要安装 Ianvs 和相关依赖。首先克隆 Ianvs 仓库:cd /ianvs/project git clone cid:link_2git cd ianvs安装系统依赖和 Ianvs 核心依赖:# 安装Ianvs核心 sudo python setup.py install # 安装PEFT相关依赖 pip install transformers==4.30.0 pip install peft==0.4.0 pip install datasets==2.12.0 pip install accelerate==0.20.3 pip install sentencepiece==0.1.99 pip install protobuf==3.20.3我们使用 ChatGLM-6B 作为基础大语言模型,需要先下载模型权重:cd /ianvs/project mkdir models cd models # 从HuggingFace下载ChatGLM-6B模型 git lfs install git clone https://huggingface.co/THUDM/chatglm-6b▍3.2 配置文件修改示例代码放在[3]下,我们需要修改相关配置文件中的路径。首先配置算法参数,编辑 algorithm/algorithm.yaml:# 修改模型路径 modules: -type: "basemodel" name: "model" url: "/ianvs/project/ianvs/examples/federated-llm/fedllm-peft/algorithm/model.py" hyperparameters: model_name: "/ianvs/project/models/chatglm-6b" save_dir: "/ianvs/project/fedllm_output" initial_model_url: "/ianvs/project/models/chatglm-6b" peft_method: "lora"# 可选"lora" 或"ptuning" batch_size: 1 learning_rate: 0.0001 local_epochs: 2 -type: "aggregation" name: "FedAvg-PEFT" url: "/ianvs/project/ianvs/examples/federated-llm/fedllm-peft/algorithm/FedAvg-PEFT.py"然后配置测试环境,编辑 testenv/testenv.yaml:# 修改数据集路径 dataset: train_data: "/data/fedllm_datasets/train.jsonl" test_data: "/data/fedllm_datasets/test.jsonl" # 配置联邦学习参数 round: 5 gpu_num: 4 client_number: 4 if_mode_llm: true # 配置评估指标路径 metrics: -name: "rouge1_metric" url: "/ianvs/project/ianvs/examples/federated-llm/fedllm-peft/testenv/rouge1_metric.py" -name: "rouge2_metric" url: "/ianvs/project/ianvs/examples/federated-llm/fedllm-peft/testenv/rouge2_metric.py" -name: "rougel_metric" url: "/ianvs/project/ianvs/examples/federated-llm/fedllm-peft/testenv/rougel_metric.py" -name: "bleu4_metric" url: "/ianvs/project/ianvs/examples/federated-llm/fedllm-peft/testenv/bleu4_metric.py"最后配置基准测试作业,编辑 benchmarkingjob.yaml:workspace: "/ianvs/project/fedllm_workspace" testenv: "/ianvs/project/ianvs/examples/federated-llm/fedllm-peft/testenv/testenv.yaml" algorithm: "/ianvs/project/ianvs/examples/federated-llm/fedllm-peft/algorithm/algorithm.yaml" rank: sort_by: "rouge1_metric" visualization: mode: "select_all"▍3.3 运行联邦微调配置完成后,设置 Python 路径并运行基准测试:# 设置Python路径 export PYTHONPATH=$PYTHONPATH:/ianvs/project/ianvs/examples/federated-llm/fedllm-peft # 运行FedAvg-LoRA联邦微调 cd /ianvs/project/ianvs ianvs -f examples/federated-llm/fedllm-peft/benchmarkingjob.yaml▍3.4 尝试不同配置如果想尝试不同的 PEFT 方法或聚合算法,只需修改 algorithm.yaml 中的相应参数:# 使用P-Tuning代替LoRA: peft_method: "ptuning" # 使用FedAvgM代替FedAvg: aggregation: name: "FedAvgM-PEFT" url: "/ianvs/project/ianvs/examples/federated-llm/fedllm-peft/algorithm/FedAvgM-PEFT.py" hyperparameters: beta: 0.7 server_lr: 1.0▍3.5 查看结果训练完成后,结果将保存在工作目录中,包括:排行榜显示不同算法组合的性能对比详细的评估指标(ROUGE-1、ROUGE-2、ROUGE-L、BLEU-4)训练日志和模型检查点您可以在/ianvs/project/fedllm_workspace目录下查看完整的实验报告和可视化结果。相关链接[1] MedQuad医疗问答数据集实验研究:HuggingFace- keivalya/MedQuad-MedicalQnADataset[2] Ianvs官方文档:cid:link_0[3] 配置文件示例代码:/ianvs/project/ianvs/examples/federated-llm/fedllm-peft 参考文献[1] McMahan, H. B., Moore, E., Ramage, D., Hampson, S., & Aguera y Arcas, B. Communication-Efficient Learning of Deep Networks from Decentralized Data. In AISTATS, 2017[2] Hsu, T.-M. H., Qi, H., & Brown, M. Measuring the Effects of Non-Identical Data Distribution for Federated Visual Classification. arXiv:1909.06335, 2019[3] Fan, T., Kang, Y., Ma, G., Chen, W., Wei, W., Fan, L., & Yang, Q. FATE-LLM: A Industrial Grade Federated Learning Framework for Large Language Models. In Symposium on Advances and Open Problems in Large Language Models (LLM@IJCAI'23), 2023[4] Liu, X., Ji, K., Fu, Y., et al. P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks. arXiv:2110.07602, 2021[5] KubeEdge. Ianvs: Distributed Synergy AI Benchmarking Framework. GitHub repository: cid:link_2 关注魔方公众号,获取更多前沿资讯添加社区小助手k8s2222,进入技术交流群
  • [技术干货] KubeEdge 1.23.0版本发布!性能与可靠性持续提升!
    京时间2026年3月11日,KubeEdge 发布 1.23.0 版本。新版本通过深度优化 Windows 兼容性、引入设备异常检测框架以及重构边缘数据库,显著提升了边缘侧的运维能力、数据处理可靠性和整体性能。同时发布了新版本 Dashboard,在用户交互上带来全新体验。KubeEdge v1.23.0 新增特性:Windows 操作系统下的 EdgeCore 与 Keadm 能力增强 新增设备异常检测能力优化边缘侧查询节点流程,降低边云通道带宽占用使用 Gorm 替换 Beego,并重构边缘数据库升级 K8s 依赖到1.32Dashboard 新版本发布:国际化(中文)支持、性能提升与页面优化  新特性概览  ▍Windows 操作系统下的 EdgeCore 与 Keadm 能力增强在 1.23.0 版本中,我们对 EdgeCore 和 keadm 在 Windows OS 的能力进行了如下增强:提供了本地DMI服务:由于 Windows 不支持 Unix Domain Socket,我们引用了Windows 命名管道(Named Pipes)实现本地网络通信;keadm 升级/下载增强:在v1.23.0中,keadm 会检测本地 edgecore.exe 的版本信息,如果或有更高版本可用,则自动重新下载 EdgeCore 包,避免因本地已存在 edgecore.exe 而导致升级被跳过;可观测性增强:在新版本中,EdgeCore 日志会被重定向到可配置的日志文件,优化Windows环境下的运维与故障排查。➤  更多信息可参考:cid:link_3cid:link_4cid:link_5▍新增设备异常检测能力v1.23.0 引入了设备异常检测框架,您可在 Device CRD 的 pushMethod 字段中指定异常检测相关配置apiVersion: devices.kubeedge.io/v1beta1kind: Devicespec: properties: pushMethod: anomolyDetection: ... // 指定异常检测字段,如设备工作状态等同时我们在 Mapper 中实现了设备异常检测处理逻辑,您可以定制化设计处理设备异常数据。 另外,我们在 Example 仓库提供了设备异常检测的Demo,方便您快速了解并试用新的能力。详情查看:cid:link_11➤  更多信息可参考:cid:link_6cid:link_7▍优化边缘侧查询节点流程,降低边云通道带宽占用之前的版本中,EdgeCore 需要通过边云通道远程查询节点信息,在大规模场景下,边云通道带宽消耗尤其显著。在新版本中,EdgeCore 直接从边缘数据库查询节点,同时,CloudCore 检测到节点信息更新时会自动同步到边缘数据库,显著提升了大规模边缘场景下的系统性能和可靠性。➤ 更多信息可参考:cid:link_7▍使用 Gorm 替换 Beego,并重构边缘数据库原有的边缘数据库使用的 Beego 框架,实际上仅用到了 ORM 部分。在新版本中,我们使用更轻量的 Gorm 替换 Beego 框架。同时,对边缘数据库进行重构,在 MetaManager 中引入统一的数据库操作入口,使数据库交互更清晰、易维护。➤ 更多信息可参考:cid:link_2cid:link_8▍升级K8s依赖到1.32新版本将依赖的 Kubernetes 版本升级到 v1.32.10,您可以在云和边缘使用新版本的特性。➤ 更多信息可参考:cid:link_9▍Dashboard 新版本发布:国际化(中文)支持、性能提升与页面优化Dashboard v0.2.0 正式发布,包括如下更新:引入 Backend-for-Frontend(BFF)架构,建立数据处理中间层,优化数据处理逻辑,提升前端性能;引入国际化语言框架,并新增中文语言包支持;全面优化 Dashboard的UI 体验,统一页面风格,重点优化 PodTable、TableView 等表单组件,提升用户交互体验。➤ 更多信息可参考:cid:link_1 版本升级注意事项 v1.23.0 开始,Device CRD 的 Status 字段将分离出来,单独作为 DeviceStatus CRD 使用。该变更兼容旧版CRD,但需注意,在后续版本中设备状态需要通过新的 DeviceStatus CRD 获取。➤ 更多信息可参考:cid:link_10▍致谢感谢KubeEdge社区技术指导委员会(TSC)、各SIG成员对v1.23版本开发的支持与贡献,未来KubeEdge将持续在新场景探索与支持、稳定性、安全性、可扩展性等方面持续发展与演进!▍相关链接➤  Release Notes:cid:link_0添加小助手k8s2222回复KubeEdge进群
  • KubeEdge Sedna的高性能提现在哪些地方?
    KubeEdge Sedna的高性能提现在哪些地方?
  • KubeEdge边缘计算和 AI 有什么关系?
    KubeEdge边缘计算和 AI 有什么关系?
  • [互动交流] KubeEdge DMI 框架如何实现解耦设备管理面与设备业务面数据?
    KubeEdge DMI 框架如何实现解耦设备管理面与设备业务面数据?
  • [互动交流] KubeEdge基于Kubernetes实现的高性能特性有哪几个方面?
    KubeEdge基于Kubernetes实现的高性能特性有哪几个方面?
  • [技术干货] KubeEdge 1.22.0版本发布!边缘资源管理能力提升!
    北京时间2025年11月4日,KubeEdge 发布 1.22.0 版本。新版本对 Beehive 框架以及 Device Model 做了优化升级,同时对边缘资源管理能力做了提升。KubeEdge v1.22.0 新增特性:新增 hold/release 机制控制边缘资源更新 Beehive框架升级,支持配置子模块重启策略  基于物模型与产品概念的设备模型能力升级边缘轻量化 Kubelet 新增 Pod Resources Server 和 CSI Plugin 特性开关C语言版本的 Mapper-Framework 支持升级 K8s 依赖到1.31  新特性概览  ▍新增 hold/release 机制控制边缘资源更新在自动驾驶、无人机和机器人等应用场景中,我们希望在边缘能够控制对边缘资源的更新,以确保在未得到边缘设备管理员的许可下,这些资源无法被更新。在1.22.0版本中,我们引入了 hold/release 机制 来管理边缘资源的更新。在云端,用户可以通过对 Deployment、StatefulSet 和 DaemonSet 等资源添加edge.kubeedge.io/hold-upgrade: "true"的annotation,表示对应的 Pod 在边缘更新需要被 hold。在边缘,被标记了edge.kubeedge.io/hold-upgrade: "true"的 Pod 会被暂缓被处理。边缘管理员可以通过执行以下命令来释放对该 Pod 的锁,完成资源更新。keadm ctl unhold-upgrade pod <pod-name>也可以执行以下命令解锁边缘节点上所有被 hold 的边缘资源keadm ctl unhold-upgrade node💭 注意:使用keadm ctl命令需要启动 DynamicController 和 MetaServer 开关。更多信息可参考:cid:link_1cid:link_2▍Beehive框架升级,支持配置子模块重启策略在1.17版本中,我们实现了 EdgeCore 模块的自重启,可以通过全局配置来设置边缘模块的重启。在1.22版本中,我们对 Beehive 框架进行了升级优化,支持边缘子模块级别的重启策略配置。同时我们统一了 Beehive 各子模块启动的错误处理方式,对子模块能力标准化。更多信息可参考:https://github.com/kubeedge/kubeedge/pull/6444cid:link_3▍基于物模型与产品概念的设备模型能力升级 目前的 Device Model 基于物模型概念设计,而在传统 IoT 中,设备通常采用物模型、产品和设备实例三层结构进行设计,可能导致用户在实际使用中产生困惑。在 1.22.0 版本中,我们结合物模型与实际产品的概念,对设备模型的设计进行了升级。从现有的设备实例中提取了protocolConfigData ,  visitors字段到设备模型中,设备实例可以共享这些模型配置。同时,为了降低模型分离的成本,设备实例可以重写覆盖以上配置。更多信息可参考:cid:link_4cid:link_5▍边缘轻量化 Kubelet 新增 Pod Resources Server 和 CSI Plugin 特性开关 在之前的版本中,我们在 EdgeCore 集成的轻量化 Kubelet 中移除了 Pod Resources Server 能力,但在一些使用场景中,用户希望恢复该能力以实现对Pod的监控等。同时,由于 Kubelet 默认启动 CSI Plugin,离线环境下启动 EdgeCore 会由于 CSINode 创建失败而导致失败。在 1.22.0 版本中,我们在轻量化 Kubelet 中新增了 Pod Resources Server 和 CSI Plugin 特性开关,如果您需要启用 Pod Resources Server 或关闭 CSI Plugin,您可以在 EdgeCore 配置中添加如下特性开关:apiVersion: edgecore.config.kubeedge.io/v1alpha2kind: EdgeCoremodules:  edged:    tailoredKubeletConfig:      featureGates:        KubeletPodResources: true        DisableCSIVolumePlugin: true...更多信息可参考:cid:link_6cid:link_7cid:link_8▍C语言版本 Mapper-Framework 支持 在1.20.0版本中,我们在原有的 go 语言版本 Mapper 工程基础上,新增了 Java 版本的 Mapper-Framework。由于边缘 IoT 设备通信协议的多样性,很多边缘设备驱动协议都是基于 C语言实现的,因此在新版本中,KubeEdge 提供了 C语言版本的 Mapper-Framework,用户可以访问 KubeEdge 主仓库的feature-multilingual-mapper-c分支,利用 Mapper-Framework 生成 C语言版本的自定义 Mapper 工程。更多信息可参考:cid:link_9cid:link_10▍升级 K8s 依赖到1.31新版本将依赖的 Kubernetes 版本升级到v1.31.12,您可以在云和边缘使用新版本的特性。更多信息可参考:cid:link_11▍致谢感谢 KubeEdge 社区技术指导委员会 (TSC)、各 SIG 成员对 v1.22 版本开发的支持与贡献,未来 KubeEdge 将持续在新场景探索与支持、稳定性、安全性、可扩展性等方面持续发展与演进!▍相关链接Release Notes:cid:link_0 添加小助手k8s2222回复KubeEdge进群
  • [热门活动] KubeEdge秋季带薪远程实习来了!2025年LFX Mentorship开启申请
    LFX Mentorship 计划,由 Linux Foundation 组织,从19年开始为 CNCF 各个开源社区中的开发人员持续提供带薪实习和指导。往年已获20k+申请,发起1500+课题,毕业超千名实习生,发放超过320万美金报酬。2025年秋季申请时间为 7月31日-8月12日,远程实习将从9月8日开始为期三个月。参与到 LFX Mentorship 计划中,为开源项目做贡献、获得开源社区的认可同时,完成工作还能获取报酬 (位于中国的开发者报酬为$3000美金,约合¥20000人民币)。 今年 KubeEdge 社区在 LFX Mentorship 计划中准备了多个课题,感兴趣的读者可于8月12日前点击阅读全文,或到官方平台申请:https://mentorship.lfx.linuxfoundation.org/  KubeEdge社区介绍  KubeEdge 社区已经连续5年参与 LFX Mentorship 计划,过去已为学员提供30+个项目。KubeEdge 是业界首个云原生边缘计算框架、云原生计算基金会内部唯一毕业级边缘计算开源项目。在 GitHub 获得 8.2k+Stars和2.3k+Fork,吸引了全球来自35+国家的120+贡献组织及1800+开发者。近年来,KubeEdge 社区持续开拓创新,完成业界最大规模云原生边云协同高速公路项目(统一管理10万边缘节点/50万边缘应用)、业界首个云原生星地协同卫星、业界首个云原生车云协同汽车、业界首个云原生油田项目,开源业界首个分布式协同 AI 框架 Sedna 及业界首个边云协同终身学习范式、开源业界首个分布式协同 AI 基准测试 Ianvs。在 LFX Mentorship 2025秋季计划,KubeEdge 期待再次和计算机领域新生力量一起,开拓数字未来。   面向对象  秋季计划申请者需在2025年8月12日前在 LFX 官网完成 Mentee 注册及项目申请。若被接收作为 Mentee,您将能在开源社区经验丰富、积极贡献的 Mentor 指导下为开源项目做出贡献。依据官方规定[1],对 Mentee 的申请者有以下要求:计划开始时至少年满18周岁所在单位和组织不禁止该实习未参加另外的 Linux Mentorship 计划开发者以个人身份参与(在校或已毕业均可)具备所注册国家中工作权利且所注册国家未被计划禁止 (中国已获许可)并非社区中高于最低限度贡献成员(如Maintainer、Recurring Contributor)满足具体所属项目中提及的其它前置需求  课题参与方式  根据官方安排 [2],LFX Mentorship 2025年秋季活动流程如下:Mentee 注册与项目申请 7月31日-8月12日申请者评审及人事工作 8月13日-8月26日实习启动及任务发放 9月8日中期考核及首次津贴支付 10月14日结项考核、实习生报告提交,最终津贴支付批准 11月25日 活动结束 11月28日申请者需要在8月12日前完成 Mentee 注册和项目申请,流程详见 [3]:https://docs.linuxfoundation.org/lfx/mentorship/mentee-guide/how-to-apply实习申请结果预计将在8月27日通知到申请人。主线开发日期为2025年9月8日 – 11月28日,全程线上协作,无需线下参与。结项需要在2025年9月28日前以 PR 的形式提交到项目所在的开源社区仓库中并完成合并。  KubeEdge课题   最后,向各位申请者推荐 CNCF KubeEdge 社区下列课题:▍KubeEdge: Deep Integration with AMD Edge Nodes (2025 Term 3)课题描述:AMD 芯片凭借其强大的 x86 架构、卓越的计算性能和先进的 NPU,在工业自动化、车载系统和高性能边缘计算等领域展现出显著潜力。将 AMD 强大的通用和异构计算能力引入 KubeEdge 生态系统,对于处理日益复杂和延迟敏感的边缘 AI 应用至关重要。然而,KubeEdge 与 AMD 高性能边缘平台之间的深度集成、性能优化和最佳实践,特别是它们内置的 NPU 和其他硬件加速单元,仍需系统性的探索和验证。本项目旨在建立 KubeEdge 与 AMD 边缘节点之间的完整链接,从硬件部署到 NPU 加速构建一个综合的边缘计算解决方案,从而极大丰富 KubeEdge 的硬件生态系统。预计输出件:支持 KubeEdge 边缘节点运行在 AMD 芯片上,并成功部署边缘应用通过 KubeEdge 调度和管理 AMD NPU 资源,以实现边缘 AI 推理应用的性能加速实现节点、应用和 NPU 的监控和指标收集使用 KubeEdge 实现从云到 AMD 边缘节点的完整平台设置、配置和管理完成硬件兼容性测试,并输出技术文档或博客前置技能:KubeEdge, Go, Linux, Hardware Integration, AI/ML课题导师:Hongbing Zhang (@HongbingZhang)hongbing.zhang@daocloud.ioShelley Bao (@Shelley-BaoYue)baoyue2@huawei.com课题链接:https://mentorship.lfx.linuxfoundation.org/project/15043686-0866-4d5a-9016-3a6cbfd448fcGithub Issue:https://github.com/kubeedge/kubeedge/issues/6429▍KubeEdge: Device Anomaly Detection Framework (2025 Term 3)课题描述:当前的 KubeEdge 平台使用三种状态来表示设备状态:期望状态、观察到的期望状态和报告状态。平台上显示的设备状态完全依赖于 Mapper,该组件负责从设备端收集和报告数据。然而,由于 Mapper 实现的局限性、物理设备故障、网络延迟以及潜在的网络攻击,平台上显示的设备状态可能无法准确反映设备的实际状态。在 KubeEdge 平台中,如果应用程序依赖于设备状态进行决策,那么状态表示的不一致可能导致不良后果。因此,本项目旨在为 KubeEdge 设计一个设备状态异常检测框架。通过探索设备状态之间的因果关系,该框架将建立轻量级的异常检测能力,并提供一个全面的工具链,包括数据收集、模型训练、实时异常检测和结果可视化。预计输出件:通用的设备异常检测框架,支持用户自定义的检测算法完整的技术设计文档,包括模型选择、训练流程,以及训练和在线检测组件的详细架构图机器学习模型及相应的异常检测算法,能够捕捉设备状态之间的因果关系,并使用标准框架进行训练和测试集成到 KubeEdge 设备状态报告工作流程中的在线异常检测模块,通过模型推理钩子实现实时分析前置技能:KubeEdge,  IoT,Machine Learning课题导师:Liwei Shen (@meixiezichuan)shenliwei@fudan.edu.cnElias Wang (@wbc6080)wangbincheng4@huawei.com课题链接:https://mentorship.lfx.linuxfoundation.org/project/8cf4ff37-e638-4b73-a5a1-521806ac8db1Github Issue:https://github.com/kubeedge/kubeedge/issues/6312▍KubeEdge: Deploy Small Language Models & OPEA Integration (2025 Term 3)课题描述:KubeEdge 作为一个基于 Kubernetes 生态系统构建的本地边缘计算平台,提供了可靠的云边通信、边缘自治和物联网设备集成等能力。然而,其在边缘支持智能模型的能力尚未在实际场景中得到系统验证和实践。本研究旨在探讨使用 KubeEdge 在边缘节点上部署和运行小语言模型的可行性和性能。预计输出件:验证 KubeEdge 在边缘的模型部署能力。在边缘节点上部署和测试 vLLM 和 llama.cpp 等模型引擎,并提供实际示例和详细文档,以便部署小型语言模型探索 KubeEdge 与 OPEA 平台之间的集成方案。将 KubeEdge 与 OPEA 的模型注册中心和工作流调度器连接,以支持从云到边缘节点的自动化模型分发和部署前置技能:KubeEdge, LLM, Golang, Python课题导师:Hongbing Zhang (@HongbingZhang)hongbing.zhang@daocloud.ioElias Wang (@wbc6080)wangbincheng4@huawei.com课题链接:https://mentorship.lfx.linuxfoundation.org/project/2e9d0538-0941-4f10-8c52-9afd6294e16eGithub Issue:https://github.com/kubeedge/kubeedge/issues/6428▍KubeEdge: Comprehensive Example Restoration for Ianvs (2025 Term 3)课题描述:Ianvs 是 KubeEdge SIG AI 的分布式基准测试工具包,随着越来越多的贡献者参与,目前已有 25 个示例,且数量仍在增加。然而,由于依赖关系的演变和验证机制的影响,KubeEdge Ianvs 面临着日益突出的可用性问题。随着合作社区 Python 版本、第三方库和 Ianvs 特性的改进,部分历史示例无法执行。这导致用户报告的问题增多、贡献者时感困惑、未经测试 PR 影响特性功能、过时文档与实际能力不符等。如果不进行干预,这些示例可能会对边缘 AI 开发者,尤其是新手,带来开发阻碍。因此,我们尝试通过优化示例来提升 Ianvs 的可用性。预计输出件:发现和修复示例中的错误,包括依赖清单、License 扫描和运行时配置文档优化,包括重新设计教程,提供可复现的逐步指南,并发布面向开发者的调试手册,以应对常见故障构建一个 CI 流水线,使用 GitHub Actions 测试多个 Python 版本下的示例,关键的 Ianvs/Upstream 更新,并阻止破坏经过验证示例的 PR前置技能:Python, Benchmark, KubeEdge-Ianvs, AI/ML课题导师:Zimu Zheng (@MooreZheng)zimu.zheng@huawei.comShijing Hu (@hsj576)sjhu21@m.fudan.edu.cn课题链接:https://mentorship.lfx.linuxfoundation.org/project/82d71e63-2e1e-48d6-8c93-91c9e8bf8d5dGithub Issue:https://github.com/kubeedge/ianvs/issues/230▍KubeEdge: Industrial Benchmark Dataset for Ianvs (2025 Term 3)课题描述:随着工业制造通过机器人技术、自适应生产线和智能测试系统的进步加速数字化转型,云边协作已成为在复杂操作环境中部署具身智能的关键推动力。现代工业对具身智能的要求不仅限于基本任务执行,还扩展到多模态感知与决策集成、动态环境适应和分布式设备编排。现有的基准测试框架在评估工业环境中固有的场景特定具身属性方面存在局限。本项目利用 KubeEdge-Ianvs 协作 AI 框架,整合领域特定的测试数据集、仿真环境和定量指标,以建立一个认证的工业级评估基础设施,用于具身智能系统。预计输出件:通过对现有资源/示例进行系统分类和重组,开发一个工业级具身智能数据集部署基准算法并引入指标,以在 KubeEdge-Ianvs 中建立性能基准前置技能:Python, Benchmark, Dataset, Embodied Intelligence课题导师:Zimu Zheng (@MooreZheng)zimu.zheng@huawei.comMengzhuo Chen (@IcyFeather233)icyfeather@foxmail.com课题链接:https://mentorship.lfx.linuxfoundation.org/project/c066ac53-5435-4057-a84c-0e0be62e8b65Github Issue:https://github.com/kubeedge/ianvs/issues/197 如果对课题内容有任何问题,欢迎在 GitHub 仓库提交 Issue 或者添加社区小助手微信向社区提问。扫码回复“KubeEdge” 进入技术群 今年秋季,KubeEdge 社区期待在 LFX Mentorship 见到您! Reference:[1] LFX Mentorship - Application Requirement: https://docs.linuxfoundation.org/lfx/mentorship/mentee-guide/am-i-eligible [2] LFX Mentorship - Program Readme: https://github.com/cncf/mentoring/blob/main/programs/lfx-mentorship/2025/03-Sep-Nov/README.md[3] LFX Mentorship - Mentee Application Guideline: https://docs.linuxfoundation.org/lfx/mentorship/mentee-guide/how-to-apply 【更多KubeEdge资讯推荐】玩转KubeEdge保姆级攻略——环境搭建篇玩转KubeEdge保姆级攻略——环境搭建篇《玩转KubeEdge保姆级攻略——环境搭建篇》课程主要介绍如何通过华为云服务快速搭建一套KubeEdge边缘计算开发平台及部署Sedna、EdgeMesh等KubeEdge生态组件。课程免费学习链接:https://connect.huaweicloud.com/courses/learn/course-v1:HuaweiX+CBUCNXNX022+Self-paced/aboutKubeEdge社区介绍:KubeEdge是业界首个云原生边缘计算框架、云原生计算基金会(CNCF)唯一毕业级边缘计算开源项目,社区已完成业界最大规模云原生边云协同高速公路项目(统一管理10万边缘节点/50万边缘应用)、业界首个云原生星地协同卫星、业界首个云原生车云协同汽车、业界首个云原生油田项目,开源业界首个分布式协同AI框架Sedna及业界首个边云协同终身学习范式,并在持续开拓创新中。KubeEdge网站 :  https://kubeedge.ioGitHub地址 : https://github.com/kubeedge/kubeedgeSlack地址 : https://kubeedge.slack.com邮件列表 : https://groups.google.com/forum/#!forum/kubeedge每周社区例会 : https://zoom.us/j/4167237304Twitter : https://twitter.com/KubeEdge文档地址 : https://docs.kubeedge.io/en/latest/
  • [热门活动] 中选名单出炉|18位学生入选开源之夏KubeEdge课题,欢迎加入!
    7月1日起,开源之夏2025为期三个月的项目开发正式拉开序幕。历经导师、社区、组委会三轮审核,共有18位海内外高校同学在激烈的竞争中脱颖而出,成功中选KubeEdge社区任务,中选学生将在社区导师的指导下,完成项目开发。KubeEdge 社区期待和计算机领域新生力量一起薪火相传,共启云原生边缘计算无限可能。中选名单公示重要时间节点一览学生指南:https://blog.summer-ospp.ac.cn/help/student%20guide# 关于开源之夏“开源之夏(英文简称 OSPP)”是中国科学院软件研究所“开源软件供应链点亮计划”指导下的系列暑期活动,由中国科学院软件研究所和华为技术有限公司共同主办,旨在鼓励在校学生积极参与开源软件的开发维护,培养和发掘更多优秀的开发者,促进优秀开源软件社区的蓬勃发展,助力开源软件供应链建设。  社区小助手k8s2222回复KubeEdge进入技术交流群 【更多KubeEdge资讯推荐】玩转KubeEdge保姆级攻略——环境搭建篇玩转KubeEdge保姆级攻略——环境搭建篇《玩转KubeEdge保姆级攻略——环境搭建篇》课程主要介绍如何通过华为云服务快速搭建一套KubeEdge边缘计算开发平台及部署Sedna、EdgeMesh等KubeEdge生态组件。课程免费学习链接:https://connect.huaweicloud.com/courses/learn/course-v1:HuaweiX+CBUCNXNX022+Self-paced/aboutKubeEdge社区介绍:KubeEdge是业界首个云原生边缘计算框架、云原生计算基金会(CNCF)唯一毕业级边缘计算开源项目,社区已完成业界最大规模云原生边云协同高速公路项目(统一管理10万边缘节点/50万边缘应用)、业界首个云原生星地协同卫星、业界首个云原生车云协同汽车、业界首个云原生油田项目,开源业界首个分布式协同AI框架Sedna及业界首个边云协同终身学习范式,并在持续开拓创新中。KubeEdge网站 :  https://kubeedge.ioGitHub地址 : cid:link_0Slack地址 : https://kubeedge.slack.com邮件列表 : https://groups.google.com/forum/#!forum/kubeedge每周社区例会 : https://zoom.us/j/4167237304Twitter : https://twitter.com/KubeEdge文档地址 : https://docs.kubeedge.io/en/latest/ 
  • [技术干货] KubeEdge 1.21.0版本发布!节点任务框架全面升级!
    北京时间2025年6月18日,KubeEdge 发布1.21.0版本。新版本对节点任务框架(节点升级、镜像预下载)做了全面更新,并新增云端更新边缘配置的能力,同时 Dashboard 新增对 keink 的集成,支持一键部署,在易用性、管理运维能力上做了全面增强。KubeEdge v1.21.0 新增特性:全新节点任务 API 以及实现节点组流量闭环优化 支持在云端更新边缘配置集成 kubeedge/keink,支持一键部署 Dashboard  新特性概览  ▍全新节点任务API以及实现 当前 KubeEdge 中的节点任务资源(节点升级、镜像预下载)的状态设计较为复杂,可读性较差。此外,在执行节点任务的过程中,一些错误不会被记录到状态中导致无法定位任务失败的原因。因此我们对节点状态和运行流程进行了重新设计,设计目标如下:定义一个新的节点任务的状态结构,使其更易于用户和开发者理解跟踪整个流程的错误信息,将其写入状态中展示开发一个更合理的节点任务流程框架在新的设计中,节点任务的状态由总阶段(phase)和各节点执行任务的状态(nodeStatus)组成。节点任务的阶段(phase)有四个枚举值分别为:Init、InProgress、Completed 或 Failure,该值通过每个节点的执行状态计算所得。节点执行任务的状态由阶段(phase)、节点执行的动作流(actionFlow)、节点名称(nodeName)、执行动作流以外的错误原因(reason)以及业务相关的一些字段(如镜像预下载任务的每个镜像下载状态)组成。节点执行任务的阶段(phase)有五个枚举值分别为:Pending、InProgress、Successful、Failure 和 Unknown。动作流是一个数组结构,记录了每个动作(action)的执行结果,状态(Status)复用了 Kubernetes 的 ConditionStatus,用 True 和 False 表示动作的成功或失败,并且记录了动作的失败原因(reason)和执行时间(time)。👇🏻 节点升级任务的状态 YAML 样例如下:status: nodeStatus: - actionFlow: - action: Check status: 'True' time: '2025-05-28T08:12:01Z' - action: WaitingConfirmation status: 'True' time: '2025-05-28T08:12:01Z' - action: Backup status: 'True' time: '2025-05-28T08:12:01Z' - action: Upgrade status: 'True' time: '2025-05-28T08:13:02Z' currentVersion: v1.21.0 historicVersion: v1.20.0 nodeName: ubuntu phase: Successful phase: Completed我们对节点任务的云边协作流程也进行了重新设计。为了避免 CloudCore 多实例导致的节点任务更新产生并发冲突,我们将节点任务的初始化和节点任务的状态计算放在 ControllerManager 中处理,因为 ControllerManager 总是单实例运行的。👇🏻 具体流程如下:1. 当节点任务 CR 被创建后,ControllerManager 会初始化匹配的节点的状态;2. CloudCore 只会处理 ControllerManager 处理过的节点任务资源,通过执行器(Executor)和下行控制器(DownstreamController)将节点任务下发给节点;3. EdgeCore 接收到节点任务后,通过运行器(Runner)执行动作,并将每个动作的执行结果上报给 CloudCore;4. CloudCore 通过上行控制器(UpstreamController)接收动作运行的结果并将结果更新到节点任务的状态中;5. ControllerManager 监听节点任务资源的变化计算整个节点任务的状态进行更新。在整个处理流程中,我们将流程中可能产生的错误都记录并更新到了节点任务资源状态的原因字段中。更多信息可参考:cid:link_0/blob/master/docs/proposals/edge-node-tasks-status-enhancement.mdcid:link_0/issues/5999cid:link_0/issues/6211cid:link_0/issues/6273▍节点组流量闭环优化 在 KubeEdge 1.21.0 中,我们对节点组的流量闭环功能进行了全面优化,使其功能更完善、使用更灵活。这一功能的核心能力是:通过一个 Service 实现“节点组内应用只能访问同组内应用服务,无法访问其他节点组的服务。借助该机制,用户可以轻松实现边缘多区域间的网络隔离,确保不同区域的应用服务之间互不干扰。➤ 应用场景举例:以连锁门店为例,企业可将全国各地的门店按区域划分为多个节点组(如华东、华北、西南等),每个区域的门店部署相同类型的应用(如库存管理、收银系统),但业务数据互相隔离。通过流量闭环功能,系统可自动限制服务访问范围,仅在节点组内互通,避免跨区域访问,无需额外配置网络策略。流量闭环功能为可选项。如果用户不希望开启节点组间的流量隔离,只需在 EdgeApplication 中不配置 Service 模板,系统则不会启用该能力,应用依然可以按原有方式进行通信。👇🏻 使用样例:apiVersion: apps.kubeedge.io/v1alpha1kind: NodeGroupmetadata: name: beijingspec: nodes: - node-1 - node-2---apiVersion: apps.kubeedge.io/v1alpha1kind: NodeGroupmetadata: name: shanghaispec: nodes: - node-3 - node-4---apiVersion: apps.kubeedge.io/v1alpha1kind: EdgeApplicationmetadata: name: test-service namespace: defaultspec: workloadScope: targetNodeGroups: - name: beijing overriders: resourcesOverriders: - containerName: container-1 value: {} - name: shanghai overriders: resourcesOverriders: - containerName: container-1 value: {} workloadTemplate: manifests: - apiVersion: v1 kind: Service metadata: name: test-service namespace: default spec: ipFamilies: - IPv4 ports: - name: tcp port: 80 protocol: TCP targetPort: 80 selector: app: test-service sessionAffinity: None type: ClusterIP - apiVersion: apps/v1 kind: Deployment metadata: labels: kant.io/app: '' name: test-service namespace: default spec: replicas: 1 selector: matchLabels: app: test-service template: metadata: labels: app: test-service spec: containers: - name: container-1 ... terminationGracePeriodSeconds: 30 tolerations: - effect: NoSchedule key: node-role.kubernetes.io/edge operator: Exists使用样例更多信息可参考:cid:link_0/pull/6097cid:link_0/pull/6077▍支持在云端更新边缘配置 相较于登录每个边缘节点手动更新 EdgeCore 的配置文件 edgecore.yaml,能够直接从云端更新 edgecorer.yaml 要更便利。尤其是对于批量节点操作,同时更新多个边缘节点的配置文件,能够提高管理效率,节约很多运维成本。在v1.21.0中,我们引入了ConfigUpdateJob CRD,允许用户在云端更新边缘节点的配置文件。CRD 中的 updateFields 用于指定需要更新的配置项。👇🏻 CRD 示例:apiVersion: operations.kubeedge.io/v1alpha2kind: ConfigUpdateJobmetadata: name: configupdate-testspec: failureTolerate: "0.3" concurrency: 1 timeoutSeconds: 180 updateFields: modules.edgeStream.enable: "true" labelSelector: matchLabels: "node-role.kubernetes.io/edge": "" node-role.kubernetes.io/agent: ""💭 注意:该特性在1.21中默认关闭,如需使用,请启动云端的 controllermamager 和 taskmanager 以及边缘端的 taskmanager 模块 更新边缘配置会涉及 EdgeCore 重启更多信息可参考:cid:link_0/pull/6024cid:link_0/pull/6338▍集成kubeedge/keink,支持一键部署Dashboard新版本对 Dashboard 进行了增强,为 KubeEdge 控制面板设计了一个 BFF(Backend for Frontend)层,以连接前端用户界面层和 KubeEdge 后端 API。它作为数据传输和处理中心,提供专用的后端服务,简化了前端的数据检索逻辑,提高了性能和安全性。此外,为了让开发人员快速体验和部署 kubeedge,我们与 kubeedge/keink 项目深度集成。只需一条命令,在 dashboard 上就能快速启动 kubeedge 环境,对其功能进行完整的演示和验证。更多信息可参考:https://github.com/kubeedge/dashboard/pull/50 版本升级注意事项 ▍节点任务新版本默认开启 v1alpha2 版本的节点任务,CRD 定义会向下兼容,如果想继续使用 v1alpha1 版本的 NodeUpgradeJob 和 ImagePrePullJob,可以通过设置ControllerManager 和 CloudCore 的特性门切换。ControllerManager 添加启动参数--feature-gates=disableNodeTaskV1alpha2CloudCore 修改配置文件kubectl edit configmap -n kubeedge cloudcore修改配置内容:apiVersion: cloudcore.config.kubeedge.io/v1alpha2 kind: CloudCore+ featureGates:+ disableNodeTaskV1alpha2: true ...💭 注意:v1alpha2 版本节点任务的 CRD 能兼容 v1alpha1,但是它们不能相互切换,v1alpha1 的代码逻辑会破坏 v1alpha2 节点任务 CR 的数据。v1alpha1 的节点任务基本不会再进行维护,v1.23 版本后将删除 v1alpha1 版本节点任务的相关代码。另外,节点任务在边端已成为一个默认关闭的 Beehive 模块,如果要正常使用节点任务功能的话,需要修改边端 edgecore.yaml 配置文件开启: modules: ...+ taskManager:+ enbale: true▍边缘节点升级我们对 Keadm 边缘节点升级的相关命令(备份、升级、回滚)做了调整:1. 升级命令不会自动执行备份命令,备份命令需要手动触发;2. 升级命令隐藏了业务相关的参数,v1.23 版本后会清理废弃的代码;3. 升级的相关命令都使用三级命令: keadm edge upgrade keadm edge backup keadm edge rollback▍致谢感谢 KubeEdge 社区技术指导委员会 (TSC)、各 SIG 成员对 v1.21 版本开发的支持与贡献,未来 KubeEdge 将持续在新场景探索与支持、稳定性、安全性、可扩展性等方面持续发展与演进!▍相关链接Release Notes:cid:link_0/blob/master/CHANGELOG/CHANGELOG-1.21.md【更多KubeEdge资讯推荐】玩转KubeEdge保姆级攻略——环境搭建篇玩转KubeEdge保姆级攻略——环境搭建篇《玩转KubeEdge保姆级攻略——环境搭建篇》课程主要介绍如何通过华为云服务快速搭建一套KubeEdge边缘计算开发平台及部署Sedna、EdgeMesh等KubeEdge生态组件。课程免费学习链接:https://connect.huaweicloud.com/courses/learn/course-v1:HuaweiX+CBUCNXNX022+Self-paced/aboutKubeEdge社区介绍:KubeEdge是业界首个云原生边缘计算框架、云原生计算基金会(CNCF)唯一毕业级边缘计算开源项目,社区已完成业界最大规模云原生边云协同高速公路项目(统一管理10万边缘节点/50万边缘应用)、业界首个云原生星地协同卫星、业界首个云原生车云协同汽车、业界首个云原生油田项目,开源业界首个分布式协同AI框架Sedna及业界首个边云协同终身学习范式,并在持续开拓创新中。KubeEdge网站 :  https://kubeedge.ioGitHub地址 : cid:link_0Slack地址 : https://kubeedge.slack.com邮件列表 : https://groups.google.com/forum/#!forum/kubeedge每周社区例会 : https://zoom.us/j/4167237304Twitter : https://twitter.com/KubeEdge文档地址 : https://docs.kubeedge.io/en/latest/
  • [热门活动] 华为云亮相 KubeCon China 2025,开源生态引领 AI 时代技术跃迁
    6月10日-11日,云原生计算基金会(CNCF)旗舰会议 KubeCon+CloudNativeCon China 2025 在中国香港盛大召开。华为云云原生技术团队在主题演讲, 分论坛,圆桌等多个会场带来10+场精彩演讲,深度分享云原生 AI 调度、智能边缘、多云容器、数据库、流量治理等领域前沿技术成果,领先构建 AI-Native 云原生基础设施,加速行业智能化升级。    开源生态引领AI时代技术跃迁  ▍Towards Clouds of AI Clusters会上,华为首席开源联络官, CNCF 基金会董事任旭东带来 “Towards Clouds of AI Clusters” Keynote 主题演讲,深度分享了AI原生时代的算力集群技术演进趋势,及华为在异构集群管理、云边协同AI、超大规模调度等领域的应用实践。任旭东表示,当前企业在管理 AI 工作负载时,仍面临严峻挑战,尤其是在大模型训练、推理中对算力规模和集群协同的极高要求。应对大模型背后的算力困局,不仅需要异构硬件的高效协同,更依赖开源技术栈和分布式范式,如数据并行、模型并行、流水线并行进行深度支持,对异构算力的全栈兼容,最终才能在降低单位训练推理成本的同时,加速万亿参数级模型的商业化落地进程。华为通过 openEuler、Volcano、Karmada、KubeEdge 等开源项目,从硬件驱动到集群资源调度实现算力设备的统一管理,支持 HyperNode 与多集群拓扑感知调度,并对 PyTorch / TensorFlow / MindSpore 等主流框架、大语言模型( LLMs )及智能体开发场景提供统一支持的全栈开源基础设施解决方案。▍Volcano+Karmada 驱动 B 站亿级月活云原生AI调度华为云云原生开源负责人,CNCF 技术监督委员会副主席王泽锋联合 Bilibili 资深研发工程师许龙,发表 “Optimizing AI Workload Scheduling: Bilibili's Journey to an Efficient Cloud Native AI Platform” Keynote 主题演讲,深入探讨 B 站人工智能工作负载调度优化实践。Bilibili 拥有上亿月活用户,围绕视频业务覆盖搜索推荐、图像处理、视频编解码等多种应用场景。在 AI 技术深度渗透视频处理、模型训练等场景的当下,B站面对负载多样性、多集群管理等算力挑战,构建了以 Volcano 和 Karmada 为核心的调度框架:单集群侧通过 Volcano 实现 Workload 统一调度,引入等价类调度与 JobSet 对象优化性能;多集群层用 Karmada 支撑在线任务联邦调度,自研轻量系统解决离线高吞吐需求。结合 GPU 共享调度、编解码混合等三种模式,在提升资源利用率的同时,为 B 站 AI 应用落地提供了高效的云原生算力支撑。▍Volcano 助力科大讯飞实现AI基础设施突破,赢得 CNCF 最终用户案例会上,华为云云原生团队高级工程师常旭征联合科大讯飞平台架构师董江,发表 “Scaling Model Training with Volcano: iFlytek's Kubernetes Breakthrough” Keynote主题演讲,分享基于 Volcano 的云原生 AI 训练资源调度优化方案。科大讯飞在大规模模型训练中借助 Volcano 实现关键突破:通过构建基于 Volcano 的统一计算平台,集成 AirFlow / Spark 等传统任务框架,以队列机制解决多租户资源公平分配问题,同时运用 Gang 调度、Binpack 算法及拓扑感知策略,将 GPU 利用率提升 40% 以上,故障恢复时间缩短 70%,资源干扰率降低 50%,保障业务稳定性和资源使用灵活性。Volcano 是华为云发起开源的业界首个云原生批量计算引擎,也是 CNCF 首个批量计算项目,主要用于 AI、大数据、基因、渲染等诸多高性能计算场景,能力涵盖队列与资源管理、统一作业 API、多样化调度策略、在离线混部、GPU 虚拟化、异构算力支持及性能优化等关键领域。针对当前大规模AI集群的性能问题,Volcano 新增基于 HyperNode 的网络拓扑感知调度策略,大幅提升人工智能训练和推理效率。  Cloud Native for AI,云原生使能大规模人工智能产业发展  ▍Karmada:破解AI任务部署多集群编排难题,支撑大规模数据平台的弹性与可靠性Karmada 作为云原生多云多集群管理引擎备受用户与开发者欢迎。来自华为云的Karmada 社区 Maintainer 任洪彩,围绕 Karmada 的技术更新、核心特性、实际应用案例及社区生态展开,讲解了近期版本中备受关注的应用跨集群滚动更新,有状态应用故障迁移,优先级调度机制,Dashboard,联邦资源配额等特性。同时,华为云技术团队也与 Bloomberg 进行了社区合作交流。 Bloomberg 分享了其利用 Karmada 构建弹性数据分析平台的实践经验,展示了 Karmada 在多集群管理场景下的优势性能。通过功能迭代和生态扩展,Karmada 解决了企业在跨集群管理中的核心挑战,Bloomberg 等企业的实践证明,Karmada 能够有效支撑大规模数据平台的弹性与可靠性需求,未来在 AI 训练、边缘计算等场景的拓展值得期待。▍KubeEdge 赋能多领域、多场景边云协同AI智算来自华为云云原生团队的KubeEdge社区Maintainer鲍玥,携手社区伙伴,带来4场云原生边缘计算技术演讲,议题涵盖KubeEdge大规模实现、落地案例分享以及社区治理工作等多个方向。在 “KubeEdge 社区新特性解读及多元场景案例” 、“使用混沌工程构建超大规模云原生边缘系统” 、“KubeEdge 深度探索:架构、用例和项目毕业动态” 系列议题中,KubeEdge分享了社区在智慧物流、机器人编排等领域的行业案例,介绍了项目在边缘场景中发挥的统一化管理、边缘自愈、实时性等优势,同时也带来了社区最新的新特性,包括支持批量边缘节点管理,全新DashBoard,子项目Sedna支持HPA等,以及在支持大规模场景的探索实践。作为 CNCF 首个云原生边缘计算毕业级项目,KubeEdge 的毕业旅程备受关注,在“ KubeEdge毕业探索:从零开始构建多元化、协作型开源社区”圆桌中,KubeEdge TSC 等技术专家, 共同向参会者分享总结了 KubeEdge 在社区发展与毕业历程中所做的工作,从技术成熟度、采用率、社区多样化、中立性等多个角度探讨社区健康发展的关键要素,并对 KubeEdge 毕业后的工作进行了规划与展望。▍Kmesh:内核级流量治理引擎, 高效应对大规模流量应用需求Kmesh 是集高性能、低开销及安全可靠于一身的内核级云原生流量治理引擎。本次大会上,来自华为云的 Kmesh 社区技术专家徐中虎一行,在 4 场议题演讲中分享,涵盖 Service Mesh 高性能、低底噪、安全性,易用性方面的探讨。本着轻量、易用、应用无侵入的设计原则,Kmesh 使用 eBPF 将 Service Mesh 彻底革命,推出业界极具竞争力的 Sidecarless 方案,在性能和可靠性上遥遥领先于业界相关竞品。Kmesh 从高性能、低开销技术愿景出发,借助 kfunc,内核原生模式将流量治理能力完全下沉到 Kernel Space。同时,为解决 Service Mesh 重启升级影响用户业务稳定性的问题,Kmesh 用 eBPF prog 和 BPF Map 与 Kmesh Daemon 运行进程分离的方式,实现重启升级不影响业务已有连接,减了 Service Mesh 对业务稳定性的影响。Kmesh 创新性地利用 Linux 内核的 XDP 技术,在网络包进入内核协议栈之前就进行快速处理,极大地降低了时延,提高了吞吐,克服了在处理大规模流量时,用户态鉴权存在的瓶颈,实现了服务间极致的鉴权性能。▍openGemini:高性能时序数据库,降低企业业务成本openGemini 是一款高性能时序数据库,主要面向物联网,车联网和运维监控等场景,为用户提供海量时序数据的高效存储和查询。openGemini 目前已经在能源、电力、航空航天、devops、物联网、车联网、矿山、大宗物流等 9 大领域应用落地。本届 KubeCon China,openGemini 正式以 CNCF Sandbox 项目的身份参与。会上,来自华为云的 openGemini 社区 Maintainer 向宇,向与会者在介绍了openGemini 技术特性与未来规划,并重点介绍了数据多副本及流式计算两个重要新特性,多副本可满足多数业务对数据可靠性的需求,同时社区将流式计算融入内核,简化业务架构,降低业务成本。   智能驱动的新一代AI-Native云原生基础设施   云原生已迈入全面智能化的新阶段,华为云通过AI重构云原生,打造更适合AI应用的基础设施,为用户带来全新的智能化使用体验。在华为云展区,讲解专家向与会者展示了AI-Native的云原生基础设施,包括 UCS,CCI,CCE Autopilot,CCE Turbo 等多个行业级云原生代表产品,并介绍在 KubeEdge、Volcano、Karmada、Kuasar、openGemini、Kmesh 等业界首创开源项目中的技术创新成果。作为云原生与 AI 领域的先驱者,华为云凭借多年来的产业实践和技术创新,连续8次蝉联中国容器软件市场份额第一,Omdia 评价产品战略与执行全球第一,打造业界领先的云原生解决方案,为企业数智化转型提供强大动力。开源生态加速 AI 时代技术革新,驱动行业智能化跃迁。从 Cloud Native 到 AI Native,技术创新助力产业可持续发展,我们期待与您共建繁荣云原生生态,携手全球企业与开发者,共赢产业智能未来。更多云原生技术动向关注容器魔方【更多华为云云原生干货推荐】华为云云原生王者之路集训营华为云云原生王者之路集训营为帮助广大技术爱好者快速掌握云原生相关技能,华为云云原生团队与华为云学院联合CNCF开源软件大学启动人才培养计划,推出《华为云云原生王者之路集训营》,从云原生基础知识介绍到最佳实践讲解、底层原理和方案架构深度剖析,层层深入,满足不同云原生技术基础和学习目标人群的需求。本课程还精选数十个企业典型应用场景,作为学员上机实践案例,帮助学员将所学技术快速与企业业务相结合,服务于企业生产。点击免费参加华为云云原生王者之路集训营:cid:link_3 学习后记得小试牛刀,看看测评效果~ 华为云云原生王者之路-黄金课程测评 华为云云原生王者之路-钻石课程测评 华为云云原生王者之路-王者课程测评
  • [热门活动] KubeCon China 2025 | 与KubeEdge畅聊毕业经验与创新未来
    6 月 10 日-11 日,云原生计算基金会(CNCF)旗舰会议 KubeCon + CloudNativeCon China 2025 ,将在中国香港盛开召开。作为全球云原生与开源顶级会议,大会汇聚全球顶尖开源开发者、技术领袖、企业代表及终端用户,围绕 Kubernetes、云原生架构、人工智能及开源生态展开深入交流与分享,为参与者呈现一场前沿技术的学习与交流盛宴。KubeEdge云原生边缘计算社区即将亮相 KubeCon + CloudNativeCon China 2025。KubeEdge是业界首个云原生边缘计算框架、CNCF唯一毕业级边缘计算开源项目。KubeEdge 连接云原生和边缘计算生态,聚焦于提供一致的云边资源协同、数据协同、智能协同和应用协同体验,为边缘计算领域的应用提供更好的支持和解决方案,在全球已拥有1800+贡献者和120+贡献组织,在 GitHub 获得 8.1k+Stars 和 2.3k+Forks。  KubeEdge 议题看点  本届大会上,来自华为云、DaoCloud、谐云、QingCloud等KubeEdge社区技术专家,将带来多场云原生边缘计算技术演讲、圆桌讨论,与全球开发者与企业,畅聊云原生边缘计算技术创新与应用,赋能多领域、多场景边云协同AI智算,敬请期待!▍KubeEdge Updates and Use Cases in Multiple Scenarios演讲嘉宾:Yue Bao, Huawei Cloud时间:Tuesday June 10, 2025 11:49 - 11:54 HKT会场:Level 16 | Grand Ballroom I技术看点: KubeEdge是业界首个云原生开源边缘计算项目,已于去年实现CNCF毕业。在本次会议中,我们将分享毕业以来社区治理的新特性和进展。KubeEdge 已广泛应用于智能交通、智慧城市、智慧园区、智慧能源、智慧工厂、智慧银行、智慧站点、CDN等行业,为用户提供一体化的边缘云端协同解决方案。本次演讲还将分享10+个KubeEdge在各行业的用户案例,帮助用户了解云原生边缘计算和边缘AI的实践经验。议程链接:https://sched.co/1xjzK▍Building Ultra-Large-Scale Cloud Native Edge Systems Using Chaos Engineering演讲嘉宾:Yue Bao, Huawei Cloud & Yue Li, DaoCloud时间:Tuesday June 10, 2025 13:45 - 14:15 HKT会场:Level 19 | Crystal Court II技术看点: 5G网络、工业互联网和人工智能等技术的快速发展,使边缘计算在推动数字化转型中发挥了重要作用。每项新技术在带来好处的同时,也带来了挑战。首先,大量异构边缘设备的出现,包含了广泛的设备类型。其次,边缘设备往往处于不稳定和复杂的物理和网络环境中,例如带宽受限、高延迟等,如何克服这些挑战,构建稳定、大规模的边缘计算平台是需要解决的问题。KubeEdge是一个开源的边缘计算框架,它将Kubernetes的功能从中心云扩展到边缘。现在,由KubeEdge提供支持的Kubernetes集群可以稳定支持10万个边缘节点,管理超过100万个Pod。在本次分享中,我们将分享大规模异构边缘节点管理中的关键挑战,并讲述如何在大规模边缘节点中使用ChaosMesh使KubeEdge更可靠。议程链接:https://sched.co/1x5hu▍KubeEdge DeepDive: Architecture, Use Cases, and Project Graduation Updates演讲嘉宾:Yue Bao, Huawei Cloud & Hongbing Zhang, DaoCloud时间:Wednesday June 11, 2025 11:45 - 12:15 HKT会场:Level 21 | Pearl Pavilion技术看点: 在本次分享中,KubeEdge项目维护者将概述KubeEdge的架构及其特定于行业的用例。议题首先简要介绍边缘计算及其在物联网和分布式系统中日益增长的重要性。然后,维护者将深入探讨KubeEdge的核心组件和架构,展示它如何扩展Kubernetes的功能以高效地管理边缘计算工作负载。他们将分享已在各种边缘环境(如智慧城市、工业物联网、边缘AI、机器人和零售)中部署KubeEdge的组织的成功案例和见解,强调切实的好处和变革的可能性。此外,会议还将介绍认证的KubeEdge一致性测试、硬件测试、KubeEdge课程和认证,讨论KubeEdge项目中的技术进步和社区治理,并分享项目毕业状态的最新更新。议程链接:https://sched.co/1x5hQ▍Exploring KubeEdge Graduation: Build a Diverse and Collaborative Open Source Community From Scratch演讲嘉宾: Yue Bao & Fei Xu, Huawei Cloud; Hongbing Zhang, DaoCloud; Huan Wei, Hangzhou HarmonyCloud; Benamin Huo, QingCloud时间:Wednesday June 11, 2025 14:30 - 15:00 HKT会场:Level 19 | Crystal Court II技术看点: 当前,开源项目的健康性,特别是供应商多样性和中立性成为讨论的一个关键话题。由于缺乏供应商多样性,许多项目面临挑战,威胁到其可持续性。越来越清楚的是,在项目成长过程中建立正确的治理结构和项目团队至关重要。在本场圆桌中,我们将讨论KubeEdge社区毕业之旅的经验教训,重点讨论技术规划、社区治理、开发者成长和项目维护方面的关键策略。欢迎参与我们的讨论,探讨如何建立一个多供应商和多样化的社区,以及如何将这份经验应用到不同的行业。议程链接:https://sched.co/1x5jw更多云原生边缘计算相关议题,欢迎关注大会官网。KubeEdge邀您共聚KubeCon + CloudNativeCon  China 2025! 添加小助手k8s2222回复KubeEdge进群【更多KubeEdge资讯推荐】玩转KubeEdge保姆级攻略——环境搭建篇玩转KubeEdge保姆级攻略——环境搭建篇《玩转KubeEdge保姆级攻略——环境搭建篇》课程主要介绍如何通过华为云服务快速搭建一套KubeEdge边缘计算开发平台及部署Sedna、EdgeMesh等KubeEdge生态组件。课程免费学习链接:https://connect.huaweicloud.com/courses/learn/course-v1:HuaweiX+CBUCNXNX022+Self-paced/aboutKubeEdge社区介绍:KubeEdge是业界首个云原生边缘计算框架、云原生计算基金会(CNCF)唯一毕业级边缘计算开源项目,社区已完成业界最大规模云原生边云协同高速公路项目(统一管理10万边缘节点/50万边缘应用)、业界首个云原生星地协同卫星、业界首个云原生车云协同汽车、业界首个云原生油田项目,开源业界首个分布式协同AI框架Sedna及业界首个边云协同终身学习范式,并在持续开拓创新中。KubeEdge网站 :  https://kubeedge.ioGitHub地址 : cid:link_0Slack地址 : https://kubeedge.slack.com邮件列表 : https://groups.google.com/forum/#!forum/kubeedge每周社区例会 : https://zoom.us/j/4167237304Twitter : https://twitter.com/KubeEdge文档地址 : https://docs.kubeedge.io/en/latest/
  • [互动交流] 边缘节点出现问题,怎么进行恢复
    边缘节点出现问题,KubeEdge是怎么进行处理的
  • [互动交流] 使用KubeEdge服务出现不兼容??
    调用KubeEdge服务兼容不匹配,该怎么解决?
  • [热门活动] 开源之夏2025重磅来袭!KubeEdge社区18项课题报名启动
    开源之夏介绍开源之夏是由中国科学院软件研究所“开源软件供应链点亮计划”发起并长期支持的一项暑期开源活动,旨在鼓励在校学生积极参与开源软件的开发维护,培养和发掘更多优秀的开发者,促进优秀开源软件社区的蓬勃发展,助力开源软件供应链建设。学生通过远程线上协作方式,通过社区资深导师指导,参与到开源社区各组织项目开发中,收获证书及8000/12000元奖金。活动官网:https://summer-ospp.ac.cn/开源之夏学生报名将于5月9日正式开启。KubeEdge 云原生边缘计算社区已连续6年参与开源之夏,在本届开源之夏共带来18个精选课题,包括AI大模型、机器学习、深度学习、工业物联网、系统研发与集成等多个领域,由来自高校、产业等资深学者、产业巨擘与技术领英组成的导师带队,引领同学们迈向顶尖开发者之路。历届开源之夏 KubeEdge 社区课题聚焦行业前沿方向,为学生职业生涯增添浓墨重彩的一笔,KubeEdge 学生已连续多年入选组委会官方优秀学生。为帮助学生更好地了解与选报课题,KubeEdge 社区将于5月14日、5月15日开展课题线上宣讲会(详见下文),同学们不可错过。▍KubeEdge云原生边缘计算社区KubeEdge(https://github.com/kubeedge)是业界首个云原生边缘计算框架、云原生计算基金会(CNCF)唯一毕业级边缘计算开源项目。KubeEdge 连接云原生和边缘计算生态,聚焦于提供一致的云边资源协同、数据协同、智能协同和应用协同体验,为边缘计算领域的应用提供更好的支持和解决方案,在全球已拥有1800+贡献者和120+贡献组织,在 GitHub 获得 8.1k+Stars 和 2.3k+Forks。KubeEdge 社区持续开拓创新,目前已完成业界最大规模云原生边云协同高速公路项目(统一管理10万边缘节点/50万边缘应用)、业界首个云原生星地协同卫星、业界首个云原生车云协同汽车、业界首个云原生油田项目,开源业界首个分布式协同 AI 框架 Sedna 及业界首个边云协同终身学习范式。▍KubeEdge开源之夏2025课题项目1:KubeEdge设备管理实践案例优化项目编号:2598a0305项目难度:基础/Basic导师联系:王彬丞 wangbincheng4@huawei.com项目简述:目前 KubeEdge 在边缘 IoT 设备管理领域提出了基于物模型的设备管理 API,并构建了 mapper 开发框架 mapper-framework,实现 IoT 设备的云原生化管理。随着 KubeEdge Device IoT 能力日趋成熟,需要构建针对最新版本的最佳实践案例,并对旧版本的案例进行迭代优化,为用户使用提供参考。项目链接:https://summer-ospp.ac.cn/org/prodetail/2598a0305 (请在PC端打开,下同)项目2:面向工业制造的具身智能基准测试套件项目编号:2598a0349项目难度:进阶/Advanced导师联系:郑子木 zimu.zheng@huawei.com项目简述:随着工业制造智能化进程加速以及工业机器人、柔性产线、检测装备持续升级,云边协同成为支撑具身智能系统在复杂生产场景中落地的关键技术。当前工业领域对具身智能服务的需求已从单一任务执行向高精度感知决策、实时动态适应性、跨设备协同控制等方向演进,但通用具身智能基准测试普遍缺乏对工业场景具身特性的针对性评价,本项目基于 KubeEdge-Ianvs 协同人工智能基准测试框架,配套工业场景测试数据集、测试环境和性能指标,构建面向工业制造的行业级具身智能测试能力。项目链接:https://summer-ospp.ac.cn/org/prodetail/2598a0349项目3:支持在Windows OS上使用KubeEdge部署工具keadm项目编号:2598a0315项目难度:基础/Basic导师联系:胡炜 wei.hu@daocloud.io项目简述:keadm 是 KubeEdge 的安装部署工具,可以使用 keadm join/reset/upgrade 等子命令对 KubeEdge 边缘组件 EdgeCore 进行安装、重置、升级等操作。在工业场景中有很多设备使用 Windows 操作系统,而且许多企业级应用(如 .NET Framework、IIS、SQL Server等)依赖 Windows 生态,无法直接迁移到  Linux。为了让企业能在统一平台上管理混合操作系统,Kubernetes 和 Containerd 都已支持 Windows,EdgeCore 也已经能在 Windows 上正常运行及工作。然而由于 keadm 工具依旧没有适配 windows,目前 EdgeCore 在 Windows 上只能手动使用二进制包启动,运维管理存在着很多问题。本课题需要重新设计如何用 keadm 工具和边缘子命令操作 EdgeCore 在 Windows 设备上的部署升级等,进行生命周期管理。项目链接:https://summer-ospp.ac.cn/org/prodetail/2598a0315项目4:基于c语言实现MapperFramework项目编号:2598a0320项目难度:进阶/Advanced导师联系:杨志佳 2938893385@qq.com项目简述:KubeEdge 的 Mapper-Framework 提供了全新的 Mapper 自动生成框架,集成了 DMI 设备管理面与数据面能力。目前 KubeEdge 多语言 Mapper-Framework 已实现了 golang 和 java 版,然而在 IoT 领域,边缘端侧设备驱动大多是基于C语言编写的,因此在本课题中,我们希望能够给予C语言实现 Mapper-Framework,为用户提供基于C语言的设备驱动 Mapper,提升用户开发效率。项目链接:https://summer-ospp.ac.cn/org/prodetail/2598a0320项目5:从 kubeedge-ianvs 迁移联合推理大模型 example 至 kubeedge-sedna项目编号:2598a0311项目难度:基础/Basic导师联系:唐明 ming.tang@daocloud.io项目简述:Sedna 是一个通用的云边协同 AI 平台,能够便捷地在云端和边缘部署、管理各类 AI 模型。当前,Sedna 已支持多种 AI 协同范式,包括联合推理、联邦学习、增量学习和终生学习,并在多个行业场景中实现了落地应用。我们已针对传统判别式模型,提供了丰富的协同范式案例,帮助用户快速搭建符合自身需求的应用。随着案例数量的增加,用户对模型性能评估的需求也日益增长。为此,我们推出了 kubeedge-ianvs 基准测试平台,为模型在部署到 Sedna 之前提供标准化的测试流程,确保其性能满足生产环境要求。近年来,大语言模型(LLM)在云边协同场景下的应用逐渐增多,ianvs 项目中已孵化出多个优秀的云边协同大语言模型案例。然而,Sedna 平台目前尚未提供相关的大语言模型应用案例,导致有此类需求的用户缺乏参考和借鉴。因此,本项目旨在将 kubeedge-ianvs 中优秀的联合推理大语言模型案例迁移至 Sedna 平台,丰富 Sedna 的应用案例库,为开发云边协同大语言模型的用户提供实践参考。同时,在迁移过程中,我们将梳理和总结案例迁移中遇到的问题,为后续实现案例自动化迁移和 Sedna 框架的持续优化提供依据和建议。项目链接:https://summer-ospp.ac.cn/org/prodetail/2598a0311项目6:基于现实设备产品的边缘设备模型设计项目编号:2598a0334项目难度:进阶/Advanced导师联系:jiawei  jiawei.liu@daocloud.io项目简述:当前 KubeEdge 对设备模型的定义比较简单,起到的实质作用并不大,而且其设计在使用时会让使用者产生困扰。在传统 IOT 中,设备会被设计成:物模型、产品、设备实例,由于历史原因,现在拆成3类对象的成本会很大,而且这么细粒度的抽象意义也不是很大,因此我们将模型定义成现实设备产品的概念(物模型+产品),即用于描述一种设备产品的规格、连接协议、属性获取方式等,这样设备的实例就可以共享这些配置,无非连接的地址对于不同的设备配置不一样。这样的设计,能一定程度的复用配置信息,并且定位更加的清晰。项目链接:https://summer-ospp.ac.cn/org/prodetail/2598a0334项目7:基于KubeEdge-Ianvs的大模型联邦微调算法项目编号:2598a0326项目难度:进阶/Advanced导师联系:胡创 hchuchuang@gmail.com项目简述:随着大语言模型(LLM)在医疗、金融、政务等多个隐私敏感行业的广泛应用,利用本地数据对 LLM 进行微调以满足领域定制化需求成为趋势。传统的联邦学习方法在面对 LLM 的超大参数量与计算成本时显得力不从心。目前 KubeEdge-Ianvs 及 KubeEdge-Sedna 已支持协同推理和协同训练方式,但并未支持大模型联邦微调。为此,本项目拟在 KubeEdge-Ianvs 框架下构建一个联邦学习范式流程以及支持参数高效微调的大模型联邦微调算法。未来可能利用 KubeEdge-Sedna 的边缘节点调度、资源管理能力,实现低通信、低计算、高适配性的大模型联邦学习流程。项目链接:https://summer-ospp.ac.cn/org/prodetail/2598a0326项目8:基于KubeEdge-Ianvs的多LLM云边路由范式:面向具身智能应用项目编号:2598a0350项目难度:进阶/Advanced导师联系:胡时京 sjhu21@m.fudan.edu.cn项目简述:当前,大模型研究面临算力垄断、训练成本高企和技术路径单一等挑战,“路由 LLM(Routing LLM)”范式为突破这些瓶颈提供了新思路。该范式通过智能调度和协同多个开源(及闭源)小模型,以“组合创新”替代传统“规模竞赛”,具备异构兼容、多目标优化和灵活部署等多重优势。例如,它能够兼容 GPT-4、Llama 等多类模型,实现性能、成本和风险的动态权衡,并可按需快速定制针对如代码生成、医疗问答等场景的解决方案,而无需从头训练大模型。KubeEdge-Ianvs 目前已支持云边协同推理,可视为“多 LLM 云边路由”的一种雏形,未来在云+边多模型的智能协同必将成为 LLM 性能优化的重要趋势。本项目将基于 KubeEdge-Ianvs,进一步拓展和实现多 LLM 云边路由能力,打造支持多模型注册、调度、分发与动态路由的开源平台,为云边智能推理和产业实际应用提供创新高效的技术路径。项目链接:https://summer-ospp.ac.cn/org/prodetail/2598a0350项目9:基于KubeEdge-Ianvs的VLA微调数据配比优化算法项目编号:2598a0359项目难度:进阶/Advanced导师联系:苏敬勇 sujingyong@hit.edu.cn项目简述:视觉-语言-动作(Vision-Language-Action, VLA)模型在机器人操作和具身智能等领域获得广泛应用,其中 VLA 模型在云侧训练、边侧推理是具身智能领域的一种常见范式。但是如何在训练过程中合理配置多源异构数据以提升模型在复杂任务中的泛化能力,成为亟需解决的问题。相比计算机视觉与自然语言处理领域,VLA 数据配比策略的研究仍然薄弱,当前多采用静态经验权重或均匀混合,难以适应不同数据子域对特定下游任务的差异化贡献。尽管已有如 OpenVLA、Re-Mix 等在数据加权方面的探索,复杂多模态 VLA 任务下的数据配比仍缺乏系统性方案。为此,本项目拟依托 KubeEdge-Ianvs 分布式协同 AI 基准测试框架,构建一套面向 VLA 任务的数据配比优化流程,结合 Ianvs 提供的仿真、超参搜索、评测报告等工具,探索多源数据在具身智能训练中的合理配比,推动 VLA 模型在机器人与具身智能应用中的泛化能力与训练效率的提升。项目链接:https://summer-ospp.ac.cn/org/prodetail/2598a0359项目10:物理一致可交互室内仿真场景生成:基于KubeEdge-Ianvs实现项目编号:2598a0424项目难度:进阶/Advanced导师联系:蒋晨阳 787773295@qq.com项目简述:边缘计算业务下的具身智能场景生成往往在云侧协助具身智能模型训练,训练所得的具身智能模型部署到边侧推理。目前已有诸多研究致力于室内场景生成问题,如 ProcTHOR、PhyScene、HOLODECK 等,通过自动构建三维室内环境,广泛应用于具身智能仿真任务。然而,这些仿真平台在物理交互属性上与真实世界存在显著差距,缺乏对物体形变反馈、力觉反馈、触觉反馈、温度反馈等多维物理特性的建模。例如,当机械臂接触窗帘时,窗帘应展现出柔性形变、相应的反馈力、触觉信号乃至热传导特性,这些在当前仿真环境中难以真实还原。如何在生成高保真物理场景的同时,赋予场景内物体与现实世界一致的可交互性与物理属性,仍是亟需解决的关键问题。为此,本项目计划基于 KubeEdge-Ianvs 分布式协同基准测试框架,构建一套物理一致的可交互室内仿真场景生成流程。借助 Ianvs 提供的仿真控制、超参搜索、性能评测等工具,系统性评估和优化仿真场景中的物理属性建模效果,助力合成高质量具身智能训练数据,提升模型在复杂交互任务中的泛化能力,加速具身智能系统的训练与迭代。项目链接:https://summer-ospp.ac.cn/org/prodetail/2598a0424项目11:基于KubeEdge-Ianvs的政务智能体基准测试项目编号:2598a0360项目难度:进阶/Advanced导师联系:陈孟卓 icyfeather@foxmail.com项目简述:随着云边协同大模型技术的快速发展,其在政务场景中的应用潜力日益凸显。政务服务的智能化升级涉及政府内部协同、公众服务及企业服务三大核心场景,亟需通过大模型技术提升效率与服务质量。然而,政务场景具有高度的专业性、规范性和安全性要求,现有的大模型评测体系缺乏针对政务垂直领域的标准化评估方法,导致技术落地面临准确性、合规性及场景适配性等挑战。因此,本项目旨在基于 KubeEdge-Ianvs 分布式协同框架,构建面向政务场景的智能体评测 Pipeline 与 Benchmark,为政务智能化提供可量化、可复用的能力评估工具,推动大模型技术在政务服务、政府办公、城市治理等典型场景中的安全高效应用。项目链接:https://summer-ospp.ac.cn/org/prodetail/2598a0360项目12:基于KubeEdge-Ianvs云边协同推理的大模型隐私保护算法项目编号:2598a0388项目难度:进阶/Advanced导师联系:沈家星 jiaxingshen@ln.edu.hk项目简述:随着大型语言模型(LLM)在各行业的广泛应用,用户隐私保护成为关键挑战。传统云端 LLM 部署要求用户将敏感提示上传至远程服务器,造成严重隐私风险。本项目旨在基于 KubeEdge-Ianvs 的云边协同推理框架,开发一个大模型隐私保护算法,在边缘侧对敏感提示进行不可逆变换处理,确保即使使用最先进的嵌入重构攻击也无法恢复原始数据。项目链接:https://summer-ospp.ac.cn/org/prodetail/2598a0388项目13:KubeEdge Dashboard前端组件升级优化项目编号:2598a0405项目难度:基础导师联系:Hongbing hongbing.zhang@daocloud.io项目简述:升级优化 dashboard 前端组件及性能,重点优化 ProTable、TableView 等公用表单组件。另外可考虑引入 mui 新加入的 Dashboard Layout 等组件。项目链接:https://summer-ospp.ac.cn/org/prodetail/2598a0405项目14:优化KubeEdge Dashboard数据处理逻辑,引入新特性项目编号:2598a0406项目难度:基础/Basic导师联系:Chen Su ghosind@gmail.com项目简述:在现有 KubeEdge Dashboard 的基础上,优化其数据处理逻辑。建立数据处理中间层,用于对数据进行预处理,并引入数据筛选、排序、分页等新功能,用以提升用户前端性能及用户体验。项目链接:https://summer-ospp.ac.cn/org/prodetail/2598a0406项目15:基于 KubeEdge 的云边视频流通信机制扩展项目编号:2598a0410项目难度:进阶导师联系:沈立炜 shenliwei@fudan.edu.cn项目简述:随着远程感知、视觉识别等边缘智能场景的持续发展,对于云边之间实时视频流传输的支持需求日益增长。然而,KubeEdge 现有的云边通信主要面向日志和控制信号的传输,缺乏对流式数据(如实时视频流)的支持,限制了以视觉为核心的应用在复杂网络环境下的落地与拓展。本项目将在 KubeEdge 框架基础上扩展新的通信机制以支持边缘节点稳定向云端推送视频流,并围绕流式数据在典型边缘场景中的传输问题,探索更具弹性和资源效率的通信方式。项目将关注在多源请求环境下的链路共享、传输稳定性和连接管理问题,使得 KubeEdge 具备视觉数据流通信能力,从而进一步支撑船岸远程监控等应用场景。项目链接:https://summer-ospp.ac.cn/org/prodetail/2598a0410项目16:基于 KubeEdge 的主题化设备数据发布/订阅框架项目编号:2598a0411项目难度:进阶导师联系:崔云娜 21110240061@m.fudan.edu.cn项目简述:在工业物联网场景中,设备数据的实时发布与灵活订阅是支撑 AI 分析(如预测性维护、工艺优化)和精细化运维(如故障告警响应、能效监控)的关键基础。通过主题化数据分发和动态路由策略,可精准区分高优先级事件(如设备异常)与低优先级属性数据(如能耗统计),避免混合传输导致的解析负担和响应延迟。统一的发布/订阅机制能简化多协议设备接入、提升边缘-云协同效率,为智能化应用提供低时延、高可靠的数据供给,同时满足动态扩容场景下的灵活扩展需求。为此,本项目旨在设计并实现一套基于 KubeEdge 的统一主题化设备数据发布/订阅系统,通过定义层级化主题模型(如 sensor/temperature, camera/objectDetected等)),实现动态订阅机制与边缘-云协同路由策略,支持应用按主题灵活订阅数据、事件数据(高优先级实时推送)与属性数据(低优先级批量传输)的分类处理,最终与 KubeEdge 的 DeviceTwin 等原生组件集成,提升工业物联网场景中数据分发的实时性、灵活性与可扩展性。项目链接:https://summer-ospp.ac.cn/org/prodetail/2598a0411项目17:KubeEdge Dashboard UI优化与多语言(中文)支持项目编号:2598a0414项目难度:基础导师联系:chuanhao 15221580643@163.com 项目简述:全面优化 KubeEdge Dashboard 的 UI 体验,统一界面风格、提升交互友好性,并引入中文语言包支持。针对页面结构、交互逻辑、表单体验等方面进行逐步改进,使其更加贴合用户使用习惯。同时提供国际化方案基础框架,未来可拓展至更多语言。项目链接:https://summer-ospp.ac.cn/org/prodetail/2598a0414项目18:面向隐私-效用评测的云边协同大模型仿真环境项目编号:2598a0389项目难度:进阶/Advanced导师联系:江山 jiangsh73@mail.sysu.edu.cn项目简述:用户隐私保护是边侧大模型应用一大关键需求,这是因为传统云端 LLM 部署要求用户将敏感提示上传至远程服务器,造成严重隐私风险。然而,纯边缘部署的轻量级模型性能有限。本项目旨在基于 KubeEdge-Ianvs 的云边协同推理过程,对隐私保护和模型效用进行量化权衡,并提供仿真方法。 项目链接:https://summer-ospp.ac.cn/org/prodetail/2598a0389▍如何报名开源之夏KubeEdge课题?报名对象本活动面向年满 18 周岁的高校在校学生。在9月30日开发结束之前,学生需保持在校学生状态。若已收到研究生或博士生录取通知,可提供录取通知书及相关说明材料。中国籍学生参与活动时需提供有效期内的身份证、学生证、教育部学籍在线验证报告(学信网)或在读证明。外籍学生参与活动时需提供护照,同时提供录取通知书、有效期内的学生证、在读证明等文件。学生报名时间学生可在系统(https://summer-ospp.ac.cn/)注册账号并填写个人资料提交审核。资料审核通过的学生 5月9日 起可在系统提交项目申请书,学生课题申请截止时间为6月9日18:00。学生可以收获什么?结识开源界小伙伴和技术大牛获得社区导师的专业指导,与开源项目开发者深度交流丰富项目实践经验,提升项目开发技能为学习方向提供参考,为职业发展积累人脉通过结项考核的学生将获得结项奖金和结项证书(基础难度税前8000元RMB,进阶难度税前12000元RMB),更有机会获选优秀学生如何快速选定课题?对 KubeEdge 社区开源之夏课题感兴趣的同学,欢迎通过本文上方导师邮箱,提前联系导师沟通锁定课题。为方便同学们更快了解与找到最适合自己的课题方向,KubeEdge 社区将于5月14日、5月15日特别组织18个课题线上宣讲会,大咖导师空降,帮你更快速了解课题,欢迎同学们通过以下方式参会: 开源之夏2025KubeEdge社区课题宣讲如群满,请添加社区小助手微信k8s2222,回复KubeEdge开源之夏进入宣讲群 KubeEdge宣讲第一场:2025.05.14 周三下午16:00SIG Device-IoT,SIG Cluster-Lifecycle,Example,Dashboard等课题KubeEdge宣讲第二场:2025.05.15 周四下午16:30 SIG AI课题学生参会统一链接:https://zoom.us/my/kubeedge添加社区小助手微信k8s2222回复KubeEdge开源之夏咨询 这个夏天,KubeEdge 社区期待和计算机领域新生力量一起薪火相传,以云原生为舟,以边缘计算为桨,加速迈向智能未来的星辰征途。  【更多KubeEdge资讯推荐】玩转KubeEdge保姆级攻略——环境搭建篇玩转KubeEdge保姆级攻略——环境搭建篇《玩转KubeEdge保姆级攻略——环境搭建篇》课程主要介绍如何通过华为云服务快速搭建一套KubeEdge边缘计算开发平台及部署Sedna、EdgeMesh等KubeEdge生态组件。课程免费学习链接:https://connect.huaweicloud.com/courses/learn/course-v1:HuaweiX+CBUCNXNX022+Self-paced/aboutKubeEdge社区介绍:KubeEdge是业界首个云原生边缘计算框架、云原生计算基金会(CNCF)唯一毕业级边缘计算开源项目,社区已完成业界最大规模云原生边云协同高速公路项目(统一管理10万边缘节点/50万边缘应用)、业界首个云原生星地协同卫星、业界首个云原生车云协同汽车、业界首个云原生油田项目,开源业界首个分布式协同AI框架Sedna及业界首个边云协同终身学习范式,并在持续开拓创新中。KubeEdge网站 :  https://kubeedge.ioGitHub地址 : cid:link_0Slack地址 : https://kubeedge.slack.com邮件列表 : https://groups.google.com/forum/#!forum/kubeedge每周社区例会 : https://zoom.us/j/4167237304Twitter : https://twitter.com/KubeEdge文档地址 : https://docs.kubeedge.io/en/latest/
总条数:48 到第
上滑加载中