-
cloudbursting是否会增加运维人员的工作负担?
-
CloudBursting解决方案如何降低资源碎片化?
-
数之联简介成都数之联科技股份有限公司成立于2012年,由985&211高校教授领衔,专注于大数据与人工智能技术的研发和应用。公司面向“智能化改造”和“数字化转型”这两大当前企业发展的重要战略方向,提供自主安全可控的人工智能基础设施与软硬一体的高端装备,助力客户提升管理和服务的智慧化水平,实现降本提质增效。▍行业背景在液晶面板生产领域,由于多种因素,产品常出现不良品。为此,关键工艺节点后引入了自动光学检测(AOI)设备,通过光学原理检测常见缺陷。然而,现有 AOI 设备仅识别缺陷有无,需要人工分类和识 别假缺陷,这一过程耗时且影响生产效率。数之联的客户企业,某面板龙头企业,引入自动缺陷分类系统(ADC)以提高判定准确性并减轻劳动强度,使用深度学习技术自动分类 AOI 输出的缺陷图片,并筛除误判,从而提高生产效率。客户企业率先在一个工厂引入 ADC,后续在其他工厂推广,节省人力资源,提高判定效率。尽管如此,由于工艺复杂和供应商差异,现场建设呈现出割裂和分散管理的趋势,给数据共享和运维带来困难。为解决这些问题,客户企业启动了工业智能检测平台的建设,该平台利用人工智能技术,标准化智能检测并提高生产效率和良率。工业智能检测平台工业智能检测平台 将 ADC 作为核心,扩展至模型训练和检测复判,实现“云”(管理+训练)+“边”(推理)+“端”(业务)的一体化方案,旨在通过标准化平台提高生产质量和数据价值。建设范围包括资源共享中心、现地 训练和边侧推理等子平台,将在若干工厂实施。工业智能检测平台架构图项目目标是实现现地 ADC 上线、资源共享和云边端标准化,以减轻运维负荷、提升标准。工业智能检测平台旨在通过规范化和标准化 客户企业 全集团的 ADC 系统,为后续 ADC 建设提供样本和模板,降低成本和周期,提高生 产和质检效率以及产品良率。包含系统管理员、资源配置员等用户角色,并涉及 ADC 推理、模型训练、数据共享等信息流,以及云端协同功能,确保 ADC 的自动缺陷分类生产过程,并提高模型和缺陷图片的 利用率。▍产品与技术实现一、集群管理不同现地可将对应的 K8s 集群注册至中心云系统,中心云系统对多个现地的集群进行管理。集群管理我们选择了 PULL 模式。为了降低 OP 的操作成本,我们在中心云提供了 step-by-step 的注册流程。引导安装 karmada-agent。使用 karmadactl token create 控制面生成 token。引导注册 karmadactl register 。在成员集群中编辑由 karmadactl register 创建的 deploy/karmada-agent 以确保其可以访问该成员集群的 kube-apiserver。二、使用聚合层 API通过 karmada-aggregator 组件提供的集群统一访问能力,我们可以在中心云实现可视化大屏等需要聚合成员集群的数据的功能。通常我们用 Service 来暴露 Java 实现的功能,并用 Java Fabric8 等客户端调用 kubectl get --raw 来实现调用:/apis/cluster.karmada.io/v1alpha1/clusters/%s/proxy/api/v1/namespaces/%s/services/%s/proxy/%s1、集群监控针对在线的集群,中心云系统可对内存、CPU、磁盘、网络流入流出速率、GPU、日志等指标进行监控数据展示,并可切换集群进行数据查看。资源监控中心云可以看到和训练云相同的监控,通过 Karmada 聚合层 API 由集群的 Java 程序对 PromQL 封装后提供给前端页面,以下是一个 Java 查询节点 CPU 利用率的示例:/apis/cluster.karmada.io/v1alpha1/clusters/%s/proxy/api/v1/namespaces/%s/services/%s/proxy/api/v1/query_range?query=node:node_cpu_utilization:avg1m{node='%s'}&start=%s&end=%s&step=%s2、中心云数据下发用户在中心云上传的数据,可自由选择下发至指定现地,包括数据集、标注、算子工程、算子镜像以及模型等。数据发布数据集、算子工程、模型,通常是文件,在完成传输后,会保存到本地或NAS等存储中。标注,通常是结构化数据,在完成传输后,会保存到 DB 中。算子镜像,一般导出为 tar 包,在完成传输后,会推送到当前集群的 harbor 中。中心云除了 Karmada 的控制面以外,也带有自己的业务 K8s 集群,也包括存储,因此可以作为一个中转器。以上均通过 Karmada 的聚合层 API 来调用我们提供的文件上传等 svc。实现了集群和集群之间的调用。3、跨现地训练针对某现地训练资源不足的情况下,可通过申请其他现地资源的方式,进行跨现地训练。该功能实现方式为将 A 现地训练所需要的数据集、标注、算子工程、算子镜像等数据发送至 B 现地,通过 B 现地的资源进行训练。再将训练好的模型返回给 A 现地。跨现地训练原理和中心云数据下发类似,任务所需的数据会直接发送到对应集群,体现了成员集群和成员集群之间的调用关系。4、可视化大屏根据中心云注册的现地,统计不同现地的各类指标数据进行大屏展示。可视化大屏通过 Karmada 聚合层 API,我们在这类大屏中展示实时数据的时候,可以方便地直接调用成员集群的 svc。而无需让所有的数据显示都走大数据的离线分析、实时分析。提供更高的时效性。▍项目管理本项目的团队由我司经验丰富的训练平台产品经理,以及专业的研发工程师和测试工程师 14 名组成。团队从 2023 年 4 月开始工作,直至 2023 年 12 月完成了开发和部署工作。尽管项目在进程中经历了三个大的里程碑,每个阶段都充满了挑战,但团队的每一个成员都坚持不懈,积极应对,展现了我们团队的战斗力、凝聚力和专业能力。考虑到训练平台的用户主要是算法工程师和产线业务人员,他们的使用习惯和知识背景存在显著差异,因此产品经理进行了深入的市场研究和讨论,最终设计出一款既能满足算法工程师的灵活性需求,又能满足产线业务人员追求高效、简洁的系统。为了确保项目的范围、进度、质量和成本可控,我们在关键阶段举行了包括产品设计、开发、测试和部署评审等会议,并定期召开项目会议以及客户沟通会议。系统部署后,我们积极获取用户反馈,解决问题并持续优化系统以满足客户需求。添加社区小助手进入Karmada交流群
-
华为云Serverless容器服务的社区支持和生态系统是什么样的?
-
华为云Serverless容器服务CCI的云原生CloudBurSting是否支持容器的镜像管理?
-
Serverless的调试和排查工具是否足够强大?
-
在扩容流程中,如何平衡扩容速度和资源利用率问题?
-
在使用华为云Serverless容器服务时,如何进行容量规划和预测?
-
2024年6月22日,华为开发者大会2024期间,在“全域Serverless时代:技术创新引领,赋能行业实践”专题论坛上,华为云云原生服务产品专家带来主题演讲——Serverless容器的成本效益与敏捷开发之道(The Cost-Effective and Agile Path of Serverless Containers)。他表示,Serverless已成为云原生算力的主流形态,华为云提供CCE Autopilot(Serverless容器集群)和CCI(Serverless容器实例)两款容器产品,并面向垂直场景(如AI、HPC以及Web等)提供Serverless Workloads,简化用户体验。华为云CCE Autopilot以其创新的免运维特性,为容器服务提供全面优化的Kubernetes兼容性,让用户专注于核心业务的创新与实现。▍华为云持续投入Serverless基础设施,简化运维管理,释放创新潜力在云计算的浪潮中,容器技术以其轻量级和高效性,成为企业IT架构转型的强劲动力。然而,随着业务的快速发展,传统的容器服务(Serverful)逐渐暴露出一系列问题:运维管理复杂、弹性速度慢、成本控制困难,这些都严重制约了企业的创新步伐。运维管理复杂:用户需要手动管理底层服务器的资源分配和扩展,不仅涉及到复杂的容量规划和资源调度,还涉及到持续的节点运维故障排查、系统升级等运维活动。运维成本高,需投入大量人力和物力资源。弹性速度慢:用户需制定节点和负载的弹性联合策略,容器弹性扩容通常需要提前对工作节点进行扩容,过程通常需要分钟级别的等待,影响效率和响应速度。成本控制困难:容器节点需要预先分配资源,当资源未被充分利用时,会造成资源浪费,且高负载情况时可能资源不足,难以实现成本效益最大化。华为云容器引擎服务深刻洞察行业痛点,致力于Serverless基础设施的研发与创新,为用户提供全面优化的负载支持。面对独立资源池的管理和运营挑战,华为云容器服务采用Serverless融合底座,实现CPU、内存、GPU等资源的池化管理,提升资源灵活性和可扩展性。基于该融合资源底座,华为云推出CCE Autopilot产品,用户只需管理容器生命周期,享受由融合资源池统一管控的高效率服务,无需过度关注节点负载或资源池承载能力,为用户提供一个灵活且易于管理的计算环境,简化运维管理,释放创新潜力。▍CCE Autopilot: 实现k8s集群托管免运维,加速应用现代化CCE Autopilot是云容器引擎服务推出的Serverless版集群,为用户提供免运维的容器服务,并提供经过优化的Kubernetes兼容能力。在传统的CCE集群模式中, Kubernetes的master节点由华为云托管,用户需要对节点和应用进行统一管理。这要求用户具备一定的Kubernetes管理知识,以便有效地维护和扩展其容器化应用。在CCE Autopilot模式下,华为云不仅托管了k8s的控制节点,还托管了工作节点,用户无需购买节点即可部署应用,这意味着用户只需要关注应用业务逻辑的实现,可以大幅降低运维成本,提高应用程序的可靠性和可扩展性。对比CCE/CCE turbo集群,CCE Autopilot集群核心演进如下:产品Serverless化:增 加集群工作节点托管,实现集群全托管,用户无需对节点的部署、管理和安全性进行维护,集群规格自动弹性伸缩。资源池 化:采用华为云Serverless融合资源池,实现CPU、内存、GPU等资源的池化管理,减少资源碎片,容器资源按需使用。性能全面优化:通过动态预热技术进行资源池预热,资源供给加速,容器秒级弹性,根据负载规模自动扩缩。▍CCE Autopilot关键能力CCE Autopilot通过以下关键能力,重新定义了容器服务的管理和运维,助力企业轻松应对业务挑战,加速创新步伐。智能可靠的集群免运维体验CCE Autopilot通过智能化版本升级、漏洞自动修复和智能调参等技术,给用户提供更稳定、更安全、更智能的集群使用体验。作为全托管的Serverless解决方案,它简化了容量规划和节点购买流程,用户无需管理和维护底层资源设施,大幅减少了运维工作量。这种开箱即用的产品形态,让用户能够专注于核心业务逻辑的开发和部署。持续迭代的极致弹性性能CCE Autopilot以极致性能为核心,联合底层服务构建统一Serverless容器资源底座,通过多级资源池预热技术,精准满足客户多元异构的资源需求,并持续迭代优化性能。无论是面对突发流量、季节性波动还是长期增长,用户无需提前规划和预留资源,实现容器秒级弹性,根据负载规模自动进行扩缩,确保业务的连续性和性能的最优化。用户可以在短时间内快速上线新应用或服务,快速响应市场变化。全面兼容的云原生开源生态CCE Autopilot将Serverless架构优势与云原生开源生态相结合,提供全面兼容Kubernetes生态的Serverless集群,使用户能够根据需求灵活扩展功能。它支持Kubernetes社区版本的全跟随和自动更新,确保用户及时获得最新技术更新和安全补丁,保持技术前沿。未来将持续集成包括安全、应用管理、弹性、CI/CD、AI在内的主流开源软件如OPA Gatekeeper、Knative等,提供开箱即用的应用框架,让客户更加轻松的管理自己的Kubernetes应用。灵活规格与按秒计费CCE Autopilot旨在提供一种灵活、高效且具有成本效益的云服务体验。利用自动化技术,产品能够实现集群规格的动态调整,并且取消了传统的档位限制,用户可以享受从0.25vCPU起步的灵活规格档位,根据自己的具体需求优化资源配比。采用按量计费模式,用户按照实际使用的资源量(以秒为单位)支付费用,实现真正的按需付费,减少不必要的成本支出。安全隔离与自动预警CCE Autopilot基于QingTian架构,实现虚拟机级别的安全隔离能力,并通过专属的container OS提供精简且安全的运行环境。其底层统一资源池设计支持快速故障隔离和修复,确保应用的持续安全稳定运行。系统内置的自动预警机制能够及时识别并预防管控面过载风险,管控组件具备自动弹性能力,在负载增加时能够自动扩展,进一步保障服务的稳定性和可靠性。▍CCE Autopilot典型应用场景华为云CCE Autopilot以其Serverless特性,为多样化的业务场景提供了强大的支持和便利。以下是CCE Autopilot的典型应用场景:SaaS/企业平台的运维与迭代升级CCE Autopilot适合作为SaaS平台和企业平台的坚实底座,尤其适用于需要频繁进行升级和迭代的大型企业资源池。传统模式客户需自运维自升级,运维人力成本巨大。CCE Autopilot的自动化运维减少了对人力资源的依赖,显著降低了运维成本。且对互联网金融等对安全合规性有严格要求的行业,传统驾驶模式客户自运维,OS等保能力建设困难,CCE Autopilot的托管服务不仅简化了节点管理,还提升了系统的安全性和合规性,使企业能够更专注于核心业务的创新与发展。业务高效弹性伸缩针对互联网文娱、社交和网约车等具有明显流量波动的业务,如春节期间流量激增的情况,CCE Autopilot提供的智能资源弹性解决方案,能够根据业务特征和流量预测,动态调整资源配置。这种基于业务感知的弹性策略,避免了传统定时弹性策略中的资源浪费,实现了资源供给与业务需求的高效匹配,帮助企业在保持业务连续性的同时,优化了成本结构。成本优化配置CCE Autopilot为有成本优化诉求的企业用户提供了灵活的资源配置方案。它满足了用户对低成本学习、资源灵活配置的需求,同时支持业务量的自动扩缩,以适应业务的快速增长。CCE Autopilot确保了即使在资源需求较小的初期阶段,用户也能获得高可靠性和性能的服务,随着业务的扩展,资源可以无缝扩展,满足企业对成本效益和业务连续性的需求。▍如何使用CCE Autopilot集群进入华为云控制台,选择云容器引擎CCE产品。在控制台界面,选择购买集群,选择CCE Autopilot集群类型,再进行基础的网络插件等配置,便可进行CCE Autopilot集群创建。集群创建完成后,用户将进入集群的管理界面,在这里可以直接访问Kubernetes资源管理等功能。CCE Autopilot相较于CCE集群,其显著的特点在于省略了节点、节点池管理内容,这得益于产品侧提供了基础设施全托管服务。尽管如此,用户仍然可看到完整的Kubernetes控制面信息。▍总 结华为云CCE Autopilot以其Serverless架构,引领容器服务进入全新时代。它通过免运维、动态资源管理、智能预测和自动化运维,不仅极大简化了IT管理,还显著降低了运营成本,提高了资源的利用效率。同时,CCE Autopilot的兼容性保证了与Kubernetes生态的无缝对接,助用户敏捷应对市场,加速创新步伐。期待更多客户、伙伴与华为云一起开启企业数字化转型的新篇章,共同迎接更加高效、智能的未来!华为云CCE Autopilot限时免费体验,登录华为云官网-活动-云容器 活动专场,了解更多详情:cid:link_0容器活动专场
-
Pod、ConfigMap、Service和Secret等资源的下发方式是什么?
-
华为云SWR/SWR企业仓库与自建harbor有何不同?
-
Serverless与"BaaS"和"FaaS"有什么关系?
上滑加载中
推荐直播
-
全面解析华为云EI-API服务:理论基础与实践应用指南
2024/11/29 周五 18:20-20:20
Alex 华为云学堂技术讲师
本期直播给大家带来的是理论与实践结合的华为云EI-API的服务介绍。从“主要功能,应用场景,实践案例,调用流程”四个维度来深入解析“语音交互API,文字识别API,自然语言处理API,图像识别API及图像搜索API”五大场景下API服务,同时结合实验,来加深开发者对API服务理解。
去报名 -
企业员工、应届毕业生、在读研究生共探项目实践
2024/12/02 周一 19:00-21:00
姚圣伟 在职软件工程师 昇腾社区优秀开发者 华为云云享专家 HCDG天津地区发起人
大神带你一键了解和掌握LeakyReLU自定义算子在ONNX网络中应用和优化技巧,在线分享如何入门,以及在工作中如何结合实际项目进行学习
即将直播 -
昇腾云服务ModelArts深度解析:理论基础与实践应用指南
2024/12/03 周二 14:30-16:30
Alex 华为云学堂技术讲师
如何快速创建和部署模型,管理全周期AI工作流呢?本期直播聚焦华为昇腾云服务ModelArts一站式AI开发平台功能介绍,同时结合基于ModelArts 的实践性实验,帮助开发者从理论到实验更好地理解和使用ModelArts。
去报名
热门标签