• [活动分享] 华为云张平安:矢志打造中国AI算力的沃土
     今天,AI重塑一切,“人工智能+”首次被写入政府报告,AI产业机遇加速涌现,AI创新大有可为。  “所有的行业必须拥抱AI,我们必须要有澎湃的AI算力,华为云矢志要将技术扎到根,做AI算力的沃土,推动行业智能应用创新,携手伙伴构建核心技术生态,共同加速千行万业的智能化。” 3月15日,在2024华为云&华为终端云创新峰会上,华为公司常务董事、华为云CEO张平安表示。  矢志打造中国AI算力的沃土  对中国来说,算力的紧缺和昂贵已成为智能创新的最大制约因素,而云化算力作为一种高效、灵活、可扩展的解决方案,正逐渐成为突破算力瓶颈的更优选择。昇腾云作为中国唯一全栈自主的AI云算力底座,为百模千态的发展提供了强劲动力。  昇腾云具备强大、高效、即开即用的智能算力资源,企业用户可以一键接入贵安、乌兰察布和芜湖的三大AI算力中心以及30多个分节点,每个数据中心都能提供百EFLOPS的强大算力,足以支撑处理万亿参数的大模型,单作业可使用万卡进行计算,并且数据规模可以达到百PB级的超大规模训练。  昇腾云还具备高效易用的全栈平台能力。它整合了从云化算力、模型开发、模型托管到生态系统的全方位服务。用户可以根据自己的需求选择不同的服务模式,实现训练和推断的一体化。  昇腾云在大规模训练方面也具有显著优势。通过端到端的质量管理和现网保障,结合云上软硬结合的运维体系,可以实现7*24小时的云上运维服务。这种确定性运维能够确保作业的失败率低于5‰,即使大模型使用万卡进行30天不间断的训练时也能保持稳定。  加速重构行业智能应用  AI时代涌现了许多机会,带来了极其丰富的应用场景,张平安认为,中国应更关注AI应用在行业场景的落地,未来千行万业所有领域里的应用场景都将会因为AI而得到重新塑造,无论是大模型还是小模型,都能帮助行业应用实现智能重塑。  华为云盘古大模型“不做诗,只做事”,致力于为行业解难题,目前已广泛应用于各个重要的行业领域,为矿山、铁路、交通、医药、气象等领域带来了质的飞跃。如气象大模型,通过AI推理的方式解决气象的预测难题,提升了1万倍效能。现在使用一张卡就可以预测出来7天的天气,以往可能需要上千台服务器耗费数小时。  此外华为云还专注于很多的工业领域,包括自动驾驶、影视渲染等,华为云希望通过昇腾AI云服务、盘古大模型等帮助千行万业实现AI创新。  携手共筑核心技术生态  在张平安看来,今天的大环境仍然存在很多不确定性,这推动着华为不断深耕基础创新,也因此带来了鸿蒙操作系统、欧拉操作系统、GaussDB数据库、盘古大模型等一系列根技术的创新成果。  张平安表示,华为云立志要打造一个全新的核心技术生态,为中国所有的应用的开发者、创新者提供核心技术支撑。通过构建这个核心技术生态,不仅让中国的AI创新能够生根发芽、蓬勃发展,还进一步为世界提供了新的核心技术选择。  目前,作为鸿蒙、欧拉、昇腾、鲲鹏等生态的云底座,华为云已经聚合全球超过600万开发者,华为昇腾AI云服务可支持超过100个第三方开源大模型。华为云还携手200多家伙伴、300多家客户,一起打造了超过30个行业大模型和数百个模型应用场景,共同构筑了云上最佳的AI创新生态。可以预见,未来将有更多的企业在这个核心技术生态中获益,成就业务创新。  张平安表示,“我们会继续坚持加速智能化、一切皆服务的战略,希望携手更多的企业、开发者,基于核心技术生态构建起自己的智能应用。” 
  • [大赛资讯] 只有输入输出也timeout
    样例是能过的。只输入和输出,但反馈信息就是【Run timeout.】。请问有什么解决办法吗
  • [热门活动] 今日开播 | 释放AI大模型算力潜能!华为云分布式云原生UCS核心技术揭秘
    随着云原生应用深入到企业各个业务场景,云原生正在走向分布式化,跨云跨域统一协同治理,保证一致应用体验,这些新的需求日益凸显。华为云UCS(Ubiquitous Cloud Native Service)是业界首个分布式云原生产品,是扩展云原生服务的桥梁,其管理的应用程序和服务可以灵活地跨数据中心、边缘和多云环境运行,为已有和新增应用程序提供一致的开发、操作和安全模型。让客户在使用云原生应用时,感受不到地域、跨云、流量的限制,把云原生的能力带入到企业的每一个业务场景,加速千行百业拥抱云原生。为帮助企业和用户更好地构建分布式云原生解决方案,华为云容器团队重磅开启分布式云原生UCS核心技术揭秘直播系列,5次专讲,深入浅出讲解UCS的尖刀特性、技术实践和场景化方案,为开发者、平台使用者及生态伙伴赋能,揭秘分布式云原生UCS核心技术。8月17日周四,UCS核心技术揭秘首场直播开启!*直播主题使用UCS(On-Premises)管理GPU资源池,释放AI大模型算力潜能*直播时间8月17日(周四)19:00-19:45*直播简介数据中心的资源利用率、数据安全和AI应用部署,是大多数企业都关心的问题。华为云UCS本地集群,能够为数据中心提供多集群弹性伸缩和GPU虚拟化等能力,提高集群的 GPU 资源利用效率。识别上方海报二维码报名直播即可领取《分布式云原生白皮书》报名后添加直播小助手k8s2222回复UCS获取 🎁!华为云云原生UCS交流▼UCS 体验交流群更过专场提前关注▼
  • [热门活动] 重磅开启!华为云分布式云原生UCS核心技术揭秘
    随着企业数字化转型的不断深入,企业将关注点从以资源为中心转移到以应用为中心。据Forrester、Gartner等权威调研机构的统计数据表明,越来越多的企业倾向于把云原生基础设施作为数字化转型首选;预计到2025年,全球企业将有95%的数字化业务基于云原生基础设施构建。云原生应用深入到企业各个业务场景,云原生正在走向分布式化,跨云跨域统一协同治理,保证一致应用体验,这些新的需求日益凸显。华为云UCS(Ubiquitous Cloud Native Service)是业界首个分布式云原生产品,是扩展云原生服务的桥梁,其管理的应用程序和服务可以灵活地跨数据中心、边缘和多云环境运行,为已有和新增应用程序提供一致的开发、操作和安全模型。让客户在使用云原生应用时,感受不到地域、跨云、流量的限制,把云原生的能力带入到企业的每一个业务场景,加速千行百业拥抱云原生。为帮助企业和用户更好地构建分布式云原生解决方案,华为云容器团队重磅开启分布式云原生UCS核心技术揭秘直播系列,深入浅出讲解UCS的尖刀特性、技术实践和场景化方案,为开发者、平台使用者及生态伙伴赋能,揭秘分布式云原生UCS核心技术。UCS核心技术揭秘直播系列首场直播将于8月17日(周四) 晚19:00重磅开启!扫码报名即可领取《分布式云原生白皮书》▼报名后添加直播小助手k8s2222回复UCS获取华为云分布式云原生UCS自上线以来,在政企、汽车、智能制造、金融等行业受到广泛关注,基于多个典型场景,为用户提供一体化云边端协同解决方案。本次系列直播由华为云云原生团队核心打造,5次直播,为你提供本地集群场景、可观测性场景、服务治理场景、多云发布场景、多云容灾场景等多方位核心技术解读。每周四晚19:00见!添加直播小助手k8s2222回复UCS获取更多方案。
  • 华为云UCS GitOps:轻松交付多集群云原生应用
    作者:华为云云原生团队随着业务的全球化发展和应用多元化部署的趋势,越来越多的客户选择通过混合云、多云模式来进行业务部署。选择多云进行部署可以提高部署业务的基础设施稳定性,在单个供应商基础设施出现故障或者访问流量激增时,可以通过配置跨云弹性来提高业务的高可用性,同时,多云还可以避免企业的技术架构被厂商锁定。尽管使用多云的优点很多,但管理多云集群和在多云的场景下发布应用却面临诸多问题和挑战。多云场景下集群管理和应用交付的挑战1、多集群基础设施的管理及一致性发布面临的挑战。例如,在多集群场景下的网络策略的配置,TLS证书的发布及更新管理。在现代应用程序的部署步骤中,SSL/TLS证书是很重要的一环。但在部署应用程序时,管理证书的续订通常是事后才想到的。证书的生命周期从90天到13个月不等,为了保持安全访问,这些证书需要在到期前更新/重新颁发。鉴于大多数 Ops 团队工作繁杂,证书更新有时会被遗漏,这会导致应用间不能正常访问和工作。在多集群场景下,运维团队会每个供应商集群重复上述过程进行证书更新;而通过 GitOps 结合 Cert-manager[1]、Nginx Ingress Controller 可以一致的、统一的管理证书的自动化更新[2],大大提升 Ops 团队的运维管理效率 。2、由业务场景侧需求和集群基础设施差异性带来的差异化配置挑战。根据应用程序的业务场景诉求不同,不同集群部署的业务版本,更新频率会存在不同。例如同一餐厅在不同地域的点餐系统可供给的菜单种类,菜单上新会有差异;或由于跨国公司在不同国家推广策略不同,新的业务软件仅需要部署至部分城市所在集群等。同时,由于业务部署的基础设施不同,应用程序部署到集群的底层架构、网络连接性、计算存储性能表现可能多种多样。例如同一份应用配置在被差异化渲染后可以被交付和托管在云上的CCE、EKS集群、客户本地数据中心中的集群(存在断连情况)、边缘端无人机的集群上(半连接集群)以及太空中卫星链所组成的集群(短时连接集群)。因此根据每个集群的性能指标(CPU、Memory)不同,部署业务应用的实例副本数可能会不同;根据每个集群的网络连接情况不同,设置部署业务的版本更新周期,高可用设置(访问某个服务的超时重试次数等)会产生差异;根据每个集群的使用目的不同(早期生命周期阶段的集群通常由开发人员管理,而实际的预发及生产集群的可能由客户的运维团队管理),部署业务的版本和数据库连接池等变量也会存在差异。因此当有M个应用需要交付至N个集群环境中时,差异化配置的复杂度会呈M×N维度爆炸增长。3、使用 UI 控制台方式交付应用与各厂商控制台风格各异、难以编排大规模微服务交付之间的挑战。随着微服务规模变大,依赖UI控制台进行应用交付的方式变得复杂臃肿,其交付的顺序编排依赖人工,无法做到自动化;且无法进行审计和版本控制。4、缺乏统一的应用观测视角的挑战。在多云集群场景下,当前缺乏统一的视图帮助客户查看应用在多集群的部署情况、应用的健康状态及异常状态定位。   使用UCS GitOps配置管理来交付您的多云应用     为了应对上述多云集群管理和多云应用交付的挑战,UCS 推出了基于 GitOps 理念的跨集群配置管理和应用分发的功能。通过它你可以屏蔽底层环境差异和多个管理入口,将多个集群环境的配置和治理集中于一处,以自动化的体验完成多集群基础设施的管理以及多云应用的发布及更新。GitOps 的概念最早由 Weaveworks 公司于2017年提出,指具备版本控制、拉取和合入请求能力、具备CI/CD流水线发布能力的基础设施即代码(Infrastructure as Code, IaC),是一种云原生的持续交付模型。如图1所示,它的核心是使用 Git 仓库来管理基础设施和应用的配置,并且以 Git 仓库作为更改基础设施和应用的单一事实来源,用户从其他地方(例如集群控制台或者命令行)修改的配置均会被修正。Git 仓库中的声明式配置描述了目标环境当前所需基础设施的期望状态,借助 GitOps 能力,当集群中的实际运行的配置或应用状态与 Git 仓库中定义的期望状态不匹配时,Kubernetes Reconcilers 会根据期望状态来调整当前的状态,最终使实际状态与期望状态保持一致[3]。图1:GitOps Operator 运行方式基于上述的思想和技术路线,CNCF 开源社区从17年开始至今,涌现出很多火热的持续交付项目,他们以Flux、ArgoCD等CNCF毕业项目为代表,可以将用户配置在代码仓库中的Kubernetes Manifast(Deployment、Service等Yaml文件)、Helm Chart、Kustomize、Ksonnet、Jsonnet 定义和组织的应用以自动化的方式部署、将配置变化更改到应用程序的运行时环境。UCS 的配置管理功能当前采用 Flux2 作为技术内核,并将其与 UCS 的容器舰队、集群模型进行适配。它通过简单易用的 UI 提供对华为云集群、多云集群、本地集群、附着集群和伙伴云集群进行跨命名空间、跨集群的应用分发与配置管理的能力,并在观测面板中对配置的实时状态的进行收集和展示。用户还可以将它对接到CI流水线后面,实现多云应用的 CI/CD 流水线的集成和发布。当前UCS提供如下关键能力,帮助用户实现便捷的多云交付。2.1 开箱即用的GitOps引擎,兼容主流的开源生态和体验图2:Flux2 主要组件的运行原理UCS 会为每个开启 GitOps 引擎的集群安装一个稳定开源版本的 Flux2 组件,且用户无须运维 GitOps 引擎。每个集群中的 GitOps 引擎会以Pull模式、定周期监听和拉取最新的仓库源配置信息并把最新的配置信息及时同步至集群中。如图2所示:Source-Controller 主要负责监视 Git 仓库源、Bucket 对象存储桶以及 Helm 仓库的存储配置变化,然后把最新 Commit 记录的制品包拉取至集群本地。而 Kustomize-Controller 和 Helm-Controller 则会负责监听集群本地拉取制品变化情况,其中以 Helm Chart/Helm Release 类型定义的制品会交由 Helm-Controller 进行渲染和同步至集群中;同理,按照 Kustomize 方式进行组织的制品交由 Kustomize-Controller 进行渲染和同步至集群中。2.2 丰富的多集群差异化配置能力随着部署应用的规模越来越大,部署集群的底层差异性越来越大,我们发现单一的一份配置对应一个集群的模式会变的越来繁琐和难以维护,因此面向多个集群的差异化配置策略随之出现。UCS 配置管理功能提供了两种多集群差异化配置的策略: Kustomize 和 Helm Release。Kustomize 是一个 Kubernetes 应用程序配置管理工具,它提供一种简单灵活的方式来生成 Kubernetes 资源,并可以使得这些资源在不同的环境中用不同的方式进行配置[4]。如图3所示,Kustomize 策略在 Base 目录下定义所有集群公共部署资源,然后在 Overlay 目录下描述每个集群产生差异化覆盖参数。然后在部署阶段,通过动态渲染参数将最终版本的制品交付至目标集群中。图3:Kustomize 制品组织目录示意图同理,HelmRelease 也是参考上述思路。将公共定义的资源放置在 templates 目录下,然后结合 valuesFrom/valuesFiles 等方式从 value.yaml 读取每个环境的差异化参数,满足客户差异化的配置诉求。其配置的重点在于做好定义公共部分抽象和少数变量的差异化配置,对应用本身参数属性和运维参数进行分离,减少重复编辑和维护的成本。2.3 基于Git的可审计、可持续的部署能力UCS 配置管理将 Git 仓库中最新合入的制品配置信息同步部署至纳管的多个集群中,同时对应用发布行为进行版本化管理和权限控制,提供发布回滚和版本迭代控制,并进行审计跟踪。 基于UCS GitOps+Pipeline流水线构建多云DevOps解决方案 随着 DevOps 价值观和文化的流行,越来越多的公司选择帮助开发团队分担应用程序交付的责任,他们将多云环境下的交付交给专门的运维团队来完成,让开发团队可以更加专注于应用程序的开发和构建本身[5,6]。基于 UCS GitOps+Pipeline 流水线可构建多云DevOps 的解决方案,实现多云环境下多云应用构建和发布。开发团队和运维团队可以基于 Git 工作流,将现有流程对接到华为云 CodeArts Pipeline 流水线或者企业自建的 CI/CD 流水线之上,从而拥有多云应用的业务开发、集成、测试再到多云应用的部署—全流程 DevOps 体验。具体来讲将分为以下两个阶段:1、定义和构建多云应用:开发团队进行业务的开发、测试、验证、打包软件和生成镜像。这里可以是采用华为云官方的 CodeArts Pipeline 流水线或者用户自建的 CI 流水线。然后定义每个集群交付资源的原始制品文件。2、交付多云应用:运维团队首先会根据开发团队提供的原始制品文件对部署在多个集群环境中的差异化内容进行配置。此环节需要做好定义公共部分抽象和少数变量的差异化配置,对应用本身参数属性和运维参数进行分离,减少重复编辑和维护参数的成本。然后使用 UCS GitOps 统一初始化集群所需的环境和资源,对发布步骤进行编排,通过更新配置仓库来一致的对多个集群进行自动化应用发布;同时运维团队还对应用发布行为进行版本化管理、权限控制和审计,提供发布回滚和版本迭代控制,保证业务应用的成功部署。图4:结合UCS GitOps的多云DevOps流水线下面将以一个详细的例子来解释:华为云某亚太跨国公司客户需要统一管理横跨多国的 Kubernetes 集群和进行业务发布,他们的线上商城业务应用同时运行在Hong Kong 的华为云 CCE 集群中,新加坡的亚马逊云 EKS 集群中;并且他们在马来西亚还拥有一部分自建数据中心集群供开发团队进行业务开发和测试验证。由于每个国家消费者的商品喜好差异以及当地的供应链供给不同,商城中发布的商品类别会存在差异。在原有的交付流程中,运维团队会根据每个地域的供应商集群控制面板风格、部署业务版本,业务更新频率等因素,为每个环境单独构建一条流水线独立交付;并在每次发布版本前,运维团队会与开发团队就新版本特点和每条流水线的部署细节进行详细磋商。而使用 UCS GitOps 可以大大降低交付上述流程的复杂度,如图4的解决方案中所示,客户采用多套环境共享一套 CI 流水线,并将构建的产物统一推送至华为云Hong Kong 的SWR 镜像仓库。然后通过差异化配置不同环境的部署参数,将多个环境的发布对接到华为云 CodeArts 配置仓库,实现了从本地集群测试和验证到多个生产集群的发布的无缝切换,也极大的提升了他们多云交付的效率。总结综上所述,UCS GitOps 是以 Flux2 为技术内核,将其与 UCS 的容器舰队/集群模型进行适配的多云交付平台。它通过简单易用的 UI 提供对华为云集群、多云集群、本地集群、附着集群和伙伴云集群进行跨命名空间、跨集群的应用分发与配置管理的能力,并在观测面板中对配置的实时状态进行收集和展示。它可以帮助您将多个集群环境的配置和治理集中于一处,以自动化的体验完成多集群基础设施的管理以及多云应用的发布及更新。同时 UCS 会持续关注开源社区侧多集群 GitOps 的发展趋势,并将优质特性采纳为产品的内核。在后续的版本迭代中,下列特性将会逐步支持:1、容器舰队级别的配置分发:通过对舰队内部集群进行标签化管理,完成舰队视角下应用的一键分发和统一管理。2、全面对接华为云 CodeArts Pipeline:提供全流程、更好融合体验的多云 DevOps 流水线。3、在界面中提供对接三方消息系统的应用发布状态感知能力:一方面处理来自外部系统(GitHub、Bitbucket、Harbor、Jenkins)的事件,然后通知 GitOps Toolkit 控制器有关源更改的信息;另一方面处理由 GitOps Toolkit 控制器发出的事件,然后根据事件的严重性和涉及的对象将它们转发至外部系统(Slack、Microsoft Teams、Discord、Rocker)。参考资料在 Kubernetes 环境中自动化证书管理 https://www.nginx.com/blog/automating-certificate-management-in-a-kubernetes-environment 使用 Flux 管理多集群基础设施 cid:link_0Codefresh Continuous Delivery for Kubernetes使用 Kustomize 对 Kubernetes 对象进行声明式管理  https://kubernetes.io/zh-cn/docs/tasks/manage-kubernetes-objects/kustomization/Enterprise CI CD Best PracticesGitOps-2.0 The Future of DevOps Ebook v4