• [经验交流] 致运维:关于 Kubernetes 的架构,看完这篇你就明白了
    打开这篇文章的同学,想必对 docker 都不会陌生。docker 是一种虚拟容器技术,它上手比较简单,只需在宿主机上起一个 docker engine,然后就能愉快的玩耍了,如:拉镜像、起容器、挂载数据、映射端口等等。相对于 Kubernetes(K8S)的上手,可谓简单很多。那么 K8S 是什么,又为什么上手难度大?K8S 是一个基于容器技术的分布式集群管理系统,是谷歌几十年来大规模应用容器技术的经验积累和升华的一个重要成果。所以为了能够支持大规模的集群管理,它承载了很多的组件,而且分布式本身的复杂度就很高。又因为 K8S 是谷歌出品的,依赖了很多谷歌自己的镜像,所以对于国内的同学环境搭建的难度又增加了一层。下面,我们带着问题,一步步来看 K8S 中到底有哪些东西?首先,既然是个分布式系统,那势必有多个 Node 节点(物理主机或虚拟机),它们共同组成一个分布式集群,并且这些节点中会有一个 Master 节点,由它来统一管理 Node 节点。如图所示:问题一:主节点和工作节点是如何通信的呢?首先,Master 节点启动时,会运行一个 kube-apiserver 进程,它提供了集群管理的 API 接口,是集群内各个功能模块之间数据交互和通信的中心枢纽,并且它也提供了完备的集群安全机制(后面还会讲到)。在 Node 节点上,使用 K8S 中的 kubelet 组件,在每个 Node 节点上都会运行一个 kubelet 进程,它负责向 Master 汇报自身节点的运行情况,如 Node 节点的注册、终止、定时上报健康状况等,以及接收 Master 发出的命令,创建相应 Pod。在 K8S 中,Pod 是最基本的操作单元,它与 docker 的容器有略微的不同,因为 Pod 可能包含一个或多个容器(可以是 docker 容器),这些内部的容器是共享网络资源的,即可以通过 localhost 进行相互访问。关于 Pod 内是如何做到网络共享的,每个 Pod 启动,内部都会启动一个 pause 容器(google的一个镜像),它使用默认的网络模式,而其他容器的网络都设置给它,以此来完成网络的共享问题。如图所示:问题二:Master 是如何将 Pod 调度到指定的 Node 上的?该工作由 kube-scheduler 来完成,整个调度过程通过执行一些列复杂的算法最终为每个 Pod 计算出一个最佳的目标 Node,该过程由 kube-scheduler 进程自动完成。常见的有轮询调度(RR)。当然也有可能,我们需要将 Pod 调度到一个指定的 Node 上,我们可以通过节点的标签(Label)和 Pod 的 nodeSelector 属性的相互匹配,来达到指定的效果。如图所示:问题三:各节点、Pod 的信息都是统一维护在哪里的,由谁来维护?从上面的 Pod 调度的角度看,我们得有一个存储中心,用来存储各节点资源使用情况、健康状态、以及各 Pod 的基本信息等,这样 Pod 的调度来能正常进行。在 K8S 中,采用 etcd 组件 作为一个高可用强一致性的存储仓库,该组件可以内置在 K8S 中,也可以外部搭建供 K8S 使用。集群上的所有配置信息都存储在了 etcd,为了考虑各个组件的相对独立,以及整体的维护性,对于这些存储数据的增、删、改、查,统一由 kube-apiserver 来进行调用,apiserver 也提供了 REST 的支持,不仅对各个内部组件提供服务外,还对集群外部用户暴露服务。外部用户可以通过 REST 接口,或者 kubectl 命令行工具进行集群管理,其内在都是与 apiserver 进行通信。如图所示:问题四:外部用户如何访问集群内运行的 Pod ?前面讲了外部用户如何管理 K8S,而我们更关心的是内部运行的 Pod 如何对外访问。使用过 docker 的同学应该知道,如果使用 bridge 模式,在容器创建时,都会分配一个虚拟 IP,该 IP 外部是没法访问到的,我们需要做一层端口映射,将容器内端口与宿主机端口进行映射绑定,这样外部通过访问宿主机的指定端口,就可以访问到内部容器端口了。那么,K8S 的外部访问是否也是这样实现的?答案是否定的,K8S 中情况要复杂一些。因为上面讲的 docker 是单机模式下的,而且一个容器对外就暴露一个服务。在分布式集群下,一个服务往往由多个 Application 提供,用来分担访问压力,而且这些 Application 可能会分布在多个节点上,这样又涉及到了跨主机的通信。这里,K8S 引入了 service 的概念,将多个相同的 Pod 包装成一个完整的 service 对外提供服务,至于获取到这些相同的 Pod,每个 Pod 启动时都会设置 labels 属性,在 service 中我们通过选择器 selector,选择具有相同 name 标签属性的 Pod,作为整体服务,并将服务信息通过 apiserver 存入 etcd 中,该工作由 Service Controller 来完成。同时,每个节点上会启动一个 kube-proxy 进程,由它来负责服务地址到 Pod 地址的代理以及负载均衡等工作。如图所示:问题五:Pod 如何动态扩容和缩放?既然知道了服务是由 Pod 组成的,那么服务的扩容也就意味着 Pod 的扩容。通俗点讲,就是在需要时将 Pod 复制多份,在不需要后,将 Pod 缩减至指定份数。K8S 中通过 Replication Controller 来进行管理,为每个 Pod 设置一个期望的副本数,当实际副本数与期望不符时,就动态的进行数量调整,以达到期望值。期望数值可以由我们手动更新,或自动扩容代理来完成。如图所示:问题六:各个组件之间是如何相互协作的?最后,讲一下 kube-controller-manager 这个进程的作用。我们知道了 ectd 是作为集群数据的存储中心, apiserver 是管理数据中心,作为其他进程与数据中心通信的桥梁。而 Service Controller、Replication Controller 这些统一交由 kube-controller-manager 来管理,kube-controller-manager 作为一个守护进程,每个 Controller 都是一个控制循环,通过 apiserver 监视集群的共享状态,并尝试将实际状态与期望不符的进行改变。关于 Controller,manager 中还包含了 Node 节点控制器(Node Controller)、资源配额管控制器(ResourceQuota Controller)、命名空间控制器(Namespace Controller)等。如图所示:总结本文通过问答的方式,没有涉及任何深入的实现细节,从整体的角度,概念性的介绍了 K8S 中涉及的基本概念,其中使用相关的包括有:NodePodLabelSelectorReplication ControllerService ControllerResourceQuota ControllerNamespace ControllerNode Controller以及运行进程相关的有:kube-apiserverkube-controller-managerkube-schedulerkubeletkube-proxypause来源:https://github.com/jasonGeng88/blog
  • [技术干货] 什么是DevOps?
    提到DevOps这个词,我相信很多人一定不会陌生。作为一个热门的概念,DevOps近年来频频出现在各大技术社区和媒体的文章中,备受行业大咖的追捧,也吸引了很多吃瓜群众的围观。那么,DevOps是什么呢?有人说它是一种方法,也有人说它是一种工具,还有人说它是一种思想。更有甚者,说它是一种哲学。越说越玄乎,感觉都要封神啦!DevOps这玩意真的有那么夸张吗?它到底是干嘛用的?为什么行业里都会对它趋之如骛呢?今天这篇文章,小枣君就和大家好好聊一聊这个DevOps。DevOps的起源这个故事有点长,从头开始讲起吧。上个世纪40年代,世界上第一台计算机诞生。从诞生之日起,它就离不开程序(Program)的驱动。而负责编写程序的人,就被称为“程序员”(Programmer)。程序员是计算机的驾驭者,也是极其稀缺的人才。那个时候,只有高学历、名校出身的人,才有资格成为程序员,操控计算机。随着人类科技的不断发展,PC和Internet陆续问世,我们进入了全民拥抱信息化的时代。越来越多的企业开始将计算机作为办公用的工具,用以提升生产力。而普通个人用户也开始将计算机作为娱乐工具,用以改善生活品质。于是,计算机的程序,开始变成了一门生意。程序,逐步演进为“软件(software)”,变成了最赚钱的产品之一。在软件产业里,程序员有了更专业的称谓,叫做“软件开发工程师(Software Development Engineer)”,也就是我们常说的“码农”。我们知道,一个软件从零开始到最终交付,大概包括以下几个阶段:规划、编码、构建、测试、发布、部署和维护。最初,程序比较简单,工作量不大,程序员一个人可以完成所有阶段的工作。随着软件产业的日益发展壮大,软件的规模也在逐渐变得庞大。软件的复杂度不断攀升。一个人已经hold不住了,就开始出现了精细化分工。码农的队伍扩大,工种增加。除了软件开发工程师之外,又有了软件测试工程师,软件运维工程师。分工之后,传统的软件开发流程是这样的:软件开发人员花费数周和数月编写代码,然后将代码交给QA(质量保障)团队进行测试,然后将最终的发布版交给运维团队去布署。所有的这三个阶段,即开发,测试,布署。早期所采用的软件交付模型,称之为“瀑布(Waterfall)模型”。瀑布模型,简而言之,就是等一个阶段所有工作完成之后,再进入下一个阶段。这种模型适合条件比较理想化(用户需求非常明确、开发时间非常充足)的项目。大家按部就班,轮流执行自己的职责即可。但是,项目不可能是单向运作的。客户也是有需求的。产品也是会有问题的,需要改进的。随着时间推移,用户对系统的需求不断增加,与此同时,用户给的时间周期却越来越少。在这个情况下,大家发现,笨重迟缓的瀑布式开发已经不合时宜了。于是,软件开发团队引入了一个新的概念,那就是大名鼎鼎的——“敏捷开发(Agile Development)”。敏捷开发在2000年左右开始被世人所关注,是一种能应对快速变化需求的软件开发能力。其实简单来说,就是把大项目变成小项目,把大时间点变成小时间点,然后这样:有两个词经常会伴随着DevOps出现,那就是CI和CD。CI是Continuous Integration(持续集成),而CD对应多个英文,Continuous Delivery(持续交付)或Continuous Deployment(持续部署)。美其名曰:“持续(Continuous)”,其实就是“加速——反复——加速——反复……”,这样子。画个图大家可能更明白一点:敏捷开发大幅提高了开发团队的工作效率,让版本的更新速度变得更快。很多人可能会觉得,“更新版本的速度快了,风险不是更大了吗?”其实,事实并非如此。敏捷开发可以帮助更快地发现问题,产品被更快地交付到用户手中,团队可以更快地得到用户的反馈,从而进行更快地响应。而且,DevOps小步快跑的形式带来的版本变化是比较小的,风险会更小(如下图所示)。即使出现问题,修复起来也会相对容易一些。虽然敏捷开发大幅提升了软件开发的效率和版本更新的速度,但是它的效果仅限于开发环节。研发们发现,运维那边,依旧是铁板一块,成为了新的瓶颈。运维工程师,和开发工程师有着完全不同的思维逻辑。运维团队的座右铭,很简单,就是“稳定压倒一切”。运维的核心诉求,就是不出问题。什么情况下最容易出问题?发生改变的时候最容易出问题。所以说,运维非常排斥“改变”。于是乎,矛盾就在两者之间集中爆发了。这个时候,我们的DevOps,隆重登场了。DevOps到底是什么DevOps这个词,其实就是Development和Operations两个词的组合。它的英文发音是 /de'vɒps/,类似于“迪沃普斯”。DevOps的维基百科定义是这样的:DevOps是一组过程、方法与系统的统称,用于促进开发、技术运营和质量保障(QA)部门之间的沟通、协作与整合。这个定位稍微有点抽象,但是并不难理解。反正它不是某一个特定软件、工具或平台的名字。从目标来看,DevOps就是让开发人员和运维人员更好地沟通合作,通过自动化流程来使得软件整体过程更加快捷和可靠。很多人可能觉得,所谓DevOps,不就是Dev+Ops嘛,把两个团队合并,或者将运维划归开发,不就完事了嘛,简单粗暴。注意,这个观点是不对的。这也是DevOps这些年一直难以落地的主要原因。想要将DevOps真正落地,首先第一点,是思维转变,也就是“洗脑”。不仅是运维的要洗,开发的也要洗。员工要洗,领导更要洗。DevOps并不仅仅是组织架构变革,更是企业文化和思想观念的变革。如果不能改变观念,即使将员工放在一起,也不会产生火花。除了洗脑之外,就是根据DevOps思想重新梳理全流程的规范和标准。在DevOps的流程下,运维人员会在项目开发期间就介入到开发过程中,了解开发人员使用的系统架构和技术路线,从而制定适当的运维方案。而开发人员也会在运维的初期参与到系统部署中,并提供系统部署的优化建议。DevOps的实施,促进开发和运维人员的沟通,增进彼此的理(gan)解(qing)。在思维和流程改变的同时,想要充分落地DevOps,当然离不开软件和平台的支持。目前支持DevOps的软件实在是太多了。限于篇幅,就不一一介绍了。话说回来,现在DevOps之所以被吹得天花乱坠,也有这些软件和平台的功劳,可以趁机卖钱啊。DevOps生态圈中令人眼花缭乱的工具上述这些关键要素里面,技术(工具和平台)是最容易实现的,流程次之,思维转变反而最困难。换言之,DevOps考验的不仅是一家企业的技术,更是管理水平和企业文化。对比前面所说的瀑布式开发和敏捷开发,我们可以明显看出,DevOps贯穿了软件全生命周期,而不仅限于开发阶段。下面这张图,更明显地说明了DevOps所处的位置,还有它的价值:DevOps的发展现状DevOps这个词来源于2009年在比利时根特市举办的首届DevOpsDays大会,为了在Twitter上更方便的传播,由DevOpsDays缩写为DevOps。目前,DevOps处于高速增长的阶段。尤其是在大企业中,DevOps受到了广泛的欢迎。根据2018年的调查发现,74%的受访者已经接受了DevOps,而前一年这一比例为66%。越大的企业,越喜欢DevOps。包括Adobe、Amazon、Apple、Airbnb、Ebay、Etsy、Facebook、linkedIn、Netflix、NASA、Starbucks、Walmart、Sony等公司,都在采用DevOps。如今,DevOps几乎已经成为了软件工程的代名词。DevOps迅猛发展,相关专业人才的薪资待遇也跟着水涨船高。根据调研,DevOps工程师在美国的平均年薪为130000美金,在中国平均年薪也在40万-50万区间,能力强者年薪百万也是比比皆是。薪资的猛涨,又带动了IT工程师们学习和认证的热潮。DevOps的认证目前最受欢迎的就是EXIN DevOps Master和EXIN DevOps Professional。这些认证的培训费用不低,但是仍然吸引了很多人踊跃报名。EXIN DevOps认证体系DevOps与虚拟化、容器、微服务这几年云计算技术突飞猛进,大家应该对虚拟化、容器、微服务这些概念并不陌生。当我们提到这些概念的时候,也会偶尔提及DevOps。它们之间有什么联系呢?其实很简单。大家可以设想一下,如果要对一项工作进行精细化分工,我们是对一个大铁疙瘩进行加工方便?还是拆成一块一块进行加工更加方便?显然是拆分之后会更加方便。所谓“微服务”,就是将原来黑盒化的一个整体产品进行拆分(解耦),从一个提供多种服务的整体,拆成各自提供不同服务的多个个体。如下图所示:体式架构(Monolithic)→ 微服务架构(Microservices)微服务架构下,不同的工程师可以对各自负责的模块进行处理,例如开发、测试、部署、迭代。而虚拟化,其实就是一种敏捷的云计算服务。它从硬件上,将一个系统“划分”为多个系统,系统之间相互隔离,为微服务提供便利。容器就更彻底了,不是划分为不同的操作系统,而是在操作系统上划分为不同的“运行环境”(Container),占用资源更少,部署速度更快。明白了吧?虚拟化和容器,其实为DevOps提供了很好的前提条件。开发环境和部署环境都可以更好地隔离了,减小了相互之间的影响。这也是DevOps为什么2009年时不火,现在越来越火的一个主要原因之一。最后的话天下武功,唯快不破。时代发展到现在,客户的需求瞬息万变,市场的风向也难以预测。作为企业,想要生存下去,只有让自己变得更快。作为员工,必须让自己眼光更加长远,内心更加包容。转自公众号 鲜枣课堂出自:知乎,UCloud云计算链接:https://www.zhihu.com/question/58702398
  • [行业资讯] 华为AIOps打造网络运维智能化的最佳实践
    如今,数字经济已成为构筑社会高质量、可持续发展的重要基石,5G新基建的加速落地与AI、云计算等技术在各行各业的融合日益深入,推动智能社会的发展步入快车道。与此同时,无处不在的联接为数据赋能提供了有机的“纽带”,以满足新兴工作负载对业务高并发、大带宽、低时延、高可靠的需求。然而,业务复杂性和网络智能化的演进却让不少企业“头痛不已”,即传统的运维架构难以发挥电信网络创新所带来的商业效能,导致企业纷纷陷入数字化转型的鸿沟。在华为NAIE AI模型与训练服务部部长杨建看来,企业、运营商所面临的业务复杂度、设备复杂度、联接复杂度的不断提升,导致原有的电信网络无法满足客户需求,因此在5G、云、AI推动的智能社会到来之时,需要的是更加智能的运维模式,而AIOps就是加速运维智能化转型的重要趋势。GSMA Intelligence指出,截至2020年底,近60个市场中的140家运营商已经推出5G服务,中国的5G基础设施的规模领跑全球,5G连接占全球5G连接的绝大多数(超过75%),建设了近72万座5G基站。IHS Markit预计,到2035年5G将创造13.1万亿美元的全球经济产出,对5G资本支出和研发投入的预测值同比会增长近10.8%。其中,5G to B可以说是千行百业转型升级的关键抓手,其相较于to C场景除了要实现大带宽和低时延,保障生产过程的安全性、高质量、高效率更为重要。过去一年,ICT厂商在能源、制造、工业、医疗等行业的5G实践加速推进,运营商在5G网络建设时的思路也在随之转变:混合多云的跨平台部署、容器化/云原生的应用、数据多样化的介入、开放多源的API……不断变化的技术趋势需要IT运营变被动为主动,网络运维亦受制于IT系统持续扩张、架构日趋复杂、数据指数级增长等因素,亟需由人工向自动化、智能化转型,以确保业务的稳定性和可持续性。此时,AIOps登上了舞台。AIOps(Artificial Intelligence for IT Operations)智能运维起源于“Algorithmic IT Operations”算法IT运维,是指将AI应用于运维领域,基于已有的运维数据(日志/监控信息/应用信息等),通过机器学习的方式进一步解决自动化运维没办法解决的问题。网络运维亟需智能化驱动作为网络创新的排头兵,电信行业在网络智能化领域的探索从未停止,从SDN、NFV到网络云化,电信运营商和ICT厂商对现代化服务、AI应用、边缘计算等新技术的投入与日俱增,要知道,网络运维是电信领域最大的AI应用场景,占据电信AI应用市场的60%。Tractica预计,到2025年电信行业每年将在人工智能软件、硬件和服务上投资367亿美元,其背后的推动力之一就是对网络运维瓶颈的“切肤之痛”:被动式运维,75%的网络问题由用户发现,故障诊断依赖人工经验;自动化程度低,按领域划分,流程人工参与环节多,导致成本激增;故障解决困难,90%的时间耗费在故障定位。除此之外,尽管AI普惠千行百业的故事被越来越多的人所熟知,但实际上仍有很多企业尚未跟上AI创新的步伐——2019年企业AI实际应用率为19%,较上年增长仅5%,远低于行业23%的预估增长,诱因包括AI应用开发门槛,56%的公司面临的最大挑战是缺乏有AI专业知识的员工;AI应用开发周期长,单一的AI技术无法满足企业诉求,效果难体现,流程编排难度大,运维人员需要人工编码开发不同场景的AI应用,耗时耗力;经验沉淀少,缺乏数据,大部分公司/组织缺乏数据采集的能力,没有大量的干净的数据积累,导致AI的处理能力大打折扣。AIOps的出现,就是希望基于AI与大数据的监测、分析、执行能力,由AI取代人力决策,快速给出故障处理建议(小时级->分钟级),做到事前预防预测、事后迅速定位修复,满足OSS多元运维能力的快速上线和迭代需求,加速电信领域的智能运维升级。根据Gartner的定义,AIOps主要包含两个组件:大数据和机器学习,会通过主动、个性化和动态的洞察力支持IT运营功能。对于ITOM来说,过去的网络运维并未有效利用数据的聚合资源和分析能力,没有形成一套可自适应的架构体系,而AIOps平台支持同时使用多个数据源,具备数据收集方法、分析技术(实时和深度)和表示技术。Gartner预计,到2022年,40%的大型企业会部署AIOps平台。无论是IT与OT的融合还是技术与业务的融合,都在推动AIOps平台的增长,ITOM需要适应现代化IT架构带来的改变,打破IT、开发、运营之间的岗位隔阂,实现在云边端的任意环境中对数据规模、性能监控快速增长管控自如,保证最终用户的使用体验。AIOps使能新基建的四大利器基于沉淀30余年的专业积累和通信经验,华为AIOps可以覆盖运维全流程,包括预测、检测、诊断、识别等环节,采用零编码定制场景组合应用,降低开发门槛,借助数据对接和治理能力提升数据开发效率。作为自动驾驶网络AI引擎NAIE的核心能力,华为AIOps服务在电信领域提供了一系列AIOps原子能力和组合编排能力,包括使能网络管控分析单元、智能运维解决方案等运维系统,帮助运营商打破原有的烟囱式建设方式,将各专业运维系统的应用与AI能力解耦,采用分层的服务化架构对接共享数据中心,集中提供AIOps能力,适配运维场景多维的应用需求。据了解,华为AIOps服务的核心竞争力主要体现在四个方面:一是丰富的电信领域AIOps原子能力,将专业知识与AI算法融合,优化和自研AI算法,内置电信领域业务模型参数,支持设计态的泛化、运行态的调优,可有效解决通用算法模型落地行业时效果差的问题。这些原子能力可串接使用,具备数据输入、参数配置、结果输出、数据传送方式等AIOps原子能力模型统一标准。该原子能力可服务于故障预测类、异常检测类、根因定位类、诊断修复类等场景,提供流量预测、KPI异常检测、CHR异常检测、异常关联分析、日志异常检测、事件聚合等20余项功能。二是组合编排与DevOps能力,提供可根据业务定制的AIOps服务,支持零编码构建并组合应用,可对流程进行串接,配置业务泛化参数,支持事件通知方式、可视化Dashboard编排等功能,快速定制运维应用。同时,其AI平台还支持算法模型创新与开发,可自行扩展AIOps 原子能力,为NAIE生态提供专业人员培训赋能。三是对通信领域主流数据的自动化治理,支持电信领域通用数据源,例如KPI、告警、日志、xDR等主流运维数据,还包括SFTP、FTPS、Kafka、数据库、文件系统、Restful等超过100种电信运维系统数据对接方式,支持30多类网元,利用这些通用的数据源对接和标准化数据治理组件,快速建立与运维系统的数据源连接,可节省90%数据准备时间,将标注效率提升10倍,标注成本降低80%,采用数据治理SDK方式,将异构数据(时序数据、非结构化数据、文本数据等)治理成AIOps原子能力标准输入数据,用于模型训练和推理。四是ADN解决方案预集成,围绕运维全流程提供预制典型场景组合应用,快速接入运维流程,体现在多种组合调用形式,例如与iMaster AUTIN、iMaster NCE、iMaster MAE的业务协同,使能FBB/MBB网络运维智能化,这些能力均可以在云端被提供。值得一提的是,华为还提供了10余个开箱即用的APP,以降低在行业AI应用开发时遇到的专门和算法门槛,沉淀运营商网络、园区网络、DC网络、IT应用等AIOps典型场景,支持公有云、HCS、OP等部署形式,帮助伙伴快速上手,轻松部署运行AI应用。华为AIOps服务AIOps打造企业转型最佳实践目前,华为AIOps服务已支持4个业务领域、超过110个现网局点、4.1亿次API调用/月、7.1万KPI、25万告警/天、187亿条日志,支持全域网络场景,为通信网络提供运维保障。某运营商在2019年发生核心网交换机软失效,导致15万用户VoLTE业务中断10+小时,这表明核心网故障对网络质量、用户体验影响巨大,而其自身又存在重复故障少、定位难、故障分析耗时长等难题,传统静态阀值检测无法适配业务动态变化,经常出现漏报、误报。华为AIOps核心网KPI异常检测APP,可以帮助运营商提前5小时发现问题,推送告警短信,实现预测性运维。具体而言,当日凌晨,运营商运维团队收到MAE-CN KPI异常检测告警短信,发现2G/3G/4G用户连接建立成功率异常,对网元范围造成影响。之后,利用云核MAE-CN异常关联分析功能定位失败原因,结合网络拓扑事件汇聚定位故障网元。当日夜间,现网实施DNS APN指向变更操作,发现由于DNS配置APN指向的Zone长度错误导致DNS解析失败,运维团队修改Zone参数配置后,问题于次日7点前成功解决,避免了早高峰的用户体验影响。某客户数据中心的硬盘检测多以人工进行,发生故障后进行高难度数据修复,需要投入大量人力物力恢复数据,并且无法提前规避硬盘硬件故障对业务造成的不良影响,硬盘运维依赖人工被动响应。接入华为AIOps之后,合作伙伴可通过Restful接口上传硬盘SMART数据,服务了全球企业超过200个数据中心硬盘运维,累计预测硬盘18万+块、累计识别故障盘4000+块/年、全年可避免业务中断4000+次、可识别数据备份场景1000+个,该客户则变被动运维为主动智能运维,提高了运维人员的工作效率,提前14天识别硬盘故障或风险,查全率达80%,误报率低于0.1%。杨建谈到,华为多年前就开始筹划将AI应用到网络运维流程中,从最初的故障监控、KPI预测、日志检测等点式创新,华为逐渐将这些不同的创新点串联成了一条线性创新,即AIOps,未来,华为将继续发挥这样的创新独特性,打造一张自动驾驶的网络,这一过程中,华为还将构建网络AI生态,在ADN的平台之上与更多的伙伴合作,拓展丰富的场景应用,共同迎接智能世界的到来。结束语可以说,华为AIOps为电信网络运维注入了智慧因子,通过将专业经验与AI技术融合使能千行百业,为智能化运维提供了便捷、高效的数字平台。与此同时,华为还携手合作伙伴构建了开放共赢的生态,降低AI开发门槛,帮助伙伴将丰富的AI应用实例落地到相应的行业场景中,加速了5G新基建在智能时代的百花齐放。文章来源:腾讯原文链接:https://new.qq.com/rain/a/20210425A0DS0L00
  • [行业资讯] AIOps迎来新一轮爆发:或再获资本青睐
          进入六月份以来,智能运维行业融资动作十分频繁,多家厂商获得融资,推动自身在智能运维行业赛道的战略扩张。值得一提的是,投资方中不乏国内外知名VC、产业基金的身影。  此外,从融资金额与轮次来看,不少主打AIOps的企业已经进入了加速冲刺的状态,数千万美元的C、D轮融资让智能运维市场进入白热化竞争期。与此同时,不同规模的AIOps企业在融资优势方面分化趋势进一步加剧,位于市场头部的企业已经开始了D轮、E轮融资,并着手IPO计划;而新兴公司由于业务成熟度不高、市场占有率较低等原因,融资成本相对较高,融资之路刚刚开始。  当前社会正加速进入以信息产业为主导的经济发展时期,信息技术从未像今天这样深刻影响社会经济的发展。以5G、物联网、大数据、人工智能、工业互联网为代表的一系列现代信息技术正在快速更迭,数字化浪潮席卷而来。  不难发现,近年来,数字化热潮持续升温,产业数字化转型不断提速加快。其中,很多企业为了获得数字经济时代生存的入场券,纷纷开始数字化转型之路。随着企业对新一代信息技术的应用需求的不断上升,过去劳动密集型的传统运维服务低效率、高成本的弊端更加凸显,过分依赖运维人员的个人能力和经验不再可行,运维过程中的误操作大大降低了企业数字化转型的效率。  基于此,专业的IT服务商在企业数字化转型落地过程中开始扮演关键角色,AIOps成为企业数字化转型不可或缺的关键因素,IT服务基础层的IT运维管理市场由此迎来新的变革。同时,在科技巨头纷纷发力、政策强力支持、市场需求逐步爆发的情况下,资本追逐智能运维的热情还将持续下去,并有望对社会经济产生颠覆式影响。  在每一个行业都不可避免地发生这样的现象:强者越强,弱者越弱,这也是大家所常说的“马太效应”。在智能运维行业赛道中,这样的效应也同样存在。通俗来说,公司的成长背景、产品成熟度以及市场占有率足够强大的话,就会成为赛道领跑者进而呈现“一超多强”局面。文章来源:百度百家号原文链接:https://baijiahao.baidu.com/s?id=1705785250398709147&wfr=spider&for=pc
  • [解决方案] 设施云HiCampus Core 21.1.T4版本升级公告及资料下载
    设施云HiCampus Core 21.1.T4此版本升级详情如下: 特性增强: 设施管理应用: 设备管理>空间平面设备展示,添加照明回路开启/关闭状态切换闪烁效果; 设备详情>设备控制记录,添加记录用户手动释放时间表操作,更新控制类型枚举值; 时间表>时间表删除,更新时间表删除业务规则; 时间表>时间表启停,更新时间表停止业务规则; AHU分组管理: AHU设备分组能效统计>分组、控制策略、策略中包含的点位分别定义,POC发布; AHU设备分组调优:根据动态分组进行控制POC发布; 能效AI服务推理模型自定义>基于物模型的AI服务提供目标列与特征列获取训练和推理需要的数据; 工具及运维平台: 设备运维应用>场景设计,ModBus tcp点位参数配置优化; 终端设备管理>设备详情,增强网关固件/证书/容器版本查看、升级功能; 组态界面构建>界面组件编辑功能优化,POC 组件置顶/置底,组件大小自适应等; 组态界面构建>组件配置客户化,POC 暖通空调类组件客户化配置; 组态界面构建>组件库增强,POC 增加了管线自由绘制; 设备运维>固件管理,固件文件线上同步。 新增特性: 时间表>释放控制指令,手动释放设备的控制状态; 支持对子设备的物模型属性值查询:支持对系统子设备(虚拟设备)的物模型属性值查询; HLinkD SDK支持华大HC32F4A0芯片,提供基于RT-thread适配的SDK。  本次菜单调整:一级菜单二级菜单T4版本较上个版本状态工作台控制器新增设备设施时间表管理>时间表列表新增“释放控制指令”功能楼宇自控照明回路控新增智慧能效项目总览新增设备运维固件版本管理更新为“软件包版本管理”业务运营配置工单配置新增
  • [网络安全] 网络安全运维工程师做什么
    安全运维工程师:一个单位买了那么多安全产品,肯定要有人做运维的,分析一下日志,升级一下策略。定期检查一下业务系统的安全性,查看一下内网当中有没有威胁,这都是安全运维工程师要做的内容。
  • [经验交流] GDE中英文菜单基线,找不到菜单责任人时,过来查一下归属(1)
    目  录1 FusionStage 8.0菜单2 ADC运行态菜单3 ADC开发态菜单3.1 开发态-通用菜单3.2 开发态-工作流菜单3.3 开发态-网络自动化菜单3.4 开发态-接口集成菜单3.5 开发态-SDD菜单4 统一Portal菜单5 RPA运行态菜单1 FusionStage 8.0菜单中文英文“应用上线 > TOSCA堆栈部署”Application Publishing > TOSCA Stack Deploy“应用上线 > K8S应用部署”Application Publishing > K8S Application Deploy“项目中心 > 项目列表”Project Center > Project List“项目中心 > 配额审批”Project Center > Quota Approval“资源管理 > 节点管理”Resource > Node Management“资源管理 > 容器存储”Resource > Container Storage“资源管理 > 容器存储 > PVC管理”Resource > Container Storage > PVC Management“资源管理 > 容器存储 > PV管理”Resource > Container Storage > PV Management“资源管理 > 容器存储 > Volume管理”Resource > Container Storage > Volume Management“资源管理 > 容器存储 > StorageClass管理”Resource Management > Container Storage > StorageClass Management“应用开发 > Helm应用模板”Application Developing > Helm Application Template“应用开发 > TOSCA堆栈模板”Application Developing > TOSCA Stack Template“应用开发 > 微服务”Application Developing > Microservice“应用上线 > Helm应用部署”Application Publishing > Helm Application Deploy“应用上线 > 配置中心”Application Publishing > Configuration Center“应用上线 > 配置中心 > 配置项”Application Publishing > Configuration Center > ConfigMap“应用上线 > 配置中心 > 密钥”Application Publishing > Configuration Center > Secret“应用上线 > 配置中心 > Secret”Application Publishing > Configuration Center > Secret“应用运维 > 总览 > 运维概览”Application Operations > Overview > O&M“应用运维 > 运维巡检”Application Operations > O&M Inspection“应用运维 > 运维视图管理”Application Operations > O&M View Management“应用运维 > 运维视图管理 > 仪表盘”Application Operations > O&M View Management > Dashboard“应用运维 > 运维视图管理 > 指标监控”Application Operations > O&M View Management > Metric Monitoring“应用运维 > 监控”Application Operations > Monitoring“应用运维 > 监控 > 应用组监控”Application Operations > Monitoring > Application Group Monitoring“应用运维 > 监控 > 应用监控”Application Operations > Monitoring > Application Monitoring“应用运维 > 监控 > 节点监控”Application Operations > Monitoring > Node Monitoring“应用运维 > 监控 > 服务监控”Application Operations > Monitoring > Service Monitoring“应用运维 > 监控 > 数据库监控”Application Operations > Monitoring > Database Monitoring“应用运维 > 告警”Application Operations > Alarm“应用运维 > 告警 > 告警中心”Application Operations > Alarm > Alarm Center“应用运维 > 告警 > 维护经验”Application Operations > Alarm > Handling Experience“应用运维 > 告警 > 阈值规则”Application Operations > Alarm > Threshold Rules“应用运维 > 告警 > 告警屏蔽规则”Application Operations > Alarm > Alarm Masking Rules“应用运维 > 告警 > 远程通知规则”Application Operations > Alarm > Remote Notification Rules“应用运维 > 告警 > 通知内容模板”Application Operations > Alarm > Notification Content Template“应用运维 > 日志管理”Application Operations > Log Management“应用运维 > 日志管理 > 日志查看”Application Operations > Log Management > Log Viewing“应用运维 > 日志管理 > 日志搜索”Application Operations > Log Management > Log Search“应用运维 > 日志管理 > 日志收集”Application Operations > Log Management > Log Collection“应用运维 > 日志管理 > 日志下载”Application Operations > Log Management > Log Download“应用运维 > 日志管理 > 日志转储”Application Operations > Log Management > Log Dumping“应用运维 > 故障分析”Application Operations > Fault Analysis“应用运维 > 运维配置”Application Operations > Operation Configuration“应用运维 > 运维配置 > 采集配置”Application Operations > Operation Configuration > Collection Configuration“应用运维 > 运维配置 > 转发配置”Application Operations > Operation Configuration > Forwarding Configurations“应用运维 > 运维配置 > 远程通知”Application Operations > Operation Configuration > Remote Notification“应用运维 > 采集管理”Application Operations > Agent Management“应用运维 > 运维数据采集”Application Operations > O&M Datacollect“应用运维 > IBMS信息收集”Application Operations > IBMSCollect“云市场 > 软件中心”Marketplace > Software Center“云市场 > 软件中心 > 镜像仓库”Marketplace > Software Center > Image Repository“云市场 > 软件中心 > 软件仓库”Marketplace > Software Center > Software Repository“云市场 > 软件中心 > 仓库空间管理”Marketplace > Software Center > Repository Space Management“云市场 > 镜像构建”Marketplace > Image Building“云市场 > 镜像构建 > 构建任务”Marketplace > Image Building > Task Building“云市场 > 镜像构建 > 源码托管”Marketplace > Image Building > Source Code Hosting“云市场 > 云服务”Marketplace > Cloud Service“备份恢复 > 配置 > 配置备份参数”Backup & Restore > Configure > Configure Backup Parameters“备份恢复 > 配置 > 配置定时备份任务”Backup & Restore > Configure > Configure Scheduled Backup Tasks“备份恢复 > 数据备份 > 备份产品数据”Backup & Restore > Data Backup > Backup Product Data“备份恢复 > 数据备份 > 备份产品应用程序”Backup & Restore > Data Backup > Backup Product Applications“备份恢复 > 数据恢复 > 恢复产品数据”Backup & Restore > Data Restoration > Restore Product Data“备份恢复 > 数据恢复 > 恢复产品应用程序”Backup & Restore > Data Restoration > Restore Product Application“备份恢复 > 任务列表”Backup & Restore > Task List2 ADC运行态菜单中文英文归属模块“ADC系统管理 > 系统概览”ADC System Management > System Overview基础服务“ADC系统管理 > 配置管理 > Redis配置”ADC System Management > Configuration Management > Redis Configuration基础服务“ADC系统管理 > 配置管理 > Kafka配置”ADC System Management > Configuration Management > Kafka Configuration基础服务“ADC系统管理 > 配置管理 > ES配置”ADC System Management > Configuration Management > ES Configuration基础服务“ADC系统管理 >  > 配置管理 > DB配置”ADC System Management > Configuration Management > DB Configuration基础服务“ADC系统管理 > 配置管理 > File配置”ADC System Management > Configuration Management > File Configuration基础服务“ADC系统管理 > 配置管理 > MQ配置”ADC System Management > Configuration Management > MQ Configuration基础服务“ADC系统管理 > 配置管理 > 系统参数配置”ADC System Management > Configuration Management > System Parameter Configuration基础服务“ADC系统管理 > 配置管理 > 日志配置”ADC System Management > Configuration Management > Log Configuration基础服务“ADC系统管理 > 租户初始化管理”ADC System Management > Tenant Initialization Management基础服务“ADC系统管理 > 初始化资源管理”ADC System Management > Initialization Resource Management基础服务“ADC系统管理 > 任务管理”ADC System Management > Task Management基础服务“ADC系统管理 > 日志管理”ADC System Management > Log Management基础服务“ADC系统管理 > 租户额外数据源配置”ADC System Management > Tenant Extra Data Sources Configuration基础服务“开发态Studio”Development State Studio资产服务“工单管理 >  工单创建”Ticket Management > Ticket CreateBPM“工单管理 >  工单查询”Ticket Management > Ticket QueryBPM“工单管理 >  工单代理人配置”Ticket Management > Ticket Consigner ConfigurationBPM“网络操作 >  资源类型管理 >  网管类型”Network Operation > Resource Type Management > EMS TypeMCP“网络操作 >  资源类型管理 >  网络类型”Network Operation > Resource Type Management > Network TypeMCP“网络操作 >  资源类型管理 >  设备厂商”Network Operation > Resource Type Management > VendorMCP“网络操作 >  资源类型管理 >  设备类型”Network Operation > Resource Type Management > Device TypeMCP“网络操作 >  资源类型管理 >  网元类型”Network Operation > Resource Type Management > Ne TypeMCP“网络操作 >  资源管理 >  设备”Network Operation > Resource Management > DeviceMCP“网络操作 >  资源管理 >  网管”Network Operation > Resource Management > EMSMCP“网络操作 >  通用配置 >  接口管理”Network Operation > General Config > Interface ManagementMCP“网络操作 >  通用配置 >  通用协议配置”Network Operation > General Config > General Protocol ConfigMCP“网络操作 >  通用配置 >  敏感字段配置”Network Operation > General Config > Sensitive Field ConfigMCP“网络操作 >  通用配置 >  指令白名单配置”Network Operation > General Config > Command White ListMCP“网络操作 >  通用配置 >  设备登录配置”Network Operation > General Config > Device Login ConfigMCP“网络操作 >  通用配置 >  探针服务配置”Network Operation > General Config > Probe Service ConfigMCP“网络操作 >  路由管理 >  MCP路由配置”Network Operation > Route Management > MCP Route ConfigMCP“网络操作 >  路由管理 >  MCP通用路由配置”Network Operation > Route Management > MCP General Route ConfigMCP“网络操作 >  指令管理”Network Operation > Command ManagementMCP“网络操作 >  脚本管理”Network Operation > Script ManagementMCP“网络操作 >  执行日志”Network Operation > Execution LogsMCP“业务开通 > 定单管理”Service Provisioning > Order ManagementNSO“业务开通 > 业务管理”Service Provisioning > Service ManagementNSO“业务开通 > 客户管理”Service Provisioning > Customer ManagementNSO“系统管理 >  应用管理”System Management > App Management资产服务“系统管理 >  Stack Online配置”System Management > Stack Online Config资产服务“集成服务 > 入站认证策略管理”Web Service > Inbound Authentication Policy Management编排引擎“集成服务 > 出站认证策略管理”Web Service > Outbound Authentication Policy Management编排引擎“集成服务 > WSSE签名管理”Web Service > WSSE Signature Management编排引擎“集成服务 > 证书管理”Web Service > Certificate Management编排引擎“集成服务 > FTP管理”Web Service > FTP Management编排引擎“系统管理 >  GDE Store配置”System Management > GDE Store Config资产服务“系统管理 > 系统配置”System Management > System Config基础服务“系统管理 > 异步任务”System Management > Asynctask基础服务“系统管理 > 定时任务”System Management > Timertask基础服务“系统管理 > 模型归档”System Management > ModelArchive编排引擎“系统管理 >  模型管理 >  缓存配置”System Management > ModelManage > CacheConfig编排引擎“系统管理 >  模型管理 >  分片策略”System Management > ModelManage > ShardPolicy编排引擎“系统管理 >  模型管理 >  模型订阅”System Management > ModelManage > Subscriber编排引擎“系统管理 > 归档配置”System Management > Archive Config基础服务“系统管理 >  流程管理 >  流程配置”System Management > Process Management > Process ConfigurationBPM“系统管理 >  流程管理 >  流程参数配置”System Management > Process Management > Process Parameter ConfigurationBPM“系统管理 >  流程管理 >  SLA管理 >  SLA配置”System Management > Process Management > SLA Management > SLA ConfigurationBPM“系统管理 >  流程管理 >  SLA管理 >  日历配置”System Management > Process Management > SLA Management > Calendar ConfigurationBPM“系统管理 >  流程管理 >  数据字典”System Management > Process Management > Data DictionaryBPM“日志管理 > 集成日志 > SOAP接收日志”Log Management > Integration Log > Soap Receive Log编排引擎“日志管理 > 集成日志 > REST接收日志”Log Management > Integration Log > Rest Receive Log编排引擎“日志管理 > 集成日志 > SOAP发送日志”Log Management > Integration Log > Soap Send Log编排引擎“日志管理 > 集成日志 > REST发送日志”Log Management > Integration Log > Rest Send Log编排引擎“日志管理 > Excel导入日志”Log Management > Excel Import Records资产服务“日志管理 > Excel导出日志”Log Management > Excel Export Records资产服务“日志管理 > 操作日志”Log Management > Operation Log基础服务“日志管理 > 业务日志 > 工单操作日志”Log Management > Business Log > Ticket Operation LogBPM“日志管理 > 设计态资产初始化日志”Log Management > Studio Asset Auto Init Log资产服务“日志管理 > 运行态资产初始化日志”Log Management > Runtime Asset Auto Init Log资产服务“终端服务管理 > 推送”Mobile Service Management > Push终端“终端服务管理 > APP日志”Mobile Service Management > APP Log终端“终端服务管理 > App管理”Mobile Service Management > App Management终端“终端服务管理 > JSLib管理”Mobile Service Management > JSLib Management终端“终端服务管理 > 多语言包管理”Mobile Service Management > Language Management终端“终端服务管理 > Tab菜单管理”Mobile Service Management > Tab Menu Management终端“终端服务管理 > 终端设备管理”TMobile Service Management > Mobile Device Management终端“终端服务管理 > 轻应用管理”Mobile Service Management > Light App Management终端“终端服务管理 > 插件管理”Mobile Service Management > Plugin Management终端“终端服务管理 > 公告管理”Mobile Service Management > Notice Management终端“终端服务管理 > SDK版本管理”Mobile Service Management > Sdk Version Management终端“终端服务管理 > 自定义APP插件版本管理”Mobile Service Management > Custom App Plugin Version Management终端“终端服务管理 > 自定义打包管理”Mobile Service Management > Custom Packaging Management终端“API目录”API Catalog资产服务3 ADC开发态菜单3.1 开发态-通用菜单中文英文Owner“工程管理”Project Management资产服务“资产管理”Asset ManagementDSC“资产管理 > 业务分类”Asset Management > Business TypeDSC“API目录”API Catalog资产服务“通用”Common公共“模型”Model编排引擎“服务”Service编排引擎“事件”Event编排引擎“事件监听”Event Listener编排引擎“数据导出”Data Export资产服务“数据导入”Data Import资产服务“页面”Page用户体验“页面 > 编排资源 > 页面模板管理”Page > Orchestrating Resources > Page Template Management用户体验“页面 > 编排资源 > 图片管理”Page > Orchestrating Resources > Picture Management用户体验“页面 > 编排资源 > 脚本管理”Page > Orchestrating Resources > Script Management用户体验“页面 > 编排资源 > 自定义页面管理”Page > Orchestrating Resources > Customized Page Management用户体验“页面 > 编排资源 > 第三方JS类库”Page > Orchestrating Resources > Third-party JS Class Library用户体验“页面 > 编排资源 > 自定义页面组件”Page > Orchestrating Resources > Customized Page Components用户体验“定时器”Job基础服务“菜单”Menu用户体验“权限”Permission基础服务“卡片”Card用户体验“错误码”Error Code基础服务“国际化”I18n用户体验“函数服务”Function ServiceProcode“终端页面”Mobile Page终端“触发器”Trigger编排引擎“向数据处理转储”Model Dump编排引擎“从数据处理加载”Model Load编排引擎“外部接入 > 自定义资产”Data Package > Customized Asset终端3.2 开发态-工作流菜单中文英文Owner修改记录“流程”Business ProcessBPM2020.5.193.3 开发态-网络自动化菜单中文英文Owner“网络自动化”MCPMCP“通用配置 >  资源管理”General Settings > Resource ManagementMCP“通用配置 >  资源管理 > 设备”General Settings > Resource Management > DeviceMCP“通用配置 >  资源管理 >  网管”General Settings > Resource Management > EMSMCP“通用配置 >  执行日志”General Settings > Execution LogsMCP“网络自动化 >  脚本管理”MCP > ScriptMCP“网络自动化 >  指令管理”MCP > CommandMCP“通用配置 >  元数据管理 >  网管类型”Type Management > EMS TypeMCP“通用配置 >  元数据管理 >  网络类型”General Settings > Resource Type Management > Network TypeMCP“通用配置 >  元数据管理 >  设备厂商”General Settings > Resource Type Management > Device VendorMCP“通用配置 >  元数据管理 >  设备类型”General Settings > Resource Type Management > Device TypeMCP“通用配置 >  元数据管理 >  网元类型”General Settings > Resource Type Management > NE TypeMCP“通用配置 >  MCP配置 >  接口管理”General Settings > MCP Settings > Interface ManagementMCP“通用配置 >  MCP配置 >  通用协议配置”General Settings > MCP Settings > Common Protocol ConfigurationMCP“通用配置 >  MCP配置 >  敏感字段配置”General Settings > MCP Settings > Sensitive FieldMCP“通用配置 >  MCP配置 >  指令白名单”General Settings > MCP Settings > Command White ListMCP“通用配置 >  MCP配置 >  设备登录配置”General Settings > MCP Settings > Device Login ConfigurationMCP“通用配置 >  MCP配置 >  探针服务配置”General Settings > MCP Settings > Probe Service ConfigurationMCP3.4 开发态-接口集成菜单中文英文Owner“接口集成”Interface Package编排引擎“入站REST”Inbound Rest编排引擎“接口集成 >  入站REST”Interface Package > Inbound Rest编排引擎“出站REST”Outbound Rest编排引擎“接口集成 >  出站REST”Interface Package > Outbound Rest编排引擎“入站SOAP”Inbound Soap编排引擎“接口集成 >  入站SOAP”Interface Package > Inbound Soap编排引擎“出站SOAP”Outbound Soap编排引擎“接口集成 >  出站SOAP”Interface Package > Outbound Soap编排引擎4 统一Portal菜单中文英文归属模块“管理员配置 >  Portal配置 >  自定义菜单管理”Administration > Portal > Menu Customization统一Portal“管理员配置 >  Portal配置 >  应用快捷方式”Administration > Portal > App Shortcut Configuration统一Portal“管理员配置 >  Portal配置 >  联机帮助管理”Administration > Portal > Online Help Management统一Portal“管理员配置 >  Portal配置 >  国际化管理”Administration > Portal > Internationalization Management统一Portal“管理员配置 >  Portal配置 >  公告管理”Administration > Portal > Announcement Management统一Portal“管理员配置 >  Portal配置 >  Portal首页配置”Administration > Portal > Portal Homepage Management统一Portal“管理员配置 >  Portal配置 >  Portal公共配置 >  公共参数配置”Administration > Portal > Common Portal Configuration > Common Parameter Config统一Portal“管理员配置 > Portal配置 > Portal公共配置 > 主题外观”Administration > Portal > Common Portal Configuration > Theme Appearance统一Portal“管理员配置 >  Portal配置 > Portal公共配置 > 工具栏设置”Administration > Portal > Common Portal Configuration > Banner Toolbar Setting统一Portal“管理员配置 >  Portal配置 >  菜单简写配置”Administration > Portal > Menu Abbreviation Configuration统一Portal“管理员配置 >  Portal配置 >  系统菜单管理”Administration > Portal > System Menu Management统一Portal“管理员配置 >  Portal配置 >  Portal系统管理 >  系统配置”Administration > Portal > Portal System Management > System Configuration统一Portal“管理员配置 >  Portal配置 >   Portal系统管理 >   Portal租户初始化管理”Administration > Portal > Portal System Management > Portal Tenant Init Manage统一Portal“管理员配置 >  Portal配置 >  Portal系统管理 >   License同步信息配置”Administration > Portal > Portal System Management > License Sync Manage统一Portal“管理员配置 >  安全配置 >  跳转外网白名单配置”Administration > Security Center > External URL Whitelist Configuration统一Portal5 RPA运行态菜单中文英文归属模块“机器人管理中心 > 任务 > 任务管理”RPA Orchestrator > Jobs > Job ManagementRPA“机器人管理中心 > 任务 > 队列管理”RPA Orchestrator > Jobs > Queue ManagementRPA“机器人管理中心 > 任务 > 共享文件”RPA Orchestrator > Jobs > Shared FileRPA“机器人管理中心 > 任务 > 人机协同任务”RPA Orchestrator > Jobs > Interaction TaskRPA“机器人管理中心 > 机器人 > 扩展管理”RPA Orchestrator > Robots > PluginRPA“机器人管理中心 > 机器人 > 脚本管理”RPA Orchestrator > Robots > ScriptRPA“机器人管理中心 > 机器人 > 参数配置”“安全配置”RPA Orchestrator > Robots > Parameter SettingRPA“机器人管理中心 > 机器人 > 白名单配置”RPA Orchestrator > Robots > Allow List SettingRPA“机器人管理中心 > 工具 > 客户端软件”RPA Orchestrator > Tools > Agent PackageRPA“机器人管理中心 > 工具 > 执行机软件”RPA Orchestrator > Tools > Robot PackageRPA“机器人管理中心 > 作业机 > 执行器”RPA Orchestrator > Workstations > ExecutorRPA“机器人管理中心 > 作业机 > 连接器”RPA Orchestrator > Workstations > ConnectorRPA“机器人管理中心 > 作业机 > 凭证”RPA Orchestrator > Workstations > CredentialRPA“机器人管理中心 > 作业机 > 许可证”RPA Orchestrator > Workstations > LicenseRPA“机器人管理中心 > 作业机 > 服务证书库”RPA Orchestrator > Workstations > Service CertificateRPA“机器人管理中心 > 作业机 > 集群”RPA Orchestrator > Workstations > ClusterRPA“机器人管理中心 > 作业机 > 设计器”RPA Orchestrator > Workstations > StudioRPA“机器人管理中心 > 设置 > 安全配置”RPA Orchestrator > Settings > Secure SettingRPA“机器人管理中心 > 设置 > 资产证书库”RPA Orchestrator > Settings > Asset CertificateRPA“机器人管理中心 > 设置 > 系统配置”RPA Orchestrator > Settings > System SettingRPA
  • [运维技巧] 【总结】GaussDB(DWS) 现网运维常用命令,掌握这些就够了
    --杀掉会话:select pg_terminate_backend(procpid);--取消正在执行的语句:select pg_cancel_backend(procpid);--查看分布列SELECT getdistributekey('item');--查看表大小select pg_size_pretty(pg_table_size('public.item'));--查看表倾斜select table_skewness('inventory');--审计日志:select * from pgxc_query_audit('2020-07-16 10:36:05','2020-07-16 12:36:05') where username!='omm';--查看一个表有没有做过统计信息收集。postgres=# select * from pg_stat_get_last_analyze_time('test3'::regclass); pg_stat_get_last_analyze_time ------------------------------- (1 row)postgres=# analyze test11;ANALYZEpostgres=# select * from pg_stat_get_last_analyze_time('test11'::regclass); pg_stat_get_last_analyze_time ------------------------------- 2020-07-23 19:07:06.698894+08(1 row)execute direct on (datanode1) 'select * from pg_stat_activity where usename == ''omm''';pg_stat_get_tuples_changedCN上执行下面两个函数:select table_distribution('xrapuser', 'aj_qtzjtxsm');select table_distribution('xrapuser', 'dz_fwtxxx');select pg_size_pretty(pg_total_relation_size('xrapuser.dz_fwtxxx'));select pg_size_pretty(pg_total_relation_size('xrapuser.aj_qtzjtxsm'));select pg_size_pretty(pg_relation_size('xrapuser.dz_fwtxxx'));select pg_size_pretty(pg_relation_size('xrapuser.aj_qtzjtxsm'));--根据relfilenode 查找物理表:select oid, * from pg_class where reltoastrelid = (select oid from pg_class where relfilenode =  103892072);--查询表以及分布列信息SELECT n.nspname    ,c.relname    ,getdistributekey(c.oid)FROM pg_catalog.pg_class cLEFT JOIN pg_catalog.pg_namespace n ON n.oid = c.relnamespaceWHERE n.nspname <> 'pg_catalog'    AND n.nspname <> 'information_schema'    AND n.nspname <> 'cstore'    AND c.relkind = 'r'ORDER BY 1,2;--查看活跃的连接select * from pgxc_stat_activity where usename <> 'omm' and state = 'active';select coorname,  usename, datname, enqueue , count(*) from pgxc_stat_activity  where  usename <> 'omm' and state = 'active' group by coorname, usename, datname, enqueue ;select coorname, usename, client_addr, sysdate - query_start as dur, enqueue, query_id,  replace(query, chr(10), ' ') from pgxc_stat_activity where usename!= 'omm' and state = 'active' order by coorname, dur desc;SELECT coorname, usename     ,client_addr     ,sysdate - query_start AS dur     ,query_id     ,substr(replace(query, chr(10), ' '), 0, 100) FROM pgxc_stat_activity WHERE usename != 'omm' AND STATE = 'active' ORDER BY dur DESC;SELECT usename     ,client_addr     ,sysdate - query_start AS dur     ,query_id     ,substr(replace(query, chr(10), ' '), 0, 100) FROM pgxc_stat_activity WHERE usename != 'omm' AND STATE = 'active' ORDER BY dur DESC;SELECT usename     ,client_addr     ,sysdate - query_start AS dur     ,query_id     ,replace(query, chr(10), ' ') FROM pgxc_stat_activity WHERE usename != 'omm' AND STATE = 'active' ORDER BY dur DESC;select coorname,  usename, datname, enqueue , count(*) from pgxc_stat_activity  where  usename <> 'omm' and state = 'active' group by coorname, usename, datname, enqueue ;select coorname,  usename, datname, enqueue , count(*) from pgxc_stat_activity  where  usename <> 'omm' and state = 'active' group by coorname, usename, datname, enqueue ;select substr(query, 1, 100) as sql, count(*) from pgxc_stat_activity where usename <>'omm' and state = 'active' group by sql;SELECT coorname,usename,client_addr,client_hostname,application_name,state_change,connection_info FROM pgxc_stat_activity WHERE client_addr is not null AND application_name NOT SIMILAR TO ('cn_%|dn_%') AND application_name NOT IN  ('JobScheduler','WorkloadMonitor','workload','cm_agent','WLMArbiter','gs_rewind','gs_dump') order by  state_change asc limit 10;--查看DN的连接:select node_name, in_use, count(*) from pg_pooler_status group by node_name, in_use;--查看内存使用情况select * from PV_TOTAL_MEMORY_DETAIL;select split_part(pv_session_memory_detail.sessid,'.',2),sum(totalsize),count(*) from pv_session_memory_detail group by split_part(pv_session_memory_detail.sessid,'.',2) order by sum(totalsize) desc;--查看所有节点的内存使用情况:select * from pgxc_total_memory_detail where memorytype = 'dynamic_used_memory' order by 3 desc; --监控单个DN上每个内存使用情况#!/bin/bash     while true do date >> mem.log     gsql -d postgres -p 25300 -ar -c "select * from pv_total_memory_detail" >> mem.log     gsql -d postgres -p 25300 -ar -c "select * from PV_SESSION_MEMORY_DETAIL order by totalsize desc  limit 100" >> mem.log     gsql -d postgres -p 25300 -ar -c "select split_part(pv_session_memory_detail.sessid,'.',2),sum(totalsize),count(*) from pv_session_memory_detail group by split_part(pv_session_memory_detail.sessid,'.',2) order by sum(totalsize) desc;" >> mem.log     gsql -d postgres -p 25300 -ar -c "select sessid, contextname, level,parent, pg_size_pretty(totalsize) as total ,pg_size_pretty(freesize) as freesize, pg_size_pretty(usedsize) as usedsize, datname,query_id, query from pv_session_memory_detail a , pg_stat_activity b where split_part(a.sessid,'.',2) = b.pid order by totalsize desc limit 100; " >> mem.log     ls -ltrh /srv/BigData/mppdb/data1/coordinator/base/pgsql_tmp/    sleep 20 done --查看每个语句的内存使用情况select sessid, contextname, level,parent, pg_size_pretty(totalsize) as total ,pg_size_pretty(freesize) as freesize, pg_size_pretty(usedsize) as usedsize, datname,query_id, query from pv_session_memory_detail a , pg_stat_activity b where split_part(a.sessid,'.',2) = b.pid  and query_id = '76561193666355359' order by totalsize desc limit 100; select * from pgxc_stat_activity where  query like '%pg_table_size%'select a.query_id, a.tid, a.lwtid, b.contextname, b.parent, b.usedsize/1024/1024 as usedsizeMB from pg_thread_wait_status a , pv_session_memory_detail b where tid =  split_part(b.sessid,'.',2)  and a.query_id = ? order by usedsize desc limit 10;select * from pgxc_total_memory_detail where memorytype = 'dynamic_used_memory' order by 3 desc;select * from PV_SESSION_MEMORY_DETAIL order by totalsize desc  limit 10; --查看等待视图select * from pgxc_thread_wait_status where query_id = ;select query_start, state_change, waiting, enqueue, state, a.query_id, substr(replace(query, chr(10), ' '), 0, 10), node_name,thread_name,tid,lwtid,ptid,tlevel,smpid,wait_status,wait_event  from pgxc_stat_activity a, pgxc_thread_wait_status b  where state = 'active' and  a.query_id = b.query_id and a.query_id <> 0;--语句执行的时间dur.select sysdate - query_start as dur, waiting, enqueue, state, a.query_id, substr(replace(query, chr(10), ' '), 0, 10), node_name,thread_name,tid,lwtid,ptid,tlevel,smpid,wait_status,wait_event  from pgxc_stat_activity a, pgxc_thread_wait_status b  where state = 'active' and  a.query_id = b.query_id and a.query_id <> 0 order by a.query_id, 1 desc;--语句等待视图增加过滤 wait cmd状态. select sysdate - query_start as dur, waiting, enqueue, state, a.query_id, substr(replace(query, chr(10), ' '), 0, 10), node_name,thread_name,tid,lwtid,ptid,tlevel,smpid,wait_status,wait_event  from pgxc_stat_activity a, pgxc_thread_wait_status b  where state = 'active' and  a.query_id = b.query_id and a.query_id <> 0 and wait_status != 'wait cmd'  order by a.query_id, 1 desc;SELECT coorname,usename,client_addr,client_hostname,application_name,state,enqueue,state_change,connection_info FROM pg_stat_activity WHERE client_addr is not null AND application_name NOT SIMILAR TO ('cn_%|dn_%') AND application_name NOT IN ('JobScheduler','WorkloadMonitor','workload','cm_agent','WLMArbiter','gs_rewind','gs_dump')  order by  state_change asc limit 10;select * from pg_thread_wait_status where lwtid = 4742;select * from pg_stat_activity where query_id = 41943725;select * from pg_thread_wait_status where query_id = 41943725; --查看网络首发数据视图:select * from pgxc_comm_send_stream where query_id = 21862846;select * from pgxc_comm_recv_stream where query_id = 21862846;--检查active sql配置show use_workload_manager;show enable_control_group;show enable_resource_record;show enable_resource_track;show resource_track_level;show resource_track_duration;show resource_track_cost; -- 打开 active sqlset use_workload_manager = on;set enable_control_group = on;set enable_resource_record = on;set resource_track_level = query; --每三分钟转储到这个系统表里。select * from GS_WLM_SESSION_INFO where  queryid = 81064793292682836;select * from GS_WLM_SESSION_INFO where query like '%HAVING MAX%';--查看系统中实时的TOPSQL(存储在内存中的)select count(*) from pg_stat_get_wlm_realtime_session_info(null);--内存自适应 --关掉动态负载管理,如果使用了资源池还是会走内存自适应。--表上没有统计信息也不会走内存自适应。show use_workload_manager;show enable_dynamic_workload;--通过debug2 可以查看到内存自适应估算出来的内存信息,下面是关键字Calculated query max --TOP SQL 分析语句select nodename,username,application_name, start_time,  max_peak_memory , queryid, substr(query,1, 10), substring(warning from 'Statistic Not Collect') as warning from  wlm_session where max_peak_memory > 9000 and warning like '%Statistic Not Collect%' order by max_peak_memory desc;select nodename,username,application_name, start_time,  max_peak_memory , queryid, substr(query,1, 10), substring(warning from 'Statistic Not Collect') as warning from  wlm_session where max_peak_memory > 9000 and warning like '%Statistic Not Collect%' and application_name <> 'Data Studio' order by max_peak_memory desc;select nodename,username,application_name, start_time,  max_peak_memory , queryid, substr(query,1, 10), substring(warning from 'Statistic Not Collect') as warning from  wlm_session where  warning like '%Statistic Not Collect%' and application_name = 'Data Studio' order by max_peak_memory desc;select nodename,username,application_name, start_time,  max_peak_memory , queryid, substr(query,1, 10), substring(warning from 'Statistic Not Collect') as warning from  wlm_session where   application_name like '%Admin%' order by max_peak_memory desc;select nodename,username,application_name, start_time,  max_peak_memory , queryid, substr(query,1, 10), substring(warning from 'Statistic Not Collect') as warning from  wlm_session where application_name <> 'Data Studio'  order by max_peak_memory desc;select nodename,duration, username,application_name, start_time,  max_peak_memory , queryid, query, query_plan from  pgxc_wlm_session_info where  start_time + 8 > '2021-04-29' and query like '%xxxx%' order by start_time desc;select nodename,duration, username,application_name, start_time,  max_peak_memory , queryid, query from  pgxc_wlm_session_info where  start_time + 8 > '2021-04-29' and query like '%OFFSET %' order by start_time desc;select * from pgxc_stat_activity where  state = 'active' and  query like '%xxxx%' ;--负载管理相关视图select usename,enqueue,datname,status,attribute,count(*),sum(statement_mem) from pg_session_wlmstat group by 3,1,2,4,5 order by 1,3,4,5 ;select usename,processid,threadid,priority,attribute,lane,enqueue,status,block_time,elapsed_time,statement_mem from pg_session_wlmstat where usename='usr1';select * from pg_stat_get_workload_struct_info(); --CCN排队的都是复杂作业, --开启动态负载管理,当语句估算的内存大于32MB就会在CCN上进行判断,是否应该排队。parctl_min_cost     --资源池上并发控制的最小执行代价max_dop             --资源池上简单作业的并发。active_statements   --资源池上的复杂作业并发。mem_percent         --资源池最大占用内存百分比(mem_percent=0内存管控不起作用) --查看实时的语句和计划。show resource_track_duration ;show resource_track_cost; set enable_resource_track = on;set resource_track_level=query;select * from gs_wlm_session_statistics where query_id = xxxx;select * from gs_wlm_session_statistics where query_id = XXX;select to_number(cast('20201013' as date)-cast('20201013' as date)); --查看历史的语句。select * from GS_WLM_SESSION_INFO;--硬件相关的:--查看raid 卡缓存策略 Write through,IO性能比WriteBack 要慢。/opt/MegaRAID/MegaCli/MegaCli64 -LDinfo -Lall –aAll --多租户问题定位思路,分析步骤:1、看界面报错信息;2、/var/log/Bigdata/tomcat/web.log3、/var/log/Bigdata/controller/aos/ aos.log查看是否存在错误日志4、/var/log/Bigdata/controller/aos/ plugin.log查看是否存在错误日志5、第一个CN看/var/log/Bigdata/mpp/scriptlog/permission/userpermission.log6、cms节点/var/log/Bigdata/mpp/scriptlog/sqlexecutor.log查看创建租户相关sql执行日志7、执行sql对资源池进行控制。 --FIM 常用日志定位信息:ControllerService:/var/log/Bigdata/controller/(OMS安装、运行日志)Httpd:/var/log/Bigdata/httpd(httpd安装、运行日志)logman:/var/log/Bigdata/logman(日志打包工具日志)NodeAgent:/var/log/Bigdata/nodeagent(NodeAgent安装、运行日志)okerberos:/var/log/Bigdata/okerberos(okerberos安装、运行日志)oldapserver:/var/log/Bigdata/oldapserver(oldapserver安装、运行日志)MetricAgent:/var/log/Bigdata/metric_agent(MetricAgent运行日志)omm:/var/log/Bigdata/omm(omm安装、运行日志)timestamp:/var/log/Bigdata/timestamp(NodeAgent启动时间日志)tomcat:/var/log/Bigdata/tomcat(Web进程日志)watchdog:/var/log/Bigdata/watchdog(watchdog日志)upgrade:/var/log/Bigdata/upgrade(升级OMS日志)UpdateService:/var/log/Bigdata/update-service(升级服务日志)patch:/var/log/Bigdata/patch(补丁安装日志)Sudo:/var/log/Bigdata/sudo(sudo脚本执行日志)OS:/var/log/message文件(OS系统日志)OS Performance:/var/log/osperf(OS性能统计日志)OS Statistics:/var/log/osinfo/statistics(OS参数配置信息日志)--收集10%的统计信息。 set default_statistics_target = -10;analzye public.mid_bss_all_customer;--打开debug2日志SET log_min_messages=debug2;SET logging_module='on(STREAM)';set logging_module='on(ALL)';SET log_min_messages=debug5;set logging_module='on(ALL)';--设置打印日志的语句阈值set log_statement='mod';set log_min_duration_statement=1000;--通信库参数:persistent_datanode_connectionsshow comm_usable_memory;--打开通信库的debug日志set enable_fast_query_shipping = off;set comm_debug_mode = on;set log_min_message='DEBUG3';set logging_module='on(COMM_IPC)'; set logging_module='on(COMM_IPC)';   --打开set logging_module='off(COMM_IPC)';   --关闭show logging_module;   --查看设置结果。--资源参数:select * from pg_resource_pool;ALTER RESOURCE POOL pool1 WITH (CONTROL_GROUP="class1:wg2:3"); copy test_dur from '/home/omm/ab.log' with(delimiter ' ');awk -F ' ' '{print NR ',' $14}' aa.log  > ab.log--shell 杀进程ps -ef | grep gsql | grep -v grep | awk '{print $2}' | xargs kill -9 --性能问题排查思路。1, 可以配置上statement_timeout 这个参数,对于执行时间长的语句,自动杀掉。2. 观察集群IO,CPU情况。是否存在满载的情况。各个节点都要看一下。3,根据query_id查一下等待视图pgxc_thread_wait_status,看等哪个节点。4. 对表做一下analyze,再执行查询看一下是否变快。--事务相关参数start transaction read only;set enable_show_any_tuples = true;set enable_indexscan = off;set enable_bitmapscan = off;select xmin,xmax,pgxc_is_committed(xmin),pgxc_is_committed(xmax),oid,* from pg_class where relname='表名' ;start transaction read write;set enable_show_any_tuples = true;set enable_indexscan = off;set enable_bitmapscan = off;select xmin,xmax,pgxc_is_committed(xmin),pgxc_is_committed(xmax),oid,* from pg_class where relname='表名' ; max_prepared_transactions   CN 2048   DN 6072--系统表vacuum 操作set synchronize_seqscans=off;vacuum full  pg_statistic;vacuum full pg_attribute; --shell 常用命令 --删除10天前的文件find ./ -mtime +10 -name "*.*" -exec rm {} \; ---gdb常用命令set logging file llvm_core1.txtset logging onthread apply all btinfo registersdisassemblep $_siginfoinfo files maintenance info sectionsset logging file llvm_core1.txtset logging oninfo registersdisassemblep $_siginfoinfo files maintenance info sections --sar命令sar -r 5 4  输出物理内存和虚拟内存的统计信息sar -B 5 5  分页统计sar -u 3 5  显示CPU使用信息sar -b 3 5  磁盘IO信息sar -n DEV 2 3 网络流量信息 --查看文件数量,快速。ls -f | wc -l--网络问题定位常用命令netstat –anop|grep "on ("| sort –rnk 3|head -50tcpdump tcp -i ethx and host ip1 and ip2 and port port1 -w target.pcap  --使用TCPdump 抓包tcpdump tcp -i eth0 -s 0 -vv host 10.185.181.247 and port 46755 -w  4675.pcapnetstat -naop | grep 54321   --查看端口被占用。netstat -anop | awk '{print $4}' | grep 10.185.181.249|sort|uniq -c|grep " 1 "|wc -l --随机端口不足telnet 10.185.181.249 31001   --防火墙问题    iptables -L speed_test connect IP 端口    --防火墙问题ping -s 8192  -I eth0 10.185.181.249   --对端IP是否可达ssh 10.185.181.249   --对端IP是否可达netstat -l | grep 监听端口号     --连接超时,接收端hang或者繁忙。EPIPE Broken pipe  --本端关闭,丢包导致keepalive心跳失效,重传超时(tcp_retries2)netstat -anop|sort -rnk3|head   --按发送缓冲区从大到小排序gs_check -i CheckNetSpeed  --集群多对多带宽压测ethtool -i enp189s0f0modinfo hns3gsql本地连接CN报connect reset by peer   CN日志中报fork线程资源不足。通过/proc/buddyinfo发现碎片内存过多导致连接不上sysctl -w vm.compact_memory=1 --通信库相关的guc参数set log_min_messages = 'DEBUG5';set logging_module = 'on(all)';set comm_stat_mode=on; set comm_debug_mode=on;--通信相关视图select * from pgxc_comm_recv_stream where node_name = 'xxxx' and remote_name = 'xxxx' and query_id = xxxx;select * from pgxc_comm_send_stream where node_name = 'xxxx' and remote_name = 'xxxx' and query_id = xxxx;select * from pgxc_comm_recv_stream where query_id = xxxx;select * from pgxc_comm_send_stream where query_id = xxxx; --进程相关ps -eo pid,lstart,etime,cmd | grep gaussdb;datestrace -p 47148 -r -T -o strace.log--过滤message的core信息cat /var/log/message | grep segfault --集群启停checkpoint;cm_ctl stop -mi  cm_ctl start -mi --主备切换将DN备实例切换为主实例。假设备实例所在主机plat1,路径为“/gaussdb/data/data_dnS1”。gs_om -t switch -h plat1 -D /gaussdb/data/data_dnS1参数q表示快速切换,nodeid为需要升主的备实例所在节点ID,/srv/BigData/mppdb/data2为备DN或GTM的数据目录。cm_ctl switchover -n nodeid -D /srv/BigData/mppdb/data2 -q --####HA 相关命令。--查询复制曹select pg_get_replication_slots();--删除复制曹pg_drop_replication_slot('slot_name');pg_controldata --查看主备节点日志推进情况.--xlog积压,查看select * from pg_disable_delay_xlog_recycle();--查看进程控制文件。--查看进程控制文件。data/coordinator1 > pg_controldata ./--3. 查询日志同步的进度。 gs_ctl query -D [datapath]select pg_last_xlog_replay_location(); --连接到DN上执行--解析日志pg_xlogdump 000000010000000000000002 -zpg_xlogdump 000000010000000000000004 -n--pagehack 系统表和relfilenode 对应pagehack -f pg_filenode.map -t filenode_map--行存表解析pagehack -f 16502 -t heap --4. 查看发送日志的情况。catchup相关。select pg_stat_get_wal_senders();gsql -d postgres -p 25308 -c 'select * from pgxc_get_senders_catchup_time();' --处理集群只读问题 --设置集群只读。1.分别将主备cms节点的/opt/huawei/Bigdata/mppdb/cm/cm_server/cm_server.conf文件中修改 enable_transaction_read_only =on2.依次执行kill -9 cm_server备机和主机进程(kill前后分别观察进程号,进程号变化表示成功)--取消集群只读。gs_guc reload -Z coordinator -Z datanode -N all -I all -c "default_transaction_read_only=off"gs_guc reload -Z coordinator -Z datanode -N all -I all -c "datastorage_threshold_value_check=95" datastorage_threshold_check_interval : cm_server每隔一段时间(默认600s)调用一次gs_check检查数据盘磁盘空间占用率datastorage_threshold_value_check: 当磁盘空间占用率超过设定阈值(默认90),设置guc参数default_transaction_read_only=on--查找删除复制槽。select * from pg_get_replication_slots();select pg_drop_replication_slot('dn_6004'); --常用建表测试命令postgres=# create table test3 as select generate_series(1, 1000) as a,generate_series(1, 1000)  as b  from dual;NOTICE:  The 'DISTRIBUTE BY' clause is not specified. Using 'a' as the distribution column by default.HINT:  Please use 'DISTRIBUTE BY' clause to specify suitable data distribution column.INSERT 0 1000postgres=# create table test4 as select generate_series(1, 1000) as a,generate_series(1, 1000)  as b  from dual;NOTICE:  The 'DISTRIBUTE BY' clause is not specified. Using 'a' as the distribution column by default.HINT:  Please use 'DISTRIBUTE BY' clause to specify suitable data distribution column.create table t5(a int ,b varchar(100));insert into t5  select  generate_series(1, 1000) as a,generate_series(1, 1000) || 'abc'  as b from dual;create table t6(a int ,b text);insert into t6  select  generate_series(1, 1000) as a, 'abc' || generate_series(1, 1000)   as b from dual;explain performance select sum(b) from t6 where b = 'abc100';create table t7(a int ,b text) distribute by hash(b) ;insert into t7  select  generate_series(1, 1000) as a, 'abc' || generate_series(1, 1000)   as b from dual;explain performance select sum(b) from t7 where b = 'abc';create table t8(a int ,b varchar(100)) distribute by hash(b) ;;insert into t8  select  generate_series(1, 1000) as a,generate_series(1, 1000) || 'abc'  as b from dual;explain performance select sum(b) from t8 where b = 'abc' order by 1; --fatal的时候打印堆栈gs_guc reload -Z coordinator -Z datanode -N all -I all -c "backtrace_min_messages=fatal"
  • [其他] 华为智能车云服务: 上云是实现商用的必经之路
    在华为智能车云服务CTO——喻杰看来,构建自动驾驶开发的核心能力,还面临三个挑战:海量数据处理难、数据标注耗时长成本高、仿真测试缺场景效率低。不过,这三个难题,都可通过AI加云端拟真解决。他认为,未来的发展趋势就是依托云/超算中心提供的强大算力加速算法迭代和仿真。与真实训练相比,云端拟真可以以极低的成本设计难例场景,在真实性、安全性和便利性上都具有优势。例如,目前特斯拉、Waymo以及通用汽车都拥有自己的云或是超算中心进行拟真以实现算法迭代。根据华为提供的数据显示,上云计算之后,运维效率可提高60%,TCO降低30%-60%。另外,通过云还可以动标注和智能难例挖掘,每千万框数据的标注时间可以降低超过50%。「用云服务或者是上云应该是我们通往自动驾驶商用阶段的一个必由之路。」喻杰表示,在前期开发时,企业所需要的数据量和算力并不大,可是到了量产阶段,传统的数据中心很难支持研发需求,并且隐私合规性可能也无法达标,除此之外运维成本等因素也会促进云服务的使用。
  • [经验交流] AIOps概念的进化:ITOA -> AIOps
    让我们回到2013年,著名的 Buzz word (时髦用语) 制造商 Gartner 在一份报告中提及了ITOA,当时的定义是,IT运营分析(IT Operations Analytics), 通过技术与服务手段,采集、存储、展现海量的IT运维数据,并进行有效的推理与归纳得出分析结论。而随着时间推移,在2016年,Gartner 将ITOA 概念升级为了 AIOps,原本的含义基于算法的IT运维(Algorithmic IT Operations),即,平台利用大数据,现代的机器学习技术和其他高级分析技术,通过主动,个性化和动态的洞察力直接或间接地,持续地增强IT操作(监控,自动化和服务台)功能。 AIOps平台可以同时使用多个数据源,多种数据收集方法,实时分析技术,深层分析技术以及展示技术。随着AI在多个领域越来越火爆,Gartner终于按捺不住了,在它的2017年年中一份报告中,顺应民意将AIOps的含义定义为了,Artificial Intelligence for IT Operations, 也就是现在大家都在说的智能运维。在短短的不到1年时间中,伴随着AI的热炒,以及在各个领域的落地,运维界的同仁基本上把AIOps 看成是未来解决运维问题的必然方向。个人认为,在企业内部构建AIOps,通过融合IT数据,真正打破数据烟囱,对监控,自动化,服务台进行支持,使得IT能够更好的支撑业务,利用大数据技术以及机器学习技术,回答以前很多单从业务口径,或者单从IT口径无法回答的问题。如,联通,电信,移动,电信的用户,哪种用户转化率较高。AIOps以创造商业价值为导向,对IT 运营以及业务运营产生持续洞察,为DevOps 提供持续反馈,加快企业在竞争日趋激烈市场环境中,数字化转型的步伐。因此,Gartner 预测到2022年,大型企业中的的40%将会部署AIOps平台。
  • [行业资讯] 数字化+智能化:华为AUTIN释放运维新价值
    随着5G商用加速,数据显示,目前全球已有60多个国家部署了140多张5G网络。 对于电信运营商而言,不仅要面临着2G、3G、4G、5G四世同堂的复杂局面,还因为引入虚拟化、云、边缘计算、切片等新技术而将整个网络变得更加难以管理。 华为网络保障与运维服务部部长卢煜在接受飞象网记者采访时表示,传统的人员、系统、流程都已经无法满足网络运维的需求,运营商已经到了不得不转型的时刻。 “如今全球各个行业都在推进数字化转型,运营商也需要运用数字化、智能化技术,解决网络运维面临的难题。” 1 数字化运维大势所趋 据卢煜介绍,在亚太、欧洲等网络进步较快的区域,运营商不仅对运维效率提出了更高的要求,同时也希望能通过运维来提升用户的体验,进而支撑自身业务的长远发展。 在中国、韩国、日本、欧洲等部署了商用5G网络的国家和地区,运营商在考虑成本、效率、保障网络可用之外,还要考虑用户对网络和应用的体验。 由于个人用户、家庭用户、企业用户的需求都在趋于多元化、个性化,运维部门不能再像过去一样只在后端做业务保障。 “运维需要向前端走,把网络能力对外开放出去、支撑自己的服务和销售。”卢煜说,“这对运营商运维部门来说是一个很大的挑战。” 为解决这个问题,大多数运营商都选择了数字化技术来改进运维系统。 在这个方面,中国运营商步伐比较大,对传统运维系统进行了全面的颠覆和重构。 一些海外运营商则比较保守,主要是在原有的运维系统上叠加了部分自动化、数字化能力,解决一些比较急迫的局部问题。 不过总的来说,对运营支撑平台进行数字化、智能化改造,并在此基础上调整运维流程和人员,目前已经成为了运营商运维策略的大趋势。 2020年国际电信行业组织TMF对全球66家主要运营商做了一次调研,结果表明有88%已经在推进数字化转型或者启动了数字化转型的规划。 行业研究机构upstream所作的调研表明,受疫情的影响,75%的运营商加快了数字化转型进程,74%的运营商加大了数字化转型投资。 卢煜认为,运营商之所以加快数字化转型,主要出于两个方面的考虑: 一是运维数字化已经成为行业共识; 二是大数据、自动化、云计算等新技术的发展,使得数字化运维技术变得更加成熟和高效。 2 三大能力打造网络智能运维体系 2018年,华为向外界正式发布了智能运维解决方案AUTIN。在随后几年里,华为重点打造了AUTIN统一平台底座、应用开发平台和场景化三个方面的能力。 华为AUTIN基于一个统一的平台底座,即GDE(General Digital Engine)数字中台,把自身的自动化技术、数据能力等统一放在了GDE上,这些能力对外开放,客户和第三方开发的应用都可以调用这些能力、相互解耦并实现云化部署。 可以说,华为GDE就是一个赋能平台,让运营商及其合作伙伴可以利用这些能力快速开发运维应用,大大缩短数字化运维系统的发展时间。 有了赋能平台,还要有相应的开发环境。 基于低代码开发平台ADC(Application Development Center),华为AUTIN沉淀了丰富的算法、全域运维数据模型和能力,可以让客户、合作伙伴和华为自己的员工在这个平台商进行快速开发,运营商的运维人员也可以针对一些简单的场景进行DevOps敏捷开发编排。 卢煜表示,ADC的价值在于降低应用开发、安全可信、自动化和数据分析的门槛,使得传统运维人员向数字化DevOps人才转型,更加从容地应对多变的市场需求。 为方便运营商运维,华为利用AUTIN系统中融合的技术和能力,开发了一系列面向具体场景的运维应用,比如家庭宽带质量问题的自动化预测预防、智能诊断和定位等。 这些都是运营商非常关注而且亟待解决的问题,投入实用之后能够大大降低运营商的运维工作压力。 在过去一年里,全球使用华为AUTIN的局点新增了68个,总数增至170多个局点,运营商客户的实用效果也很好。 3 落地商用,成效斐然 据卢煜介绍,在部署华为AUTIN的170多个局点中,有70多个由华为提供管理服务,另有100多个由运营商客户自行使用。 由于不同客户的技术水平各不相同,因此在实用效果上各有差异,不过总体效果都很令人满意。 目前最好的情况下,移动网络场景可以帮助客户平均缩短25%的故障恢复时长,降低30%工单,大幅减少维护人员的无效上站。 固网场景共有20多个项目,覆盖全球2100万用户,帮助运营商降低了20%用户报障,减少了13%的上站上门服务,大幅提升了家庭宽带用户的满意度和业务体验。 卢煜表示: “由于华为AUTIN大大减少了运维人员外出需求,保护了疫情下运营商员工的安全,2020年华为获得了AfricaCom非洲国际通信展技术创新大奖‘COVID-19 RESPONSE AWARD’。” 华为AUTIN在中国家用宽带业务中也投入了应用。卢煜表示,对于家庭宽带场景,华为AUTIN主要解决两个问题。 一是提升客户满意度,降低客户报障、主动联系客户解决问题。 应用效果比较好的省份可以降低用户报障20%左右,并通过精准故障定位,把上门上站最多降低了13%-15%。 二是对企业专线业务,重点解决质量标准违约问题,最多可以减少10%的违约率。 因此,华为AUTIN不仅能帮助运营商通过数字化、智能化手段提升效率、降低成本,还有助于提升网络质量、改善用户体验,从而为运营商带来更多的收益和品牌声誉。 卢煜表示,华为AUTIN是一个开放的平台,运营商和其它生态伙伴都可以加入进来,开发自己的应用。 实际上,在家庭宽带场景下部署的华为AUTIN就集成了生态伙伴开发的运营支撑系统。运维涉及面非常广,有很多优秀的开发商在一些领域具有突出优势。 “所以华为始终坚持开放,把生态伙伴的优秀能力与华为自身的能力引入到AUTIN平台中,不断的自我更新,更好地服务于运营商的数字化转型发展。”  来源:腾讯网   原文链接:https://new.qq.com/omn/20210416/20210416A0CVIY00.html
  • [行业资讯] 华为卢煜:数字化浪潮下,AUTIN如何打破ICT运维能力天花板?
     一边是5G到来后,网络规模及复杂度的与日俱增;一边是数字化浪潮下,从业务到业态的全面变革。ICT运维与管理正面临着巨大的挑战,对于新型运维模式的探索日益成为整个产业链的共同主题。 2018年世界移动大会上,华为发布了智能运维解决方案AUTIN,通过将自身创新、积累的能力及经验开放出来,为运营商数字化运维转型提供必要支撑。AUTIN的得名来自“自动化(AUTomation)”和“智能化(INtelligence)”的组合,体现了其最主要的特征。截至2020年底,全球已有170多张网络部署了华为AUTIN,过去一年新增68张,深得运营商青睐。 “苟日新,日日新,又日新”,在应用范围迅速扩大的同时,AUTIN本身也始终在向前演进和迭代,力求为运营商解决更多问题、创造更多价值。 那么,华为对数字化运维有着怎样的洞见和思考?较之刚推出时,AUTIN又有了哪些变化?在实践中产生了怎样的化学反应?在2021华为全球分析师大会期间,华为全球技术服务部网络保障与运维服务部部长卢煜接受了C114的采访,对这些问题一一作出详尽解答。 应对更严峻挑战:数字化运维转型提速 过去一两年间,受5G商用和新冠疫情影响,电信运营商数字化运维转型明显提速,加快了向智能化升级的节奏,卢煜开宗明义道。 一方面,全球5G商用速度超乎想象,据GSMA Intelligence统计,截至今年3月底,已有62个国家/地区的157张5G网络投入商用。上马5G后,网络上2G/3G/4G/5G四世同堂的格局、技术上虚拟化/云化功能的引入、业务上从toC/toH到toB的多样性,致使运维管理的复杂度和难度骤增,传统的系统、流程和人员技能已经难以满足,到了“不得不转型”的地步。 另一方面,突如其来的疫情既凸显了数字化的价值,也促使全社会的数字化程度迈上一个新的台阶。线上生活和生产成为一种新常态,全球经济下行压力下数字经济一枝独秀,并将对后疫情时代产生深远影响。担负数字化使能使命的运营商也亟需提升数字化水平以匹配,网络的“规建维优营”正是其中重点部分。 在这样的背景下,拥抱数字化转型业已成为行业共识。TM Forum在2020年对全球66家运营商的调研结果发现,88%运营商已处于规划、起步和执行阶段;upstream今年对全球56家运营商的调研结果亦发现,有75%的运营商正加速转型进程并不同程度地加大了转型投资。 “总体来说,随着网络和业务的发展,我们发现大家对于运维的诉求逐渐从传统后端的提高效率、解决复杂度,向前端的提高质量、满足用户对业务体验的期望发展,乃至将网络能力面向市场开放出去,为用户提供更多的数字化业务。”卢煜指出,在此过程中,大多数运营商都选择了以数字化手段来改进运维模式,解决实际的难点和痛点。其中,中国运营商的步子比较大,对传统的运维模式进行了系统性重构和颠覆;而一些海外运营商则采用不同的演进路径,通过在原有的系统上叠加新的能力来解决具体某个场景的问题,再分步演进。 他还谈到,除了在方向上形成共识,数字化运维转型的提速还得益于大数据、自动化、云计算等数字技术的发展,满足了技术基础这一先决条件。 ATUIN:系统性体系打破运维能力天花板 当下,运维烟囱式的工具、孤岛式的数据、割裂式的流程及板块式的知识已到达传统以人为主运维模式能力的天花板。华为ATUIN以“1+2+3”的系统性体系,解决ICT网络运维的结构性矛盾,从而将之打破。 过去三十余年,华为为全球超过300家运营商的1500多张网络提供了专业服务,确保30亿用户获取高可靠、高质量的联接。卢煜剖析道,借助大数据、自动化等技术,华为将丰富的运维经验与知识,以规则、策略、模型的方式构建在平台上,形成“1套”封装丰富运维知识资产的可编排智能运维平台;在此基础上,打造“2套”运维数字化转型体系,即运维组织、流程转型体系和人员技能提升转型体系;并向人机协同的运维模式、开放的数智化平台以及数字化DevOps人才“3个”方向演进。 据介绍,自2018年AUTIN推出至今,华为结合运营商客户需求,主要构建了三方面的能力。 一是引入GDE(General Digital Engine)数字中台作为技术底座,将数智化技术嵌入运维的全流程和全场景,让网络懂业务、懂体验,实现人机协同的可预测、可进化、自闭环的运维新模式。GDE作为一个统一、开放、轻量化、易用且能按需扩展的平台,正是“数字化全球技术服务(Digital GTS)”变革的核心。 二是集成了一体化低代码开发中心ADC(Application Development Center),向运营商客户及合作伙伴开放平台和算法、模型等运维知识资产,降低应用开发、安全可信、自动化及数据应用的门槛。基于ADC可以做到一周上手、敏捷开发,加速传统运维人员向数字化DevOps人才转型,缩短新业务的上市周期,从而更好地应对瞬息万变的市场需求,支撑运维价值迁移。 三是将AUTIN的产品、技术及自动化能力,与运营商关注点和痛点结合起来,开发了一系列针对具体场景的解决方案。 卢煜解释说,华为AUTIN是个开放的体系,全球已有超过9000名运维开发者、20多家合作伙伴为之开发应用、不断贡献智慧;同时,得益于长期且庞大的研发投入,华为本身亦能够不断将各种前沿技术引入其中,在解决客户问题的过程中不断自我迭代平台技术能力,从而做到“常用常新”。他亦作出预告,2.0版本的AUTIN即将于今年下半年上线。 落地实践:释放运维新价值 在170多个项目的实践中,华为AUTIN使能运营商向数字化运维平滑演进,为他们带去了源源不断的新价值。 比如面向移动网络场景,AUTIN帮助非洲某运营商缩短了25%的故障恢复时长、降低了30%工单,大幅减少维护人员的无效上站,保障运维人员的安全。凭借卓越表现,AUTIN获得了2020年AfricaCom非洲国际通信展技术创新大奖“COVID-19 RESPONSE AWARD”。 再比如面向固定网络场景,AUTIN已在全球20多个项目中应用,覆盖全球2100万用户,可帮助运营商降低20%用户报障、减少13%的上门,大幅提升家宽用户的满意度和业务体验,疫情下对于运维人员和家宽用户的生活、工作、学习尤为重要。 “AUTIN给客户带来的价值不仅仅只是降本增效,还包含了增收和用户满意度的提升,品牌的溢价。”卢煜告诉C114。 数字化运维转型势在必行,如何实现是关键。华为通过开放平台和能力,持续投资,与运营商及行业伙伴一起探索转型之路,业已取得了丰硕成果。在AUTIN的加持下,我们或许可以期待未来ICT运维管理变得像在手机上安装、使用APP那样简单。  来源:C114通信网  原文链接:http://www.c114.com.cn/news/126/a1159966.html 
  • [技术干货] 什么是IoT物联网平台,以及如何做平台选型
    1. 什么是物联网平台物联网(The Internet of Things,简称IOT)是指通过各种传感器设备采集、监控物体状态信息,并通过多样的网络连接手段将物体状态信息与互联网连通,实现对物品和过程的智能化感知、识别和管理。一个完整的物联网解决方案,通常可分为物联网感知层、网络层、平台层、应用层四大层次。其中,物联网平台是物联网解决方案将感知层的各类设备连接到场景应用的关键“桥梁”,负责提供物联网解决方案研发过程中所需的通用功能及基础设施,从而加速解决方案的落地。通常一款物联网平台需要具备以下能力:采集感知层设备的数据设备管理与设备分发设备监控与运维海量数据存储开放接口与规则引擎等应用开发能力2. 物联网平台的分类物联网连接管理平台连接管理是物联网平台的基础组成部分,负责将传感器数据接入,并连接至云或其他数据处理服务。随着物联网应用愈发复杂,物联网场景中往往包含多种异构的物联网接入网络,例如使用2G、3G、4G、5G和NB-IoT等蜂窝网进行连网,或者使用LoRaWAN和Sigfox等特殊网络连网。不同网络运营商之间的接口以及服务方式往往存在差异(例如中国移动提供的NB-IoT接入平台与电信的OC/CTWing物联网平台具备完全不同的接口),物联网连接管理平台可以帮助用户无缝管理异构网络的物联网设备,从而减小用户与不同网络运营商之间沟通和对接的开销。连接管理平台往往还提供设备智能化以及上云开发所需的系列工具,如模组,SDK以及调试工具,帮助用户快速将设备连接平台实现智能化。物联网设备管理平台物联网设备管理是物联网生态系统的一部分,负责在统一的平台上管理各类设备和传感器,从而高效地维护物联网设备和系统。物联网设备管理平台通常具备以下特性:设备注册及认证:提供可靠的认证方式认证设备是否为可信的物联网设备,保证设备接入物联网系统的安全性设备配置和控制:为了提高系统的可维护性,设备管理平台往往提供设备远程配置和控制能力,以远程修复设备或系统故障,升级设备功能设备监控和诊断:物联网平台往往需要提供设备实时监控能力,以及时发现设备故障和异常,并提供远程诊断能力加速故障排查物联网应用使能平台这类物联网平台提供物联网应用的核心构建模块,包含设备数据分析,数据可视化展示,设备业务编排等开发能力,以及平台针对各场景抽象出的复杂功能模块,从而帮助用户快速构建物联网应用。从广义上来讲,任何提供设备快速选型与供应,设备开发与接入以及便捷开发能力等帮助用户构建物联网应用的物联网平台,均可认为是在进行物联网应用使能。3. 什么时候需要物联网平台传统设备智能化对于需要将传统设备进行智能化改造的设备厂商,往往需要生产多种连网方式的智能设备,此时选择一款接入能力强,调试手段及工具丰富的物联网平台,将极大地加速智能设备的开发进度。解决方案概念验证及快速落地物联网解决方案商往往需要面对纷繁复杂的应用场景,并接触种类繁多的物联网设备,选择一款生态良好,提供多场景功能模块的物联网应用使能平台,将能快速进行解决方案概念验证,加速项目落地。大规模物联网设备运维诸如智慧城市等城市级大规模解决方案,往往需要针对复杂的物联网设备及进行进行统一管理和运维。在该类场景中,不仅物联网设备数量规模庞大,而且设备往往来自多家不同的供应商,采用多类异构的连网方式及网络协议,并且对接至多个业务系统。此时需要物联网平台来多海量设备、数据进行统一的管理和监控,将应用与设备接入解耦,从而降低从多网络、多类设备以及软硬件供应商稳定性等方面带来的不稳定性,从整体上提高项目的可维护性。降低研发及运维成本设备连接和设备管理是物联网解决方案中难以绕过的基础功能,企业针对解决方案自研设备接入与管理系统,需要投入较大的研发成本,并且需要持续投入运维。采购一款成熟的物联网平台可以提高解决方案整体的鲁棒性,并降低设备连接和管理软件的开发和运维成本。4. 选择物联网平台时需要考虑什么平台稳定性和可靠性物联网解决方案往往面向工业、政府及其他商用场景,物联网平台的稳定性将直接影响其管理的数千至数万设备的可靠运行。同时,不稳定的物联网平台将耗费用户大量的资源进行系统调试和运维,付出高昂的成本。平台可扩展性和灵活性物联网项目在初期往往从POC(概念验证)项目逐步演进至规模庞大的解决方案,物联网平台需要支撑用户在POC阶段低成本,灵活快速地进行项目部署和落地,并随着项目规模增长,支持平台扩展功能和处理性能,支撑大规模的业务。设备接入能力设备连接是物联网平台最为基础与重要的功能之一,具备多协议、多类型物联网设备接入能力的物联网平台可以更好地支持用户在各类场景中使用。针对改造型项目(既有设备进行智能化改造),物联网平台的接入能力如果能够对已有设备“利旧”,将显著地降低项目部署和研发成本。提供多种部署方案不同物联网项目对物联平台的部署方式提出了不同要求,提供公有云部署方案的物联网平台可以以最低的成本提供服务,适用于对数据私有化要求不高的项目;而对数据较为敏感的场景,往往需要物联网平台提供软件私有化部署,软硬一体机部署等更多的部署方案。良好的生态已接入众多物联网设备及应用的物联网平台,将可以更好地帮助用户进行方案选型,减少设备接入与应用开发成本。开放能力物联网平台应提供丰富的OpenAPI等开放能力,加速物联网解决方案的开发。行业经验及咨询服务物联网仍属于一个高速发展及变革的新兴行业,选择具备丰富行业经验并可以提供良好咨询服务的物联网平台供应商作为合作伙伴,将大大降低用户在物联网项目落地过程中的探索和试错成本。LinkOS是慧联无限推出的以项目交付为核心的一站式物联网赋能平台,LinkOS从终端供应,LPWAN连接、设备管理,原型验证等多维度帮助物联网解决方案商快速进行物联网解决方案开发:物联网传感器终端供应链:面对极度碎片化的物联网传感器市场,LinkOS预集成了数百款LPWAN物联网终端,并进行了严格地质量把控和联合开发,为企业客户提供物联网传感器终端功能、质量、交期和价格保证。物联网解决方案设计与开发:LinkOS基于预集成的传感器供应链以及7000+物联网赋能案例和经验,提供便捷的解决方案设计工具和POC原型验证工具,加速企业客户的解决方案设计过程。物联网全流程服务团队:无论是市场营销资源支持还是联合项目打单,设备采购还是方案设计,项目实施或是后期运维。慧联无限支持全项目流程企业级赋能。————————————————原文链接:https://blog.csdn.net/darkdoors/article/details/110583688
  • [AI家园] AIOps如何在企业中获得成功
    企业在IT运营中使用人工智能被称为AIOps。AIOps对于监控和控制混合、流动、分布式和组件化的IT基础设施变得至关重要。作者:Madhurjya Chowdhury  来源:企业网D1Net企业在IT运营中使用人工智能被称为AIOps。AIOps对于监控和控制混合、流动、分布式和组件化的IT基础设施变得至关重要。AIOps通过以算法方式分析IT数据,使IT运营和DevOps团队能够更智能、更快速地运营,使他们能够在业务运营和消费者受到损害之前更快地发现和解决数字服务问题。企业IT运营团队可以使用AIOps来管理由现代IT基础设施创建的巨大复杂性和数据量,防止发生故障、维持正常运行时间,并实现持续的优质服务。通过将IT置于数字化转型活动的中心,AIOps使企业能够按照当代业务需求的速度运作。AIOps是如何工作的?AIOps产品并非都是相同的。企业应将其安装为独立的基础设施,从所有IT监控源吸收数据,并作为交互的中央系统发挥作用,以从中获得尽可能多的价值。企业可以使用五种方法和算法为这样的平台提供动力,这将完全自动化并简化IT运营监控的五个重要方面:数据选择:从当代IT系统创建的大量极其冗余和嘈杂的IT数据中选择数据块,这通常需要过滤掉高达99%的无效数据。模式发现:在选定的相关数据组件之间关联和建立链接,并对它们进行分类以供将来分析。推理:确定困难和重复出现的问题的根本原因,以便企业可以根据所学采取行动。协作:通知运营人员和团队,并允许他们之间进行合作,特别是在人员地理位置不同的情况下,以及存储可能有助于加快未来类似问题诊断的事件数据。自动化:为了使答案更加准确和快速,尽可能多地自动化响应和清理。成功采用AIOps的4个步骤(1)谨慎选择初始用例尽管有许多可能的数字化候选者(例如,BMC服务与咨询专家通过将其产品系列和活动制作、服务管理和机械化的三项功能结合起来,帮助了许多客户,这是非常惊人的业务定义解决方案),关注可实现的和实用的以最大化数字化转型至关重要。鉴于目前的人工智能开发水平,看到很多客户首先关注基本的AIOps用例,这也可以用作更复杂用例的构建块。(2)为成功而采用新策略采用AIOps需要的不仅仅是技术;它还需要实施新的角色、程序和数据策略。大多数企业有效采用AIOps需要文化转变,因为它经常需要重组以专注于数据源而不是部署中涉及的技术。(3)发展核心能力IT团队可以通过采用AIOps树立榜样,从而建立与其他数字化转型技术类似的基本能力。(4)跟踪交付价值IT必须展示在采用AIOps中实现的业务价值,才能成功推动数字化转型工作。通过创建统一的正式业务价值数据库,“客户成功”支持客户监控业务价值。该价值应与业务价值数据库中更广泛的组织目标相关联,例如减少修复时间(MTTR)。AIOps的驱动因素似乎没有草根运动来推动AIOps部署。行业专家O’Connell说:“AIOps由企业首席信息官领导,ITOps紧随其后。这是有道理的,因为AIOps本质上是跨域的,并打破了孤岛。如果将自动化添加到等式中,平衡点将更倾向于企业高管。”根据EMA进行的一项研究,自动化在所有实践领域都变得越来越流行。在缺乏人工控制的情况下,人们对接受自动化犹豫不决。当然,接受自动化的准备并不是自动发生的。它随着时间的推移而发展。而与自动化的组合是AIOps的成功所在。”AIOps的成功据参与者介绍,更大的IT/业务同步、更高的IT服务性能以及增强的员工/客户交互是AIOps项目的优势之一。总而言之,即使是最成功的技术解决方案也并非没有困难。即使是最成功的AIOps用户也面临诸如技术成本、数据完整性和可用性、IT冲突以及对人工智能的不信任或怀疑等障碍。此外,大多数成功采用者希望在接下来的一年内研究新的AIOps系统。根据EMA的研究,如果运营得当,对IT与公司其他方面之间的联系的影响可能是变革性的,其部分原因是IT/业务协调的进步几乎是不可避免的。自动化是正确执行AIOps的重要因素。然而,在这种情况下,在需要业务灵活性和坚如磐石的IT服务才能取得成功的社会中,这种组合很有可能成为一种生存机制。关于AIOps和随之而来的机械化的论点是如此简单明了,以至于EMA预计AIOps这个术语会随着时间的推移而消失。这些功能在现在是全新的,将简单地成为IT运营的常规组成部分。另一方面,AIOps还有很长的路要走。结论AIOps是一种改变游戏规则的技术,是一条路径,而不是终点。成功的初始部署可能有助于数字化转型计划并提升IT作为真正业务伙伴的形象。当今的企业希望IT技术能够满足不断增长的消费者需求,为此,IT团队必须采用AIOps等技术。企业不能在不改变后端技术的情况下在前端提供数字体验。AIOps允许IT运营在整个混合云平台上自主协调基础设施、应用程序和服务,从而使复杂的分散环境更易于管理。【责任编辑:赵宁宁 TEL:(010)68476606】
  • [ManageOne二次开发] 【华为云Stack ManageOne 运维侧北向对接】如何添加指定条件,查询告警流水号
    1 准备工作本文档指导适用于华为云Stack ManageOne 6.5.0、6.5.1、8.0.0版本正式调用ManageOne运维侧接口前,请先检查准备工作是否已完成,参考链接:【华为云Stack ManageOne运维侧北向对接】 RESTful接口调用准备工作若您使用postman进行接口调测,请在正是调用接口前,将postman的SSL认证关闭,步骤如下(示例基于最新版本postman):1. 打开postman,点击右上角扳手图标,点击“setting”菜单,如下图:2. 关闭“SSL certificate verification”,如下图所示:2、获取运维侧token。使用【华为云Stack ManageOne运维侧北向对接】 RESTful接口调用准备工作 中创建的第三方用户帐号、运维侧的域名来调用接口获取运维侧token。接口地址:/rest/plat/smapp/v1/oauth/token请求方法:PUT完整调用URL示例:https://{运维侧对外访问域名}/rest/plat/smapp/v1/oauth/token请求头:Accept:application/jsonContent-Type:application/json;charset=UTF-8请求body:说明:请求body中“userName”字段的值为创建的第三方用户名,“value”字段的值为创建的第三方用户的密码{ "grantType": "password", "userName": "XXX", "value": "***"}响应示例:响应体中,“accessSession”字段的值即为运维侧token:{ "accessSession": "xxxxxxxxxxxxxxx", "roaRand": "xxxxxxxxxx", "expires": 1800, "additionalInfo": null}3、添加指定条件,查询历史/当前告警流水号,此处以logicalRegionId(区域ID)作为筛选条件,查询指定region的告警。(1)首选获取logicalRegionId的值,请求如下:接口地址:/rest/cmdb/v1/instances/SYS_BusinessRegion请求方法:GET完整调用URL示例:https://{运维侧对外访问域名}/rest/cmdb/v1/instances/SYS_BusinessRegion请求头:Content-Type:application/json;charset=UTF-8x-auth-type:tokenAccept:application/json; charset=UTF-8X-Auth-Token:xxxxxxxxxxxxxxx请求body:无响应示例:{ "objList": [ { "mgmtNodeCpuArch": "x86", "timezone": "Asia/Shanghai", "language": "zh_CN", "type": "private_cloud", "storTypeOfMgmt": "ip_san", "serviceScale": "50pm_500vm", "businessNetworkType": "ipv4", "solutionVersion": "8.0.2", "networkNodeType": "vm", "regionType": "master", "id": "B998E09832BA34B4BF3A4C649C421F3C", "last_Modified": 1603358590643, "solutionType": "type_iii", "externalGlobalDomainNamePostfix": "demo802.com", "globalServiceScale": "50pm_500vm", "class_Id": 1010, "globalId": "dg-dg-1", "mgmtNetworkType": "ipv4", "globalDomainNamePostfix": "demo802.com", "resId": "B998E09832BA34B4BF3A4C649C421F3C", "is_Local": true, "locales": "{\"en_us\":\"东莞\",\"zh_cn\":\"东莞\"}", "solutionScense": "hcs", "class_Name": "SYS_BusinessRegion", "name": "东莞", "nativeId": "dg-dg-1", "threeDCInTwoPlaces": false, "status": "normal" } ], "totalNum": 1, "pageSize": 20, "totalPageNo": 1, "currentPage": 1}响应体中的resId的值即为logicalRegionId的值。(2)添加查询条件,查询指定region的历史告警流水号,请求示例如下:接口地址:/rest/fault/v1/history-alarms/csns请求方法:POST完整调用URL示例:https://{运维侧对外访问域名}/rest/fault/v1/history-alarms/csns请求body:{ "query": { "filters": [ { "name": "logicalRegionId", "field": "logicalRegionId", "operator": "=", "values":["B998E09832BA34B4BF3A4C649C421F3C"] } ] }}请求体中参数说明:field支持的参数,请参照ManageOne运维面API参考中该接口的说明,此处需按regionId进行筛选,该值为logicalRegionId,operator值说明同样参照ManageOne运维面API参考中该接口的说明,此处为“=”,即只有告警的logicalRegionId等于values中的首个值,才返回;响应示例:{ "count": 9, "sizeExceeded": false, "csns": [ 531149, 429182, 269443, 147356, 45815, 39910, 39604, 40064, 5841 ]}如需查询多个region的告警,可以将请求body中的operator的值写为“in”,values的值为需要查询的region的resId列表,示例如下:{ "query": { "filters": [ { "name": "logicalRegionId", "field": "logicalRegionId", "operator": "in", "values":["B998E09832BA34B4BF3A4C649C421F3C","D732FA0B65C33E96A83C3A97C3724005"] } ] }}响应示例:{ "count": 15, "sizeExceeded": false, "csns": [ 531149, 429182, 344778, 349176, 349162, 349163, 344752, 304802, 269443, 147356, 45815, 39910, 39604, 40064, 5841 ]}
总条数:317 到第
上滑加载中