• [新手课堂] 资讯|华为云AOM发布2.0版本,3大特性亮相
    AOM作为华为云面向租户的统一运维门户,将在7月1日重磅发布2.0版本。华为云PaaS服务产品部部长徐峰特别提到:“ 这次改版经历了整整一年的时间打磨,经受了华为终端云上亿用户的高强度考验,是一套领先的高效自动化运维系统。它将包含三个核心能力:云上CMDB、可观测性分析和自动化运维。应用与资源管理(CMDB)AOM2.0提供以应用为中心的CMDB,实现多层级应用、子应用、组件到环境的模型管理,建立应用与云资源依赖关系。通过CMDB,用户可以找到应用与下级微服务,以及部署在不同环境(开发环境、测试环境或生产环境等)下的资源实例,包括ECS、RDS、ELB、CCE等云服务实例。为应用监控、告警关联分析以及自动化运维提供配置数据。可观测性分析CNCF官方解释:可观测性是一种系统特征,它描述了一个系统可以从外部输出被理解的程度。计算机系统能观察到CPU时间、内存、磁盘空间、延迟、错误等指标。分析是一种活动,用户可以在这种活动中查看这些可观测到的数据并进行理解。为了确保业务正常运行,您需要观察和分析应用程序的每个方面,以便立即检测和解决异常。可观测性分析相比传统监控,增加了异常诊断和关联分析等能力,因此可观测性分析依赖Metric、Log和Trace三类数据源。 AOM2.0结合了华为云云监控、云日志和应用性能管理服务实现运维统一监控、告警和分析等活动。同时为满足用户多样化的运维诉求,AOM2.0引入“应用”和“容器”运维双视角。 应用视角 面向传统IDC运维场景,企业拥有大量的应用和依赖的资源。用户调研期间反馈在云化场景下,希望提供以应用为中心可观测性分析能力,多层次多维度关联分析。AOM2.0结合CMDB,做到应用、组件和基础设施等资源分层监控、日志分析和调用追踪。 容器视角为迎合Kubernetes容器场景下的用户使用习惯。结合华为云容器引擎CCE,实现容器运维开箱即用。用户可以了解Cluster、Deployment、Node、Container和POD等状态以及可观测性数据(Metric/Log/Trace)一站式分析体验。支持原生Promethues指标对接,兼容PromQL查询语法和Grafana集成。统一监控大盘将指标、日志和性能数据源呈现在一张屏,实现业务、应用和基础设施层立体监控。 业务层。可将ELB负载均衡日志通过LTS接入至AOM中,提取业务接口访问状态、性能指标、用户地理分布和用户访问吞吐等指标。应用层。通过非侵入式探针采集微服务的错误、吞吐和时延黄金指标,或集成原生Prometheus中deployment、cluster丰富的指标数据。基础设施层。AOM无缝集成云监控CES,将云服务DCS、RDS等云服务指标自动化运维AOM2.0基于Serverless架构,提供多种开箱即用的自动化变更场景模板,包括批量脚本作业、文件管理、定期清理磁盘、业务空闲时释放ECS等。 转自华为开发者社区
  • [技术干货] 2022年中国运维安全产品市场规模及发展趋势预测
    中商情报网讯:随着企业数字化转型的持续推进,信息化、数字化、智能化已经不可逆地融入到企业整体发展战略,企业管理者越来越清晰地认识到网络安全对保障业务持续发展的重要作用。市场规模中国对疫情的有效防控,帮助企业尽快实现了复工复产,企业信息化建设的步伐明显加快,同步提升了对网络安全产品和服务的需求,促进了中国整体网络安全市场快速增长。2021年中国运维安全管理产品硬件产品的市场规模达到1.6亿美元,同比增长 18.9%,整体市场呈现平稳增长的态势。预计2022年将增长至1.8亿美元。数据来源:IDC、中商产业研究院整理发展趋势1.产品性能受到行业头部客户的重点关注支持多场景、任意环境、大体量的集群与分级部署可以更好地匹配大型数据中心的规模,实现高可用、高负载,通过可编程环境通道实现便捷、安全、高效的数据流通。2.向数据库运维场景的延伸《数据安全法》的发布促进了数据安全重要性的迅速提升,企业对数据库运维过程中的深度协议解析、数据访问控制、数据脱敏以及数据库操作审计等要求明显提高,运维安全管理产品成为企业数据库运维的门户,在降低数据库运维复杂度的同时,保证数据的安全性。另外,对于数据安全的有效管控可以为大数据治理打下坚实的基础。3.重点行业对运维安全管理产品提出更多定制化需求尤其是金融、运营商、公共事业、能源等行业正在从采购标准化产品为主向“定制化服务+产品”模式需求转变。技术提供商需要结合不同行业的业务需求提供较强的定制化服务能力,将产品进行定制化改造以便更好地与企业内部其他IT业务系统进行耦合。4.产品的云化成为发展趋势公有云、私有云等云计算平台在我国持续快速发展,越来越多的企业资产和重要业务迁移到云端,运维安全管理产品的云化部署将成为日益普遍的市场需求。技术提供商正在不断加大与云平台的合作,并促进了运维安全管理软件市场的快速发展。更多资料请参考中商产业研究院发布的《中国网络安全行业市场前景及投资机会研究报告》,同时中商产业研究院还提供产业大数据、产业情报、产业研究报告、产业规划、园区规划、十四五规划、产业招商引资等服务。来源: 中商情报网
  • [交流吐槽] 华为携手银联,共筑网络数字化运维基座的中奖名单已发布
    地址就不贴了,码豆已发放请注意签收
  • [技术干货] 华为云时序时空数据库openGemini正式开源
           6月16日,在华为伙伴暨开发者大会2022上,华为云将GaussDB时序时空数据库内核开源,并命名为openGemini。华为云数据库创新Lab主任张文亮在华为云数据库专题论坛对openGemini进行了详细的技术解读,介绍了其创新架构、卓越的读写性能、高效的数据分析和数据压缩等能力,并称其是企业数字化转型升级,海量时序时空数据处理的最佳选择。  物联网时代,设备数量激增,数据库面临更大挑战。比如高并发写入大量数据如何保证高性能?每天GB、TB级数据如何降低存储成本?海量数据的聚合分析如何满足业务要求?与此同时,随着企业数字化和云计算技术的发展,企业IT系统数量越来越多,功能也越来越复杂,导致企业在处理数据时存在诸多挑战。首先,数据存在多种模态,分散存储在多套系统中。其次,数据指标类型多,采样频率高,数据增长迅猛。第三,业务种类繁多,对分析的时效性要求越来越高。最后,业务之间存在复杂的关联,故障检测和根因分析很困难。多个系统的运维监控也对数据库提出了新的需求。  时序数据库是针对物联网和运维监控等场景,结合业务和数据特点专门设计的一种垂直领域数据库系统,在数据压缩精简、数据分层存储、连续数据查询以及数据分析等方面具有超越传统关系型数据库的明显特点和优势。  华为云整合产业和技术优势,打造了业界领先的企业级时序数据库GaussDB(for Influx),并经过外部公有云业务服务化的锤炼以及内部DevOps等业务的长时间打磨,在大规模集群、高性能查询、分级压缩存储等方面都有明显优势。在此次大会上,华为云宣布将GaussDB(for Influx)内核正式对外开源,开源品牌命名为openGemini,它是继openGauss数据库开源之后,华为开源的又一关键数据库系统。  openGemini兼容InfluxDB、Prometheus生态API,具有高性能、高扩展、存储-分析一体化、运维成本低、高数据压缩率等5大优势。openGemini数据库全景图  • 高性能,千亿级时序数据全生命周期管理  openGemini通过多核并行算法、数据分级存储、向量化、数据预处理、近数据处理等技术,实现极致读写性能。在海量数据场景下,支持每天万亿指标数据写入,万级传感器数据时空聚合查询亚秒级响应,在同类开源产品中性能优势明显。  • 高扩展,满足企业复杂业务处理诉求  openGemini由ts-sql, ts-store, ts-meta三个组件组成,每个组件可单独扩展,能够支撑100+节点的扩展,可灵活应对不同时序业务场景。  • 存储-分析一体化,实现数据闭环管理  • openGemini基于AI技术的强大数据分析能力,提供时序预测、时序异常检测能力,实现了数据从存储到分析完整的闭环管理。  • 运维成本低  openGemini架构简单,安装部署灵活,无第三方依赖,大幅减轻了运维的成本。  • 高数据压缩率  openGemini采用行列混存方式,数据按列进行压缩,不同数据类型对应不同的数据压缩算法,极大缩减了数据压缩空间。如华为云某服务存储空间从每天1035GB降低到82GB,缩减了12.6倍。  技术创新是openGemini开源社区持续、健康发展的推动力,华为云将坚持开放合作的运营理念,期待与开发者、企业一起共建openGemini开源社区,实现开源成果的共享,促进时序数据库产业快速发展,实现技术的商业价值和社会价值。  openGemini社区欢迎企业人员、科研工作者、学生等伙伴的加入。让我们携手与共,共创新、赢未来!  openGemini官网地址://www.opengemini.org
  • [技术干货] MessageFlow, 面向边缘终端的物联APP开发管理平台
    MessageFlow是一个低代码开发平台,面向边端终端提供物联APP编排服务。MessageFlow由部署在云端的设计态和部署在边侧设备的运行态组成。开发者可以在云上采用可视化编排的方式开发物联APP,然后一键批量部署到边侧设备上,所编排的APP支持跨平台运行。同时,MessageFlow对部署在边侧的运行态和运行态上运行的APP有高效的运维能力,能极大提高运维效率,降低运维成本。 # 产品价值 1. 开发门槛低,业务人员可编程:提供可视化、低代码的快速App应用开发技术,降低App开发门槛 2. 效率高,比传统模式提升10倍:乐高积木式开发,组件可沉淀复用 3. 高效运维:云上App开发,一键部署到物联终端运行,实现规模化远程部署,避免耗时耗力的现场运维 4. 集中管控:构建统一标准开发框架,实现开发资源、开发过程、App部署的集中管控 5. App安全可信: 基于统一的开发平台,可规避App的安全风险。通过一次开发反复使用,提升App的健壮性 ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20226/16/1655381241490774034.png)
  • [行业资讯] 远程=不安全?浅析国民远控向日葵的远程运维管理安全策略
    过去的30年,是中国互联网高速发展的30年。在这30年中,上至社会进步、文明发展,下至衣食住行、就医求学,方方面面皆因互联网技术的发展而获得了足够多的正面赋能。可以这样说,我们今天的生活如此便捷,生产力提升如此巨大,社会进步如此显著,与互联网技术是分不开的。但是,凡事皆有两面,互联网相关技术也是一柄双刃剑。这一端是高效、高生产力,而另一端则有涉及个人及企业隐私信息的网络新信息安全之虞。近年来频发的网络安全事故和勒索病毒事件便是佐证。连接是互联网的本质之一,而由此衍生出的远程桌面技术,或者说笔者较为关心的远程运维领域,则成为了作为互联网的重要应用。而这正是显著体现互联网“双刃剑”属性的地方之一,我们这里就以远程运维管理为核心,探讨企业面对这把双刃剑应该如何构建成熟合理的安全策略和体系。 远程=不安全?很大程度上源于历史与误解远程控制、远程协助之所以在潜意识里让大家觉得不安全,很大程度上源于曾经发生过的一些网络安全事故,这些事故的前因后果网络上都搜索得到,这里就不赘述了。不可否认的是,这些事故确乎让人们对远程控制、远程运维这些领域产生了不小的误解。但追根溯源,这些事故发生的核心源于往往并非远程控制技术如何如何,而在于彼时相关人员和企业的安全意识淡薄。如今,远程控制所涉及的相关通信加密技术以及相当完善,黑客想通过正面强攻的方式突破安全屏障制造网络安全事故的可能性大大降低,规范合理的使用远程桌面技术是相当安全。当然,墙高池深并不意味着绝对的安全,很多网络攻击其实是光明正大的从“大门”溜达进去的,原因就在于密码的无意泄露,相关人员安全意识不强等等。因此,我们没有必要在涉及安全时一味地对远程控制技术持否定态度,远程控制技术在运维管理等领域的优势显而易见,安全与效率的两全其美是完全可以做到的。技术永远不会是洪水猛兽,对于安全上的担忧,我们应当从构建体系和整体策略入手辩证的看待,一旦陷入“远程=不安全”的偏执,可能会即得不到效率的提升,也做不到全面的安全。那么站在企业运维管理者的角度,我们应该如何构建一个合理完善的远程运维安全管理体系呢? 构建远程运维安全管理策略的几个要点在笔者看来,企业在构建远程运维方面,乃至于整体的企业信息安全策略时,应当注重以下几个要点,首先是针对整体的企业信息安全的:●强化安全意识,杜绝无意泄露前文提到过,许多信息安全事故的发生源于安全意识的薄弱,因此强化企业内部人员的信息安全意识尤为重要。对此企业可以定期在内部进行信息安全培训,提升相关人员的敏感性。●设置硬性安全门槛,补全内部规章制度安全意识的种子种下后,还需要对应的制度进行强化。对此,企业可以制订一系列的规章制度,比如规定公司设备访问密码必须使用强密码、限定网络中主体所需最小特权等等。●定期进行安全筛查,及时修复系统漏洞为了防止过久不更新的系统被简单入侵,定期的进行安全筛查,更新并修复系统漏洞也十分重要,同时企业应当建立严格执行的数据备份与恢复方案,确保敏感数据的安全性。●采用安全可靠的商用解决方案在业务的解决方案上,选择可靠的,有安全保障的,成熟的商用解决方案。此外,针对远程运维这个环节本身,下面的要点也值得注意:●制定明确的流程规范,强化远程运维追溯能力●选择安全相关技术过硬,值得信赖的远程控制工具可以看出,无论是企业本身的信息安全保障,还是涉及业务层面的远程运维管理,除了规范化的管理之外,商用解决方案本身所处的位置也十分重要,使用一款安全可靠的远程控制解决方案方可在业务和安全上两全其美。 怎样的远程控制解决方案才算“安全”说了那么多,那么怎样的远程控制解决方案对于企业来说才说的上安全呢?首先,要有过硬的技术支撑,有权威的机构背书,不能被技术手段轻易攻破;第二,方案本身的安全策略和手段要足够丰富,能够融入企业整体的网络信息安全体系。从这两个方面来看,贝锐旗下国产专业远程控制品牌“向日葵远程控制”(下简称“向日葵”)所推出的一系列商用远程控制产品是十分合适的,作为远程运维的载体,“向日葵”在业内耕耘了十余年,品牌创立之初立意于“阳光下的远程控制”,可见其对于安全的重视,颇有拨云见日的决心,发展至今也始终秉持着初期的理念,成为了国产软件中的翘楚。而在方案本身的安全策略方面,向日葵也考虑的足够全面:●多因子安全,登录防范可创建IP、时间段黑白名单库,仅允许授权的地址及时间段远控,未知连接将会被自动拒绝;基于条件的登录,可单独或叠加验证MAC地址、IP及时间段,防止因帐号密码泄露导致运维身份冒用。●异地登录提醒,防范帐号丢失为了保护帐号安全,当判断到帐号在异地登录,发出告警,提醒用户确认登录安全;可开启新设备登录验证,检测到新设备登录时,需要管理员进行二次确认,仅有受信任的设备才可登录。●设置告警策略,实时接收告警可自由配置企业的告警策略,告警信息及时推送给指定告警对象,避免因消息滞后导致设备异常未能及时处理。●安全审计,职责追踪准确记录远控时间,操作的时间与行为确保发生安全事件时可有效追溯;可查看帐号的登录时间,登录地点以及在什么平台登录,判断帐号是否存在安全问题而在安全技术方面,向日葵数据传输采用最高级加密标准AES 256位对称加密及RSA 2048位非对称加密,实现用户资料、会话的多重加密保护。同时,向日葵系列产品和服务已经通过国家公安部信息系统安全等级保护三级认证、WHQL微软徽标认证、ISO9001质量管理体系认证和ISO27001信息安全管理体系认证,并相继获得“中国远程控制行业用户放心品牌”、“中国软件技术最佳解决方案”、“中国智慧办公产业最佳产品”等荣誉,得到广大用户及专业组织认可。
  • [交流讨论] 【趋势风向标】自动化转型中的新角色:网络运维工程师+软件开发工程师
    时代在前进,科技在发展,我们的工种、和工作内容,也在悄然发生改变。传统的企业和运营商中,“网络运维工程师”与“软件开发工程师”泾渭分明,而今,在自动化DevOps的大趋势推动下,具备网络和编程双重技能的网络开发工程师,逐渐走向舞台的中央。最近看了一些这方面学习的信息,分享给大家。 Q:我是一名程序员,为什么要学习通信知识?如何入手?Q:我是一名网络工程师,为什么要学习编程?如何入手?A:数通网络是整个智能世界的神经,今天不联网的应用已经少之又少,所以一名优秀的程序员必须具备基本的网络知识。另一方面,数通网络也在向软件化方向发展,越来越多的应用程序会直接调用网络层面的服务。华为HCIP-Datacom有一个子方向是Network Automation Developer,主要面向网络自动化开发的程序员,在兼顾原理与工具的同时,还介绍了华为的开放可编程平台。如果正好从事这方面的开发工作、或者想向这方面迁移技能,就可以通过这个课程进行学习。 Q:网络自动化,学什么?A:华为认证课程中,数据通信高级工程师-网络自动化分支(HCIP-Datacom Network Automation Developer),分为四大部分编程基础 20%Python编程基础Git原理与实践软件版本控制华为云代码托管 设备开放编程 50%SSH基本原理和密码学基础使用SSH自动化构建网络使用SFTP进行文件传输SNMP基本原理与配置使用SNMP自动化管理网络NETCONF/YANG/RESTCONF基本原理与配置使用NETCONF/RESTCONF自动化配置网络Telemetry基本原理与配置使用OPS实现华为设备自动化 iMaster NCE北向开放 25%REST与RESTful基本原理HTTP与HTTPS基本原理北向RESTful接口调用实践华为iMaster NCE北向开放API介绍基于iMaster NCE北向开放API,实现二次开发 iMaster NCE业务开放可编程 5%iMaster NCE业务开放可编程原理Jinja2原理,与编写Jinja2模板YANG原理,与编写YANG文件编写网元驱动包实现设备能力开放编写业务包实现网络业务自定义
  • [openEuler] 浅谈openEuler OSV技术测评
    openEuler的影响力:自从openEuler捐献给开放原子开源基金会,越来越多的目光聚集到了国产操作系统之光-openEuler的身上。欧拉开源社区通过开放的社区形式与全球的开发者共同构建一个开放、多元和架构包容的软件生态体系,孵化支持多种 处理器架构、覆盖数字设施全场景,推动企业数字基础设施软硬件、应用生态繁荣发展。openEuler 作为一个操作系统发行版平台,每两年推出一个 LTS 版本。该版本为企业级用户提供了一个安全稳定可靠 的操作系统。 openEuler 也是一个技术孵化器。通过每半年发布一次的创新版,快速集成 openEuler 以及其他社区的最新技术成果, 将社区验证成熟的特性逐步汇合到发行版中。从2019年底 openEuler社区正式成立至今,历经多个LTS版本和创新版本之后,2022 年 3 月 30 日,基于统一的 5.10 内核,发布面向服务器、云计算、边缘计算、嵌入式的全场景 openEuler 22.03 LTS 版本,聚焦算力释放,持续提升资源利用率,打造全场景协同的数字基础设施操作系统。社区适时推出OSV技术测评:openEuler同时作为一款开源免费的操作系统,服务广大开发者和用户的同时,也致力于帮助OSV操作系统厂商开发和发布基于openEuler生态的操作系统商业发行版,为了检测商业发行版生态核心特性不丢失、基础路线一致性,欧拉开源社区适时推出OSV技术测评能力,联合OSV/ISV等社区伙伴,共同制定欧拉兼容性测评标准,欧拉生态创新中心根据该标准进行测试,测试通过后由欧拉开源社区颁发openEuler技术测评证书。• 首先看下测评标准https://gitee.com/openeuler/oecp/blob/master/doc/OECP%E5%B7%A5%E5%85%B7%E6%B5%8B%E8%AF%95%E6%A0%87%E5%87%86.md ,由测评标准可知,基础路线一致性要求了OSV商业发行版的核心包、软件包、内核ABI、系统配置、特性配置、仓库复用度等方面高度兼容、基础性能范围内浮动:测评维度检测项检测点描述测试标准可选工具检测核心包核心包一致性比例名称、小版本完全一致,核心包包括核心包内容一致性,内核、gcc、glibc、qemu、docker、openJDK、systemd、openssh、lvm2、busybox、initscripts核心模块一致性,JDK如果没有,则不会纳入比较项必选软件包L1/L2 软件包一致性比例L1 100%兼容,L2 95%以上兼容,参考社区等级清单定义(附上链接)https://gitee.com/openeuler/oec-application/blob/master/doc/compatibility_level.md 必选内核KABI接口OSV内核KABI接口白名单与openEuler内核KABI接口白名单一致性比例内核-KABI白名单 90%以上兼容可选用户态ABI接口OSV软件包ABI接口与openEuler软件包ABI一致性比例L1 100%兼容,L2 95%以上兼容,参考社区等级清单定义必选Service默认配置OSV软件包Service文件与openEuler软件包Service文件一致性比例全量默认配置一致性90%以上可选软件包默认配置OSV软件包配置文件与openEuler软件包配置文件一致性比例全量默认配置一致性90%以上,目前对于OSV厂商新增的配置,不会作为差异比较可选内核特性配置内核特性配置内核关键配置一致性,达90%以上必选平台验证仓库EPOL仓/软件所仓库在OSV版本上安装成功比例仓库复用度90%以上必选基本功能社区AT用例运行结果社区AT用例运行结果100%通过必选基础性能基础性能测试结果性能浮动5%以内必选运行时默认配置运行时默认配置全量运行时默认配置一致性90%以上可选• 其次以首个通过测评的OSV版本-超聚变FusionOS-22_22.0.1_x86-64为例,FusionOS对系统进行了深度增强,主要技术特性如下:• 高可靠:FusionOS 通过文件系统加固、高危操作控制、故障预测和隔离,故障分级自愈以及核心资源过载控制等特性,降低系统宕机风险,全方位保障操作系统的可靠性。• 高性能:FusionOS 采用软硬件分层垂直优化的方法,针对应用接口、系统服务和底层微架构进行了深度调优。调优内容包含 CPU 调度、IO 驱动、网络协议、文件系统、内存管理及基础软件库等,为客户业务带来出色性能体验。• 易运维:FusionOS 针对操作系统全生命周期的管理,面向部署、运维等场景,提供完整解决方案。支持一键收集关键日志、快速系统部署升级以及关键资源监控告警等特性,旨在提高用户在操作系统运维过程中的自动化和智能化水平,提升客户运维效率。FusionOS做了这些特性增强的同时依然延续了openEuler生态路线,它的测评结果依然满足了测评标准:故而最终顺利上线欧拉开源社区OSV技术测评列表:如何开展测评活动:那么如何开展测评活动呢?只需按照如下步骤一一申请https://www.openeuler.org/zh/approve/approve-step/ ,其中提交issue的时候填写ISO镜像下载地址,再留下您的联系方式,我们会持续与您沟通,并在约14个工作日内完成测评给予反馈。测评依托OECP工具:可能有人会问OSV技术测评是怎么做到的?OSV厂商是否能提前自验证?答案是测评标准里的所有检测点我们使用oecp工具https://gitee.com/openeuler/oecp 来完成,工具已开源发布到码云,所以OSV厂商完全可以提前下载oecp工具完成主要内容的自验证,如有使用问题也是通过issue处理。接下来简单介绍工具使用和报告解读:0. 主要功能1.检测2个ISO(基于RPM)的软件包,软件包内文件,库文件接口(C/C++),内核KABI的变化差异2.检测同一个软件(rpm包)在不同版本下的变化以及差异1. 运行环境1.1. oecp运行环境依赖组件组件组件描述可获得性python3python3.7.9及以上可先通过yum list命令查看,如果没有该版本需要下载安装sqlitev3.7.17 及以上版本系统自带2. oecp下载安装与部署install abidiff:yum install -y epel-release yum install -y libabigail(注意:openeuler需要配置openEuler-20.03-SP2以上版本everything仓库)install oecp:git clone https://gitee.com/openeuler/oecp.git  cd oecp pip3 install -r requirement3. oecp使用python3 cli.py [-h] [-n PARALLEL] [-w WORK_DIR] [-p PLAN_PATH] [-c CATEGORY_PATH] [-b PERF_BASELINE_FILE] [-a {x86_64,aarch64}] [-f OUTPUT_FORMAT] [-o OUTPUT_FILE] file1 file2• 位置参数(必选)o file 指定两个比较的iso文件,注意以file1作为基准• 可选参数o -n, --parallel 指定进程池并发数量,默认cpu核数o -w, --work-dir 指定工作路径,默认路径为/tmp/oecpo -p, --plan 指定比较计划,默认为oecp/conf/plan/all.jsono -c, --category 指定包级别信息,默认为oecp/conf/category/category.jsono -b, --baseline 指定基线文件,默认为oecp/conf/performance/openEuler-20.03-LTS-aarch64-dvd.iso.performance.jsono -f, --format 指定输出格式,默认为csvo -o, --output 指定输出结果路径,默认为/tmp/oecp• 举例o python3 cli.py /root/openEuler-20.03-LTS-aarch64-dvd.iso /root/openEuler-20.03-LTS-SP1-aarch64-dvd.iso• 比较计划说明o all.json 涵盖下面所有配置项的比较o config_file.json 比较rpm包中配置文件内容的差异,需依赖RPMExtractDumper(提取解压rpm的dumper类)o filelist.json 比较rpm包文件列表差异,可通过rpm -pql ${rpm_path}命令获取rpm文件列表o kconfig.json 比较内核配置文件,需依赖RPMExtractDumper(提取解压rpm的dumper类)o package_list.json 比较两个rpm集合包名称、版本、发行版本的差异o provides_requires.json 比较rpm的provides和requires差异,可通过rpm -pq --provides/requires ${rpm_path}查询python3 cli.py CentOS-6-8-x86_64-bin-DVD1.iso CentOS-7-x86_64-Everything-1810.iso,检测完成后下载报告到本地PC打开,报告目录结构如下:查看osv_data_summary.xlsx,该文件展示了与测评标准一致的测试项,工具检测内容需要全部是PASS查看all-rpm-report.csv,该文件汇总了iso里所有rpm包的扫描结果, compare_type选择rpm package name时compare_result列分成了1至5级,compare_type选择包括drive kabi、kabi、kconfig、rpm files、rpm provides等维度的时候,compare_result列分成了diff/same;另外osv_data_summary.xlsx里的“L1/L2软件包一致性比例”可以通过筛选category level=1&2来进一步分析。 比如筛选其中的diff内容,再详细查看具体差异,根据compare_detail列查看rpm_analyse/rpm-requires/libacl-2.2.49-6.el6.x86_64.rpm.csv
  • [交流分享] 【云管理】企业多元化私有云设施管理用什么软件好?
    众所周知,私有云设施包含OpenStack、VMware,以及物理服务器、虚拟机、网络设备、存储设备等等。简单来说就是私有云设施多元化。那企业多元化私有云设施管理用什么软件好?咨询电话多少?企业多元化私有云设施管理用什么软件好?咨询电话多少?【回答】:企业多元化私有云设施管理用行云管家。行云管家云管平台,一站式管理公有云、私有云、本地/IDC物理设备等主机、网络、存储等资源。<行云管家SaaS版>更是开箱即用,通过AccessKey、API、局域网等一键导入各类主机资源,完全不需要给一个个主机安装什么远程控制软件。不管是云服务器还是本地服务器,需要的功能应有尽有:支持运维主流管理协议、集成运维主流管理工具、自动化运维、主机使用状态监控与告警功能、协同在线会诊、文件传输等等功能,当然了,还有更多功能哦!行云管家云管平台核心功能介绍1)支持业界主流公有云厂商,以及OpenStack、VMware等私有云设施;2)提供基于工单流程的云资源申请、创建、交付、运维、销毁全生命周期管理;3)从系统安全、网络安全、性能负载、趋势预测4个维度实现主机的监控与体检;4)内置堡垒机模块,承担起用户在管理IT资产的运维中枢、会诊平台和“事前授权、事中监管、事后审计”的黑匣子等职责,全面保障企业IT资产的安全运维、合规审计;5)分析读取公有云账单,从各个维度分析云主机的各项成本支出,通过对应用负载的数据挖掘,告诉您如何进行云资源的增减配;6)自动化运维,提供脚本/命令批量执行、预设脚本库、文件自动分发/收集、任务编排等自动化运维特性;7)支持SaaS形态和私有化部署形态。转载:https://www.cloudbility.com/club/14573.html
  • [热门活动] openGauss 训练营第三期结营啦!PPT &amp; 85个FAQ大放送!文末附51位结营学员名单
    为了让更多的数据库技术爱好者、从业人员能够更深入地了解  openGauss、备考 OGCA,由 openGauss 社区、Gauss 松鼠会、云和恩墨联合主办的“8小时玩转 openGauss 训练营”主题活动也进行到了第三期。5月14-15日,由 openGauss 布道师、数据库技术专家、openGauss 社区技术委员会成员李士福老师领衔,11位 openGauss 资深技术专家共同授课的训练营活动在墨天轮平台进行了线上直播,为大家带来最精华、最实用、最高效的 openGauss 课程。本次活动吸引了超千名学员参与学习,最终有51人完成全部任务顺利结营!在为期2天的8小时学习过程中,主讲老师们为大家详细讲解了 openGauss 的核心知识、关键技术和运维实践,带领学员们快速掌握了 openGauss 的核心架构、特色功能和产品优势。学员们更是学习热情高涨、讨论热烈、积极与讲师们互动,总共提出了300多个问题。限于篇幅,除去讲师们直播时已在线解答的以外,小编精选了85个问题请老师解答,并在此放送给大家,快来看看有没有解答你心中的疑问吧!Q&A1. openGauss 是否支持像Oracle RAC的功能?openGauss后续演进中提供DSS共享存储及DMS共享内存(备机实时一致性)能力。2. openGauss能否兼容MySQL?openGauss兼容MySQL,包括在gs_initdb时候指定dbcompatibility参数来进行兼容,同时社区提供兼容插件供大家在迁移MySQL时候使用。3. openGauss有没有执行计划缓存呢?openGauss有计划缓存,提供global plancache能力。4. openGauss对数据的加密是如何做的?openGauss提供数据加解密函数gs_encrypt_aes128,同时在多个特性提供数据加解密功能,例如数据导入导出、数据库备份恢复。5. SQL分析器是基于什么因素来区分路径优劣的?优化器针对某个SQL语句获得其最优的执行路径,枚举不同的候选的执行路径,这些执行路径互相等价,但是执行效率不同,分布计算它们的执行代价,最终可以获得一个最优的执行路径。6. openGauss采用的线程技术PostgreSQL是否采用了?当前PostgreSQL对于每个客户端连接,通过fork单独进程来执行,和openGauss的架构不相同。openGauss实现线程化改造,通过线程模型来提升并行性能。7. openGauss数据库支持哪几种可接入监控工具?openGauss社区开发者提供基于grafana + prometheus + opengauss_exporter方式进行数据库节点监控,同时AI框架DBMind也提供类似能力,欢迎大家使用。8. 一个update 语句在openGauss 里面是如何执行的?openGauss提供Append only和inplace update两种存储引擎模式,在处理update语句上有些许区别,可以参考源码和相关技术文章来了解。9. 多核架构的高效处理是怎么处理的?openGauss在多核架构的处理上做了很多优化,包括Numa相关设计及优化、并行执行、线程池架构等。10. openGauss处理多并发的安全性稳定性如何?在大并发场景下,openGauss提供线程池能力,控制并发数量,保障系统稳定;以及提供增量checkpointer等机制,保障性能波动不超过5%。11. NUMA线程绑核是怎么操作的?避免线程在运行中在不同核上漂移,从而引起访问NUMA远端内存。openGuass通过配置参数thread_pool_attr控制CPU绑核分配,该参数仅在enable_thread_pool打开后生效。12. TPC-C的计算工具或方法可以介绍一下吗?TPC-C是用计算机设备在每分钟内所能处理的标准事务的数量来衡量其处理能力的多少;TPC-C的通用估算公式如下:  TPC-C = ∑(每分钟业务事务量 * 标准事务量比率)/ (1 — 冗余率)。具体可以参考相关资料来学校。13. 关闭NUMA性能会衰减很多吗?关闭NUMA绑核后,性能会有一定衰减,大概20%左右。14. 线程绑核的时候是怎么减少cache line的访问的?以WALInsertLock优化来讲,将全局WALInsertLock数组按照NUMA Node的数目分为多份,分别在对应NUMA Node上申请内存。每个事务线程根据自己所归属的NUMA Node,选择WALInsertLocks子数组。WALInsertLock引用了共享内存中的LWLock,为了最大化减少跨Node竞争,将LWLock直接嵌入到WALInsertLock内部,这样就可以一起进行NUMA分布,同时还减少了一次Cache Line访问。15. 有没有做类似Oracle RAC架构的路线图?openGauss后续演进中提供DSS共享存储及DMS共享内存(备机实时一致性)能力。16. 主备机制与Oracle的DG的区别和优势分别是什么?openGauss主备机制提供物理复制能力,在主备节点间进行日志同步,实现节点故障或者重启情况下,数据无丢失;同时提供逻辑解码能力,将物理日志反解析为逻辑日志。通过DRS等逻辑复制工具将逻辑日志转化为SQL语句,到对端数据库回放,达到异构数据库同步数据的功能。17. openGauss与华为高斯数据库的差异,企业如何选型?openGauss内核和华为GaussDB Kernel共基线开发,所以代码演进上是一致的。openGauss社区版本是由DBV伙伴来提供数据库产品和服务,华为GaussDB Kernel通过华为云GaussDB (for openGauss)对外提供服务,企业可以根据自己需求选择华为云或者openGauss DBV。18. 部署主备的xml支持安装前的语法语义校验么?支持基本的语法检验和组件关系,如果解析失败,将会影响安装流程。19. 全密态会不会影响性能?是否能取消全密态?数据不加密就不会影响性能,全密态在对加密字段做查询的时候对性能有影响。如果已经将某字段进行了加密,也可以通过脚本变成非加密字段,但有一定的复杂度。20. 如果之前是openGauss 2.0的版本,一主一备,如果要升级到3.0,需要有什么注意的吗?如果需要CM组件的话,需要扩容到一主两备。21. 是否支持先安装主,过段时间再新增备?安装部署是不是一定要通过xml文件方式?可以自己手动挨个initDB,然后通过配置搭建主备关系,但是相对比较复杂,易用性不好。22. 如果应用程序使用PostgreSQL,是否可以直接切换成openGuass?大部分语法是兼容的,不排除部分业务需要改造适配。23. openGuass的主备切换的时间大约多长?RTO和硬件环境强相关,当前在商用环境上,openGuass 主备切换时间可以在10s内完成。24. 这个集群的server和agent和zabbix server agent是一样的吗?有哪些区别?server agent 架构主要是工作职责上的区分,server 重点关注数据汇总处理,而agent更加倾向于本地化,主要负责本节点的管理对象操作。25. 集群中的CMServer数量要求奇数个吗?没有强制要求,因为CMServer是基于Paxos协议选主,建议部署≥3的奇数个节点。26. monitor是什么进程监控?怎么重新拉起?om_moniter,主要负责监控cm_agent进程,我们在集群安装的时候,会把moniter的拉起命令写入系统crontab中,由操作系统定期拉起。27. 当主库因为故障,造成主备切换后,如果原主库再恢复,可以变成新主的备吗?备机恢复后会自动加入集群。备机会自动被CMA拉起,会被CMS仲裁出角色(备),并连接指定主机。部分可build解决的故障,CM会自动下发build修复。28. CM都有哪些仲裁?当前社区开放的主要有选主仲裁(无主,双主,僵死,网络故障,磁盘故障等场景),磁盘满只读保护仲裁,AZ级网络故障仲裁等。29. 切换命令switchover或者failover是否可以在集群任意一个节点执行?是的,集群所有命令都可以跨节点执行。30. 6节点的环境,为何cm_ctlquery时,只看到5个节点?答:没有少,不同节点可以部署不一样的实例,例子中CMS部署在节点1,3,4,5,6的,而数据库是在节点1,2,3,4,5,展示上都是五个,实际用了6个节点。31. 慢SQL对应需要开启的参数和视图是哪些?当前慢SQL受log_min_duration_statement参数控制,具体的慢SQL信息存储于postgres库下的statement_history表32. dbe_perf是自带的还是需要自建?dbe_perf是自带的一个schema,内部包含很多系统内置的性能视图,可以查询pg_views获取具体视图列表33. 请问DATA_IO_TIME偏高的时候应该怎么具体分析?有很多种可能性,比如:可能是IO满导致的IO争抢;也可能是IO相关的读写策略配置问题;也有可能是SQL计划不优导致走全表扫描等,需要具体情况具体分析。34. TOP10 ENVETS 会打入日志文件里吗?当前WDR snapshot过程中会把wait events信息写入相关表;同时调用capture_view_to_json函数,传入wait events视图,也可以将相关信息以json形式存储到pg_perf目录下(同pg_log同级目录)。35. 数据库服务器CPU、MEM、IO分别很高情况下,分析应该怎么入手?首先看哪些?然后再分析哪些?这个要具体问题具体分析,首先要明确这块是不是数据库内核导致的CPU/MEM/IO高,如果是,则再继续分析。对于CPU高,一般较大概率是SQL导致的,可以试着分析一下WDR、归一化SQL内的CPU Time信息;对于MEM高,可以运行时的时候查看SESSION相关的内存视图,或者在线会话数量变化信息;对于IO高的话,可以使用pidstat/iotop等,以及结合内核内慢SQL、WDR、归一化SQL看一下行活动或者cache/io相关指标。36. WDR能设定数据保留时间吗?受wdr_snapshot_retention_days参数控制。37. 集群的WDR报告是在主节点生成吗?从节点是否可以生成?主从节点上都可以生成WDR报告,运行相关函数即可。38. 数据库自治其SQL等信息收集、查询优化,对数据库性能会不会有影响?(1)数据库自治中的信息收集的执行频率是可调的,对于数据库的影响可以控制。(2)数据库查询优化现在已经能够做到微秒级别,通过场景的判断,我们可以决定是使用Gplan还是Cplan(GPlan采用了计划缓存机制不总走优化器)。也可以决定是否要走AI多列模型。39. DB4AI能否在opengauss社区版本上使用?是否有限制?社区版本已经包含一些算子,语法默认支持,可以直接使用。40. AI是否会需要统计信息,如果不需要统计信息是否自动收集?AI优化器需要统计信息,需要数据样本或者负载样本支持训练。41. 模型文件存储成什么类型?使用系统表存储二进制串格式。42. AI模型推荐优化的哪些内容是怎么展现出来的?命令行调用优化组件会直接回显结果,也可以部署相应的服务将结果存入系统表或者前端界面。43. AI算法执行是否影响数据自有性能?数据库内置AI算法都是比较轻量级的算法,执行时间和成本是很小的,但是虽然代价很小,占用计算资源是不可避免的。44. AI诊断后出具的报告是否包含处理或解决方法?AI是否具有自动调优功能?包含建议的解决方案。目前具备的自调优包括参数调优和索引推荐调优,之后还会加入一些基于OM工具的系统恢复。45. 如何确认使用AI算法后,执行效率是最优的?使用AI算法的基数估计在列相关性强的场景下准确性要优于传统方法1-2个数量级,大部分情况下可以让执行计划更优。但是查询优化是个NP难问题,保证最优也是比较难的。46. 数据库默认开启AI特性吗? 机器学习以及相关模型的训练对数据库性能影响有多大?DB4AI特性和自治运维特性和数据库功能相对比较隔离,默认开启。AI优化器和数据库内核功能关系比较密切,可以使用GUC参数配置开启。我们使用场景识别以及模型本身的性能设计确保对于数据库只有正向收益。在基数估计中,机器学习的训练过程代价和传统统计信息创建的代价相当,对于数据库性能不会有过多影响。47. AI自治功能目前有哪些成功的企业应用案例?华为云,消费者云以及一些DBV客户都有应用。48. AI的诊断异常的这些指标的基准值是多少?是如何进行判断的?采用了基于差分的基数判断异常,不仅仅依赖基准值(阈值)。识别的关键特征包括波动加剧,有毛刺,以及周期性破 坏等,不需要预先加入基准值。49. 脱敏策略和全密态策略适用哪些不同场景?openGauss的脱敏策略,属于动态脱敏,适合于对外发布数据,或者对其他用户共享数据时使用,数据接收者只能获取到脱敏之后的数据,可以保护用户隐私不被泄露。全密态策略,适合于高强度保护数据机密性,除了应用本身外的任何人或物都无法获取数据明文,能够极大提升机密数据安全性。50. 全密态对底层存储有影响吗?比如存储空间膨胀?全密态加密字段,会造成存储膨胀,但是相比于整个数据库空间,膨胀系数不大。51. 全密态数据库,在数据备份和恢复时,是否会增加运维的难度?正常的物理备份和恢复,并不会改变运维过程。但逻辑备份和恢复,会需要配置密钥,并且执行加解密过程, 且备份文件不再加密。52. 加密对性能影响大吗?加密对一般数据库TPCC性能影响,在10%左右,不同加密的场景也不一样,性能损耗也有差别,一般可以选择只对重要数据加密。53. 运维openGauss时,加密是自动完成的吗?需要独立部署组件吗?正常的物理备份和恢复,并不会改变运维过程。但逻辑备份和恢复,会需要使用对应版本的libpq,配置密钥,并且执行加解密过程, 且备份文件不再加密。54. 应用连接HA的连接串是怎么配置的?应用连接HA的连接串是安装时OM预写入的。55. 工作中遇到scram的报错,请教了别人说是PG驱动和openGauss驱动不能共存,这是什么原因呢?在jvm虚拟机中是不允许同时加载两个相同的driver类,因为openGauss驱动兼容PG的driver类;不过openGauss-jdbc 3.0除了支持兼容PG的driver,也有独立的org.opengauss.Driver类,此时PG驱动和openGauss驱动可以共存。56. openGauss目前支持不同节点不同的安全访问配置吗?不同的节点是可以设置不同的策略,不过HA一般不这样设置,除非有特殊的使用场景,此时可以用include方式包含hba文件,hba文件存放到PGDATA之外来保持差异性,因为主从切换可能会覆盖PGDATA里的配置。57. 动态脱敏支持中文数据吗?比如地址信息。只要数据库编码支持中文就可以,比如通用的UTF8、EUC_CN、GBK。58. openGauss数据库的字符集都是支持哪几种?支持GBK吗?字符集的支持可以查看系统表pg_collation,支持简体中文的编码包括UTF8、EUC_CN、GBK。59. Oracle迁移到openGuass 存储过程及函数兼容性怎么样?Oracle迁移到openGuass相比迁移到PG有很多兼容性提升,训练营分享的<<opengauss与PostgreSQL部分特性对比>>也有一些介绍。60. Toad Edge支持PG,是否也可以用在openGauss 上?支持。61. Dbeaver等图形工具是否支持 openGauss 特有的数据字典?支持。62. openGauss有支持其它国产的中间件吗?支持,如东方通,宝兰德,金蝶天燕等。63. 1主2同步备2异步备的集群场景下,jdbc连接串应该怎么来配置达到HA(主库故障同步备生效)?jdbc连接串只能配置连接主库角色,切换要借助CM和其他的一些工具(它们会判断如何切换到同步备库)。64. 一主多备和两主三备的备机配置是一样的吗?不一样的,目前openGauss用OM搭建的集群不支持两主。65. 可以自动检测需要摘除的节点吗?暂时不可以。需要人工去判断,也是根据实际需求摘除。自动摘除对安全性没有保障。66. 检查新节点的环境变量具体有哪些?GAUSSHOME、PATH、LD_LIBRARY_PATH以及数据目录等。67. 扩容增加节点,有没有自动校验脚本?在扩容命令时会进行检验,如果有问题会提示出来。68. 请问扩容过程中需要停业务吗?数据库的数据迁移怎么迁移?不需要停业务,云和恩墨研发的MTK工具可以平滑迁移。69. 同步备能缩容吗?有哪些需要注意的影响?可以的,注意如果执行删除命令的同时主机上存在事务操作,事务提交时会出现短暂卡顿,删除完成后事务处理可继续进行。70. 扩容互信的前提条件有那些?主备之间的root和omm用户都要有互信。71. clusterconfig.xml修改哪些参数?节点信息,数据目录位置等。72. 升级的过程,可以先升级备节点,然后切换主备,最后把原主节点再单独升级么?不可以的,就地升级和灰度升级都是一次性升级全部节点。73. 缩容和扩容一般在什么场景下进行的?增加删除节点时候或硬件损坏需要移除节点时候。74. openGauss在缩容节点之后,被摘除的节点上的软件及数据一定要使用gs_uninstall来清理么?也可以使用rm的方式清理,但是gs_uninstall工具可以减少自己查找对应目录的动作,避免漏掉要清理的环境。75. 之前做升级的时候,升级之后发现逻辑解码失效了。这个升级会影响原本的逻辑复制槽的使用么?出现这样的问题应该是因为wal2json.so文件没有拷贝到升级后的新的环境目录下。因为升级过程是不会做这一步的,数据库升级完拉起之后,想要进行逻辑解码,但是缺少了wal2json,就会有问题了。76. 就地升级是要业务停止连接数据库吗?灰度升级和就地升级有什么区别?升级前应该怎么选择升级的方式?升级过程也是会停数据库的,因为替换软件包后,要用新的软件把数据库拉起;灰度升级和就地升级区别在于是否可以在业务进行时候操作,一般生产选择灰度升级,对升级的割接窗口较大时候可以考虑选择就地升级。77. 扩缩容时,相关命令是只能在主节点上执行吗?缩容是一定要在主节点进行的,扩容的话,最好在主节点进行。78. 大版本之间是否可以做灰度升级?可以的。79. 数据库版本升级后,相关插件会失效吗?另外主备节点是否可以使用小版本不同的数据库?会失效,例如升级过程的wal2json.so文件就不会拷贝,需要手动拷贝。主备节点最好不要这样做,在实际运维的时候会出现问题,且环境检查的时候可能就会出现相关报错。80. 灰度升级大概需要多少时间?大概时间在十秒之内81. 数据库云管平台相比于其他监控有哪些优势呢?数据库云管平台在满足监控的基础上,能快速构建、快捷运维、智能分析、高效巡检能力,提升了效率。82. prometheus的数据保留时间是多长?默认为15天。启动时带上这个参数--storage.tsdb.retention=90d可以延长,也可以自定义。prometheus按照block块的方式来存储数据,每2小时为一个时间单位,首先会存储到内存中,当到达2小时后,会自动写入磁盘中。83. 流水表中的日期时间类的字段能做索引吗?可以创建索引,同时建议应该结合分区表。84. gs_om -t refreshconf 刷新动态配置文件,这个是切换后一定要执行的吗,不执行是否有隐患?是的,需要用这个命令将数据库角色更新到对应的二进制文件,否则再重启集群之后,主备关系可能出现问题。85. 慢SQL是否会有日志记录?需要手动配置,还是默认打开?慢SQL需要通过log_min_duration_statement参数去设置,同时在dbe_perf.statement 和 dbe_perf.statement_history 中去查看。PPT为了能让学员们随时复习所学知识,也为了弥补没能参与这次训练营活动的朋友们的遗憾,组织者已把各位老师的培训课件整理在墨天轮上,快点去get这些宝贵的学习资料吧!(点击文末“阅读原文”或复制链接 https://www.modb.pro/topic/403519 至浏览器中打开)喜报在本次活动中,共有51名学员圆满完成了训练营的各项学习任务——2日学习打卡、提交学习笔记、通过结营考试。他们将获得由主办方联合颁发的训练营结营证书 + openGauss 社区赞助的定制T恤一件 + 一折报考 OGCA 认证的特惠资格(特惠资格内含 openGauss 技术书籍一本和价值297元的三个月墨天轮VIP)。在此随附结营学员名单,对这51位同学表示祝贺!!!结营名单严少安dengnDarkAthenaMaleah古飞水无痕双儿手机用户6637计议姜殿斌鸿惊九天孙莹王文忠鲍志飞combi卡德加Khadger刘岩香生夏克手机用户0924甚至熊熊巧克力加糖leavesleft宋小宝惠星星Heartless夏日晴空许玉冲蕴翔胡俊杰谢~梓潮曹清华陈军被dalao碾压的zc葛二萌pysql小文子曾鑫JiekeXuvettel柳风༺陳⅓¾軍༻࿐lxs_data石榴楠澎湃Harbin70KG双木林Www七七任壮壮想要获得更多技术直播、文章分享?别忘了关注Gauss松鼠会公众号!超多干货内容,定能让您受益匪浅!我们下期再见!阅读全文
  • [技术干货] 别慌,云运维的难题,华为云Stack都帮你解好了![转载]
    天我们来讨论一下关于云运维的话题越来越多政企客户们开始从推动“云优先”向关注“云效能”转变:云平台运维要赋予IT更好的能力帮助业务更高效运营更好地满足IT信息化决策的需求那么,云运维到底难在哪?王强 IT运维工程师王强 IT运维工程师:“干了十多年的IT运维工作,以前都是以基础设施作为维护对象,现在业务全面上云之后,容器、大数据、人工智能等新技术和多云运维面临的挑战扑面而来,我们经常打趣说,运维从“机械时代”跳跃到“智能时代”了。”●痛点1:复杂的云平台架构对平台运维人员能力提出更高的要求。张升 业务开发工程师张升 业务开发工程师:“新业务上线,软件升级和配置变更必不可少。此类升级变更任务对操作可靠性要求极高,一旦出错往往会带来系统性业务可用性风险,经营损失不可估量。”●痛点2:多元化的业务应用带来快速的平台软件迭代和更高的系统风险。Peter Lee CIOPeter Lee CIO:“上云之后,配备多领域的高级别运维专家是必要的,可以对平台建设及业务规划给出更科学合理的建议;同时我们运维部门希望引入自动化、在线化、移动化的运维工具,然而这些都需要高昂的投资,这让我们望而却步。”●痛点3:专业运维人员配置和大量自动化能力开发,使得运维成本飙升。丁力波 能源信息建设规划架构师丁力波 能源信息建设规划架构师:“作为一家超过10万人的企业,我们在20多个城市部署有分支机构,业务规模及支撑系统部署存在差异,各分支自有的运维人员技能和经验参差不齐,如何把多分支的运维工作统一管理起来,实现有效的协同,这不是一道简单的命题。”●痛点4:大规模多分支机构的差异化业务场景,大大增加了全局统一运维的复杂度。华为云Stack提供三种云平台运维模式解决政企客户的运维挑战:选择一省心省力的远程托管运维无须自建云运维能力,华为一站式运维服务,客户聚焦业务应用,省心无忧。远程托管运维,客户最省心省力,无需花精力建设和管理自有运维团队,将平台可靠性设计、可用性保障等运维工作托付华为远程运维中心,即可从繁琐的基础维护工作中释放出来,从而可以聚焦到政企自身服务和业务创新等核心经营事务。优点:1、远程运维团队经验丰富,监控到告警后快速响应,远程登录云平台,快速分析问题,并提供最优处理方案;2、华为200+运维专家团队,覆盖IaaS、PaaS、大数据、人工智能、安全等10+类云产品技能,单局点问题经验可以快速复制应用于同类问题解决;3、华为运维团队致力于集中化运维工具平台开发创新,采用运维数据底座+DevOps的敏捷工具开发,将加速客户云平台运维智能化进程。选择二按需服务的远程协助运维本地+远程协助的两级运维体系,提供快捷、高效、安全的运维服务。在客户负责整体云平台运维管理职责,但自身运维团队只具备基础运维能力的情况下,华为可派驻驻场团队承担必要的云服务运维工作,通过安全专线与华为远程运维中心建立连接,把涉及主动预防、高阶云服务操作等技术要求高的维护工作交给华为。华为将定期和不定期(重大事件)向客户汇报提供的服务交付成果。优点:1、简化客户现场运维难度,高阶云服务专家集中远程中心,把复杂技术问题留给华为,降低对客户现场人力数量和能力的要求;2、高阶服务专家按需介入,重大故障/问题快速修复,缩短故障闭环时间;3、专家在线支持版本迭代升级,季度开展深度巡检、有效降低升级风险。选择三行业云技术服务中心华为专业运维能力下沉至行业云技术服务中心,行业专网保障数据安全,应急连线加持紧急恢复。行业云技术服务中心,适应于行业一片云或大规模行业局点需构建专属运维团队和能力的场景。华为可提供专业运维能力下沉支持,如运维专家培养、运维工具使用、运维体系及流程建设等。优点:1、随行业云平台建设,适配客户业务场景,帮助客户快速构建基础云服务/高阶云服务运维团队,及高效运维流程体系;2、在行业云技术服务中心部署远端运维工具平台,实现对分支机构的可监控、可维护、可管理,为业务快速决策、指标分析提供重要参考;3、运维工具平台和所有运维操作数据流都在行业内网,可以供行业云运维中心实时查阅,运维全局统一管理。▎华为云Stack运维解决方案五大关键能力关键能力一:基于业界及华为最佳实践,形成一整套运维管理体系华为长期参与国家ITSS组织运维标准制定讨论,同时遵循ITIL、ISO20000、ISO27001等国际通用的标准要求,形成一整套标准化、数字化、智能化的运维管理体系。关键能力二:专家服务队伍汇聚从解决方案设计、交付、云服务运维各领域的专家,在运维中心拥有5年以上的资深专家近200名,持有ITIL、PMP、HCIE相关的认证。关键能力三:技术支持中心(TSC)平台:它拥有业界领先的运维工具体系,致力于集中化、自动化和数字化运维,助力客户快速使用云服务,聚焦业务创新。全场景覆盖:高效标准的流程与工具,覆盖智能监控、故障处理、服务变更、主动运维;运维自动化:运维操作自动化和基于运维大数据的智能化,提升运维效率;主动运维:AIOps(Artificial Intelligence for IT Operations),异常事件发现,故障预测、深度巡检;云梯接入网关:网络反向建连,消除监听端口,通信矩阵极致收编,通信可审计,可控易控。关键能力四:完善的集中运维安全管理机制,保障运维安全华为云(西安)运维中心已经通过了国家网络安全认证,遵守国内外法律法规约束,以及客户自身对安全管理的要求,在数据安全、IT安全、人员安全、物理安全、作业可信五个方面提供可信、可控、透明的运维服务。关键能力五:华为全球交付与运维服务能力华为云全球技术服务体系将华为30多年的运维能力加以沉淀,以华为云自研工具平台为底座,集结500+原厂运维服务工程师和30000+严选合作伙伴工程师,共同打造“1+3+N”的华为云全球交付与运维能力。(1+3+N:即1个西安运维中心核心节点,罗马尼亚、马来西亚、墨西哥3个海外节点, 以及N个客户现场运维中心。)▎华为云(西安)运维中心华为云构建“1+3+N”全球技术服务体系,让用户聚焦创新,安心上云用云。坐落在西安的华为云运维中心为客户提供包括托管运维、远程协助和行业云技术服务在内的三大运维服务模式,同时以自动化工具、“远程+现场”两级安全运维体系、资深专家和海量行业经验等能力为政企客户智能运维保驾护航。华为云(西安)运维中心核心节点将承载华为云中国区全部政企客户集中运维业务,同时也是全球技术服能力孵化中心和政企客户云运维体验中心。预计到2025年,华为云(西安)运维中心将接入超过1000个节点,服务25万多台设备。华为云Stack运维解决方案,聚焦支撑业务云化转型、优化运维成本、保障平台安全可靠,使客户聚焦业务上云,享受平滑安全的用云体验。链接:https://bbs.huaweicloud.com/blogs/353712
  • [技术干货] 标准系列解读|服务商如何做好数据库监控与巡检
    《数据库服务能力成熟度模型》按照交付类型总体分为规划设计能力域、实施部署能力域和运维运营能力域,共包含27个能力项。每个能力项均从人员、工具、流程、制度、技术等维度,通过人员访谈、资料审查、工具演示等方式,对企业服务能力的评价从低到高依次划分为初始级、可重复级、稳健级、量化管理级和优化级五个等级。每个能力域的等级评定是由能力域所包含能力项的等级按照一定算法计算得出,每个能力项的等级评定是由该能力项五个等级的符合程度按照一定算法判定所得。简单来说,数据库监控能力可以理解为服务提供方在IT运维服务方面的一项基本能力要求,目前行业主要以Telegraf(收集系统和服务的统计数据)+Prometheus/InfluxDB(时序数据库存储和计算监控数据) +Grafana(可视化展示)架构的开源解决方案+定制化开发方式交付监控告警平台,平台通常需要具备多种主流数据库进行集中监控和告警能力,具备多样的告警方式,优秀的平台还应支持监控模板功能,支持监控发现低效SQL并进行下钻,辅助SQL优化分析,同时还能够提供接口供需求方内部已建设好的一体化监控平台集成调用。数据库监控是指数据库监控是指数据库服务方能够通过数据库监控平台,完成对数据库状态、可用性、性能等关键指标的监控和存储,监测信息至少包含数据库运行状态,服务器CPU、I/O等资源消耗,存储空间情况,数据库性能数据、报错信息等。监控平台应具备报警功能。数据库监控的主要过程描述如下:a) 调研和需求分析:对需求方的数据库监控需求进行调研和分析,了解数据库规模、数据规模、网络拓扑、集群部署等客观信息,并收集需求方对于数据库监控实际要解决的技术问题、管理规范等需求,明确数据库监控的指标以及监控频率等重要信息;b) 方案制定:针对需求方的数据库客观应用信息和部署信息,结合用户的实际需求,制定数据库监控方案,内容包括但不限于数据采集方式、采集数据类型、数据传输、数据处理、数据存储、异常告警和可视化等,以及监控平台的具体部署方式;c) 监控实施:根据数据库监控实施方案,部署监控环境,将需要进行监控的数据库加入到数据库监控平台,并配置监控阈值、报警方式等信息;d) 监控验证:针对部署完成的监控平台环境,对监控进行功能验证。针对异常告警,模拟用户实际场景,进行告警功能验证,通过监控平台对数据库状态、可用性、性能、安全性、空间、报错等关键指标进行监控报警;e) 监控上线:对验证通过的监控方案上线运行。按照服务能力成熟度的差异划分,数据库监控能力要求如表1所示:评估要点:◆ 监控方案和指标、监控平台部署文档、操作使用流程、规范等◆ 服务人员专业水平,是否满足5*8/7*24小时对监控发现问题的快速处理需求◆ 监控告警平台源码可控能力、功能完善性及易用性介绍完数据库监控后,接下来解读运维运营的第四个能力项:健康检查。健康检查通常也叫巡检,检查范围通常包括但不限于数据库空间、可用性、报错、安全性、数据保护、系统配置,服务提供方不仅要提供巡检方案,还需提供巡检数据采集、巡检数据分析、巡检报告生成、巡检建议审阅、改进方案落地的完整闭环管理流程与策略。健康检查是指数据库服务方能够对需求方数据库进行综合性、多维度深入分析,发现数据库运行一段时期后可能存在的故障、错误或隐患,提出合理的处理建议并进行处理,保障数据库系统的正常运行,保证数据的安全性、完整性和可用性。健康检查的主要过程描述如下:a) 调研和需求分析:对需求方的数据库巡检需求进行调研和分析,了解数据库规模、数据规模、网络拓扑、集群部署等客观信息,并收集需求方对于数据库巡检的实际需求;b) 方案制定:针对需求方的数据库客观应用信息和部署信息,结合用户的实际需求,制定数据库巡检方案,包括数据采集方式、采集数据类型、数据处理、数据存储、数据分析、处理方案推荐和巡检可视化等,以及确定巡检平台的具体部署方式和巡检方式。以上所有方案流程具备详细的操作手册和执行明细;c) 巡检实施:根据制定的巡检方案,进行巡检平台部署和实施;d) 巡检验证:根据巡检方案和操作手册,巡检平台对数据库进行定期巡检。保证巡检平台的运行符合用户需求,巡检结果准确,并且针对问题推荐合理的处理方式和处理建议;e) 巡检上线:对验证通过的巡检方案上线运行。按照服务能力成熟度的差异划分,健康检查能力的等级要求如表2所示:评估要点:◆ 数据库健康检查工具功能完善性及易用性◆ 多种架构的巡检实施案例◆ 巡检需求文档、包括数据采集方式、巡检频次、数据存储方式等信息的巡检方案《数据库服务能力成熟度模型》标准是由中国信息通信研究院依托通信标准化协会大数据技术标准推进委员会(CCSA TC601),联合云和恩墨、腾讯云、星环科技、新炬网络、中兴通讯、爱可生、华为云、华胜信泰、科蓝软件、浪潮云、金山云、迪思杰、万里开源、百度智能云等企业于2020年联合编制而成,标准共包括900多个评估点,成为国内数据库服务领域最权威的标准,目前已累计完成3批6家共11次评估工作,包括云和恩墨、星环科技、腾讯云、科蓝软件、中移苏研和京东科技,为行业遴选优质服务商提供有力依据。来源:数据库应用创新实验室
  • [ManageOne二...] 【华为云Stack ManageOne 运维侧北向对接】运维侧接口报错4xx、5xx问题排查
    公共报错接口报错404(html格式错误)<!DOCTYPE html><html xmlns:eview="ignored">​<head> <title></title> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1" />​ <link href="/erservice/errors/main.css" type="text/css" rel="stylesheet"></head>​<body> <div id="pcsContainer"> </div>​</body><script type="text/javascript"> var error = '404';</script><script src="/erservice/errors/main.js"></script>​</html>排查建议:请确保域名格式不为https://xx.xx.xx.xx:31943或ip+443端口。正确域名和ip的配置指导请参考:https://bbs.huaweicloud.com/forum/thread-35466-1-1.html接口报错404:API not exist or not published in the environment{    "error_msg": "API not exist or not published in the environment",    "error_code": "APIGW.0101",    "request_id": "2a05d90c829678a866ff17aa9a6beb44"}排查建议: ①检查调用方法(method)、URL是否与文档一致。参考下图:②检查域名格式是否为oc.region_id.xxx.xxx(8.x版本)、oc.xxx.xxx(6.5.x版本)。不允许直接使用IP地址调接口。其中,oc为固定前缀,region_id必须为主region的id,xxx.xxx为external_global_domain_name。详情参考:https://bbs.huaweicloud.com/forum/thread-35466-1-1.html 中第2.3章节内容。接口报错404:The API does not exist: method POST not found或(method GET not found、method PUT not found、method DELETE not found){    "error_msg": "The API does not exist: method POST not found",    "error_code": "APIGW.0101",    "request_id": "3f2c339c1857204c4a34aa67f40107c7"}排查建议:确认调用接口使用了PUT方法,而不是POST。接口报错:400 Bad Request<html>​<head> <title>400 Bad Request</title></head>​<body> <center> <h1>400 Bad Request</h1> </center> <hr> <center>apig</center></body>​</html>或<html>​<head> <title>400 Bad Request</title></head>​<body> <center> <h1>400 Bad Request</h1> </center> <hr> <center>openresty</center></body>​</html>排查建议:请检查header中包含至少以下三项:Host、Content-Length、Content-Type其中,使用Postman调用接口必须确认三项全部勾选;若使用curl命令、或代码中使用httpclient,则主要确认Content-Type已传上述参数。接口报错400:framwork.remote.Paramerror{    "exceptionId": "framwork.remote.Paramerror",    "exceptionType": "ROA_EXFRAME_EXCEPTION",    "descArgs": null,    "reasonArgs": null,    "detailArgs": null,    "adviceArgs": null}排查建议:请检查Body中的json格式是否正确。可通过postman或此链接检查:https://tool.chinaz.com/tools/jsonformat.aspx接口报错401:unauthorized排查建议:①请确保请求头(header)中包含“X-Auth-Token”。②运维面token的有效期为30分钟,请确保token未失效。 获取TokenURLPUT /rest/plat/smapp/v1/oauth/token接口报错500:framwork.remote.SystemError{    "exceptionId": "framwork.remote.Paramerror",    "exceptionType": "ROA_EXFRAME_EXCEPTION",    "descArgs": null,    "reasonArgs": null,    "detailArgs": null,    "adviceArgs": null}排查建议:请检查Body中的json格式是否正确。可通过postman或此链接检查:https://tool.chinaz.com/tools/jsonformat.aspx接口报错400:smapp.bad_param{    "exceptionId": "smapp.bad_param",    "exceptionType": "ROA_EXFRAME_EXCEPTION",    "descArgs": null,    "reasonArgs": null,    "detailArgs": null,    "adviceArgs": null}请检查Body参数的字段名是否填写正确,请严格按照以下格式填写(注意字段的字母大小写):{    "grantType": "password",    "userName": "用户名",    "value": "密码"}接口报错400:user.login.user_or_value_invalid{    "exceptionId": "user.login.user_or_value_invalid",    "exceptionType": "ROA_EXFRAME_EXCEPTION",    "descArgs": null,    "reasonArgs": null,    "detailArgs": null,    "adviceArgs": null}排查建议: ①请检查用户名和密码是否正确。 ②请登录OC界面系统管理->安全管理->用户管理->用户检查该用户类型是否为“第三方系统接入”(非本地用户),并且所属角色已勾选“北向用户组”。若账号非此类型账户,则需按上述要求新建一个账户。接口报错403:user.user.policy_violation_stop{    "exceptionId": "user.user.policy_violation_stop",    "exceptionType": "ROA_EXFRAME_EXCEPTION",    "descArgs": null,    "reasonArgs": null,    "detailArgs": null,    "adviceArgs": null}排查建议:请登录OC界面系统管理->安全管理->用户管理->用户检查该用户是否被停用。接口报错403:user.acl.invalid_ip_login{    "exceptionId": "user.acl.invalid_ip_login",    "exceptionType": "ROA_EXFRAME_EXCEPTION",    "descArgs": null,    "reasonArgs": null,    "detailArgs": null,    "adviceArgs": null}排查建议:请登录OC界面系统管理->安全管理->用户管理->用户,找到对应用户,点击用户名,点击“访问控制”页签,检查该用户登录的ip地址是否在限制范围内,不填写代表允许全部IP地址。接口报错403:user.timeprof.not_in_timeprofile{    "exceptionId": "user.timeprof.not_in_timeprofile",    "exceptionType": "ROA_EXFRAME_EXCEPTION",    "descArgs": null,    "reasonArgs": null,    "detailArgs": null,    "adviceArgs": null}排查建议:请登录OC界面系统管理->安全管理->用户管理->用户,找到对应用户,点击用户名,点击“访问控制”页签,检查该用户登录的时间是否在限制范围内。
  • [技术干货] 数据中心基础设施高可用提升研究与实践
           伴随国家对金融安全的关注度不断提高,数据中心基础设施作为业务安全的关键节点,其高可用能力成为实现银行业务连续性目标的核心关键因素。本文以数据中心基础设施的网络系统为例,结合网络架构和网络运维能力的现状,从技术架构、运营能力两个方面开展案例分析,总结提出系统分层级的高可用提升方法,并围绕高可用技术、运营能力转型实践展开了分析说明。  近年来,随着国家对金融安全的关注度不断提高,以及银行业数字化转型的持续深入,金融科技领域的业务连续性水平成为衡量银行服务品牌竞争力与行业声誉的一项重要指标。与此同时,数据中心基础设施的高可用能力作为确保生产业务安全稳定的重要支柱,不仅是商业银行达成监管要求的必备条件之一,而且对保障社会稳定、控制金融风险也有着极为重要的现实意义。一、商业银行数据中心可用性分析  在信息科技领域,可用性主要指基于各类计算机设备的连接组合,使构建的企业信息系统可以稳定支撑业务连续运作,并在系统级的生命周期内不发生影响业务办理的故障。对于商业银行而言,数据中心基础设施本身是一套极为复杂的技术体系,综合部署包括设备、网络、服务器等在内的各类资源,其可用性能力主要由各类基础设施的系统可用性决定,并同时受到设备产品、架构设计、运营能力等多种因素的影响。在量化评估方面,系统可用率的指标评价通常遵从业界常用的衡量方法,即从99%到99.999%俗称“几个9”的量化指标体系,数据中心可用性示例见表1。       当前,随着商业银行数字化转型的不断深入,各种新技术、新架构持续迭代更新,并对转型过程中的系统高可用能力带来了极大挑战。对此,商业银行在进行高可用设计时不仅要对产品、技术、架构等进行可用性评估,加强对新技术、新架构的风险控制,还需要引入高效的自动化工具提供自主可控的运营服务,特别是强化出现生产故障时的应急处置能力,减少和消除意外出现的生产故障中断时间。尤其在运营能力方面,首先要打造一支思想统一、技能齐备的技术团队,既能够遵从安全第一的工作要求,具备严谨、审慎的合规意识,同时还需掌握专业技术、具备创新意识,能够通过DevOps、SRE的方法打造适合自身使用的特色化工具。此外,运营能力建设离不开配套的自动化工具支持,以更好地满足数据中心云化后的大规模运维需求以及数据中心高可用要求。二、数据中心基础设施高可用提升方法及案例说明  本文以数据中心基础设施中的网络系统为例,结合网络架构和网络运维能力的现状,从技术架构、运营能力两方面开展案例分析,总结提出系统分层级的高可用提升方法,并围绕高可用技术、运营能力转型实践等展开了分析说明。  1.基础设施可用性提升  网络系统作为数据中心基础设施的核心组件之一,其系统可用性内容大致可划分为设备级可用指标、功能级可用指标、区域级可用指标、园区级可用指标等四个层级,并依次自下而上构成了数据中心的高可用能力之一(如图1所示)。其中,网络架构高可用设计以增加网元、线路、节点、区域等结构冗余度为核心思路,旨在使每一层均能够充分应用技术路线的可扩展能力,进而基于各层级的高可用能力建设,最终顺利到达并具备业务可用层能力。在这一阶段,业务连续性指标可达到99.999%的可用率,并作为核心能力之一,支持向用户提供高价值的数字化产品和服务。设备级可用重点强调单台网络设备的产品级可用率及支持网络单元(NU)的可用性。单设备可用性即网元层级可用性指标,起步按99.99%可用指标要求部署网元,落实产品技术和部件冗余的技术要求。同时,该层级可用能力还需关注设备的运行时长因素,设备可用性指标在超过5年以上时会逐年下降,需及时更新置换对应节点的设备。举例来说,核心环节交换机、路由器设备基于自身双电源、多端口、双引擎等硬件技术冗余,应支持设备连续运行保持在年度99.999%及以上的可用率。  功能级可用重点强调一个网络区域内多台同等功能的网络单元对外服务的可用率。功能节点可用性即核心节点层级的可用性指标,按照网络技术发展的支持情况,扩展核心功能节点的网元设备群组可支持的冗余数量,如目前已有功能节点在技术上支持部署2台以上设备,包括交换核心、互联网接入、数据中心互联等环境。举例来说,基于技术产品的发展成熟度,生产网络中的区域核心交换机按照双机双活搭建,交换核心、路由器等设备可按照2~4台的数量搭建,互联网接入渠道功能节点按照单园区6台搭建,而上述措施均为通过架构设计的冗余,旨在赋予设备在故障情况下的网络功能节点高可用能力。  区域级可用重点强调多台网络设备通过特定方式互接提供网络连通服务的区域可用率。网络区域可用性即单个网络区的可用性指标,网络区主要由不同网络单元的功能节点互相连接而成,泛指提供服务器接入、访问控制、路由转发、负载均衡、存储连接等多种网络服务的网络系统。从冗余设计的角度来看,“鸡蛋不要放在一个篮子里”,因此需要对网络区的部署规模进行控制,如数据中心可按照多个网络区冗余进行架构设计,以及将应用分布到多个区域运行,以避免因单个网络区异常产生全局影响。举例来说,在数据中心规模持续增长的情况下,提供计算资源接入服务的网络区域建设按照冗余架构的设计考虑,可搭建2个以上的逻辑隔离区域,以支撑应用单元化部署和计算资源的分布式部署,同时应将云资源域规模限制在1000台左右,并搭建2个以上的基础服务功能相同的资源域。  园区级可用重点强调数据中心不同网络区组合支持大规模计算资源正常运转服务的可用率。园区可用性即数据中心单个园区网络的可用性指标,在该层级中,网络的可用性能力取决于网络架构设计的耦合程度,以及区域间出现异常后的隔离能力。在园区级的网络中,如果下一个层级出现的异常事件与多个网络区存在耦合,则往往不能及时隔离影响,进而导致产生园区级的网络可用性问题。举例来说,网络架构可在多个园区间复制搭建,用以支撑数据中心多个园区的同等网络服务支撑能力,并按松耦合结构进行设计,保持多个园区间的互联互通,以实现园区级网络在异常情况下的高可用切换。  2.运营能力提升路径  运营能力提升涉及ITIL流程中的变更、应急等各个方面,其中针对变更实施、应急实施的自动化工具是保持可用率的核心关键,而不同生产运维能力上限对应的可用率指标大致可分为人工级、自动级、智能级等三个层级。  人工级是指通过预设操作命令,手工实施部署。该层级可用率在资源充分投入的情况下,一般可以支持3个9到4个9的专业系统可用率。例如,在运维操作全生命周期的管理和技术流程中,大量生产维护工作均由人工处理,当出现影响业务的重大故障时,问题的定位效率较低,应急处置时间多数超过30分钟,且部分情况下或将长达1~2个小时。  自动级是指通过工具实现自动化操作、人工按键式处理或告警触发式处理。该层级可用率在资源充分投入的情况下,可以支持4个9以上的专业线系统可用率。例如,生产运营中的标准运维操作大多通过自动化工具完成,包括管理流程、技术操作、日常运维等内容,当出现影响业务故障时,即可通过一键式应急自动化工具进行隔离、切换等应急操作,从而将业务影响时间控制在30分钟之内。  智能级是指通过引入AI弱智能技术,预防式发现隐患,并在发生故障时工具自主开展全链条自愈恢复。该层级可用率在资源充分投入和技术发展成熟后,可以支持5个9以上的专业系统可用率。例如,在生产运营的运维工作中,在标准操作被自动化完成后,针对非标准运维操作,则可以基于智能化工具开展预防性监测,进而在故障隐患影响到业务前,执行有效预判并开展计划性维护,提前解决影响业务运行的问题。三、未来展望  综上,数据中心可用率在以一年为周期统计的高可用模式下,其可用率指标应保持在99.99%以上,而最终目标是提升至99.999%的世界一流水平,全年网络宕机时间控制在5.4分钟以内。然而,上述指标对当前信息系统的可用性要求可谓非常之高,而在前述网络系统案例中,通过对可用性进行分层设计,并结合架构设计和运营团队建设,将可有效支持数据中心的高可用提升。未来,随着运维智能化等IT技术的持续演进,数据中心的高可用提升路径也将愈加丰富,通过“技术+运营”两方面创新,将不断驱动数据中心基础设施的高可用水平提升,进而更好地保障国家网络安全和社会金融稳定。
  • [网络安全] 堡垒机4a认证是什么意思?是指哪4a?
    堡垒机4a认证是什么意思?是指哪4a?很多人对于这两个问题不是很了解,今天我们小编就给大家来简单回答一下。堡垒机4a认证是什么意思?是指哪4a?【回答】:堡垒机4A认证其实是4个以A开头的英语单词,分别是Authentication(认证)、Account(账号)、Authorization(授权)、Audit(审计),为了方便统称为4A。其绝体解释如下:1、集中认证(authentication)目前很多系统采用基本的帐号与口令方式进行认证,由于没有技术机制的限制,口令的设置过于简单,无法实现用户标识唯一性,须考虑增强认证手段和统一管理。2、集中帐号(account)帐号是用来标识身份,管理访问权限等。行云管家堡垒机支持多种双因子认证机制,包含USB Key、手机短信验证码、微信/企业微信/钉钉验证码等第三方应用、手机动态令牌、Radius验证等等,做到防止运维人员身份冒用和复用,控制账号密码泄露风险。3、集中权限(authorization)每个帐号在系统中能做的操作是不同的,需要管理者进行精细的授权,确保每个帐号具有最合适的权限,防止操作越权。4、集中审计(audit)在IT运维领域,堡垒机主要是对运维人员操作的真实性、正确性、合规性等进行审查和监督。【知识拓展1】:堡垒机是什么意思?别称是啥?堡垒机,即在一个特定的网络环境下,为了保障网络和数据不受来自外部和内部用户的入侵和破坏,而运用各种技术手段实时收集和监控网络环境中每一个组成部分的系统状态、安全事件、网络活动,以便集中报警、及时处理及审计定责。堡垒机别称也叫做运维安全审计系统,简单来说堡垒机主要包含系统运维和安全审计两大功能。【知识拓展2】:哪家堡垒机好用?过来人指点一下?经过我们的调查与考研,堡垒机是否好用主要表现就是是否能满足功能,性价比是否高。只要能满足这两个要求,基本就是有保障的堡垒机。这里给您推荐行云管家堡垒机,功能齐全,性价比高,其具体功能如下:1、IT资产:支持对主机、网络存储设备、公有云以及私有云的混合式管理;2、管理协议:支持RDP、SSH、VNC、Telnet、FTP/SFTP等多种管理协议;3、运维审计:所有操作均可云端录像,全程审计;4、移动运维:支持手机、平板、微信小程序等智能终端运维;5、运维策略:对不同角色制定不同的运维策略;6、密码策略:对主机进行批量改密和下发密钥;7、数据库运维:持对MySQL、Oracle、SQLServer等主流数据库运维审计;8、自动化运维:对多台主机进行批量操作。