• [技术干货] 别慌,云运维的难题,华为云Stack都帮你解好了![转载]
    天我们来讨论一下关于云运维的话题越来越多政企客户们开始从推动“云优先”向关注“云效能”转变:云平台运维要赋予IT更好的能力帮助业务更高效运营更好地满足IT信息化决策的需求那么,云运维到底难在哪?王强 IT运维工程师王强 IT运维工程师:“干了十多年的IT运维工作,以前都是以基础设施作为维护对象,现在业务全面上云之后,容器、大数据、人工智能等新技术和多云运维面临的挑战扑面而来,我们经常打趣说,运维从“机械时代”跳跃到“智能时代”了。”●痛点1:复杂的云平台架构对平台运维人员能力提出更高的要求。张升 业务开发工程师张升 业务开发工程师:“新业务上线,软件升级和配置变更必不可少。此类升级变更任务对操作可靠性要求极高,一旦出错往往会带来系统性业务可用性风险,经营损失不可估量。”●痛点2:多元化的业务应用带来快速的平台软件迭代和更高的系统风险。Peter Lee CIOPeter Lee CIO:“上云之后,配备多领域的高级别运维专家是必要的,可以对平台建设及业务规划给出更科学合理的建议;同时我们运维部门希望引入自动化、在线化、移动化的运维工具,然而这些都需要高昂的投资,这让我们望而却步。”●痛点3:专业运维人员配置和大量自动化能力开发,使得运维成本飙升。丁力波 能源信息建设规划架构师丁力波 能源信息建设规划架构师:“作为一家超过10万人的企业,我们在20多个城市部署有分支机构,业务规模及支撑系统部署存在差异,各分支自有的运维人员技能和经验参差不齐,如何把多分支的运维工作统一管理起来,实现有效的协同,这不是一道简单的命题。”●痛点4:大规模多分支机构的差异化业务场景,大大增加了全局统一运维的复杂度。华为云Stack提供三种云平台运维模式解决政企客户的运维挑战:选择一省心省力的远程托管运维无须自建云运维能力,华为一站式运维服务,客户聚焦业务应用,省心无忧。远程托管运维,客户最省心省力,无需花精力建设和管理自有运维团队,将平台可靠性设计、可用性保障等运维工作托付华为远程运维中心,即可从繁琐的基础维护工作中释放出来,从而可以聚焦到政企自身服务和业务创新等核心经营事务。优点:1、远程运维团队经验丰富,监控到告警后快速响应,远程登录云平台,快速分析问题,并提供最优处理方案;2、华为200+运维专家团队,覆盖IaaS、PaaS、大数据、人工智能、安全等10+类云产品技能,单局点问题经验可以快速复制应用于同类问题解决;3、华为运维团队致力于集中化运维工具平台开发创新,采用运维数据底座+DevOps的敏捷工具开发,将加速客户云平台运维智能化进程。选择二按需服务的远程协助运维本地+远程协助的两级运维体系,提供快捷、高效、安全的运维服务。在客户负责整体云平台运维管理职责,但自身运维团队只具备基础运维能力的情况下,华为可派驻驻场团队承担必要的云服务运维工作,通过安全专线与华为远程运维中心建立连接,把涉及主动预防、高阶云服务操作等技术要求高的维护工作交给华为。华为将定期和不定期(重大事件)向客户汇报提供的服务交付成果。优点:1、简化客户现场运维难度,高阶云服务专家集中远程中心,把复杂技术问题留给华为,降低对客户现场人力数量和能力的要求;2、高阶服务专家按需介入,重大故障/问题快速修复,缩短故障闭环时间;3、专家在线支持版本迭代升级,季度开展深度巡检、有效降低升级风险。选择三行业云技术服务中心华为专业运维能力下沉至行业云技术服务中心,行业专网保障数据安全,应急连线加持紧急恢复。行业云技术服务中心,适应于行业一片云或大规模行业局点需构建专属运维团队和能力的场景。华为可提供专业运维能力下沉支持,如运维专家培养、运维工具使用、运维体系及流程建设等。优点:1、随行业云平台建设,适配客户业务场景,帮助客户快速构建基础云服务/高阶云服务运维团队,及高效运维流程体系;2、在行业云技术服务中心部署远端运维工具平台,实现对分支机构的可监控、可维护、可管理,为业务快速决策、指标分析提供重要参考;3、运维工具平台和所有运维操作数据流都在行业内网,可以供行业云运维中心实时查阅,运维全局统一管理。▎华为云Stack运维解决方案五大关键能力关键能力一:基于业界及华为最佳实践,形成一整套运维管理体系华为长期参与国家ITSS组织运维标准制定讨论,同时遵循ITIL、ISO20000、ISO27001等国际通用的标准要求,形成一整套标准化、数字化、智能化的运维管理体系。关键能力二:专家服务队伍汇聚从解决方案设计、交付、云服务运维各领域的专家,在运维中心拥有5年以上的资深专家近200名,持有ITIL、PMP、HCIE相关的认证。关键能力三:技术支持中心(TSC)平台:它拥有业界领先的运维工具体系,致力于集中化、自动化和数字化运维,助力客户快速使用云服务,聚焦业务创新。全场景覆盖:高效标准的流程与工具,覆盖智能监控、故障处理、服务变更、主动运维;运维自动化:运维操作自动化和基于运维大数据的智能化,提升运维效率;主动运维:AIOps(Artificial Intelligence for IT Operations),异常事件发现,故障预测、深度巡检;云梯接入网关:网络反向建连,消除监听端口,通信矩阵极致收编,通信可审计,可控易控。关键能力四:完善的集中运维安全管理机制,保障运维安全华为云(西安)运维中心已经通过了国家网络安全认证,遵守国内外法律法规约束,以及客户自身对安全管理的要求,在数据安全、IT安全、人员安全、物理安全、作业可信五个方面提供可信、可控、透明的运维服务。关键能力五:华为全球交付与运维服务能力华为云全球技术服务体系将华为30多年的运维能力加以沉淀,以华为云自研工具平台为底座,集结500+原厂运维服务工程师和30000+严选合作伙伴工程师,共同打造“1+3+N”的华为云全球交付与运维能力。(1+3+N:即1个西安运维中心核心节点,罗马尼亚、马来西亚、墨西哥3个海外节点, 以及N个客户现场运维中心。)▎华为云(西安)运维中心华为云构建“1+3+N”全球技术服务体系,让用户聚焦创新,安心上云用云。坐落在西安的华为云运维中心为客户提供包括托管运维、远程协助和行业云技术服务在内的三大运维服务模式,同时以自动化工具、“远程+现场”两级安全运维体系、资深专家和海量行业经验等能力为政企客户智能运维保驾护航。华为云(西安)运维中心核心节点将承载华为云中国区全部政企客户集中运维业务,同时也是全球技术服能力孵化中心和政企客户云运维体验中心。预计到2025年,华为云(西安)运维中心将接入超过1000个节点,服务25万多台设备。华为云Stack运维解决方案,聚焦支撑业务云化转型、优化运维成本、保障平台安全可靠,使客户聚焦业务上云,享受平滑安全的用云体验。链接:https://bbs.huaweicloud.com/blogs/353712
  • [技术干货] 标准系列解读|服务商如何做好数据库监控与巡检
    《数据库服务能力成熟度模型》按照交付类型总体分为规划设计能力域、实施部署能力域和运维运营能力域,共包含27个能力项。每个能力项均从人员、工具、流程、制度、技术等维度,通过人员访谈、资料审查、工具演示等方式,对企业服务能力的评价从低到高依次划分为初始级、可重复级、稳健级、量化管理级和优化级五个等级。每个能力域的等级评定是由能力域所包含能力项的等级按照一定算法计算得出,每个能力项的等级评定是由该能力项五个等级的符合程度按照一定算法判定所得。简单来说,数据库监控能力可以理解为服务提供方在IT运维服务方面的一项基本能力要求,目前行业主要以Telegraf(收集系统和服务的统计数据)+Prometheus/InfluxDB(时序数据库存储和计算监控数据) +Grafana(可视化展示)架构的开源解决方案+定制化开发方式交付监控告警平台,平台通常需要具备多种主流数据库进行集中监控和告警能力,具备多样的告警方式,优秀的平台还应支持监控模板功能,支持监控发现低效SQL并进行下钻,辅助SQL优化分析,同时还能够提供接口供需求方内部已建设好的一体化监控平台集成调用。数据库监控是指数据库监控是指数据库服务方能够通过数据库监控平台,完成对数据库状态、可用性、性能等关键指标的监控和存储,监测信息至少包含数据库运行状态,服务器CPU、I/O等资源消耗,存储空间情况,数据库性能数据、报错信息等。监控平台应具备报警功能。数据库监控的主要过程描述如下:a) 调研和需求分析:对需求方的数据库监控需求进行调研和分析,了解数据库规模、数据规模、网络拓扑、集群部署等客观信息,并收集需求方对于数据库监控实际要解决的技术问题、管理规范等需求,明确数据库监控的指标以及监控频率等重要信息;b) 方案制定:针对需求方的数据库客观应用信息和部署信息,结合用户的实际需求,制定数据库监控方案,内容包括但不限于数据采集方式、采集数据类型、数据传输、数据处理、数据存储、异常告警和可视化等,以及监控平台的具体部署方式;c) 监控实施:根据数据库监控实施方案,部署监控环境,将需要进行监控的数据库加入到数据库监控平台,并配置监控阈值、报警方式等信息;d) 监控验证:针对部署完成的监控平台环境,对监控进行功能验证。针对异常告警,模拟用户实际场景,进行告警功能验证,通过监控平台对数据库状态、可用性、性能、安全性、空间、报错等关键指标进行监控报警;e) 监控上线:对验证通过的监控方案上线运行。按照服务能力成熟度的差异划分,数据库监控能力要求如表1所示:评估要点:◆ 监控方案和指标、监控平台部署文档、操作使用流程、规范等◆ 服务人员专业水平,是否满足5*8/7*24小时对监控发现问题的快速处理需求◆ 监控告警平台源码可控能力、功能完善性及易用性介绍完数据库监控后,接下来解读运维运营的第四个能力项:健康检查。健康检查通常也叫巡检,检查范围通常包括但不限于数据库空间、可用性、报错、安全性、数据保护、系统配置,服务提供方不仅要提供巡检方案,还需提供巡检数据采集、巡检数据分析、巡检报告生成、巡检建议审阅、改进方案落地的完整闭环管理流程与策略。健康检查是指数据库服务方能够对需求方数据库进行综合性、多维度深入分析,发现数据库运行一段时期后可能存在的故障、错误或隐患,提出合理的处理建议并进行处理,保障数据库系统的正常运行,保证数据的安全性、完整性和可用性。健康检查的主要过程描述如下:a) 调研和需求分析:对需求方的数据库巡检需求进行调研和分析,了解数据库规模、数据规模、网络拓扑、集群部署等客观信息,并收集需求方对于数据库巡检的实际需求;b) 方案制定:针对需求方的数据库客观应用信息和部署信息,结合用户的实际需求,制定数据库巡检方案,包括数据采集方式、采集数据类型、数据处理、数据存储、数据分析、处理方案推荐和巡检可视化等,以及确定巡检平台的具体部署方式和巡检方式。以上所有方案流程具备详细的操作手册和执行明细;c) 巡检实施:根据制定的巡检方案,进行巡检平台部署和实施;d) 巡检验证:根据巡检方案和操作手册,巡检平台对数据库进行定期巡检。保证巡检平台的运行符合用户需求,巡检结果准确,并且针对问题推荐合理的处理方式和处理建议;e) 巡检上线:对验证通过的巡检方案上线运行。按照服务能力成熟度的差异划分,健康检查能力的等级要求如表2所示:评估要点:◆ 数据库健康检查工具功能完善性及易用性◆ 多种架构的巡检实施案例◆ 巡检需求文档、包括数据采集方式、巡检频次、数据存储方式等信息的巡检方案《数据库服务能力成熟度模型》标准是由中国信息通信研究院依托通信标准化协会大数据技术标准推进委员会(CCSA TC601),联合云和恩墨、腾讯云、星环科技、新炬网络、中兴通讯、爱可生、华为云、华胜信泰、科蓝软件、浪潮云、金山云、迪思杰、万里开源、百度智能云等企业于2020年联合编制而成,标准共包括900多个评估点,成为国内数据库服务领域最权威的标准,目前已累计完成3批6家共11次评估工作,包括云和恩墨、星环科技、腾讯云、科蓝软件、中移苏研和京东科技,为行业遴选优质服务商提供有力依据。来源:数据库应用创新实验室
  • [ManageOne二...] 【华为云Stack ManageOne 运维侧北向对接】运维侧接口报错4xx、5xx问题排查
    公共报错接口报错404(html格式错误)<!DOCTYPE html><html xmlns:eview="ignored">​<head> <title></title> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1" />​ <link href="/erservice/errors/main.css" type="text/css" rel="stylesheet"></head>​<body> <div id="pcsContainer"> </div>​</body><script type="text/javascript"> var error = '404';</script><script src="/erservice/errors/main.js"></script>​</html>排查建议:请确保域名格式不为https://xx.xx.xx.xx:31943或ip+443端口。正确域名和ip的配置指导请参考:https://bbs.huaweicloud.com/forum/thread-35466-1-1.html接口报错404:API not exist or not published in the environment{    "error_msg": "API not exist or not published in the environment",    "error_code": "APIGW.0101",    "request_id": "2a05d90c829678a866ff17aa9a6beb44"}排查建议: ①检查调用方法(method)、URL是否与文档一致。参考下图:②检查域名格式是否为oc.region_id.xxx.xxx(8.x版本)、oc.xxx.xxx(6.5.x版本)。不允许直接使用IP地址调接口。其中,oc为固定前缀,region_id必须为主region的id,xxx.xxx为external_global_domain_name。详情参考:https://bbs.huaweicloud.com/forum/thread-35466-1-1.html 中第2.3章节内容。接口报错404:The API does not exist: method POST not found或(method GET not found、method PUT not found、method DELETE not found){    "error_msg": "The API does not exist: method POST not found",    "error_code": "APIGW.0101",    "request_id": "3f2c339c1857204c4a34aa67f40107c7"}排查建议:确认调用接口使用了PUT方法,而不是POST。接口报错:400 Bad Request<html>​<head> <title>400 Bad Request</title></head>​<body> <center> <h1>400 Bad Request</h1> </center> <hr> <center>apig</center></body>​</html>或<html>​<head> <title>400 Bad Request</title></head>​<body> <center> <h1>400 Bad Request</h1> </center> <hr> <center>openresty</center></body>​</html>排查建议:请检查header中包含至少以下三项:Host、Content-Length、Content-Type其中,使用Postman调用接口必须确认三项全部勾选;若使用curl命令、或代码中使用httpclient,则主要确认Content-Type已传上述参数。接口报错400:framwork.remote.Paramerror{    "exceptionId": "framwork.remote.Paramerror",    "exceptionType": "ROA_EXFRAME_EXCEPTION",    "descArgs": null,    "reasonArgs": null,    "detailArgs": null,    "adviceArgs": null}排查建议:请检查Body中的json格式是否正确。可通过postman或此链接检查:https://tool.chinaz.com/tools/jsonformat.aspx接口报错401:unauthorized排查建议:①请确保请求头(header)中包含“X-Auth-Token”。②运维面token的有效期为30分钟,请确保token未失效。 获取TokenURLPUT /rest/plat/smapp/v1/oauth/token接口报错500:framwork.remote.SystemError{    "exceptionId": "framwork.remote.Paramerror",    "exceptionType": "ROA_EXFRAME_EXCEPTION",    "descArgs": null,    "reasonArgs": null,    "detailArgs": null,    "adviceArgs": null}排查建议:请检查Body中的json格式是否正确。可通过postman或此链接检查:https://tool.chinaz.com/tools/jsonformat.aspx接口报错400:smapp.bad_param{    "exceptionId": "smapp.bad_param",    "exceptionType": "ROA_EXFRAME_EXCEPTION",    "descArgs": null,    "reasonArgs": null,    "detailArgs": null,    "adviceArgs": null}请检查Body参数的字段名是否填写正确,请严格按照以下格式填写(注意字段的字母大小写):{    "grantType": "password",    "userName": "用户名",    "value": "密码"}接口报错400:user.login.user_or_value_invalid{    "exceptionId": "user.login.user_or_value_invalid",    "exceptionType": "ROA_EXFRAME_EXCEPTION",    "descArgs": null,    "reasonArgs": null,    "detailArgs": null,    "adviceArgs": null}排查建议: ①请检查用户名和密码是否正确。 ②请登录OC界面系统管理->安全管理->用户管理->用户检查该用户类型是否为“第三方系统接入”(非本地用户),并且所属角色已勾选“北向用户组”。若账号非此类型账户,则需按上述要求新建一个账户。接口报错403:user.user.policy_violation_stop{    "exceptionId": "user.user.policy_violation_stop",    "exceptionType": "ROA_EXFRAME_EXCEPTION",    "descArgs": null,    "reasonArgs": null,    "detailArgs": null,    "adviceArgs": null}排查建议:请登录OC界面系统管理->安全管理->用户管理->用户检查该用户是否被停用。接口报错403:user.acl.invalid_ip_login{    "exceptionId": "user.acl.invalid_ip_login",    "exceptionType": "ROA_EXFRAME_EXCEPTION",    "descArgs": null,    "reasonArgs": null,    "detailArgs": null,    "adviceArgs": null}排查建议:请登录OC界面系统管理->安全管理->用户管理->用户,找到对应用户,点击用户名,点击“访问控制”页签,检查该用户登录的ip地址是否在限制范围内,不填写代表允许全部IP地址。接口报错403:user.timeprof.not_in_timeprofile{    "exceptionId": "user.timeprof.not_in_timeprofile",    "exceptionType": "ROA_EXFRAME_EXCEPTION",    "descArgs": null,    "reasonArgs": null,    "detailArgs": null,    "adviceArgs": null}排查建议:请登录OC界面系统管理->安全管理->用户管理->用户,找到对应用户,点击用户名,点击“访问控制”页签,检查该用户登录的时间是否在限制范围内。
  • [技术干货] 数据中心基础设施高可用提升研究与实践
           伴随国家对金融安全的关注度不断提高,数据中心基础设施作为业务安全的关键节点,其高可用能力成为实现银行业务连续性目标的核心关键因素。本文以数据中心基础设施的网络系统为例,结合网络架构和网络运维能力的现状,从技术架构、运营能力两个方面开展案例分析,总结提出系统分层级的高可用提升方法,并围绕高可用技术、运营能力转型实践展开了分析说明。  近年来,随着国家对金融安全的关注度不断提高,以及银行业数字化转型的持续深入,金融科技领域的业务连续性水平成为衡量银行服务品牌竞争力与行业声誉的一项重要指标。与此同时,数据中心基础设施的高可用能力作为确保生产业务安全稳定的重要支柱,不仅是商业银行达成监管要求的必备条件之一,而且对保障社会稳定、控制金融风险也有着极为重要的现实意义。一、商业银行数据中心可用性分析  在信息科技领域,可用性主要指基于各类计算机设备的连接组合,使构建的企业信息系统可以稳定支撑业务连续运作,并在系统级的生命周期内不发生影响业务办理的故障。对于商业银行而言,数据中心基础设施本身是一套极为复杂的技术体系,综合部署包括设备、网络、服务器等在内的各类资源,其可用性能力主要由各类基础设施的系统可用性决定,并同时受到设备产品、架构设计、运营能力等多种因素的影响。在量化评估方面,系统可用率的指标评价通常遵从业界常用的衡量方法,即从99%到99.999%俗称“几个9”的量化指标体系,数据中心可用性示例见表1。       当前,随着商业银行数字化转型的不断深入,各种新技术、新架构持续迭代更新,并对转型过程中的系统高可用能力带来了极大挑战。对此,商业银行在进行高可用设计时不仅要对产品、技术、架构等进行可用性评估,加强对新技术、新架构的风险控制,还需要引入高效的自动化工具提供自主可控的运营服务,特别是强化出现生产故障时的应急处置能力,减少和消除意外出现的生产故障中断时间。尤其在运营能力方面,首先要打造一支思想统一、技能齐备的技术团队,既能够遵从安全第一的工作要求,具备严谨、审慎的合规意识,同时还需掌握专业技术、具备创新意识,能够通过DevOps、SRE的方法打造适合自身使用的特色化工具。此外,运营能力建设离不开配套的自动化工具支持,以更好地满足数据中心云化后的大规模运维需求以及数据中心高可用要求。二、数据中心基础设施高可用提升方法及案例说明  本文以数据中心基础设施中的网络系统为例,结合网络架构和网络运维能力的现状,从技术架构、运营能力两方面开展案例分析,总结提出系统分层级的高可用提升方法,并围绕高可用技术、运营能力转型实践等展开了分析说明。  1.基础设施可用性提升  网络系统作为数据中心基础设施的核心组件之一,其系统可用性内容大致可划分为设备级可用指标、功能级可用指标、区域级可用指标、园区级可用指标等四个层级,并依次自下而上构成了数据中心的高可用能力之一(如图1所示)。其中,网络架构高可用设计以增加网元、线路、节点、区域等结构冗余度为核心思路,旨在使每一层均能够充分应用技术路线的可扩展能力,进而基于各层级的高可用能力建设,最终顺利到达并具备业务可用层能力。在这一阶段,业务连续性指标可达到99.999%的可用率,并作为核心能力之一,支持向用户提供高价值的数字化产品和服务。设备级可用重点强调单台网络设备的产品级可用率及支持网络单元(NU)的可用性。单设备可用性即网元层级可用性指标,起步按99.99%可用指标要求部署网元,落实产品技术和部件冗余的技术要求。同时,该层级可用能力还需关注设备的运行时长因素,设备可用性指标在超过5年以上时会逐年下降,需及时更新置换对应节点的设备。举例来说,核心环节交换机、路由器设备基于自身双电源、多端口、双引擎等硬件技术冗余,应支持设备连续运行保持在年度99.999%及以上的可用率。  功能级可用重点强调一个网络区域内多台同等功能的网络单元对外服务的可用率。功能节点可用性即核心节点层级的可用性指标,按照网络技术发展的支持情况,扩展核心功能节点的网元设备群组可支持的冗余数量,如目前已有功能节点在技术上支持部署2台以上设备,包括交换核心、互联网接入、数据中心互联等环境。举例来说,基于技术产品的发展成熟度,生产网络中的区域核心交换机按照双机双活搭建,交换核心、路由器等设备可按照2~4台的数量搭建,互联网接入渠道功能节点按照单园区6台搭建,而上述措施均为通过架构设计的冗余,旨在赋予设备在故障情况下的网络功能节点高可用能力。  区域级可用重点强调多台网络设备通过特定方式互接提供网络连通服务的区域可用率。网络区域可用性即单个网络区的可用性指标,网络区主要由不同网络单元的功能节点互相连接而成,泛指提供服务器接入、访问控制、路由转发、负载均衡、存储连接等多种网络服务的网络系统。从冗余设计的角度来看,“鸡蛋不要放在一个篮子里”,因此需要对网络区的部署规模进行控制,如数据中心可按照多个网络区冗余进行架构设计,以及将应用分布到多个区域运行,以避免因单个网络区异常产生全局影响。举例来说,在数据中心规模持续增长的情况下,提供计算资源接入服务的网络区域建设按照冗余架构的设计考虑,可搭建2个以上的逻辑隔离区域,以支撑应用单元化部署和计算资源的分布式部署,同时应将云资源域规模限制在1000台左右,并搭建2个以上的基础服务功能相同的资源域。  园区级可用重点强调数据中心不同网络区组合支持大规模计算资源正常运转服务的可用率。园区可用性即数据中心单个园区网络的可用性指标,在该层级中,网络的可用性能力取决于网络架构设计的耦合程度,以及区域间出现异常后的隔离能力。在园区级的网络中,如果下一个层级出现的异常事件与多个网络区存在耦合,则往往不能及时隔离影响,进而导致产生园区级的网络可用性问题。举例来说,网络架构可在多个园区间复制搭建,用以支撑数据中心多个园区的同等网络服务支撑能力,并按松耦合结构进行设计,保持多个园区间的互联互通,以实现园区级网络在异常情况下的高可用切换。  2.运营能力提升路径  运营能力提升涉及ITIL流程中的变更、应急等各个方面,其中针对变更实施、应急实施的自动化工具是保持可用率的核心关键,而不同生产运维能力上限对应的可用率指标大致可分为人工级、自动级、智能级等三个层级。  人工级是指通过预设操作命令,手工实施部署。该层级可用率在资源充分投入的情况下,一般可以支持3个9到4个9的专业系统可用率。例如,在运维操作全生命周期的管理和技术流程中,大量生产维护工作均由人工处理,当出现影响业务的重大故障时,问题的定位效率较低,应急处置时间多数超过30分钟,且部分情况下或将长达1~2个小时。  自动级是指通过工具实现自动化操作、人工按键式处理或告警触发式处理。该层级可用率在资源充分投入的情况下,可以支持4个9以上的专业线系统可用率。例如,生产运营中的标准运维操作大多通过自动化工具完成,包括管理流程、技术操作、日常运维等内容,当出现影响业务故障时,即可通过一键式应急自动化工具进行隔离、切换等应急操作,从而将业务影响时间控制在30分钟之内。  智能级是指通过引入AI弱智能技术,预防式发现隐患,并在发生故障时工具自主开展全链条自愈恢复。该层级可用率在资源充分投入和技术发展成熟后,可以支持5个9以上的专业系统可用率。例如,在生产运营的运维工作中,在标准操作被自动化完成后,针对非标准运维操作,则可以基于智能化工具开展预防性监测,进而在故障隐患影响到业务前,执行有效预判并开展计划性维护,提前解决影响业务运行的问题。三、未来展望  综上,数据中心可用率在以一年为周期统计的高可用模式下,其可用率指标应保持在99.99%以上,而最终目标是提升至99.999%的世界一流水平,全年网络宕机时间控制在5.4分钟以内。然而,上述指标对当前信息系统的可用性要求可谓非常之高,而在前述网络系统案例中,通过对可用性进行分层设计,并结合架构设计和运营团队建设,将可有效支持数据中心的高可用提升。未来,随着运维智能化等IT技术的持续演进,数据中心的高可用提升路径也将愈加丰富,通过“技术+运营”两方面创新,将不断驱动数据中心基础设施的高可用水平提升,进而更好地保障国家网络安全和社会金融稳定。
  • [网络安全] 堡垒机4a认证是什么意思?是指哪4a?
    堡垒机4a认证是什么意思?是指哪4a?很多人对于这两个问题不是很了解,今天我们小编就给大家来简单回答一下。堡垒机4a认证是什么意思?是指哪4a?【回答】:堡垒机4A认证其实是4个以A开头的英语单词,分别是Authentication(认证)、Account(账号)、Authorization(授权)、Audit(审计),为了方便统称为4A。其绝体解释如下:1、集中认证(authentication)目前很多系统采用基本的帐号与口令方式进行认证,由于没有技术机制的限制,口令的设置过于简单,无法实现用户标识唯一性,须考虑增强认证手段和统一管理。2、集中帐号(account)帐号是用来标识身份,管理访问权限等。行云管家堡垒机支持多种双因子认证机制,包含USB Key、手机短信验证码、微信/企业微信/钉钉验证码等第三方应用、手机动态令牌、Radius验证等等,做到防止运维人员身份冒用和复用,控制账号密码泄露风险。3、集中权限(authorization)每个帐号在系统中能做的操作是不同的,需要管理者进行精细的授权,确保每个帐号具有最合适的权限,防止操作越权。4、集中审计(audit)在IT运维领域,堡垒机主要是对运维人员操作的真实性、正确性、合规性等进行审查和监督。【知识拓展1】:堡垒机是什么意思?别称是啥?堡垒机,即在一个特定的网络环境下,为了保障网络和数据不受来自外部和内部用户的入侵和破坏,而运用各种技术手段实时收集和监控网络环境中每一个组成部分的系统状态、安全事件、网络活动,以便集中报警、及时处理及审计定责。堡垒机别称也叫做运维安全审计系统,简单来说堡垒机主要包含系统运维和安全审计两大功能。【知识拓展2】:哪家堡垒机好用?过来人指点一下?经过我们的调查与考研,堡垒机是否好用主要表现就是是否能满足功能,性价比是否高。只要能满足这两个要求,基本就是有保障的堡垒机。这里给您推荐行云管家堡垒机,功能齐全,性价比高,其具体功能如下:1、IT资产:支持对主机、网络存储设备、公有云以及私有云的混合式管理;2、管理协议:支持RDP、SSH、VNC、Telnet、FTP/SFTP等多种管理协议;3、运维审计:所有操作均可云端录像,全程审计;4、移动运维:支持手机、平板、微信小程序等智能终端运维;5、运维策略:对不同角色制定不同的运维策略;6、密码策略:对主机进行批量改密和下发密钥;7、数据库运维:持对MySQL、Oracle、SQLServer等主流数据库运维审计;8、自动化运维:对多台主机进行批量操作。
  • [公告] 搬家了!!云管理中心2.0环境即将下线,小伙伴们速来体验2.1新环境吧
    新环境地址:rpa21.gde.huawei.com登录环境后可点击右上角个人中心,申请加入相关租户。操作指导可参见附件。旧环境(rpa2.gde.huawei.com)计划最晚于6.15日下线。若您涉及业务备份或迁移,请及时安排相关搬迁事宜。感谢您对RPA产品一直以来的支持。给您带来的不便,敬请谅解!如有疑问或需协助,可以在帖子下方留言或发送邮件至weautomate@huawei.com。
  • [技术干货] 智慧园区统一运维部署组网和规范要求
    智慧园区沃土数字平台以容器管理平台(Kubernetes)为基础提供统一部署能力。智慧园区沃土数字平台组件与伙伴原生服务运行在同一套容器管理平台中,以namespace隔离部署。智慧园区沃土数字平台组件安装完成后,在集群内部已安装好cdnative用于伙伴应用容器的部署。伙伴的原生服务可通过K8S service(ClusterIP、NodePort等)与园区核心服务以及其他系统互访。容器制作规范使用统一的基础镜像,对于园区伙伴来说就是基于园区提供的安全基础镜像构建新的原生服务镜像。最小原则。为了减少镜像的体积和编译时间,应避免安装额外的或者不需要的包。单个镜像大小建议不要超过1G。一个原则:每个容器只运行一个进程。尽量使用合并指令来减少镜像层。Dockerfile中的指令会生成新的镜像层,一个镜像最多127层。不要在Dockerfile中单独修改文件的权限。使用Dockerfile对镜像进行版本管理。安全要求容器镜像扫描无漏洞(使用二进制分析或哈希验证的漏洞扫描工具)。容器镜像中业务使用非root用户运行,也不存在未使用的用户。禁止在Dockerfile中使用ADD指令操作不可信文件(如不可信的远程URL中的文件)。Dockerfile中不存储任何敏感信息(如内置账号、密钥等)。容器镜像发布前通过安全扫描(无病毒和恶意软件)。原生服务镜像需要提供必要的端口列表,非必要开放的端口必须关闭。不开放非必要的API,禁止任何后门或可能会被认为是后门访问的行为。支持API级权限管理,可配置化实现针对特定应用的可开放API。应用部署包制作规范部署包使用helm chart格式归档发布Web、接口类应用采用deployment部署,支持至少2个副本并优先根据反亲和性要求调度到不同的k8s集群工作节点。中间件类应用采用statefulset部署,优先根据反亲和性要求调度到不同的k8s集群工作节点。配置文件使用configmap、secret资源挂载。Deployment和statefulset类型的应用需要为pod定义健康检查探针。对于业务启动时长较长的应用需要为pod定义就绪检查探针,避免业务流量被转发到未就绪的实例。持久化数据必须使用PV和PVC资源对象挂载到容器。容器网络使用规范原则上优先使用ClusterIP类型的服务来暴露访问url,只有在需要把服务暴露给外部系统访问时采需要使用NodePort类型的服务。使用NodePort类型的服务时,优先采用自动方式分配端口避免集群内端口冲突。若需要使用固定端口,需要在应用部署文件中定义变量来设置此固定端口。引入ingress服务时需限定ingress的作用域为当前namespace,避免与其他namespace产生冲突。
  • [交流讨论] 运营商网络自动化的必由之路
    前段时间看到某运营商的运维发展预测,指出未来运维人员结构将发生巨大变化。随着网络云化和基于AI的自动化技术发展,软件支撑型人才占比将从2/3/4G时代的30%提升到70%,现场支撑人才(比如网络监控)占比将从20%下降到0-5%,现场维护人员(比如基站维护)占比将从50%下降到0-5%。简单的讲,智能运维时代的软件型人才将大幅提升,而现场监控与站点维护人员将大幅下降。一场网络自动化的革命正在到来,你准备好了吗?自动化是5G商业成功的关当前运营商面临的最大问题是——如何将每年巨额的5G网络基础设施投资转化为新的服务收入?估计大家都知道答案,就是基于一张云网融合的基础设施,通过网络切片为各行各业的提供定制化服务。也就是说,向垂直行业售卖切片服务是运营商5G时代主要的新收入来源。不过,问题来了,网络切片涉及无线接入、边缘、传输、核心等多个域,涉及切片设计、切片配置、资源分配、切片SLA保障等所有工作非常复杂,而行业用户向运营商租用切片时往往会要求运营商在几个小时甚至几分钟内开通切片,运营商如何才能敏捷的交付切片服务?唯有自动化。理想情况下,切片自动配置、自动发放、自动化保障可让运营商具备敏捷交付能力,从而可确保增加新的toB收入来源,还可更经济高效的利用网络资源。网络自动化是运营商在5G时代实现“增收”的关键因素。综合多家研究公司对全球范围内200多家运营商的调查结果,显示全球大部分运营商首先看重网络自动化的“增收”能力,即通过网络自动化来提升按需服务能力和敏捷交付能力,来实现增加收入。除了“增收”外,网络自动化还能帮助运营商降低运营运维成本、提升运营运维效率,从而实现“降本提效”,进而实现“开源节流”。比如,通过核心网自动化大幅提升故障预测、网络编排和流量拥塞控制能力,通过无线接入网自动化大幅提升网络根因分析和无线切片效率,通过网管中心自动化可实现监控自动化、工单自动化、报告自动化。同时,网络自动化还可提升用户体验并大幅减少用户流失率,以及降低网络能耗,提升网络安全性和稳定性等。不得不自动化事实上,电信业发展到今天已陷入“不得不自动化”的境地。一、网络越来越复杂:2G/3G/4G/5G网络设备不断叠加,维护管理对象复杂度大大提升;二、故障影响范围越来越广:连接数量不断增加,业务越来越多样化,导致单一故障影响范围越来越广;三、故障修复越来越难:网络复杂性增加、云化网络和传统网络并存等导致故障定位定界难度越来越大;四、运维人才越来越缺:新人不愿进,老人想离开,ICT融合对运维技能要求越来越高,导致运维人才能力和数量出现断层;五、业务体验要求越来越高:传统运维称为“被动运维”,网络出现告警、性能指标异常或用户投诉后才启动运维流程,这种方式响应速度慢,会影响用户体验,已无法适应对网络质量的稳定性要求极高的5G toB时代,需向“主动式运维”演进,即通过引入AI预测网络行为,实现在故障发生之前将网络隐患扼杀于萌芽状态。机遇与挑战并存听起来自动化是运营商解决网络和业务收入难题的灵丹妙药,但与任何一次变革一样,实现的道路上总是充满荆棘。首先是投资挑战。自动化转型肯定是要花钱的,而且规模越大投资成本越高,运营商愿不愿意花钱,愿意花多少钱,来部署网络自动化,是一个问题。因为网络自动化产生的价值和投资回报并不像新业务上市那样会带来立竿见影的收入,这考验决策层的远见和魄力。其次是转型挑战。网络自动化作为运营商数字化转型的一部分,面临的不只是技术的变革,还有企业组织架构和文化的转型,比如,如何从以“网络为中心”组织架构向以“以业务为中心”的组织架构转型,如何从传统工作方式向DevOps方式转型,如何从硬件文化向软件文化转型。据说用电力完全替代蒸汽机工厂花了近30年的时间,原因不在于通电有多难,主要在于工厂通电后不仅要花时间重新设计工厂,还要重新改变工厂组织架构,甚至是薪资制度的设计。如今,要让AI渗入到网络工作的每一个环节,同样会面临相似的挑战。再则是碎片化挑战。运营商的网络可能是地球上最复杂的系统之一,如果没有系统性的规划,可能会导致各种自动化工具孤岛式林立,人工干预与半自动化流程纵横交错,导致不必要的成本,以及效率难以提升。总之,网络自动化是巨大的机会,也面临不少挑战。但一颗颗小石头永远阻挡不了趋势的滚滚洪流,自动化不是来与不来的问题,而是什么时候来的问题。准备不足就准备失败,这场网络自动化变革,你准备好了吗?文章来源:https://mp.weixin.qq.com/s/1Rdd3slvp4Vhbywfv8fEDg
  • [问题求助] 【标题】鲲鹏服务器无法正确安装宝塔运维
    有两个问题:宝塔管理安装后:1、修改端口8888为58879或者其他。均无法正常访问。宝塔在其他不是鲲鹏服务器,安装,就正常。2、在宝塔安装的doker插件报错。同样在其他服务器上,只要不是鲲鹏的,就不会报错。如下图:宝塔官网:自行百度搜索
  • [运维二三事] 【IT运维】如何又快又好的进行数据备份?
    数据备份是容灾的基础,是指为防止系统出现操作失误或系统故障导致数据丢失,而将全部或部分数据集合从应用主机的硬盘或阵列复制到其它的存储介质的过程。那么如何又快又好的进行数据备份?用什么工具好?如何又快又好的进行数据备份?这里我给大家推荐一个非常好用的数据自动化备份工具,那就是行云管家。在行云管家中,备份主机数据可以像定个闹钟一样简单。通过行云管家的快照策略,能够定时完成主机数据的自动备份,无需购买第三方备份软件即可完成数据的备份与恢复,还可通过行云管家“时光机”将主机数据恢复到任意指定时刻,并且,这样的数据备份操作丝毫不影响主机的性能。行云管家快照策略详细讲解注意事项:行云管家快照策略是第三方快照策略,支持自动生成磁盘快照,建议用户如果设置了行云管家快照策略后,将云厂商的自动快照策略停用,避免重复执行创建快照操作,影响系统性能。操作流程:1、查看自动快照策略在“基础运维”的“磁盘快照”页面下点击“快照策略”,打开自动快照策略,系统默认为每个用户创建了一个快照策略。2、配置快照策略用户可根据实际情况,设置快照策略的名称、执行时间、重复日期及执行策略。当快照额度不足时,用户如果继续创建快照(或者由快照策略自动创建),将删除由快照策略所生成的时间最早的自动快照,如果所有快照皆为手动快照,那么行云管家将放弃创建快照操作。3、为云主机指定快照策略有两种途径为云主机指定快照策略,第一种是直接在快照策略中,将云主机添加进入,策略中的云主机在执行时间到达后,将自动批量创建快照。第二种是进入主机磁盘详情,在快照策略下拉菜单中,选中快照策略。4、执行快照策略行云管家支持手动和自动执行,在用户开启“自动执行”并设置了自动执行的时间和日期后,快照策略将在指定时间自动创建快照。当用户需要立即执行快照策略时,点击“立即执行”按钮,即时创建策略下所有云主机磁盘的快照策略。使用快照回滚磁盘:1、通过快照详情回滚单个磁盘回滚前,请确保主机已停机。双击一个状态为“已完成”的快照,打开该快照的详情,点击“回滚”按钮,确认后即开始回滚。2、通过时光机将回滚主机下所有磁盘点击主机的“时光机”按钮,主机下的磁盘快照将以时光机的形式展现,用户可以选择需要回滚的快照和时间点执行回滚操作(同时只能回滚同一天的快照)。
  • [运维二三事] Windows服务器运维用什么软件好?不想加班了!
    最近逛社区,看到不少企业运维人员在问,Windows服务器运维用什么软件好?因为不想经常加班了,不想耽误约会了,求大佬推荐一款好用的Windows服务器运维软件。这里作为过来人告诉您,Windows服务器运维用行云管家就好!省心省事省力,不用加班!行云管家云计算管理平台,实现了对多家云厂商多种云计算资源的集中管理,从多云纳管、云资源全生命周期管理、运维安全合规审计(云堡垒机)、自动化运维、主机监控与告警、租户隔离式工单管理、成本分析等多个维度提供统一运维管控,对企业而言,只需一个控制台,即可整合操作多个公有云、多个私有云 、混合云以及各种异构资源,从而进行灵活的资源管理与运维。其核心功能如下:1)支持业界主流公有云厂商,支持纳管windows&linux物理机、虚拟机、网络设备、存储设备、数据库、中间件、应用等资源,以及OpenStack、VMware等私有云设施/集群;2)提供基于工单流程的云资源申请、创建、交付、运维、销毁全生命周期管理;3)从系统安全、网络安全、性能负载、趋势预测4个维度实现主机的监控与体检;4)内置堡垒机模块,承担起用户在管理IT资产的运维中枢、会诊平台和“事前授权、事中监管、事后审计”的黑匣子等职责,全面保障企业IT资产的安全运维、合规审计;5)分析读取公有云账单,从各个维度分析云主机的各项成本支出,通过对应用负载的数据挖掘,告诉您如何进行云资源的增减配;6)自动化运维,提供脚本/命令批量执行、预设脚本库、文件自动分发/收集、任务编排等自动化运维特性;7)支持SaaS形态和私有化部署形态。【温馨提示】:现在采购行云管家福利多多!1、操作简单,用户体验好。行云管家拥有移动互联网软件般极致的用户体验。2、采购成本低。行云管家既有开箱即用的SaaS平台,也有私有部署形态的标准版、企业版等,具备非常灵活的阶梯报价,从免费的基础版到大型企业使用的旗舰版,支持按月购买、按年购买、一次性买断等。企业可根据自己的实际情况,选择相应的版本和付费模式,能够将成本控制到合理范围。3、产品迭代快。行云管家始终保持平均每个月发布一个新的版本,用户的需求经过评估一旦被认为是合理的并具备一定的通用性,平均只需一两个月的时间即可获得满足,这在企业级软件市场是非常难得的。4、免费试用。行云管家支持免费试用哦,直到您满意为止!试用链接:https://www.cloudbility.com/baolei.html?refid=guanwang-tlj-wenzhang5、新手有礼,原价399元的专业版,新用户领取398元代金券,即可一元享受一个月;代金券使用有效时间为12个月,如需了解更多,请拨打4008825683!6、目前行云管家✖️36kr企服点评独家优惠活动进行中,部分套餐低至7折,赶紧拨打4008825683进行咨询!了解详情:https://www.cloudbility.com/club/14379.html名词解释:1、Windows服务器:是Microsoft Windows Server System(WSS)的核心,Windows 的服务器操作系统。2、服务器运维:顾名思义就是把服务器“伺候”好了不出问题,保证服务器在产品上线前的平稳、产品上线后平稳。3、网络安全:是指网络系统的硬件、软件及其系统中的数据受到保护,不因偶然的或者恶意的原因而遭受到破坏、更改、泄露,系统连续可靠正常地运行,网络服务不中断。网络安全,通常指计算机网络的安全,实际上也可以指计算机通信网络的安全。4、自动化运维:简单来说就是把周期性、重复性、规律性的工作都交给工具或平台去做,把过去的手工执行转为自动化操作。
  • [技术干货] 打造最具创新力的开源数据库社区 | 【重庆】openGauss Meetup圆满结束
    4月23日,由openGauss社区主办,重庆鲲鹏创新中心、云和恩墨承办的openGauss Meetup活动在重庆西永微电产业园成功举办。此次活动是“openGauss生态全国行”系列活动2022年第一站,吸引了来自重庆地区各个行业的20+家企业的多个专家和开发者踊跃参与,是openGauss社区发展过程中的又一个重要历史节点。此外,openGauss重庆用户组也在此次活动中正式成立,来自重庆地区的数据库、互联网、银行、通信等多个领域的企业成员积极加入重庆用户组,成为openGauss建设的重要力量。在未来,该用户组将就openGauss技术特性、最佳实践、运营进展等方向进行持续的线上及线下自由交流及后续运营。此次活动邀约到华为公司重庆代表处副总经理郑伟、openGauss社区运营总监向新勇、重庆鲲鹏创新中心COO 游欣易、云和恩墨MogDB存储引擎架构师& openGauss SIG Storage Engine Committer林科旭、云和恩墨资深架构师罗炳森、openGauss SIG SQLEngine&SIG Tools Committer 彭炯、openGauss SIG AI Committer等生态建设伙伴、商业实践伙伴、数据库领域技术专家发表产业政策、开源文化与社区运营、商业应用实践、数据领域技术创新与行业实践等精彩分享。活动开始,华为公司重庆代表处副总经理郑伟率先致辞,对openGauss系列活动来到重庆表示欢迎。他表示:“openGauss是鲲鹏计算产业生态发展中的重要基石,在大力发展数字经济时代中,鲲鹏生态的发展与openGauss不可分割。我们希望基于鲲鹏处理器,与合作伙伴一起打造自主创新、产业链完整的计算产业,把鲲鹏打造成数字中国的坚实算力底座,构建可持续创新的计算第二平面,为数字经济提供强大的算力保障。重庆鲲鹏创新中心将持续携手openGauss,联合伙伴和客户构建丰富的解决方案,落地行业场景,夯实基础研究,加快人才培养,努力实现技术创新与市场应用的紧密结合。”随后,openGauss社区运营总监向新勇以“开源社区文化与数字化运营”为主题发表相关分享。首先,他为大家介绍了全球几大主流开源社区及开源文化及开源背后的逻辑;其次,他认为生态创新是数据库这种平台型软件的关键,要想汇聚一个数据库的产业生态,光靠商用数据库的自身发展是远远不够的,我们需要一种全新的生态构建模式,而开源正是给了我们这样的机会。最后,通过数字化运营,可以看到openGauss自2020年正式开源以来,社区生态不断蓬勃发展。社区不断开放治理架构,与高校、合作伙伴、用户共同构建社区生态。目前社区已经上线数字贡献看板,在社区官网可以通过相关数据实时看到最新社区发展动态。4月1日,openGauss发布了3.0.0版本,此次也特别邀请到openGauss SIG SQLEngine&SIG Tools Committer 彭炯为大家简要分享openGauss3.0的部分新特性,在高性能、高可用、高安全、高智能等企业级特性分享之外,他还介绍了分布式解决方案、并行逻辑解码、集群管理等特性内容。MogDB是云和恩墨基于开源数据库openGauss的内核进行研发,推出的一款极致易用的企业级关系型数据库。MogDB具备金融级高可用和全密态计算的极致安全、面向多核处理器的极致性能、AI自诊断调优的极致智能能力,能够满足从核心交易到复杂计算的企业级业务需求。云和恩墨MogDB存储引擎架构师& openGauss SIG Storage Engine Committer林科旭在此次活动中也为大家详细介绍了MogDB基于openGauss的创新特性内容。算力已成为新生产力,驱动社会经济发展。重庆鲲鹏创新中心COO 游欣易发表了基于“鲲鹏展翅 立根铸魂 深耕行业数字化”的主题演讲,详细介绍了鲲鹏计算产业和生态发展、重庆鲲鹏创新中心运营情况,表明中心以发展鲲鹏计算产业生态为首要任务,联合重庆市政府、华为公司与重庆本土企业、高校科研院所等打造全国领先的信息技术产业,助力重庆企业转型升级,打造重庆安全可靠的数字底座。之后,云和恩墨资深架构师罗炳森为大家带来“传统数据库迁移到openGauss的全生命周期管理”的主题分享,对传统数据库迁移到openGauss的全生命周期全过程以及相关迁移工具做了详细介绍,同时还为大家分享了MogDB在金融行业迁移案例及商业落地实践。openGauss作为业内领先的开源数据库,在数据治理与维护领域积累了大量企业级经验,在数据库的自治运维领域也投入了大量研发工作。openGauss SIG AI Committer王天庆发表“openGauss智能运维一体化解决方案”主题演讲,为大家介绍了openGauss在自治运维领域的技术演进,同时介绍了DBMind数据库自治运维平台的技术细节。此外,他还现场演示了openGauss DBMind的使用、简单DIY了一个Grafana界面,近期相关功能也将上线openGauss社区,欢迎大家自己动手DIY自己的Grafana界面。本次Meetup的最后环节是openGauss重庆用户组成立仪式。openGauss User Group,简称oGUG,是一个让开发者就openGauss技术特性、最佳实践、运营进展等方向交流的公益性本地社区。oGUG由Organizer 、Member、Ambassador三种角色构成:Organizer:整体统筹和规划发展方向及计划,并跟进与把控整体进度。Member:根据运营计划,配合oGUG的日常运营,以用户身份积极参加活动,产出技术内容,积极推广openGauss。Ambassador:通过布道的方式帮助他人了解或使用openGauss,并代表用户优化产品体验,增进其他用户对openGauss的了解。openGauss重庆用户组首批成员分别是:随着openGauss社区的蓬勃发展,openGauss的生态构建也正在如火如荼进行中,openGauss将持续全面友好开放,携手伙伴共同打造最具创新力的开源数据社区,把企业级的数据库能力带给用户。
  • [技术干货] 什么是数据存力?
    随着智能世界的到来,数据量在以惊人的速度增长,预计到2030年,全球数据将进入YB时代(1YB≈1万亿TB)。数据已经成为继土地、劳动力、资本、技术之后的第五大生产要素。数字时代,如何更好地获取并利用数据这一新型生产要素,已成为全球竞争的新战场。数据上升为国家级战略,而存储作为数字世界的地基,数据存储的能力将直接影响到经济社会发展的质量。要实现千行万业的数字化转型,必须拥有强大的数据存储能力,即数据存力。  日前,华为联合罗兰贝格发布了《数据存力,高质量发展的数据基石》白皮书。白皮书围绕存储产业的发展脉络,系统定义了数据存储能力的量化衡量指标,即数据存力MEGA指标体系,并对全球不同区域的存力现状进行了分析,为政府和企业评估、设计、建设相应的数据存力提供系统科学的借鉴。白皮书系统定义了数据存力,将为产业界带来四大价值:明确了数据存力的概念和内涵。白皮书指出,数据存力是根据不同的应用环境需求,以存储容量为核心,包含性能表现、可靠程度、绿色低碳在内,有效保存数据的综合能力。对数据存力的价值进行了量化研究。利用“直接-间接-衍生”的价值递进框架,对存储服务产值、存储服务所支撑的产值、基于存储的先进技术所支撑的产值进行了量化研究。结果表明,1元存储投资可支撑5元直接价值、8元间接价值和30~40元衍生价值。创立了评估数据存力发展成熟度的指标体系。全面考虑了“体量-效率-基础保障-前沿保障”四大方向,并根据国家和企业的特点分别向下延伸出三级指标的评估体系,定义了系统衡量存力水平的35个指标。对全球20个国家和地区的存力水平进行了评估。分析了数据存力发展领先国家关键的成功因素,以及追赶者国家的发展路径,并给出数据存力提升的政策建议。一、存力的背景与定义数字经济以数据资源为关键要素,是继农业经济、工业经济之后的主要经济形态,正在成为高质量发展的新引擎,为经济社会健康发展提供重要动力。历史上每一个经济时代,基础设施都发挥着无比重要的作用。数据存储作为数字基础设施的重要组成部分,是数字经济发展的基石,为“以数兴业、以数惠民、以数善政”提供坚实支撑。 我们正在进入数字文明时代,全息、3D扫描、5G、AI、物联网等各种新技术的使用,让物理世界和数字世界的界限逐渐模糊。在从物理文明向数字文明转换的进程中,数据将成为叩开数字文明大门的钥匙,有数据的地方就有数据存储。  数据存储的研究探索历程也是人类努力提升存储综合能力、不断满足经济社会发展的历程。结合技术进展和社会需求等多个维度,白皮书认为,数据存储能力,即数据存力是以存储容量为核心,包含性能表现、可靠程度、绿色低碳在内的综合能力。二、存力的定位与意义 “要致富,先修路”,正如工业经济时代发展依靠铁路、公路、航空等基础设施实现飞跃一样,数字经济时代相应的高速公路便是数字基础设施,它是数据生产要素处理的重要载体。在数据通过数字基础设施流转加工的过程中,存储与服务器、网络等一起共同服务数字经济的健康发展。没有存储,数据就没有保存的基础。数据生命周期的起点是将采集的数据进行存储,从而才能给分析和应用提供“原材料”,支持经济社会的数字化转型升级。数据存储是经济高质量发展的基石,数据能否“存得下、存得好”关乎数字基础设施能否“行得稳”,关乎数字经济发展能否“跑得快、跑得远”,关乎数据要素能否“接地气”切实带来生产生活进步、促进经济社会高质量发展。三、存力的价值与影响 容量是存力最基础的指标,从存储容量上看,通过对于全球34个不同发展水平的国家和地区2020年GDP产值和数据中心的存储容量进行拟合后发现两者相关系数达到0.98,经济产值越高的国家和地区拥有的数据存储容量也越大。  数据存力不仅是容量的概念,还包括性能表现、可靠程度、绿色效能在内。白皮书从数据存力总体投资出发,基于诺贝尔经济学获奖者列昂惕夫的投入产出模型和美国IMPLAN测算法计算每一元的数据存力投资能带来的经济与社会价值影响。       城市疫情管理中,数据存力支撑行程数据存储,每1元存力投入可以支撑37元医疗费用节省,精准助力防控疫情和经济社会复工复产。  制造业供应链管理中,数据存力支撑生产与消费端数据存储,每1元存力投资可支撑33元的产业链衍生价值,增强端到端的货品流转的韧性和生产供货稳定性。  交通出行中,数据存力支撑自动驾驶对于道路交通数据应用,每1元存力投资支撑35元的公路货运行业增长,减少安全事故,提升出行效率。白皮书总结得出,每1元的数据存力通过直接、间接、衍生影响总计可以为经济社会带来30-40元的价值。这些价值除了GDP产值的增加外,还包括劳动力质量和工作环境的提升、城市治理水平提升、企业服务供应稳定、社会民生的优化等。四、存力的评价与选择  越来越多的企业也认识到了数据存力重要性,行业调研发现数字基础设施水平越高,在向高水平生产方式转换时,企业能更快完成转型。近95%的受访企业在升级已有的数字基础设施支撑更高质量的发展,但在具体建设中,企业仍面临安全可靠、降本增效、数据创新、实时敏捷、智能管理五大方面的挑战。       安全可靠是数字基石发展的基本要求,在数据存力建设中可以通过预防层、应对层两大手段建设。  数据的安全可靠直观理解便是在应对各类风险下仍然保持业务不断,数据不丢。这种风险既可能来自天灾或网络袭击,也可能是人为造成的失误,可以通过预防层采购更高可用性的设备和应对层建立相应容灾备份体系来实现。  降本增效与企业价值创造直接相关,通过TCO从数据存力的整个生命周期来衡量,而能耗亦是TCO中的重要组成部分。  随着企业数字化水平的提升和业务的成长,总体数据存力的拥有成本大多数情况下是上升,但单位存储容量的拥有成本应该呈现下降趋势。一方面是规模效应,数据存力能得到更有效的应用,另一方面技术的不断迭代也降低了数据存力的单位成本。  数据创新、实时敏捷对数据存力的体量和效率提出相应要求,数据在生产活动中只有存得下、流得动才能用得好。  在数据创新和实时敏捷使用的过程中,数据存储的能力高低将影响数据是否能存得下和流得动两大方面,最终影响来支撑数据生产要素用得好。  智能管理对于数据存储资源的管理方式也产生变化,向智能化的方向演进。  数字化的核心驱动力是数据驱动,随着数字化转型的推进,数据中心的管理运维也将发生如下。业务数字化水平不断提升将导致日常基础设施使用中的管理运维不再仅是一个支撑系统,更多的是要与业务融合,成为给业务带来新价值的生产系统。同时从运维管理本身的流程看,它也将慢慢从“以人为中心”转向“面向自动化的业务流程重构”,最终走向“自动驾驶”的IT系统。
  • [运维技巧] GaussDB(DWS) 运维高频SQL语句汇总
    1. 查看长时间运行的SQL语句SELECT sysdate - query_start AS runtime, usename, coorname, pid, query_id, waiting, enqueue, substr(query, 1, 70) AS query FROM pgxc_stat_activity WHERE STATE != 'idle' AND usename != 'omm' AND usename != 'Ruby' ORDER BY runtime DESC LIMIT 50;2. 统计CN节点上的会话数SELECT enqueue, state,count(*) FROM pgxc_stat_activity GROUP BY 1,2;SELECT coorname,enqueue, state,count(*) FROM pgxc_stat_activity GROUP BY 1,2,3;SELECT usename,coorname,enqueue, state,count(*) FROM pgxc_stat_activity GROUP BY 1,2,3,4;3. 等待视图统计查询select wait_status, wait_event,count(*) from pgxc_thread_wait_status group by 1,2 order by 3 desc;4. 通过PID查杀语句EXECUTE DIRECT ON (CN_5003) 'SELECT PG_TERMINATE_BACKEND(281378607331584)';5. 查看占用内存大的SQLselect sessid, pg_size_pretty(sum_total) as total,pg_size_pretty(sum_free) free,pg_size_pretty(sum_used) used,query_id,query_start,state,waiting,enqueue,substr(query, 1,60) as query from (select sessid,sum(totalsize) as sum_total,sum(freesize) as sum_free,sum(usedsize) as sum_used from pv_session_memory_detail group by sessid ) a,pg_stat_activity b where split_part ( a.sessid,'.' , 2 ) = b.pid order by sum_total desc limit 10;6.  通过query_id查看SQL内存上下文占用情况select sessid, contextname, level,parent, pg_size_pretty(totalsize) as total ,pg_size_pretty(freesize) as freesize, pg_size_pretty(usedsize) as usedsize, datname,query_id, substr(query, 1,60) as query from pv_session_memory_detail a , pg_stat_activity b where split_part(a.sessid,'.',2) = b.pid  and query_id = '74309393851630636' order by totalsize desc limit 10; 
  • [网络安全] 【二级等保】二级等保需要做日志审计吗?
    我国等保业务正在如火如荼的进行着,企业都在积极配合过等保。但对于等保政策,大家还是有些不明白。例如二级等保需要做日志审计吗?二级等保需要做日志审计吗?【回答】:答案是肯定需要的。因为对关键网络设备、关键主机设备、关键安全设备等未开启审计功能同时也没有使用堡垒机等技术手段的也是不符合要求的。简单来说就是以后只要做等保,日志审计将是一个标配,否则就是不符合。其对日志审计的要求如下:a、安全区域边界中对各类审计记录进行备份的要求;b、安全计算环境中对各类设备和系统审计记录进行备份的要求。知识拓展1:过二级等保需要哪些安全设备?1、下一代防火墙【NGFW】a、安全通信网络中通信传输加密的要求;b、安全区域边界中边界防护、访问控制、入侵防范、恶意代码防范的要求;c、安全区域边界中安全审计对安全事件审计的要求。2、堡垒机【OAS】a、安全区域边界中对重要用户安全审计的要求;a、安全计算环境中对服务器身份鉴别的要求;c、安全计算环境中对服务器管理员安全审计的要求;d、安全计算环境中对服务器管理过程数据完整性的要求。3、数据库审计【DBS】安全计算环境中对数据库安全审计的要求4、日志审计系统【LAS】a、安全区域边界中对各类审计记录进行备份的要求;b、安全计算环境中对各类设备和系统审计记录进行备份的要求。知识拓展2:日志审计是什么意思?运维日志审计是指对企业IT系统中常见的安全设备、网络设备、数据库、服务器、应用系统、主机等设备所产生的日志(包括运行、告警、操作、消息、状态等)进行审计。知识拓展3:日志审计用什么工具好?目前市面上运维日志审计工具比较多,各有千秋。这里我给大家推荐行云管家。行云管家堡垒机拥有运维审计的特性,能够将用户在行云管家中对主机的访问操作记录下来,并生成云端录像(事实上是指令集的再次播放),以此来达到安全、可控、合规的团队协作目的。 审计日志包含了主机访问会话的概况、操作的过程记录,以及在操作过程中产生的所有指令集等信息。免费试用:行云管家堡垒机-运维安全审计、自动化运维、等保必备 (cloudbility.com)
总条数:502 到第
上滑加载中