• 【RDS运维案例--005】RDS主备复制关系异常,如何处理?
    场景描述 有时候客户会遇到RDS主备复制关系异常的情况,可能原因是误删除默认安全组策略,下面主要针对这个场景进行分析,供您参考。 解决方案 步骤 1 登录管理控制台。 步骤 2 单击管理控制台左上角的 ,选择区域和项目。 您可选择自己的专属计算集群(DedicatedCoumputing Cluster ,简称DCC)创建实例。 步骤 3 选择“数据库> 关系型数据库”。进入关系型数据库信息页面。步骤 4 在“实例管理”页面,选择指定的实例,单击实例名称。步骤 5 在“基本信息”页面,单击目标安全组名称,进入实例安全组页面。步骤 6 单击“添加规则”,选择入方向,Any协议,源地址为自身安全组,即安全组的远端要有安全组自己 。18780步骤 7 添加完策略之后准备复制的关系就恢复正常了。----结束 18781
  • 【RDS运维案例--004】如何对RDS慢日志进行查询
    场景描述 慢日志记录执行时间超过slowms设定值的语句(默认100ms),通过该日志,可查找出执行效率低的语句,以便优化。 解决方案 步骤 1 登录管理控制台。步骤 2 单击管理控制台左上角的 ,选择区域和项目。您可选择自己的专属计算集群(DedicatedCoumputing Cluster ,简称DCC)创建实例。步骤 3 选择“数据库> 关系型数据库”。进入关系型数据库信息页面。步骤 4 在数据库“实例管理”页面,查看RDS实例的数据库版本。步骤 5 单击导航树“参数组管理”进入参数组管理页面。步骤 6 单击“创建参数组”,创建同数据库版本的新参数组。步骤 7 单击目标参数组名称,对参数组的参数进行编辑,选择字符串为long_query_time=1并保存。步骤 8 在“实例管理”页面单击目标实例操作栏“更多> 变更参数组”,在“变更参数组”弹框选择本次创建的参数组。单击目标实例操作栏的“更多> 重启实例‘’,重新启动实例。步骤 9 连接RDS数据库。18768步骤 10 执行两条语句,让执行的时间超过1s。18769步骤 11 查看慢日志中的记录。----结束18772
  • [技术交流] 全面解析应用运维分布式追踪技术
    随着虚拟化、云化技术越来越成熟,分布式系统的成本和架构优势日渐凸显,特别是微服务等设计理念在业务系统尤其是大型的互联网公司中越来越流行,业务的调用关系越来越复杂。而随着业务的膨胀、服务的拆分,系统的模块变得越来越多,不同的模块可能由不同的团队/程序员来维护。一次客户的业务请求,可能会涉及数个乃至数十个服务的协同处理,牵扯到多个团队/程序员的维护模块,不同的缓存、数据库、消息队列等中间件。在这样的云化应用架构下,请求链路的任何一条请求出现故障或性能问题,都将严重影响服务的用户体验。如何能够快速准确的定位到线上故障根因?如何捕捉请求中的性能瓶颈并实施优化?如何将离散的业务请求数据关联在一起进行有效的用户体验分析?对于大型的、访问量大的网站、社交、电商、游戏应用,这类问题尤其突出,直接影响最终用户对系统的感知和留存率。传统的应用运维问题定位以日志为主,通过对告警、系统资源、日志的逐一分析,定位故障根因或性能瓶颈。但是由于云化架构的复杂性,业务请求链路的多样性,传统的应用运维模式已经无法继续支撑故障定位与性能分析的诉求。这个时候就需要APM系统来大展身手了。APM (Application Performance Management) 即应用性能管理,属于IT运维管理(ITOM)范畴。主要是针对企业关键业务的IT应用性能和用户体验的监测、优化,提高企业IT应用的可靠性和质量,保证用户得到良好的服务,降低IT总拥有成本(TCO)。APM随着互联网的发展,经历了以下三个阶段:第一阶段的APM出现在互联网兴起的初期,由于网络基础设施的水平普遍较差,使应用速度对网络速度与基础资源的性能非常敏感。这个阶段的APM以网络为中心,认为网络速度既应用速度,APM主要监控主机的CPU、I/O、内存、网络吞吐等为主。第二阶段的APM以监控各种基础组件为主,随着互联网的发展,网络应用变得越来越复杂,各种基础组件越来越多,促使APM进入以IT组件的健康状态、可用性、性能监控为中心第二个阶段。近几年移动互联网、云计算、大数据、物联网等技术的迅猛发展,各种业务应用不断出现,IT应用复杂度呈现爆炸式增长,而互联网产品本身“用户至上”的属性决定用户体验成为各互联网产品生存发展的关键因素。如何提升用户体验,保证服务和产品的可靠性、稳定性、优化服务等问题,对应用性能管理提出了新的需求,应用性能管理进入以用户体验为核心、专注业务交易与应用架构高度复杂性的第三阶段。基于APM 市场分析,Gardern对APM进行了新的定义描述:在新的标准下,APM市场发展迅速。APM通过对应用服务的性能和可用性进行监控管理,帮助应用/服务开发者发现和定位性能瓶颈和故障,保证应用达到预期的服务水平及最终用户体验。现代的APM基本都是参考Google的Dapper体系来实现的。Dapper通过跟踪请求的处理过程,来对应用系统在前后端处理、服务端调用的性能消耗进行跟踪。Google基于Dapper的实现发表了论文《Dapper, a Large-Scale Distributed Systems Tracing Infrastructure》,给行业内分布式跟踪的实现提供了非常有价值的参考,该论文也成为了当前分布式跟踪系统的理论基础。大家可以参考Dapper论文原版,进行详细了解,本文只对原理做简单介绍。如上图所示,对于业务链条中的每一次请求调用,划分为clientSend(客户端发送请求)、clientRecv(客户端收到响应)、serverRecv(服务端收到请求)、serverSend(服务端发送响应)等四个事件,并由这四个事件组织为一个称作Span的数据结构。通过定义Span之间的调用(父子)关系,可以对离散的Span数据进行重组,以还原完整的调用链条。Span间的关系通过traceId、parentId、spanId来标识。traceId是一次完整调用链路的唯一标识,parentId标识当前Span的前一个调用Span,spanId用来唯一的标识某一次调用。Span在跟踪链路中的关联关系可以用下图表示:基于Google Dapper这种通过traceid、parentid、spanid还原原始链路的思路,众多大型互联网公司都开发了自己的调用跟踪系统,如Twitter的Zipkin、淘宝的鹰眼、京东的Hydra、开源的PinPoint,总体思路虽然一致,但是植入点选择上却有一些分歧。应用性能管理系统主要由数据源、采集传输、分析计算、可视化查询几部分组成,其中最核心的部分就是数据源。通过从客户端和服务端进行数据采集,其中客户端的数据采集技术主要包括主动式拨测与被动式埋点探测,在此不再展开详细描述,本文主要对服务端的数据采集技术进行简单介绍。服务端的数据采集主要分为两大类:· 网络旁路监听,通过在应用或服务部署的生产网络的交换机或网络接口抓取应用访问流量进行应用性能分析。这种方式对于应用或者服务的侵入性小,性能影响小。然而此方式采集粒度较大,无法提供代码级的问题定位,且在安全传输协议下,无法针对请求或事物进行分析。· 探针埋点,通过在生产服务器上的应用部署或者嵌入探针的方式进行应用性能数据采集。这种方式能够提供非常完整与细粒度的监控数据采集,提供代码级的问题定位。但此方式对于应用来说是侵入性的,如果埋点代码异常,会对应用本身的性能和稳定性产生一定影响。在针对应用与服务的埋点数据采集中,主要使用了探针埋点的方式。探针埋点的方式主要分为两类,以Zipkin为代表的代码侵入式埋点与以PinPoint为代表的字节码增强式埋点。Zipkin是Twitter开源的分布式追踪系统,用户帮助微服务收集排查潜在问题的时序数据,提供调用跟踪数据的收集、存储、查询以及依赖分析的能力。Zipkin是一个分布式跟踪系统,不具备用户体验分析、应用监控统计等特性。Zipkin使用代码侵入埋点的方式,官方提供基于Finagle框架的埋点方案,其他语言和框架的支持主要依赖社区贡献。当前支持包括Java、Scala、Node、Go、Python、Ruby、C#等主流语言和框架。代码侵入式埋点指通过提供应用开发的SDK,或者提供集成埋点代码的框架的方式供应用开发者调用。部分具备框架研发能力的企业像Google一样将植入点选在开发框架或通信框架中,确保基于统一框架开发或通信的应用天然具备埋点能力,除框架开发团队外无需关注埋点实现、调用方式。这种埋点方式优势在于使用框架后无需额外关注埋点能力,变相降低了埋点的成本。Twitter的Zipkin、淘宝的鹰眼选择了这种埋点方式。同时,业界也有非常多的埋点装备库,支持使用埋点组件的方式实现调用链数据埋点。这种埋点方式,通过提供标准的服务框架,如:Servlet、Spring MVC、Http Client以及通用的中间件,如MySQL、Kafka等的装备类的方式,通过编写简单代码和配置,让基于这些标准框架构建的应用可以输出调用链报告数据。Brave为这种埋点方式提供了大量的标准框架实现。也提供了非常简单且标准化的接口,支持在以上的封装实现无法满足业务要求时,进行定制与扩展。代码侵入式埋点具有较好的扩展性,方便用户自定义采集的数据类型与层次。但是,不论提供框架埋点的方式还是提供装备库、SDK的方式,都需要代码侵入,在应用开发以及框架等升级场景下,应用需要重新修改代码。同时,对于应用开发人员来说,精准的识别需要埋点的地方也具有一定难度,而且基于代码侵入的埋点跟踪级别较低,无法获取足够详细的运行态信息。与Zipkin不同,PinPoint是一款开源的应用程序性能管理(Application Performance Management)工具,使用字节码增强的方式进行数据源收集,目前只有官方提供的Java Agent探针。字节码增强式埋点方式,提倡代码的非侵入性,不同的编程语言,通过不同的技术在语言运行环境或基础库上植入。对于Java应用,利用字节码增强技术,在启动JVM时通过不同的埋点插件覆盖不同的通信协议、中间件、开发框架,对Java基础调用代码进行函数级埋点。这种埋点方式优势在于能够拿到堆栈级的调用信息与其他更多运行态信息,帮助使用者无需日志等辅助手段即可快速完成问题定位。PinPoint使用字节码增强技术进行APM数据采集,通过在应用启动时配置java agent探针的方式,主动干预应用代码行为,应用开发者无需进行代码修改,由PinPoint来决定在哪些API进行数据埋点。相比较PinPoint的字节码增强技术与其他APM系统的代码侵入式埋点来说,字节码增强技术从理论上来说能够在任何地方进行埋点,而类似Brave装备库等侵入式埋点的方式本身依赖中间件的实现方式,其提供的应用层面的 API 还需要框架底层驱动的支持,才能实现拦截。PinPoint 在实现之初就考虑到了性能优化,如采用 Thrift 的二进制变长编码格式、使用 UDP 作为传输链路、在传递常量的时候使用数据参考字典、使用异步传输方式等。但任然存在一些性能问题与使用的约束,并且由于字节码增强技术对开发人员有较高的要求,其在扩展性和社区生态方面具有一定的劣势。华为APM结合PinPoint与Zipkin两种典型系统的优点,提供更便捷、更高效、性价比更高的解决方案。1. 非侵入式数据采集:一键式采集部署,更高效与健壮的数据采集能力华为APM探针借鉴PinPoint采集探针优势,在采集数据模型、输出组件性能、可靠性等方面进行优化,并统计业界各框架与中间件的使用广泛性基础上,增加插件支持能力。以保证在最小的资源占用下,为用户提供最为有用的性能分析数据。· 探针自动部署:华为APM支持与华为云容器引擎、云应用编排等服务配合使用,可以在应用部署时通过简单勾选,实现采集探针的自动部署。· 支持Zipkin模型:虽然PinPoint与Zipkin均基于Google Dapper的论文,理论基础大致相同。但是在调用链的数据模型上还是有很大的差异性。在开放性以及社区活跃度等方面,Zipkin更具有优势。为支持Zipkin用户接入,华为APM探针支持按照Zipkin的数据模型进行调用链数据输出。· 数据分类优化:对于APM调用性能统计分析(吞吐量、平均时延、TPN等),业界通用的方式为使用调用链数据进行二次抽取汇聚。该方式下需要尽量多的调用链数据样本,以使统计数据尽可能准确,势必消耗更多的应用资源。为解决这个问题,华为APM探针对采集数据源进行了分类:调用链数据与KPI数据。KPI数据针对每个业务请求按照周期进行汇聚,输出包含请求发起方、请求服务方、调用事务、调用状态(耗时、成功或失败等)等信息。由于KPI数据周期性输出,且相比较调用链数据小得多,因此能够在很小的资源负载下实现全量请求采集与统计。· 数据精准采集:调用链数据更多的关注调用超时(阈值支持自定义)或调用异常的调用链条。华为APM在基础采样率的基础上,从客户的实际运维场景触发,提供精准采集动态配置能力。精准采集支持客户针对应用或交易事务设置超时阈值、周期采集异常调用样本个数、周期内正常调用样本,以减少资源消耗的同时保证异常或超时请求的数据样本满足性能分析要求。· 数据传输优化:针对大数据量下数据输出对资源的消耗较高的问题,对输出组件进行优化,通过异步文件输出与异步Pipe输出、输出数据Cache,减少数据类型等方式,优化应用资源占用。· 采集逃生机制:在高并发峰值场景下,应用业务请求多,资源消耗大。此时,为保证业务正常运行,华为APM支持用户自定义配置逃生资源阈值。在应用资源消耗达到阈值后,华为APM探针主动停止所有运维数据采集,在资源消耗下降至阈值以下时自动恢复数据采集。逃生机制支持动态配置。2. 数字化运营:提供业务运营体验管理与性能分析实时跟踪每条业务交易,快速分析交易的运行状态并提供诊断能力· 自定义事务:用户可根据每条URL定义事务名称,方便理解。· 健康规则配置:可以对每条事务配置健康规则,如超过1s提示异常。· 性能追踪:精确采集异常性能数据,可对比历史基线数据,也能找到应用的异常方法,提升运维效率。3. 应用程序分析:应用关系与异常一目了然、故障下钻· 应用发现与依赖关系:精确采集异常性能数据,可对比历史基线数据,也能找到应用的异常方法,提升运维效率。· 应用KPI汇聚:微服务实例汇聚到应用,KPI数据自动汇聚到应用。4. 应用程序跟踪:对异常业务调用链追踪,快速问题定界支持平台、资源、应用的监控和微服务调用链分析:· 海量数据规模支撑:支持百万容器监控,秒级查询响应。· 故障下钻:通过单击故障节点可自动下钻到故障的微服务实例、也可以关联到失败的调用链和调用栈,查看失败函数的入参和返回值。现在就使用APM服务:体验馆免费体验——使用您自己的账号登录APM,通过体验馆免费体验APM功能。demo免费体验——使用应用性能管理提供的免费账号登录并了解应用性能管理服务功能。使用——使用您自己的账号登录APM,进一步了解APM服务功能或将APM服务接入您自己的应用。更多关怀:
  • 【RDS运维案例--003】如何查看RDS存储空间使用量
    场景描述RDS的存储空间为客户购买的数据盘存储,不包括客户后台ECS虚拟机的系统盘。云监控(CES)目前可以对客户存储空间的大小、使用量、利用率等作出监控及设置告警策略,但不能查看RDS存储空间使用量。解决方案步骤 1    登录管理控制台。步骤 2    单击管理控制台左上角的18750,选择区域和项目。您可选择自己的专属计算集群(DedicatedCoumputing Cluster ,简称DCC)创建实例。步骤 3     选择“数据库> 关系型数据库”。进入关系型数据库信息页面。步骤 4     在“实例管理”页面,选择指定的实例,单击实例名称。步骤 5     进入“基本信息”页面。在“空间信息”模块查看存储空间类型和使用情况。----结束说明:存储空间使用量大于用户数据的原因:RDS存储空间中存储的数据为数据文件和bin-log日志文件。l  如果用户开启自动备份策略,备份的bin-log日志文件会存储在用户的存储空间且存储时间由expire_logs_days参数设置决定。l  用户对数据库进行压力测试或者某一时间段业务量较大,也会有大量bin-log日志占用存储空间,导致存储空间使用率上升。建议:若开启了自动备份策略,把expire_logs_days(保留天数)参数调小,在保证客户数据安全的前提下,减少存储空间使用率。18774 
  • 【RDS运维案例--002】如何使用修改表方式修改mysql5.7密码
    场景描述需要使用修改user表方式修改mysql密码,但找不到修改路径。解决方案步骤 1     修改mysql的配置文件,修改为跳过密码验证:vim /etc/my.cnf在[mysqld]下添加skip-grant-tables。步骤 2     重启mysql服务。service mysqldrestart18736步骤3     在“mysql –uroot –p”处回车即可进入数据库。18737步骤 4     输入命令“desc mysql.user ”。1874318744即可看到mysql5.7版本没有password列,显示为authentication_string。步骤5     执行命令:update mysql.user setauthentication_string=password('新密码') where user='root' andHost = 'localhost'即可设置为新密码。步骤6     退出,将skip-grant-tables字段删除或注释即可。----结束19150
  • 【RDS运维案例--001】mysql远程连接报错,如何处理?
    场景描述客户远程连接(包括telnet3306端口)MySQL时报错:Host * is not allowed to connectto this MySQL server。问题分析一般是由于帐号不允许远程登录,只能在localhost登录造成。解决方案目前针对这种情况,我们提供了两种解决方案:方案一:改表法 可能该帐号不允许远程登录,此时,需在安装localhost 的电脑登录mysql,并更改 “mysql 数据库 > user表 > host项 > localhost”为"%"。执行如下命令:mysql -u root –ppasswd use mysql; mysql>update user set host = '%' whereuser = 'root'; mysql>select host, user from user; mysql>flush privileges;方案二:授权法l  若想实现myuser使用mypassword从任何主机连接到mysql服务器,在本地登录数据库后执行如下命令:GRANT ALL PRIVILEGES ON *.* TO'myuser'@'%' IDENTIFIED BY 'mypassword' WITH GRANT OPTION;FLUSH PRIVILEGES;l  若想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器,并使用mypassword作为密码,执行如下命令:GRANT ALL PRIVILEGES ON *.* TO'myuser'@'192.168.1.6' IDENTIFIEDBY 'mypassword' WITH GRANT OPTION;FLUSH PRIVILEGES;在安装mysql的机器上运行如下命令:mysql -h localhost -u root//登录mysql>GRANT ALL PRIVILEGES ON *.* TO'root'@'%' WITHGRANT OPTION //赋予任何主机访问数据的权限mysql>FLUSH PRIVILEGES;//修改生效mysql>QUIT //退出MySQL服务器这样就可以实现在其它任何的主机上以root身份登录。目前我方云主机,在数据库开启允许远程后,如果仍无法连接可尝试清空防火墙以及开放安全组指定端口进行处理。
  • [运维二三事] 自动发现应用—快速获得云应用运维能力的“绿色通道”
    18437 01 什么是自动发现应用自动发现应用即应用运维管理服务(AOM)自动发现应用并监控相关指标,将数据上报到AOM界面中,您可以可视化的管理应用。 02 如何自动发现应用目前,AOM仅支持了部署在Linux系统的应用。当应用部署在弹性云服务器上之后,您只需要安装采集代理ICAgent,AOM就可以发现应用并采集、上报指标数据到界面中。针对不同的应用语言,AOM的自动发现应用功能又分为两种情况,一种是完全自动发现,无需手工配置;另外一种是事先配置应用发现规则,然后AOM自动发现符合规则的应用。1、完全自动发现,无需手工配置这种情况,需要您的应用满足以下要求: [*]已经部署在Linux系统弹性云服务器上 [*]语言为Java、node.js或python的应用 如果您应用的语言不满足上述要求的语言类型,您可以采用下面说的情况。2、事先配置应用发现规则,然后AOM自动发现符合规则的应用。这种情况下,需要您的应用满足以下要求: [*]已经部署在Linux系统弹性云服务器上 [*]语言为非Java、node.js或python的应用 如果您需要了解更详细的配置,访问详细配置方法:https://support.huaweicloud.com/usermanual-aom/aom_02_0023.html 03 自动发现应用的场景在华为云Linux系统弹性云服务器上部署了虚机应用,需要应用运维工具对应用状态进行监控。 访问官网,了解更多:https://www.huaweicloud.com/product/aom.html 更多关怀:
  • [用户故事] 这一批运维到底在干什么?!
    我,是一个运维工程师。那一年回家相亲,对面一对母女问起了这个问题。她妈妈:“小伙子你是干啥的呀?”我:“运维工程师”她妈妈:“修电脑的呀?”脸色一变,不屑的看着我。我:“不是,我做网络系统运维工作。”她妈妈:“不就是网管吗?” 呵呵一笑,借着上厕所的理由,我以迅雷不及掩耳盗铃儿响叮当之势跑路了。运维的苦,呵呵,谁干谁知道。真所谓生当做光棍,死亦写代码。锄禾日当午,不如运维苦,对着破电脑,一调一下午。现在的我们常听到的一种言论就是运维估计都要失业了,各种新技术要把运维都替代了。此时的我们纵然心头有万头草泥马奔腾而过,也只能苦笑一声,听到当没听到了。果真如此吗?不然。运维工程师可以被取代,但是运维工作是不会消亡的。它将伴随着整个业务的发展而不停迭代。一个应用,大致是这样的一个过程:产品经理设计出产品原型,交给开发者开发实现,后经过QA测试,然后交付给操作部署上线运行。运维是做哪一部分呢?传统的运维只要关注操作系统层面的技术就可以了,但随着业务的升级、技术的迭代,运维也需要谋求技术转型。现在,不仅要对程序代码的性能调优、持续交付、容器化等,还要持续关注整个业务、应用、服务的生命周期。简单来说,就是过去传统的运维模式是黑箱运维,已然不适用于今天的运维工作。在今天的运维工作中,运维工程师要更深入代码、更深入业务,让整个应用或服务运行的更加优质和高效。所以,为了保证代码能够持续交付,为了应用运行不出Bug,为了能够让应用不在某个时间段轻易的挂掉。我们容易吗?这里没有正常朝九晚五,没有传说中的做五休二。如同消防队员不知道警报会何时想起,运维也要随时做着处理故障的准备。然而,运维首先是个程序员。所以我们就要用互联网技术来解决问题。云计算是一个很好地方向,无需再写运维工具的代码,简单易用。那么,PaaS层将会是一个完美的突破口,平台化的结构可以保证服务的稳定。所以最终,我选用了华为云的应用运维服务。大厂,好品质,值得信赖。在运维工作前,测试是必不可少的环节。使用华为云性能测试服务CPTS可以进行快速模拟大规模并发用户,通过支持报文内容和时序自定义、多事物组合来实现复杂场景测试。与此同时,华为云性能测试服务还有以下特点:1、单执行机支持万级并发 能够提供百万级并发的私有集群,避免其他用户干扰,结果很真实。2、提供灵活的数据报文、事务定义能力、支持多事务组合,事务压测曲线定义,轻松应对您的复杂测试场景。3、提供专业性能测试报告,包括事务并发、TPS、吞吐量、响应时延、资源使用、调用链跟踪等多维度统计。运维工作中,华为云应用性能管理APM可以实时监控并管理企业应用性能和故障,帮助运维人员快速解决分布式架构下问题定位和性能瓶颈分析难题,改善用户体验。面对可能发生的未知也可轻易知晓,再也不用充当一块“砖”,哪里需要往哪搬了。非侵入式性能数据采集,在不需要修改业务代码即可轻松接入。如果面对不同的业务,运维需求不一样时也不怕,华为云应用性能管理APM开放了运营、运维数据查询接口和性能指标、采集标准,支持自主开发。如果产品是一台车,那么运维就要充当一个好司机,不让车偏离轨道。有一个清晰的仪表盘是一个非常重要的事儿~那么华为云应用运维管理AOM是一个最好的选择。它为运维人员提供一站式立体运维平台,实时监控应用、资源运行状态,通过数十种指标、告警与日志关联分析,快速锁定问题根源,轻松保障业务顺畅运行。 找对工具,其实运维可以这样轻松!快来点此体验吧! 运维域活动链接:http://activity.huaweicloud.com/apm/index.html?fromblog 作者:韩非
  • [其他] 云搜索服务在日志解决方案的应用
    本帖最后由 ES_Siyu 于 2018-6-20 16:43 编辑在大数据浪潮下,你离数据运营和智能运维只差一个云搜索服务,快戳下面链接来体验~~~云搜索服务 —————————————————————————————————————————————————————— 在整体行业趋于数字化的今天,各种业务软件每时每刻都在产生日志数据。因为大数据的爆发,大家开始重视如何利用这些日志,去解决业务上的难题。不可否认的是,随着对数据资产的观念兴起,越来越多的运营人员和运维人员开始使用这些日志构建应用场景。 17813—————————————————————————————————————————————————————— 站在运营和运维的角度,如何有效进行日志分析成为一个难题。总体而言,包括以下四个方面:日志分散,分析困难,容量有限和速度受制。 17820 —————————————————————————————————————————————————————— 继续细化,从运维的业务层面看,在云搜索服务上,日志分析能完成监控告警、故障处理、性能优化和安全审计等事项,最终达到智能运维的目标。基本思路是收集相关日志数据,导入到云搜索服务中,使用搜索语句获得结果,最终在可视化界面呈现。而云搜索服务是基于Elasticsearch,具有高效检索和灵活弹性的优势,拥有可视化工具,能帮助运维人员集中化管理日志数据,高效完成运维任务。 17810 —————————————————————————————————————————————————————— 而在运营业务层面,云搜索服务能帮助运营人员进行数字化运营,包括但不仅限于流量运营,用户运营,产品运营和内容运营。基本流程与运维相似,收集重要指标,导入到云搜索服务,建立图表,进行后续业务分析。 17814 —————————————————————————————————————————————————————— 从技术上,整体云上架构如下,包括日志产生,日志采集,日志分析和日志场景。 17812 在大数据浪潮下,你离数据运营和智能运维只差一个云搜索服务,快戳下面链接来体验~~~云搜索服务
  • [用户故事] 这一批运维到底在干什么?!
    我,是一个运维工程师。那一年回家相亲,对面一对母女问起了这个问题。她妈妈:“小伙子你是干啥的呀?”我:“运维工程师”她妈妈:“修电脑的呀?”脸色一变,不屑的看着我。我:“不是,我做网络系统运维工作。”她妈妈:“不就是网管吗?” 呵呵一笑,借着上厕所的理由,我以迅雷不及掩耳盗铃儿响叮当之势跑路了。运维的苦,呵呵,谁干谁知道。真所谓生当做光棍,死亦写代码。锄禾日当午,不如运维苦,对着破电脑,一调一下午。现在的我们常听到的一种言论就是运维估计都要失业了,各种新技术要把运维都替代了。此时的我们纵然心头有万头草泥马奔腾而过,也只能苦笑一声,听到当没听到了。果真如此吗?不然。运维工程师可以被取代,但是运维工作是不会消亡的。它将伴随着整个业务的发展而不停迭代。一个应用,大致是这样的一个过程:产品经理设计出产品原型,交给开发者开发实现,后经过QA测试,然后交付给操作部署上线运行。运维是做哪一部分呢?传统的运维只要关注操作系统层面的技术就可以了,但随着业务的升级、技术的迭代,运维也需要谋求技术转型。现在,不仅要对程序代码的性能调优、持续交付、容器化等,还要持续关注整个业务、应用、服务的生命周期。简单来说,就是过去传统的运维模式是黑箱运维,已然不适用于今天的运维工作。在今天的运维工作中,运维工程师要更深入代码、更深入业务,让整个应用或服务运行的更加优质和高效。所以,为了保证代码能够持续交付,为了应用运行不出Bug,为了能够让应用不在某个时间段轻易的挂掉。我们容易吗?这里没有正常朝九晚五,没有传说中的做五休二。如同消防队员不知道警报会何时想起,运维也要随时做着处理故障的准备。然而,运维首先是个程序员。所以我们就要用互联网技术来解决问题。云计算是一个很好地方向,无需再写运维工具的代码,简单易用。那么,PaaS层将会是一个完美的突破口,平台化的结构可以保证服务的稳定。所以最终,我选用了华为云的应用运维服务。大厂,好品质,值得信赖。在运维工作前,测试是必不可少的环节。使用华为云性能测试服务CPTS可以进行快速模拟大规模并发用户,通过支持报文内容和时序自定义、多事物组合来实现复杂场景测试。与此同时,华为云性能测试服务还有以下特点:1、单执行机支持万级并发 能够提供百万级并发的私有集群,避免其他用户干扰,结果很真实。2、提供灵活的数据报文、事务定义能力、支持多事务组合,事务压测曲线定义,轻松应对您的复杂测试场景。3、提供专业性能测试报告,包括事务并发、TPS、吞吐量、响应时延、资源使用、调用链跟踪等多维度统计。运维工作中,华为云应用性能管理APM可以实时监控并管理企业应用性能和故障,帮助运维人员快速解决分布式架构下问题定位和性能瓶颈分析难题,改善用户体验。面对可能发生的未知也可轻易知晓,再也不用充当一块“砖”,哪里需要往哪搬了。非侵入式性能数据采集,在不需要修改业务代码即可轻松接入。如果面对不同的业务,运维需求不一样时也不怕,华为云应用性能管理APM开放了运营、运维数据查询接口和性能指标、采集标准,支持自主开发。如果产品是一台车,那么运维就要充当一个好司机,不让车偏离轨道。有一个清晰的仪表盘是一个非常重要的事儿~那么华为云应用运维管理AOM是一个最好的选择。它为运维人员提供一站式立体运维平台,实时监控应用、资源运行状态,通过数十种指标、告警与日志关联分析,快速锁定问题根源,轻松保障业务顺畅运行。 找对工具,其实运维可以这样轻松!快来点此体验吧! 运维域活动链接:http://activity.huaweicloud.com/apm/index.html?fromblog 作者:韩非
  • [运维二三事] 这一批运维到底在干什么?!
    我,是一个运维工程师。那一年回家相亲,对面一对母女问起了这个问题。她妈妈:“小伙子你是干啥的呀?”我:“运维工程师”她妈妈:“修电脑的呀?”脸色一变,不屑的看着我。我:“不是,我做网络系统运维工作。”她妈妈:“不就是网管吗?” 呵呵一笑,借着上厕所的理由,我以迅雷不及掩耳盗铃儿响叮当之势跑路了。运维的苦,呵呵,谁干谁知道。真所谓生当做光棍,死亦写代码。锄禾日当午,不如运维苦,对着破电脑,一调一下午。现在的我们常听到的一种言论就是运维估计都要失业了,各种新技术要把运维都替代了。此时的我们纵然心头有万头草泥马奔腾而过,也只能苦笑一声,听到当没听到了。果真如此吗?不然。运维工程师可以被取代,但是运维工作是不会消亡的。它将伴随着整个业务的发展而不停迭代。一个应用,大致是这样的一个过程:产品经理设计出产品原型,交给开发者开发实现,后经过QA测试,然后交付给操作部署上线运行。运维是做哪一部分呢?传统的运维只要关注操作系统层面的技术就可以了,但随着业务的升级、技术的迭代,运维也需要谋求技术转型。现在,不仅要对程序代码的性能调优、持续交付、容器化等,还要持续关注整个业务、应用、服务的生命周期。简单来说,就是过去传统的运维模式是黑箱运维,已然不适用于今天的运维工作。在今天的运维工作中,运维工程师要更深入代码、更深入业务,让整个应用或服务运行的更加优质和高效。所以,为了保证代码能够持续交付,为了应用运行不出Bug,为了能够让应用不在某个时间段轻易的挂掉。我们容易吗?这里没有正常朝九晚五,没有传说中的做五休二。如同消防队员不知道警报会何时想起,运维也要随时做着处理故障的准备。然而,运维首先是个程序员。所以我们就要用互联网技术来解决问题。云计算是一个很好地方向,无需再写运维工具的代码,简单易用。那么,PaaS层将会是一个完美的突破口,平台化的结构可以保证服务的稳定。所以最终,我选用了华为云的应用运维服务。大厂,好品质,值得信赖。在运维工作前,测试是必不可少的环节。使用华为云性能测试服务CPTS可以进行快速模拟大规模并发用户,通过支持报文内容和时序自定义、多事物组合来实现复杂场景测试。与此同时,华为云性能测试服务还有以下特点:1、单执行机支持万级并发 能够提供百万级并发的私有集群,避免其他用户干扰,结果很真实。2、提供灵活的数据报文、事务定义能力、支持多事务组合,事务压测曲线定义,轻松应对您的复杂测试场景。3、提供专业性能测试报告,包括事务并发、TPS、吞吐量、响应时延、资源使用、调用链跟踪等多维度统计。运维工作中,华为云应用性能管理APM可以实时监控并管理企业应用性能和故障,帮助运维人员快速解决分布式架构下问题定位和性能瓶颈分析难题,改善用户体验。面对可能发生的未知也可轻易知晓,再也不用充当一块“砖”,哪里需要往哪搬了。非侵入式性能数据采集,在不需要修改业务代码即可轻松接入。如果面对不同的业务,运维需求不一样时也不怕,华为云应用性能管理APM开放了运营、运维数据查询接口和性能指标、采集标准,支持自主开发。如果产品是一台车,那么运维就要充当一个好司机,不让车偏离轨道。有一个清晰的仪表盘是一个非常重要的事儿~那么华为云应用运维管理AOM是一个最好的选择。它为运维人员提供一站式立体运维平台,实时监控应用、资源运行状态,通过数十种指标、告警与日志关联分析,快速锁定问题根源,轻松保障业务顺畅运行。 找对工具,其实运维可以这样轻松!快来点此体验吧! 运维域活动链接:http://activity.huaweicloud.com/apm/index.html?fromblog 作者:韩非 更多关怀:
  • [行业前沿] 一文参透自动化运维魔力, AOS助你一键点亮云上资源
    记得刚工作那会做了几个网站类项目,每次临近项目上线,都要拉到宾馆封闭开发,搬上几台小机,搭建开发、测试、类生产环境用,因为环境太复杂,每次都是PL们亲力亲为,生怕有一个环节出错就前功尽弃。开局就更是个体力活,扛机柜、搬服务器、架路由器、有些时候网线都要现做。现在想想也不知道是因为公司小,还是当时的IT界就这样,研发和服务其实没分得那么清楚。后来陆续换了一些公司和项目,肩挑手扛的开局慢慢的也有专门的服务团队来做,也就不再是当年研发一家亲的状态了。服务团队会要求我们的软件能快速批量部署,“部署、配置要能通过界面操作”、“要能静默安装”、“安装过程不需要人工干预”、“最好是预安装,机器上电就能用”。在那个年代的IT服务团队已经开始关注自动化、提升效率了。进入云计算1.0时代后,再也不用肩挑手扛的去搭建基础设施,只管从云上申请资源就好了。各云厂商为了吸引客户,也把原来线下平台软件搬上云,丰富这个池子里的资源,以满足用户日趋复杂的业务场景:WEB容器、云数据库、分布式缓存、监控、日志、审计等云上的资源越来越丰富。 在这些新服务的诱惑下,各种C什么O们也不再痴情于自研平台软件,而是直接使用云上服务,而对服务人员来说,运维的难度也就越来越大了,于是服务人员摇身一变开始转攻编程,写出行云流水般的脚本,让部署与日常的运维工作开始变得有序,可能还充满乐趣,这就是自动化的魔力,让我们解放双手的同时,还能取得精神上的满足。既然自动化如此神奇,各大厂商、组织也拿出浑身解数来迎合市场的需求,heat,kubernets,puppet,Chef,Ansible一大堆产品应运而生,各云服务也争相把API开放出来以便满足自动化的要求。如何让用户更方便的对资源、应用、中间件进行管理呢?前方高能。国内大厂推出了解决方案——华为云应用编排服务AOS(Application Orchestration Service)。它可对云上的应用、云中间件、传统的和容器化的计算、存储、网络资源进行统一的部署管理,并通过编排引擎,让用户可自行定义资源、应用间的依赖关系、引用关系等,实现一站式云资源开通和云应用的部署。AOS以华为云上的云服务为基本单位,对每个云服务对象定义了常用的输入、输出与周边依赖,使得用户很容易通过AOS的图形化设计器,将这些元素像画电路图一样,并联或串联起来,并基于设计的图形,一键“点亮资源”(申请资源,并使资源处于可用状态),真正做到 “让用户像用电一样享受云计算”。 图1:这么漂亮的图形化工具,你猜不同颜色的线代表什么意思?下面以典型的电商建站场景为例,看看AOS到底能帮助我们提升多少效率:在没有AOS编排工具前,我们至少需要进行10步操作才能完成,而且每种资源的开通申请,都要到各云服务的页面进行操作,整个过程是相当繁琐的:1、进入网络服务,申请VPC、Subnet2、进入网络服务的安全组页面,创建安全组3、进入弹性云主机服务,创建云主机并绑定EIP4、进入弹性负载均衡,创建ELB,并把云主机添加到ELB的监听范围内5、进入antiddos服务,给ELB的EIP开通antiddos服务,防止DDOS攻击6、进入RDS服务,创建RDS云数据库实例7、进入DCS服务,创建DCS分布式缓存的实例(上面这些还只是最基本的,有可能还需要开通云审计、云日志、云监控、CDN、共享存储等多个服务,来支撑业务系统的运行)8、手动把上面所有资源的信息纪录下来,以备安装应用时配置使用9、上传必须的软件包10、远程登陆到云主机进行安装、配置(看着简单的“安装配置”四个字,其中的辛酸又有多少人知道呢) 使用AOS自动化编排后,可把上面的步骤进行精简,当然要获取极致的自动化部署体验,个人推荐结合CCE(云容器引擎)服务一起使用,双剑合璧,整个过程会让人感受到前所未有的爽快:上面流程的1-7步,我们可以通过AOS模板一步完成,不再需要挨个云服务云申请资源。AOS汇聚了华为云上主流服务的创建、删除、修改API,用户无需再感知云服务的API,只需要按AOS提供的规范定义资源模型和模型间的关系,剩下漫长的开通资源的过程就交给AOS了。直接选取一个自己需要的容器集群进行部署 图2: 涵盖网络、虚机、容器、应用、中间件的样例模板,继续更新中… 图3:选择创建CCE容器集群 图4:创建集群常用的参数都已经自动填充,太贴心了 第8-10步,同样也是通过AOS样例模板一步搞定,我直接选取Magento的电商应用部署,当然如果用户部署的不是Magento的应用,需要手动修改一下模板。图5:选择容器应用的样例模板 图6:可直接进入设计器修改生成自已需要的模板 图7:也可直接进行部署 图8:应用各组件的部署进度、状态一目了然(PS: 示例模板应该是为了展示的便利和学习的方便,把整个场景分别放在了资源和应用两个样例里,真正使用的时候,可以把这两个模板拷到一个文件中,那么整个从底层资源到中间件,再到上层应用的部署,一个部署动作就能搞定)就是这么简单,一个CCE集群和一个基于容器运行的电商应用就出现在眼前了。至于门槛,主要是一些基础的行业知识,比如:· 需要了解yaml(一种比json更简洁的描述语言),写出来的模板不能有基本的语法错误,就像写json时大括号总得写对位置吧· 需要对所使用的云服务、对AOS封装的资源模型有一定的了解,比如创建VPC,你得知道什么是CIDR,创建安全组,你得知道是给TCP是UDP协议做规则,创建RDS您得知道HA与单机的区别吧。· 要清楚业务部署时的依赖关系和先后顺序,比如,要先把云主机创建好,然后开始部署应用AOS想尽办法降低门槛,除了提供上面所说的覆盖各种场景的样例模板外,还为提供了可视化的模型设计器,就好比编程时有了可以直接copy的代码sample,还得有个好用的IDE,这样会大大简化模板的开发,0基础也能快速开发、部署模板。 图9:快速完成模型设计看看上面的图就知道 了,不到1分钟,整个部署模型就设计完成了,剩下的就是在里面根据业务需要填写、修改参数和部署了。某子曾经曰过:好的工具不仅要能解决用户真正的困难,而且要易于上手,同时有着强大底蕴、深厚的内涵,AOS就刚好符合这几点:1、解决用户在华为云一站式上云时资源、应用部署麻烦的问题2、丰富样例代码、可视化的设计器,据说AOS秘书MM都可以快速上手部署容器应用3、结合这么多年在电信行业大型系统运维过程中踩过的坑,自主研发的编排引擎,和基于tosaca标准规范的模板设计语法,在简单的界面下,深藏玄机,让深度用户可以玩出更多花样,定制出适合自己的场景如果您是研发人员,在为一遍一遍重复搭建开发、测试、QA、类生产等环境感到无聊如果您是运维人员,在为运维过程中复杂的资源管理、监控而烦恼如果您是创业公司,在为如何开启云上事业的第一步而发愁如果您是准备搭上云高速列车的企业,在为如何把企业业务搬迁上云而苦恼速来体验AOS吧!会给您开启一个全新的云世界。https://www.huaweicloud.com/product/aos.html?fromblog?fromblog
  • [介绍/入门] 一文参透自动化运维魔力, AOS助你一键点亮云上资源
    记得刚工作那会做了几个网站类项目,每次临近项目上线,都要拉到宾馆封闭开发,搬上几台小机,搭建开发、测试、类生产环境用,因为环境太复杂,每次都是PL们亲力亲为,生怕有一个环节出错就前功尽弃。开局就更是个体力活,扛机柜、搬服务器、架路由器、有些时候网线都要现做。现在想想也不知道是因为公司小,还是当时的IT界就这样,研发和服务其实没分得那么清楚。后来陆续换了一些公司和项目,肩挑手扛的开局慢慢的也有专门的服务团队来做,也就不再是当年研发一家亲的状态了。服务团队会要求我们的软件能快速批量部署,“部署、配置要能通过界面操作”、“要能静默安装”、“安装过程不需要人工干预”、“最好是预安装,机器上电就能用”。在那个年代的IT服务团队已经开始关注自动化、提升效率了。进入云计算1.0时代后,再也不用肩挑手扛的去搭建基础设施,只管从云上申请资源就好了。各云厂商为了吸引客户,也把原来线下平台软件搬上云,丰富这个池子里的资源,以满足用户日趋复杂的业务场景:WEB容器、云数据库、分布式缓存、监控、日志、审计等云上的资源越来越丰富。 在这些新服务的诱惑下,各种C什么O们也不再痴情于自研平台软件,而是直接使用云上服务,而对服务人员来说,运维的难度也就越来越大了,于是服务人员摇身一变开始转攻编程,写出行云流水般的脚本,让部署与日常的运维工作开始变得有序,可能还充满乐趣,这就是自动化的魔力,让我们解放双手的同时,还能取得精神上的满足。既然自动化如此神奇,各大厂商、组织也拿出浑身解数来迎合市场的需求,heat,kubernets,puppet,Chef,Ansible一大堆产品应运而生,各云服务也争相把API开放出来以便满足自动化的要求。如何让用户更方便的对资源、应用、中间件进行管理呢?前方高能。国内大厂推出了解决方案——华为云应用编排服务AOS(Application Orchestration Service)。它可对云上的应用、云中间件、传统的和容器化的计算、存储、网络资源进行统一的部署管理,并通过编排引擎,让用户可自行定义资源、应用间的依赖关系、引用关系等,实现一站式云资源开通和云应用的部署。AOS以华为云上的云服务为基本单位,对每个云服务对象定义了常用的输入、输出与周边依赖,使得用户很容易通过AOS的图形化设计器,将这些元素像画电路图一样,并联或串联起来,并基于设计的图形,一键“点亮资源”(申请资源,并使资源处于可用状态),真正做到 “让用户像用电一样享受云计算”。 图1:这么漂亮的图形化工具,你猜不同颜色的线代表什么意思?下面以典型的电商建站场景为例,看看AOS到底能帮助我们提升多少效率:在没有AOS编排工具前,我们至少需要进行10步操作才能完成,而且每种资源的开通申请,都要到各云服务的页面进行操作,整个过程是相当繁琐的:1、进入网络服务,申请VPC、Subnet2、进入网络服务的安全组页面,创建安全组3、进入弹性云主机服务,创建云主机并绑定EIP4、进入弹性负载均衡,创建ELB,并把云主机添加到ELB的监听范围内5、进入antiddos服务,给ELB的EIP开通antiddos服务,防止DDOS攻击6、进入RDS服务,创建RDS云数据库实例7、进入DCS服务,创建DCS分布式缓存的实例(上面这些还只是最基本的,有可能还需要开通云审计、云日志、云监控、CDN、共享存储等多个服务,来支撑业务系统的运行)8、手动把上面所有资源的信息纪录下来,以备安装应用时配置使用9、上传必须的软件包10、远程登陆到云主机进行安装、配置(看着简单的“安装配置”四个字,其中的辛酸又有多少人知道呢) 使用AOS自动化编排后,可把上面的步骤进行精简,当然要获取极致的自动化部署体验,个人推荐结合CCE(云容器引擎)服务一起使用,双剑合璧,整个过程会让人感受到前所未有的爽快:上面流程的1-7步,我们可以通过AOS模板一步完成,不再需要挨个云服务云申请资源。AOS汇聚了华为云上主流服务的创建、删除、修改API,用户无需再感知云服务的API,只需要按AOS提供的规范定义资源模型和模型间的关系,剩下漫长的开通资源的过程就交给AOS了。直接选取一个自己需要的容器集群进行部署 图2: 涵盖网络、虚机、容器、应用、中间件的样例模板,继续更新中… 图3:选择创建CCE容器集群 图4:创建集群常用的参数都已经自动填充,太贴心了 第8-10步,同样也是通过AOS样例模板一步搞定,我直接选取Magento的电商应用部署,当然如果用户部署的不是Magento的应用,需要手动修改一下模板。图5:选择容器应用的样例模板 图6:可直接进入设计器修改生成自已需要的模板 图7:也可直接进行部署 图8:应用各组件的部署进度、状态一目了然(PS: 示例模板应该是为了展示的便利和学习的方便,把整个场景分别放在了资源和应用两个样例里,真正使用的时候,可以把这两个模板拷到一个文件中,那么整个从底层资源到中间件,再到上层应用的部署,一个部署动作就能搞定)就是这么简单,一个CCE集群和一个基于容器运行的电商应用就出现在眼前了。至于门槛,主要是一些基础的行业知识,比如:· 需要了解yaml(一种比json更简洁的描述语言),写出来的模板不能有基本的语法错误,就像写json时大括号总得写对位置吧· 需要对所使用的云服务、对AOS封装的资源模型有一定的了解,比如创建VPC,你得知道什么是CIDR,创建安全组,你得知道是给TCP是UDP协议做规则,创建RDS您得知道HA与单机的区别吧。· 要清楚业务部署时的依赖关系和先后顺序,比如,要先把云主机创建好,然后开始部署应用AOS想尽办法降低门槛,除了提供上面所说的覆盖各种场景的样例模板外,还为提供了可视化的模型设计器,就好比编程时有了可以直接copy的代码sample,还得有个好用的IDE,这样会大大简化模板的开发,0基础也能快速开发、部署模板。 图9:快速完成模型设计看看上面的图就知道 了,不到1分钟,整个部署模型就设计完成了,剩下的就是在里面根据业务需要填写、修改参数和部署了。某子曾经曰过:好的工具不仅要能解决用户真正的困难,而且要易于上手,同时有着强大底蕴、深厚的内涵,AOS就刚好符合这几点:1、解决用户在华为云一站式上云时资源、应用部署麻烦的问题2、丰富样例代码、可视化的设计器,据说AOS秘书MM都可以快速上手部署容器应用3、结合这么多年在电信行业大型系统运维过程中踩过的坑,自主研发的编排引擎,和基于tosaca标准规范的模板设计语法,在简单的界面下,深藏玄机,让深度用户可以玩出更多花样,定制出适合自己的场景如果您是研发人员,在为一遍一遍重复搭建开发、测试、QA、类生产等环境感到无聊如果您是运维人员,在为运维过程中复杂的资源管理、监控而烦恼如果您是创业公司,在为如何开启云上事业的第一步而发愁如果您是准备搭上云高速列车的企业,在为如何把企业业务搬迁上云而苦恼速来体验AOS吧!会给您开启一个全新的云世界。https://www.huaweicloud.com/product/aos.html?fromblog?fromblog
  • 【可能是最详尽的应用编排教程了】一文参透自动化运维魔力, AOS助你一键点亮云上.....
    记得刚工作那会做了几个网站类项目,每次临近项目上线,都要拉到宾馆封闭开发,搬上几台小机,搭建开发、测试、类生产环境用,因为环境太复杂,每次都是PL们亲力亲为,生怕有一个环节出错就前功尽弃。开局就更是个体力活,扛机柜、搬服务器、架路由器、有些时候网线都要现做。现在想想也不知道是因为公司小,还是当时的IT界就这样,研发和服务其实没分得那么清楚。后来陆续换了一些公司和项目,肩挑手扛的开局慢慢的也有专门的服务团队来做,也就不再是当年研发一家亲的状态了。服务团队会要求我们的软件能快速批量部署,“部署、配置要能通过界面操作”、“要能静默安装”、“安装过程不需要人工干预”、“最好是预安装,机器上电就能用”。在那个年代的IT服务团队已经开始关注自动化、提升效率了。进入云计算1.0时代后,再也不用肩挑手扛的去搭建基础设施,只管从云上申请资源就好了。各云厂商为了吸引客户,也把原来线下平台软件搬上云,丰富这个池子里的资源,以满足用户日趋复杂的业务场景:WEB容器、云数据库、分布式缓存、监控、日志、审计等云上的资源越来越丰富。 在这些新服务的诱惑下,各种C什么O们也不再痴情于自研平台软件,而是直接使用云上服务,而对服务人员来说,运维的难度也就越来越大了,于是服务人员摇身一变开始转攻编程,写出行云流水般的脚本,让部署与日常的运维工作开始变得有序,可能还充满乐趣,这就是自动化的魔力,让我们解放双手的同时,还能取得精神上的满足。既然自动化如此神奇,各大厂商、组织也拿出浑身解数来迎合市场的需求,heat,kubernets,puppet,Chef,Ansible一大堆产品应运而生,各云服务也争相把API开放出来以便满足自动化的要求。如何让用户更方便的对资源、应用、中间件进行管理呢?前方高能。国内大厂推出了解决方案——华为云应用编排服务AOS(Application Orchestration Service)。它可对云上的应用、云中间件、传统的和容器化的计算、存储、网络资源进行统一的部署管理,并通过编排引擎,让用户可自行定义资源、应用间的依赖关系、引用关系等,实现一站式云资源开通和云应用的部署。AOS以华为云上的云服务为基本单位,对每个云服务对象定义了常用的输入、输出与周边依赖,使得用户很容易通过AOS的图形化设计器,将这些元素像画电路图一样,并联或串联起来,并基于设计的图形,一键“点亮资源”(申请资源,并使资源处于可用状态),真正做到 “让用户像用电一样享受云计算”。 图1:这么漂亮的图形化工具,你猜不同颜色的线代表什么意思?下面以典型的电商建站场景为例,看看AOS到底能帮助我们提升多少效率:在没有AOS编排工具前,我们至少需要进行10步操作才能完成,而且每种资源的开通申请,都要到各云服务的页面进行操作,整个过程是相当繁琐的:1、进入网络服务,申请VPC、Subnet2、进入网络服务的安全组页面,创建安全组3、进入弹性云主机服务,创建云主机并绑定EIP4、进入弹性负载均衡,创建ELB,并把云主机添加到ELB的监听范围内5、进入antiddos服务,给ELB的EIP开通antiddos服务,防止DDOS攻击6、进入RDS服务,创建RDS云数据库实例7、进入DCS服务,创建DCS分布式缓存的实例(上面这些还只是最基本的,有可能还需要开通云审计、云日志、云监控、CDN、共享存储等多个服务,来支撑业务系统的运行)8、手动把上面所有资源的信息纪录下来,以备安装应用时配置使用9、上传必须的软件包10、远程登陆到云主机进行安装、配置(看着简单的“安装配置”四个字,其中的辛酸又有多少人知道呢) 使用AOS自动化编排后,可把上面的步骤进行精简,当然要获取极致的自动化部署体验,个人推荐结合CCE(云容器引擎)服务一起使用,双剑合璧,整个过程会让人感受到前所未有的爽快:上面流程的1-7步,我们可以通过AOS模板一步完成,不再需要挨个云服务云申请资源。AOS汇聚了华为云上主流服务的创建、删除、修改API,用户无需再感知云服务的API,只需要按AOS提供的规范定义资源模型和模型间的关系,剩下漫长的开通资源的过程就交给AOS了。直接选取一个自己需要的容器集群进行部署 图2: 涵盖网络、虚机、容器、应用、中间件的样例模板,继续更新中… 图3:选择创建CCE容器集群 图4:创建集群常用的参数都已经自动填充,太贴心了 第8-10步,同样也是通过AOS样例模板一步搞定,我直接选取Magento的电商应用部署,当然如果用户部署的不是Magento的应用,需要手动修改一下模板。图5:选择容器应用的样例模板 图6:可直接进入设计器修改生成自已需要的模板 图7:也可直接进行部署 图8:应用各组件的部署进度、状态一目了然(PS: 示例模板应该是为了展示的便利和学习的方便,把整个场景分别放在了资源和应用两个样例里,真正使用的时候,可以把这两个模板拷到一个文件中,那么整个从底层资源到中间件,再到上层应用的部署,一个部署动作就能搞定)就是这么简单,一个CCE集群和一个基于容器运行的电商应用就出现在眼前了。至于门槛,主要是一些基础的行业知识,比如:· 需要了解yaml(一种比json更简洁的描述语言),写出来的模板不能有基本的语法错误,就像写json时大括号总得写对位置吧· 需要对所使用的云服务、对AOS封装的资源模型有一定的了解,比如创建VPC,你得知道什么是CIDR,创建安全组,你得知道是给TCP是UDP协议做规则,创建RDS您得知道HA与单机的区别吧。· 要清楚业务部署时的依赖关系和先后顺序,比如,要先把云主机创建好,然后开始部署应用AOS想尽办法降低门槛,除了提供上面所说的覆盖各种场景的样例模板外,还为提供了可视化的模型设计器,就好比编程时有了可以直接copy的代码sample,还得有个好用的IDE,这样会大大简化模板的开发,0基础也能快速开发、部署模板。 图9:快速完成模型设计看看上面的图就知道 了,不到1分钟,整个部署模型就设计完成了,剩下的就是在里面根据业务需要填写、修改参数和部署了。某子曾经曰过:好的工具不仅要能解决用户真正的困难,而且要易于上手,同时有着强大底蕴、深厚的内涵,AOS就刚好符合这几点:1、解决用户在华为云一站式上云时资源、应用部署麻烦的问题2、丰富样例代码、可视化的设计器,据说AOS秘书MM都可以快速上手部署容器应用3、结合这么多年在电信行业大型系统运维过程中踩过的坑,自主研发的编排引擎,和基于tosaca标准规范的模板设计语法,在简单的界面下,深藏玄机,让深度用户可以玩出更多花样,定制出适合自己的场景如果您是研发人员,在为一遍一遍重复搭建开发、测试、QA、类生产等环境感到无聊如果您是运维人员,在为运维过程中复杂的资源管理、监控而烦恼如果您是创业公司,在为如何开启云上事业的第一步而发愁如果您是准备搭上云高速列车的企业,在为如何把企业业务搬迁上云而苦恼速来体验AOS吧!会给您开启一个全新的云世界。https://www.huaweicloud.com/product/aos.html?fromblog?fromblog
  • [分享交流] 这一批运维到底在干什么?!
    我,是一个运维工程师。那一年回家相亲,对面一对母女问起了这个问题。她妈妈:“小伙子你是干啥的呀?”我:“运维工程师”她妈妈:“修电脑的呀?”脸色一变,不屑的看着我。我:“不是,我做网络系统运维工作。”她妈妈:“不就是网管吗?” 呵呵一笑,借着上厕所的理由,我以迅雷不及掩耳盗铃儿响叮当之势跑路了。运维的苦,呵呵,谁干谁知道。真所谓生当做光棍,死亦写代码。锄禾日当午,不如运维苦,对着破电脑,一调一下午。现在的我们常听到的一种言论就是运维估计都要失业了,各种新技术要把运维都替代了。此时的我们纵然心头有万头草泥马奔腾而过,也只能苦笑一声,听到当没听到了。果真如此吗?不然。运维工程师可以被取代,但是运维工作是不会消亡的。它将伴随着整个业务的发展而不停迭代。一个应用,大致是这样的一个过程:产品经理设计出产品原型,交给开发者开发实现,后经过QA测试,然后交付给操作部署上线运行。运维是做哪一部分呢?传统的运维只要关注操作系统层面的技术就可以了,但随着业务的升级、技术的迭代,运维也需要谋求技术转型。现在,不仅要对程序代码的性能调优、持续交付、容器化等,还要持续关注整个业务、应用、服务的生命周期。简单来说,就是过去传统的运维模式是黑箱运维,已然不适用于今天的运维工作。在今天的运维工作中,运维工程师要更深入代码、更深入业务,让整个应用或服务运行的更加优质和高效。所以,为了保证代码能够持续交付,为了应用运行不出Bug,为了能够让应用不在某个时间段轻易的挂掉。我们容易吗?这里没有正常朝九晚五,没有传说中的做五休二。如同消防队员不知道警报会何时想起,运维也要随时做着处理故障的准备。然而,运维首先是个程序员。所以我们就要用互联网技术来解决问题。云计算是一个很好地方向,无需再写运维工具的代码,简单易用。那么,PaaS层将会是一个完美的突破口,平台化的结构可以保证服务的稳定。所以最终,我选用了华为云的应用运维服务。大厂,好品质,值得信赖。在运维工作前,测试是必不可少的环节。使用华为云性能测试服务CPTS可以进行快速模拟大规模并发用户,通过支持报文内容和时序自定义、多事物组合来实现复杂场景测试。与此同时,华为云性能测试服务还有以下特点:1、单执行机支持万级并发 能够提供百万级并发的私有集群,避免其他用户干扰,结果很真实。2、提供灵活的数据报文、事务定义能力、支持多事务组合,事务压测曲线定义,轻松应对您的复杂测试场景。3、提供专业性能测试报告,包括事务并发、TPS、吞吐量、响应时延、资源使用、调用链跟踪等多维度统计。运维工作中,华为云应用性能管理APM可以实时监控并管理企业应用性能和故障,帮助运维人员快速解决分布式架构下问题定位和性能瓶颈分析难题,改善用户体验。面对可能发生的未知也可轻易知晓,再也不用充当一块“砖”,哪里需要往哪搬了。非侵入式性能数据采集,在不需要修改业务代码即可轻松接入。如果面对不同的业务,运维需求不一样时也不怕,华为云应用性能管理APM开放了运营、运维数据查询接口和性能指标、采集标准,支持自主开发。如果产品是一台车,那么运维就要充当一个好司机,不让车偏离轨道。有一个清晰的仪表盘是一个非常重要的事儿~那么华为云应用运维管理AOM是一个最好的选择。它为运维人员提供一站式立体运维平台,实时监控应用、资源运行状态,通过数十种指标、告警与日志关联分析,快速锁定问题根源,轻松保障业务顺畅运行。 找对工具,其实运维可以这样轻松!快来点此体验吧! 运维域活动链接:http://activity.huaweicloud.com/apm/index.html?fromblog 作者:韩非