• [用户故事] 00后都开始养生了!你还在熬最晚的夜?
    2018年是00后的成年元年自此90后被迫进入中年期联合国实名认证:真 · 中年人90后无疑是悲剧的一代被80后嘲讽为垮掉的一代人00后称呼老阿姨、大叔、大婶儿在社交平台搜索90后的字眼结果是这么触目惊心谢顶危机、健康危机、肥胖危机已经到来洗发水从控油去屑买到霸王防脱还未脱贫、脱单就开始脱发没有王子的命,还偏偏得了王子的病工作加班才熬夜几个小时,第二天上班便力不从心挂着两个黑眼圈并甩出两米长的眼袋只好提前进入中年作息每天深夜总有一堆失眠的原因明早闹钟定好了没?怎么才能一夜暴富?这个月信用卡账单还没还想着想着天亮了,今天又要凉凉了面对日趋严峻的形势养生话题提上日程迫在眉睫“中年党”纷纷加入养生大军,开始以丧治丧来自灵魂最深处的拷问:这难道不是加速衰老吗?程序猿的我在养老圈摸爬滚打多年得出一套独家养生法则便是云上运维,轻松解决所有运维工程师烦恼华为云作为“云圈”大佬,特供运维**服务华为云三款运维工具——程序猿养生必备单品洞察万物,运筹“维”幄,一扫压力,拒绝加班❤应用服务上线前华为云性能测试服务CPTS对系统发起万级-百万级并发压力测试,快速构建各种复杂测试场景,模拟线上用户的真实行为,提前发现性能瓶颈。❤应用服务运作时华为云应用运维管理AOM实时监控应用、资源运行状态,通过数十种指标、告警与日志关联分析,快速锁定问题根源。❤应用服务全生命周期看护系统出现异常时,应用性能管理APM通过调用链全栈跟踪,分钟级完成定位并解决问题。系统运作时,华为云APM应用拓扑图,自动发现应用状态和调用关系,告别被动运维。华为云应用运维限时0元体验活动走!上云去!您的养生大计将要实现
  • [云运维] 使用AOM自定义监控时,用户上报自定义指标的GET请求必须是http的吗
    问题:使用AOM自定义监控时,用户上报自定义指标的GET请求必须是http的吗?答: 是的,上报自定义指标的GET请求当前只支持http的,不支持https的(无法统一证书)
  • [运维月刊] 云应用立体运维解决方案使用场景全面介绍
    大家好,今天我为大家详细梳理下华为云应用立体运维解决方案的使用场景。华为云应用立体运维解决方案详细介绍首先我们先详细列举一下立体运维解决方案具备的一些主要功能:应用自我发现:在云主机上部署好应用后,可以通过安装应用运维的采集器来自动发现应用并将应用、节点的数据呈现在界面中。节点/应用监控:对资源、应用实时监控,可随时掌握资源、应用的趋势、状态。应用监控可详细到容器/进程。日志检索:支持日志采集并检索,且可按照日志文件查看,支持搜索关键字、实时查看最新内容、按照资源信息过滤并检索,方便在海量日志中快速找到所需。数字化运营:拓扑对应用的各服务关系可视化,并用Apdex进行量化,直观显示状态。事务支持全栈业务流实时分析,直观体现用户对应用的满意度。调用链追踪:对调用次数、响应时间、出错率等进行全方位监控,可视化的展现业务执行轨迹和状态。异常SQL分析:提供数据、SQL语句的调用次数、响应时间、错误次数等关键指标,通过指标视图可直观找到异常SQL语句导致的性能问题。方法追踪:对某个类的某个方法进行动态埋点实现单一跟踪,可帮助开发人员在线定位方法级性能问题。关于方案的其他更多功能,可以查看AOM产品功能、APM产品功能。说完主要功能,下面就来说说使用场景。1、立体运维提供从云平台到资源,再到应用的监控和微服务调用链的立体化运维分析能力。2、巡检与问题定界深度对接华为云应用服务,一站式收集基础设施、中间件和应用实例的运维数据,通过指标监控、日志分析、事件报警等功能,支持日常巡检资源、应用整体运行情况,及时发现并定界应用与资源的问题。3、应用出现崩溃或请求失败应用出现崩溃或请求失败时,通过应用拓扑+调用链下钻能力分钟级完成问题定位。4、用户体验分析实时分析应用事务,提供Apdex(应用性能指数)自动化打分,打分越低,体验越差,帮助您全面了解应用用户体验状况。针对上面介绍的一些典型的使用场景,您是否已经详细的了解了华为云应用立体运维解决方案呢,下面我们详细付上一些行业解决方案中的使用实例。电商应用性能管理解决方案(点击下图可了解方案详情)电商家电数码解决方案(点击下图可了解方案详情)游戏解决方案(点击下图可了解方案详情)工业互联网平台(点击下图可了解方案详情)现在就使用AOM、APM服务:体验馆免费体验——使用您自己的账号登录AOM,通过体验馆免费体验AOM、APM功能。demo免费体验——使用应用性能管理提供的免费账号登录并了解应用性能管理服务功能。使用应用运维——使用您自己的账号登录AOM,进一步了解AOM、APM服务功能或将AOM、APM服务接入您自己的应用。看完本期介绍,您是不是对立体运维有了更深入的了解呢?如果您有更多疑问,可以跟帖留言或扫码关注公众号提问
  • [运维月刊] 详细剖析华为云应用立体运维解决方案
    “全方位掌控系统的运行状态,快速响应各类问题”一直以来作为应用运维的目标。资源运行状态上:资源是否充足?机器、网络等是否有问题?应用运行状态上:出问题了是容器、中间件还是OS的问题?应用有bug,具体是哪段代码引起的?用户体验保障上:业务运行是否正常?如何能清楚的了解各地域用户体验情况?上面这些问题,作为运维统统都要hold住。而随着云时代到来,企业应用上云之后,挑战也越来越大:1、传统运维工具那么多,云上怎么办呢,使用和维护成本太高了。2、云化常见下分布式应用问题分析更加困难3、如何掌握应用用户体验情况,找到体验差的地方并改进?针对这些挑战,华为云推出云应用立体运维解决方案,融合了华为云的应用运维管理服务(AOM)、应用性能管理服务(APM),对基础设施层、应用层、业务层实时多维度监控,并通过应用与资源告警关联、日志分析、智能阈值、分布式调用追踪、手机APP异常分析等技术,实现分钟级问题快速诊断和修复,保障应用长稳运行。立体运维解决方案具有一下特点:01  统一运维监控管理:资源、应用、业务一站式监控与分析支持集群、虚机、网络、磁盘、数据库、应用、容器及业务等上百种监控指标与秒级监控,通过集群与虚机、虚机与应用、应用与资源统一建模,对各种指标智能关联分析,用户通过统一的告警入口和下钻找到问题根因。02  日志分析:分布式日志集中搜索与实时查看将虚机上的应用、开源组件、系统等日志集中采集到ElasticSearch集群中,用户通过日志管理快速找到应用实例日志,提供实时刷新、日志上下文查看、秒级搜索、日志下载等常用功能。03  应用拓扑分析:应用关系与异常一目了然、故障下钻对应用健康状态可视化管理,包括应用运行状态、时延、错误、负载、依赖关系,包括数据库、缓存、消息中间件、NOSQL等各类开源组件。04  分布式调用追踪:大海捞针技术,实时监控所有进程每一次调用直接帮助用户找到异常的代码函数,同时可还原每个函数调用堆栈、出入参、返回值及详细的堆栈信息,性能瓶颈及代码异常无处躲藏。05  在线调试:对指定的类及方法设置断点和跟踪用户配置完类名、方法名和参数名后,当该方法被调用时,可自动捕获该方法的调用者、详细的堆栈以及各类参数,帮助开发快速锁定问题现场。06  业务会话监控:监控每笔交易的KPI数据,提升用户体验运营视角,了解每个业务的运行状况,包括交易次数、时延、错误率,并通过调用链找到异常代码,同时可以帮助运营人员了解活动期间的交易体验。现在就使用AOM、APM服务:体验馆免费体验——使用您自己的账号登录AOM,通过体验馆免费体验AOM、APM功能。demo免费体验——使用应用性能管理提供的免费账号登录并了解应用性能管理服务功能。使用应用运维——使用您自己的账号登录AOM,进一步了解AOM、APM服务功能或将AOM、APM服务接入您自己的应用。扫码关注公众号,获取更多精彩。
  • [云运维] 虚机应用中如何接入应用运维功能
    华为云立体运维解决方案包含AOM、APM服务,这两个服务都是协助云应用运维的,其功能主要侧重点不同,如下图示:本文将介绍虚机应用如何使用应用运维的各功能(包括AOM服务、APM服务)。容器应用请移步容器应用中如何接入应用运维功能。当前,AOM、APM服务使用的都是统一的采集代理去获取节点、应用状态等数据,将应用运维功能接入容器应用,实际上就是将采集代理安装到应用所在的节点上,这样就表示应用中已经接入了AOM、APM服务了,节点的状态、资源情况、应用的健康状态、拓扑&调用关系等数据展现在AOM、APM界面中。采集代理的核心就是采集探针,关于采集代理的原理及介绍,您可以查看采集知多少。至于将AOM、APM接入到应用中之后更加详细的操作,本文不做描述,请查看AOM用户指南、APM用户指南。将虚机应用部署在弹性云服务器或裸金属服务上之后,要使用应用运维功能,则需要进行如下操作。操作流程1、开通。2、安装ICAgent:安装采集代理ICAgent(用于实时采集应用数据)。什么是ICAgent3、配置应用发现规则使AOM发现应用:配置应用发现规则即把应用的命令行参数、进程、环境变量等配置为一条应用发现规则,当弹性云服务器上运行了符合规则的进程时,AOM将自动监控进程指标数据并上报到界面中。4、使用AOM、APM运维。本文不再详细讲解如何使用,具体的操作可以查看AOM用户指南、APM用户指南。操作前提1、安装了应用的弹性云服务器的操作系统为Linux操作系统。2、安装了应用的弹性云服务器绑定了弹性IP地址。如果您拥有多台弹性云服务器,则只需要确保其中一台已经绑定弹性IP即可。如何绑定弹性IP操作请参见为弹性云服务器申请和绑定弹性IP3、已获取了AK/SK。AK/SK用于安装ICAgent采集代理,获取AK/SK请参考如何获取AK/SK4、确保本地浏览器的时间与弹性云服务器的时区、时间一致。如果时间不一致,则可能导致AOM监控到的指标数据异常。操作步骤1、开通。访问AOM会自动为您开通,访问APM会自动开通。(因为AOM、APM是两个服务,所以要分别访问开通。)2、安装ICAgent,详见安装ICAgent。3、配置应用发现规则以便AOM可发现应用,详见应用发现。4、使用AOM、APM运维。本文不再详细讲解如何使用,具体的操作可以查看AOM用户指南、APM用户指南。现在就使用AOM、APM服务:体验馆免费体验——使用您自己的账号登录AOM,通过体验馆免费体验AOM、APM功能。demo免费体验——使用应用性能管理提供的免费账号登录并了解应用性能管理服务功能。使用应用运维——使用您自己的账号登录AOM,进一步了解AOM、APM服务功能或将AOM、APM服务接入您自己的应用。
  • [云运维] 容器应用中如何接入应用运维功能
    华为云立体运维解决方案包含AOM、APM服务,这两个服务都是协助云应用运维的,其功能主要侧重点不同,如下图示:本文将介绍容器应用如何使用应用运维的各功能(包括AOM服务、APM服务)。虚机应用请移步虚机应用中如何接入应用运维功能当前,AOM、APM服务使用的都是统一的采集代理去获取节点、应用状态等数据,将应用运维功能接入容器应用,实际上就是将采集代理安装到应用所在的节点上,这样就表示应用中已经接入了AOM、APM服务了,节点的状态、资源情况、应用的健康状态、拓扑&调用关系等数据展现在AOM、APM界面中。采集代理的核心就是采集探针,关于采集代理的原理及介绍,您可以查看采集知多少。至于将AOM、APM接入到应用中之后更加详细的操作,本文不做描述,请查看AOM用户指南、APM用户指南。不同部署方式的操作步骤华为云上的容器应用当前有以下几种主流的部署方式,不同的部署方式,安装采集代理的方法不同,下面将一一详细介绍。一、容器应用是通过云容器引擎(CCE)部署的CCE是云容器引擎,提供容器应用管理服务。只要在您创建或者是升级应用时勾选探针,即表示您已经将AOM、APM接入到应用中了。创建应用时勾选探针操作详见下图:升级应用时勾选探针详见下图:二、容器应用时通过ServiceStage部署的ServiceStage是面向企业及开发者的一站式DevOps平台服务。通过ServiceStage创建应用时或在应用部署好要上线时勾选探针,则AOM、APM会自动接入到应用。创建应用时勾选探针上线应用时勾选将AOM、APM接入应用之后,就可以正式使用AOM、APM服务了。具体操作本文不做描述,请查看AOM用户指南、APM用户指南。现在就使用AOM、APM服务:体验馆免费体验——使用您自己的账号登录AOM,通过体验馆免费体验AOM、APM功能。demo免费体验——使用应用性能管理提供的免费账号登录并了解应用性能管理服务功能。使用应用运维——使用您自己的账号登录AOM,进一步了解AOM、APM服务功能或将AOM、APM服务接入您自己的应用。
  • [教程] 决战应用运维性能之巅赢华为荣耀V10手机活动图文指导
    华为云的决战应用运维性能之巅赢华为荣耀V10手机活动举办的如火如荼,在活动开始伊始难度略大,仅有个别人完成了任务要求(包括我),好多参与的开发者只是截取了非真实数据的demo,这是无法当做有效参与进行抽奖的。之后,活动大举降低参与门槛,只要认真一路下一步就能有效参与。此贴为记录参与流程,更多请查看主贴的操作指引.docx。一、注册登录实名你的华为云账户这个不多说,直接按照要求实名认证就行。二、创建环境进入APM控制台 https://console.huaweicloud.com/apm 点击体验馆中的《创建集群&工作负载》服务授权,现在同意授权。我们跳转到了华为云容器引擎的控制台 https://console.huaweicloud.com/cce2.0 点击体验馆中的创建集群后方的体验按钮这是会弹出一个主意事项,首次体验送你为期三天的免费集群套餐包。点击立即体验,就按照页面的小手指指引操作。创建虚拟私有云、子网、输入密码后点击提交订单集群创建需要6-10分钟,我们根据手指指引返回CCE的体验馆页面,等待大约5分钟刷新页面。之后,选择第二项创建工作负载后面的体验按钮。按照指引一路下一步,到此我们创建工作已经进行完毕。三、截图上传我们返回APM控制台(https://console.huaweicloud.com/apm  )确保蓝色圆形箭头默认的工作状态是亮起,不用管它,等待监控自动运行。等待大约3分钟,监控到“cce-demo-monitor_group”有异常,此时我们要截图作为任务的第一张图片。记得把id也截图在内。选择调用链我们可以看到业务执行的轨迹和状态,这也是我们第二张任务图片。记得把id也截图在内。然后我们到应用运维管理控制台,点击免费开通,截取任务的第三张图片。记得把id也截图在内。然后到活动主贴 https://bbs.huaweicloud.com/forum/thread-9956-1-1.html   选择回复主题。按照:产品使用建议:华为云用户名(非论坛昵称):截图:回复。至此我们完成了任务,我们可以到华为云帮助中心了解更多应用性能管理方面的知识>>https://support.huaweicloud.com/usermanual-apm/apm_02_0001.html 
  • [热门活动] 【活动已结束】决战应用运维 性能之巅 赢华为荣耀V10!
    本次活动已结束,最后一轮开奖结果公布恭喜华为云用户名:nainai93、cbi_277703649分别获得 荣耀手环3 一个华为云用户名:easyx获得特别贡献奖 荣耀手机V10 一台第三轮抽奖结果公布华为云用户名:quqiangsheng获得 荣耀手机V10 一台第二轮抽奖结果公布华为云用户名:dongshan8、chaoxiu分别获得 荣耀手环3 一个 第一轮中奖用户名单华为云用户名:wenqishd、huyulei分别获得 荣耀手环3 一个请获奖的幸运儿保持手机畅通,会有可爱的工作人员将在活动结束后3个工作日内联系你哦,即刻起把获奖的好心情一直持续到拆奖品吧~活动时间:2018年7月24日-8月20日活动参与方式:1、进入APM服务(https://console.huaweicloud.com/apm)控制台--点击“体验馆”--点击“创建集群&工作负载”的“体验”--按照提示2步即可完成操作。2、进入AOM服务(https://console.huaweicloud.com/aom)控制台直接截图即可。详细的操作方式请查看附件操作指引.docx,在本帖下按要求回帖,将有机会参与抽奖。附件“操作指引”只是纸老虎,将每个步骤直观呈现给参与活动的你,其实非常简单,别被吓到哦~~~回帖格式可参见本帖下的第一楼。开奖规则:(1) 运维传奇奖荣耀V10手机:每满40个有效楼层数抽取一名用户,赠送荣耀V10手机一台。例如:有效楼层数1~40楼抽取一名中奖用户,有效楼层41~80楼抽取一名中奖用户,有效楼层81~120楼抽取一名中奖用户,以此类推。【有效楼层:按照活动参与方式截屏回帖的用户楼层】(2) 运维英雄奖荣耀手环3:每10个有效楼层数抽取一名用户,赠送荣耀手环3或华为云宝玩偶一个 。例如:有效楼层数1~10楼抽取一名中奖用户,有效楼层11~20楼抽取一名中奖用户,有效楼层21~30楼抽取一名中奖用户,以此类推。【有效楼层:按照活动参与方式截图回帖的用户楼层】(3)运维日特别贡献奖:由华为云选择使用APM的优秀用户及提出重要建议的用户,赠送荣耀V10手机一台。注:用户任意抽中一个奖项,将不参与其他奖项的抽取。每个ID只能中奖一次,如果重复中奖,顺延至下一楼层,有效楼层数上限2000。 温馨提示:·        传奇奖、英雄奖开奖时间:7月27日12点, 8月3日12点,8月10日12点,8月21日12点·        特别贡献奖开奖时间:8月21日12点·        奖品会在活动结束后7个工作日内发出·       请不要发有AK/SK的截图到论坛,这涉及到您的隐私,如有必要,请处理后发布                                                          
  • [云运维] 从哪些地方可以了解到产品的新增特性?
    目前,有一些小伙伴陆续再问,到底能从哪些地方可以了解到产品的新特性。那么下面,我就为大家解除疑惑。要了解产品的新特性,可以从下面四个途径了解:产品介绍页在产品介绍页的新特性一栏中可以很明确的得知产品近期的重大动态单击访问应用性能管理服务产品介绍页单击访问应用运维管理服务产品介绍页产品手册在产品手册的产品介绍文档的特性更新说明章节中会记录近期产品的更新情况同时可以查看更加详细的操作公众号扫码关注公众号可以实时掌握产品动态当然还有更多的活动、专家等等应用运维论坛在论坛中,会有新特性使用介绍的详细介绍单击链接访问论坛
  • [云运维] 应用运维服务支持虚机吗?
    RT,应用运维服务支持虚机吗?支持监控直接安装在虚机上的服务器吗?
  • [热门活动] 云圈101正式开赛,华为云了解一下
    今年夏天,偶像练习生、创造101占据娱乐圈流量半壁江山一转眼就被#叔圈101#以迅雷不及掩耳之势“屠”屏了原来是网友们脑洞大开,发起话题为一群60后、70后大叔代言 11位腊肉练习生历经岁月的摧残洗礼个个风华绝代、才华横溢、学富五车如今C位之争战火重燃,究竟最后会花落谁家?呼声最高就属徐峥,凭借实力派演技虏获一票迷妹话题热度喜提各大网站榜首,成为顶级·流量小生 机场硬照走起,应援声喊起万水千山总是情,pick峥峥行不行?你不签,我不签,徐峥何时能出圈;你不搞,我不搞,徐峥就要被打倒 嫉妒使小编质壁分离,贫啥光头哥哥人气比我高不行!小编也要弄场#云圈101#蹭蹭热度今日实力top1门面预定:华为云,TA可甜可盐可萌可攻华为云深耕云市场结硕果,计算、存储、安全、开发能力俱佳自打出道以来拥有一众狂热粉丝,尤其是应用服务产品 各大粉丝battle异常激烈,纷纷亮出自家应援口号 华为云应用服务产品是如何在粉丝心中打出自己的超级IP呢?匠心深耕技术,用实力说话云性能测试服务CPTS:模拟瞬间发起万级-百万级大量并发压力,通过支持报文内容和时序自定义、多事务组合实现复杂场景测试。应用性能管理APM:应用出现崩溃或请求失败时,通过应用拓扑+调用链下钻能力分钟级完成问题定位,改善用户体验。APM与CPTS搭配使用,效果更佳哦~应用运维管理AOM:提供一站式立体运维平台,实时监控应用、资源运行状态,通过数十种指标、告警与日志关联分析,快速锁定问题根源,保障业务顺畅运行。  宠爱粉丝无极限,超值福利回馈★应用运维限时0元体验活动,华为云官网传送门:https://activity.huaweicloud.com/apm/index.html?fromforum ★不定期亚洲巡演,开展粉丝见面会,例如:会议涵盖人工智能软件开发测试、云测试、区块链应用等内容华为云CPTS作为大会受邀者之一,将进行大规模分布式系统性能测试主题演讲这里你不仅收获云测试前沿资讯,还能与大师零距离互动糟糕是心动的感觉,小编要立马订机票去现场!
  • [运维二三事] 应用运维又出大招:推出5秒粒度的秒级监控!
    在日常运维钟,1分钟粒度的监控有些时候是不能满足需要的。如果想看更细粒度的指标数据,该怎么办?使用AOM服务的秒级监控呀!AOM服务推出秒级监控能力,可支持粒度为5秒、10秒、30秒的指标监控。怎么用?1、访问指标监控,选择需要监控的指标,然后在右上角单击启用秒级监控,如下图示。2、在弹出的对话框中选择采集周期(监控粒度)后单击确定,即可开始监控了。关于更多秒级监控内容,可以访问文档了解。
  • [技术交流] 全面解析应用运维分布式追踪技术
    随着虚拟化、云化技术越来越成熟,分布式系统的成本和架构优势日渐凸显,特别是微服务等设计理念在业务系统尤其是大型的互联网公司中越来越流行,业务的调用关系越来越复杂。而随着业务的膨胀、服务的拆分,系统的模块变得越来越多,不同的模块可能由不同的团队/程序员来维护。一次客户的业务请求,可能会涉及数个乃至数十个服务的协同处理,牵扯到多个团队/程序员的维护模块,不同的缓存、数据库、消息队列等中间件。在这样的云化应用架构下,请求链路的任何一条请求出现故障或性能问题,都将严重影响服务的用户体验。如何能够快速准确的定位到线上故障根因?如何捕捉请求中的性能瓶颈并实施优化?如何将离散的业务请求数据关联在一起进行有效的用户体验分析?对于大型的、访问量大的网站、社交、电商、游戏应用,这类问题尤其突出,直接影响最终用户对系统的感知和留存率。传统的应用运维问题定位以日志为主,通过对告警、系统资源、日志的逐一分析,定位故障根因或性能瓶颈。但是由于云化架构的复杂性,业务请求链路的多样性,传统的应用运维模式已经无法继续支撑故障定位与性能分析的诉求。这个时候就需要APM系统来大展身手了。APM (Application Performance Management) 即应用性能管理,属于IT运维管理(ITOM)范畴。主要是针对企业关键业务的IT应用性能和用户体验的监测、优化,提高企业IT应用的可靠性和质量,保证用户得到良好的服务,降低IT总拥有成本(TCO)。APM随着互联网的发展,经历了以下三个阶段:第一阶段的APM出现在互联网兴起的初期,由于网络基础设施的水平普遍较差,使应用速度对网络速度与基础资源的性能非常敏感。这个阶段的APM以网络为中心,认为网络速度既应用速度,APM主要监控主机的CPU、I/O、内存、网络吞吐等为主。第二阶段的APM以监控各种基础组件为主,随着互联网的发展,网络应用变得越来越复杂,各种基础组件越来越多,促使APM进入以IT组件的健康状态、可用性、性能监控为中心第二个阶段。近几年移动互联网、云计算、大数据、物联网等技术的迅猛发展,各种业务应用不断出现,IT应用复杂度呈现爆炸式增长,而互联网产品本身“用户至上”的属性决定用户体验成为各互联网产品生存发展的关键因素。如何提升用户体验,保证服务和产品的可靠性、稳定性、优化服务等问题,对应用性能管理提出了新的需求,应用性能管理进入以用户体验为核心、专注业务交易与应用架构高度复杂性的第三阶段。基于APM 市场分析,Gardern对APM进行了新的定义描述:在新的标准下,APM市场发展迅速。APM通过对应用服务的性能和可用性进行监控管理,帮助应用/服务开发者发现和定位性能瓶颈和故障,保证应用达到预期的服务水平及最终用户体验。现代的APM基本都是参考Google的Dapper体系来实现的。Dapper通过跟踪请求的处理过程,来对应用系统在前后端处理、服务端调用的性能消耗进行跟踪。Google基于Dapper的实现发表了论文《Dapper, a Large-Scale Distributed Systems Tracing Infrastructure》,给行业内分布式跟踪的实现提供了非常有价值的参考,该论文也成为了当前分布式跟踪系统的理论基础。大家可以参考Dapper论文原版,进行详细了解,本文只对原理做简单介绍。如上图所示,对于业务链条中的每一次请求调用,划分为clientSend(客户端发送请求)、clientRecv(客户端收到响应)、serverRecv(服务端收到请求)、serverSend(服务端发送响应)等四个事件,并由这四个事件组织为一个称作Span的数据结构。通过定义Span之间的调用(父子)关系,可以对离散的Span数据进行重组,以还原完整的调用链条。Span间的关系通过traceId、parentId、spanId来标识。traceId是一次完整调用链路的唯一标识,parentId标识当前Span的前一个调用Span,spanId用来唯一的标识某一次调用。Span在跟踪链路中的关联关系可以用下图表示:基于Google Dapper这种通过traceid、parentid、spanid还原原始链路的思路,众多大型互联网公司都开发了自己的调用跟踪系统,如Twitter的Zipkin、淘宝的鹰眼、京东的Hydra、开源的PinPoint,总体思路虽然一致,但是植入点选择上却有一些分歧。应用性能管理系统主要由数据源、采集传输、分析计算、可视化查询几部分组成,其中最核心的部分就是数据源。通过从客户端和服务端进行数据采集,其中客户端的数据采集技术主要包括主动式拨测与被动式埋点探测,在此不再展开详细描述,本文主要对服务端的数据采集技术进行简单介绍。服务端的数据采集主要分为两大类:· 网络旁路监听,通过在应用或服务部署的生产网络的交换机或网络接口抓取应用访问流量进行应用性能分析。这种方式对于应用或者服务的侵入性小,性能影响小。然而此方式采集粒度较大,无法提供代码级的问题定位,且在安全传输协议下,无法针对请求或事物进行分析。· 探针埋点,通过在生产服务器上的应用部署或者嵌入探针的方式进行应用性能数据采集。这种方式能够提供非常完整与细粒度的监控数据采集,提供代码级的问题定位。但此方式对于应用来说是侵入性的,如果埋点代码异常,会对应用本身的性能和稳定性产生一定影响。在针对应用与服务的埋点数据采集中,主要使用了探针埋点的方式。探针埋点的方式主要分为两类,以Zipkin为代表的代码侵入式埋点与以PinPoint为代表的字节码增强式埋点。Zipkin是Twitter开源的分布式追踪系统,用户帮助微服务收集排查潜在问题的时序数据,提供调用跟踪数据的收集、存储、查询以及依赖分析的能力。Zipkin是一个分布式跟踪系统,不具备用户体验分析、应用监控统计等特性。Zipkin使用代码侵入埋点的方式,官方提供基于Finagle框架的埋点方案,其他语言和框架的支持主要依赖社区贡献。当前支持包括Java、Scala、Node、Go、Python、Ruby、C#等主流语言和框架。代码侵入式埋点指通过提供应用开发的SDK,或者提供集成埋点代码的框架的方式供应用开发者调用。部分具备框架研发能力的企业像Google一样将植入点选在开发框架或通信框架中,确保基于统一框架开发或通信的应用天然具备埋点能力,除框架开发团队外无需关注埋点实现、调用方式。这种埋点方式优势在于使用框架后无需额外关注埋点能力,变相降低了埋点的成本。Twitter的Zipkin、淘宝的鹰眼选择了这种埋点方式。同时,业界也有非常多的埋点装备库,支持使用埋点组件的方式实现调用链数据埋点。这种埋点方式,通过提供标准的服务框架,如:Servlet、Spring MVC、Http Client以及通用的中间件,如MySQL、Kafka等的装备类的方式,通过编写简单代码和配置,让基于这些标准框架构建的应用可以输出调用链报告数据。Brave为这种埋点方式提供了大量的标准框架实现。也提供了非常简单且标准化的接口,支持在以上的封装实现无法满足业务要求时,进行定制与扩展。代码侵入式埋点具有较好的扩展性,方便用户自定义采集的数据类型与层次。但是,不论提供框架埋点的方式还是提供装备库、SDK的方式,都需要代码侵入,在应用开发以及框架等升级场景下,应用需要重新修改代码。同时,对于应用开发人员来说,精准的识别需要埋点的地方也具有一定难度,而且基于代码侵入的埋点跟踪级别较低,无法获取足够详细的运行态信息。与Zipkin不同,PinPoint是一款开源的应用程序性能管理(Application Performance Management)工具,使用字节码增强的方式进行数据源收集,目前只有官方提供的Java Agent探针。字节码增强式埋点方式,提倡代码的非侵入性,不同的编程语言,通过不同的技术在语言运行环境或基础库上植入。对于Java应用,利用字节码增强技术,在启动JVM时通过不同的埋点插件覆盖不同的通信协议、中间件、开发框架,对Java基础调用代码进行函数级埋点。这种埋点方式优势在于能够拿到堆栈级的调用信息与其他更多运行态信息,帮助使用者无需日志等辅助手段即可快速完成问题定位。PinPoint使用字节码增强技术进行APM数据采集,通过在应用启动时配置java agent探针的方式,主动干预应用代码行为,应用开发者无需进行代码修改,由PinPoint来决定在哪些API进行数据埋点。相比较PinPoint的字节码增强技术与其他APM系统的代码侵入式埋点来说,字节码增强技术从理论上来说能够在任何地方进行埋点,而类似Brave装备库等侵入式埋点的方式本身依赖中间件的实现方式,其提供的应用层面的 API 还需要框架底层驱动的支持,才能实现拦截。PinPoint 在实现之初就考虑到了性能优化,如采用 Thrift 的二进制变长编码格式、使用 UDP 作为传输链路、在传递常量的时候使用数据参考字典、使用异步传输方式等。但任然存在一些性能问题与使用的约束,并且由于字节码增强技术对开发人员有较高的要求,其在扩展性和社区生态方面具有一定的劣势。华为APM结合PinPoint与Zipkin两种典型系统的优点,提供更便捷、更高效、性价比更高的解决方案。1. 非侵入式数据采集:一键式采集部署,更高效与健壮的数据采集能力华为APM探针借鉴PinPoint采集探针优势,在采集数据模型、输出组件性能、可靠性等方面进行优化,并统计业界各框架与中间件的使用广泛性基础上,增加插件支持能力。以保证在最小的资源占用下,为用户提供最为有用的性能分析数据。· 探针自动部署:华为APM支持与华为云容器引擎、云应用编排等服务配合使用,可以在应用部署时通过简单勾选,实现采集探针的自动部署。· 支持Zipkin模型:虽然PinPoint与Zipkin均基于Google Dapper的论文,理论基础大致相同。但是在调用链的数据模型上还是有很大的差异性。在开放性以及社区活跃度等方面,Zipkin更具有优势。为支持Zipkin用户接入,华为APM探针支持按照Zipkin的数据模型进行调用链数据输出。· 数据分类优化:对于APM调用性能统计分析(吞吐量、平均时延、TPN等),业界通用的方式为使用调用链数据进行二次抽取汇聚。该方式下需要尽量多的调用链数据样本,以使统计数据尽可能准确,势必消耗更多的应用资源。为解决这个问题,华为APM探针对采集数据源进行了分类:调用链数据与KPI数据。KPI数据针对每个业务请求按照周期进行汇聚,输出包含请求发起方、请求服务方、调用事务、调用状态(耗时、成功或失败等)等信息。由于KPI数据周期性输出,且相比较调用链数据小得多,因此能够在很小的资源负载下实现全量请求采集与统计。· 数据精准采集:调用链数据更多的关注调用超时(阈值支持自定义)或调用异常的调用链条。华为APM在基础采样率的基础上,从客户的实际运维场景触发,提供精准采集动态配置能力。精准采集支持客户针对应用或交易事务设置超时阈值、周期采集异常调用样本个数、周期内正常调用样本,以减少资源消耗的同时保证异常或超时请求的数据样本满足性能分析要求。· 数据传输优化:针对大数据量下数据输出对资源的消耗较高的问题,对输出组件进行优化,通过异步文件输出与异步Pipe输出、输出数据Cache,减少数据类型等方式,优化应用资源占用。· 采集逃生机制:在高并发峰值场景下,应用业务请求多,资源消耗大。此时,为保证业务正常运行,华为APM支持用户自定义配置逃生资源阈值。在应用资源消耗达到阈值后,华为APM探针主动停止所有运维数据采集,在资源消耗下降至阈值以下时自动恢复数据采集。逃生机制支持动态配置。2. 数字化运营:提供业务运营体验管理与性能分析实时跟踪每条业务交易,快速分析交易的运行状态并提供诊断能力· 自定义事务:用户可根据每条URL定义事务名称,方便理解。· 健康规则配置:可以对每条事务配置健康规则,如超过1s提示异常。· 性能追踪:精确采集异常性能数据,可对比历史基线数据,也能找到应用的异常方法,提升运维效率。3. 应用程序分析:应用关系与异常一目了然、故障下钻· 应用发现与依赖关系:精确采集异常性能数据,可对比历史基线数据,也能找到应用的异常方法,提升运维效率。· 应用KPI汇聚:微服务实例汇聚到应用,KPI数据自动汇聚到应用。4. 应用程序跟踪:对异常业务调用链追踪,快速问题定界支持平台、资源、应用的监控和微服务调用链分析:· 海量数据规模支撑:支持百万容器监控,秒级查询响应。· 故障下钻:通过单击故障节点可自动下钻到故障的微服务实例、也可以关联到失败的调用链和调用栈,查看失败函数的入参和返回值。现在就使用APM服务:体验馆免费体验——使用您自己的账号登录APM,通过体验馆免费体验APM功能。demo免费体验——使用应用性能管理提供的免费账号登录并了解应用性能管理服务功能。使用——使用您自己的账号登录APM,进一步了解APM服务功能或将APM服务接入您自己的应用。更多关怀:
  • [运维二三事] 自动发现应用—快速获得云应用运维能力的“绿色通道”
    18437 01 什么是自动发现应用自动发现应用即应用运维管理服务(AOM)自动发现应用并监控相关指标,将数据上报到AOM界面中,您可以可视化的管理应用。 02 如何自动发现应用目前,AOM仅支持了部署在Linux系统的应用。当应用部署在弹性云服务器上之后,您只需要安装采集代理ICAgent,AOM就可以发现应用并采集、上报指标数据到界面中。针对不同的应用语言,AOM的自动发现应用功能又分为两种情况,一种是完全自动发现,无需手工配置;另外一种是事先配置应用发现规则,然后AOM自动发现符合规则的应用。1、完全自动发现,无需手工配置这种情况,需要您的应用满足以下要求: [*]已经部署在Linux系统弹性云服务器上 [*]语言为Java、node.js或python的应用 如果您应用的语言不满足上述要求的语言类型,您可以采用下面说的情况。2、事先配置应用发现规则,然后AOM自动发现符合规则的应用。这种情况下,需要您的应用满足以下要求: [*]已经部署在Linux系统弹性云服务器上 [*]语言为非Java、node.js或python的应用 如果您需要了解更详细的配置,访问详细配置方法:https://support.huaweicloud.com/usermanual-aom/aom_02_0023.html 03 自动发现应用的场景在华为云Linux系统弹性云服务器上部署了虚机应用,需要应用运维工具对应用状态进行监控。 访问官网,了解更多:https://www.huaweicloud.com/product/aom.html 更多关怀:
  • [分享交流] 【直播】应用运维搞不定?那是因为你还没有用过它!
    云时代来临,各企业应用纷纷上云。然而云上应用架构复杂,模块众多,业务请求链路及调用关系复杂多变,似**奇经八脉十二经脉,传统的应用运维模式已无法继续支撑故障定位与性能分析。企业运维人员饱受折磨,痛苦不堪。 ▽ 华为云经过多年研发,并结合华为近30年的运维实践经验,练就了“望闻问切”四大绝学,推出立体运维服务,帮助企业轻松运维,去除应用顽疾,人送外号 “云上华医生”。 华为云立体服务 华为云立体服务包含应用性能管理(APM)和应用运维管理(AOM),提供可视化拓扑、函数级调用分析、实时监控应用、资源运行状态等功能,实时监控并管理企业应用性能和故障的云服务,通过数十种指标、告警与日志关联分析,快速锁定问题根源,保障业务顺畅运行,帮助企业快速解决分布式架构下问题定位和性能瓶颈分析难题,改善用户体验。 在六一前夕,云视界特别邀请到华为云应用运维领域专家详细解读华为云立体运维。愉快运维应用,好似快活童年!识别图中二维码,就可观看直播啦~16126
总条数:100 到第
上滑加载中