-
在 Linux 中监控 CPU、内存、磁盘、网络的指令非常丰富,以下是 最常用、实用的监控指令,按 “指标分类 + 指令详解 + 核心用法” 整理,新手也能快速上手:一、CPU 监控(核心:查看负载、使用率、进程占用)1. top(实时监控,最常用)功能:实时显示系统整体 CPU 负载、进程 CPU 占用排名(默认每 3 秒刷新)。核心用法:top # 直接运行,进入实时监控界面 界面关键信息:第一行:Cpu(s): 20.0%us(用户态 CPU 使用率)、5.0%sy(内核态 CPU 使用率)、75.0%id(空闲 CPU 使用率)。第三行:%Cpu0~%CpuN(多核心 CPU 各自使用率)。进程列:%CPU(单个进程占用 CPU 百分比)。常用快捷键:P:按 CPU 使用率排序(默认正序)。1:显示所有 CPU 核心的详细使用率。q:退出监控。2. htop(top 增强版,更直观)功能:比 top 界面更友好,支持鼠标操作、颜色区分进程状态。核心用法: # 先安装(Ubuntu/Debian):sudo apt install htop# 先安装(CentOS/RHEL):sudo yum install htophtop # 运行后直接查看,默认按 CPU 排序 3. mpstat(查看多 CPU 核心详情)功能:专门统计单个 / 所有 CPU 核心的使用率,适合分析 CPU 负载不均衡问题。核心用法mpstat # 查看所有 CPU 平均使用率mpstat -P ALL # 显示每个 CPU 核心的详细数据(0 代表第一个核心,1 代表第二个,以此类推)mpstat 1 5 # 每 1 秒刷新一次,共刷新 5 次(适合持续监控) 4. pidstat(查看单个进程的 CPU 占用)功能:精准定位某个进程的 CPU 使用情况(避免 top 刷屏)。核心用法: pidstat -u 1 3 # 每 1 秒统计一次所有进程的 CPU 使用率,共 3 次pidstat -u -p 1234 1 3 # 只监控 PID=1234 的进程,每 1 秒刷新,共 3 次 二、内存监控(核心:查看总内存、已用 / 空闲内存、进程内存占用)1. free(快速查看内存使用概况)功能:显示物理内存(RAM)和交换分区(Swap)的总容量、已用、空闲数据。核心用法: free -h # -h:以人类可读单位(GB/MB)显示(推荐)free -m # 以 MB 为单位显示 输出示例: total used free shared buff/cache availableMem: 15Gi 2.3Gi 10Gi 342Mi 3.1Gi 12GiSwap: 19Gi 0B 19Gi 关键指标:available(实际可分配给新进程的内存,含空闲 + 缓存可释放部分),比 free 更能反映真实内存状态。2. top/htop(实时查看进程内存占用)核心用法:运行 top 或 htop 后,关注进程列:%MEM:进程占用物理内存的百分比。VIRT:进程虚拟内存大小(含共享库、交换空间)。RES:进程实际占用的物理内存大小(不含共享库,核心指标)。快捷键:M(按内存使用率排序)。3. vmstat(监控内存 + CPU+IO 整体状态)功能:综合监控内存交换、页面调度、CPU 负载,适合排查内存瓶颈。核心用法: vmstat 1 5 # 每 1 秒刷新一次,共 5 次 关键输出:si(Swap in):从交换分区读入内存的数据量(越大说明内存不足,频繁使用 Swap)。so(Swap out):从内存写入交换分区的数据量(同上,si/so 长期非 0 代表内存紧张)。三、磁盘监控(核心:查看磁盘容量、IO 负载、分区使用)1. df(查看磁盘分区容量)功能:显示所有挂载分区的总容量、已用空间、空闲空间、使用率。核心用法: df -h # -h:人类可读单位(GB/MB),推荐df -T # 显示分区文件系统类型(ext4、xfs 等)df -h /home # 只查看 /home 分区的容量情况 2. du(查看目录 / 文件占用磁盘空间)功能:统计单个目录或文件的磁盘占用大小(df 看分区整体,du 看具体文件 / 目录)。核心用法: du -sh /var/log # 统计 /var/log 目录总占用(-s:只显示总和,-h:人类可读)du -h --max-depth=1 /home # 显示 /home 下一级目录的占用情况(不递归子目录)du -h /home/user/*.log # 统计指定类型文件的占用 3. iostat(监控磁盘 IO 负载)功能:查看磁盘的读写速度、IO 等待时间(判断磁盘是否繁忙)。核心用法: iostat -x 1 5 # -x:显示详细 IO 指标,每 1 秒刷新,共 5 次iostat -x -d sda 1 5 # 只监控 sda 磁盘(如 /dev/sda)的 IO 状态 关键指标:%util:磁盘 IO 使用率(接近 100% 说明磁盘繁忙,可能是瓶颈)。tps:每秒 IO 请求数(读 + 写)。rMB/s/wMB/s:每秒读 / 写数据量(MB)。4. iotop(磁盘 IO 进程排名)功能:类似 top,但按磁盘 IO 使用率排序,精准定位 “谁在占用磁盘 IO”。核心用法: # 安装:sudo apt install iotop(Ubuntu)/ sudo yum install iotop(CentOS)iotop # 运行后查看,默认按 IO 使用率排序iotop -o # 只显示正在进行 IO 操作的进程(过滤空闲进程,更清晰) 四、网络监控(核心:查看网络连接、带宽占用、网卡状态)1. ifstat(查看网卡带宽占用)功能:实时显示每个网卡的收发带宽(字节 / 秒、包 / 秒)。核心用法: # 安装:sudo apt install ifstat(Ubuntu)/ sudo yum install ifstat(CentOS)ifstat # 实时监控所有网卡带宽ifstat -i eth0 1 5 # 只监控 eth0 网卡,每 1 秒刷新,共 5 次 输出示例: eth0 wlan0 KB/s in KB/s out KB/s in KB/s out0.00 0.00 0.00 0.001.20 3.40 0.00 0.00 # 实时收发速率 2. iftop(网络带宽进程排名)功能:按进程 / IP 的网络带宽占用排序,直观查看 “谁在占用网络”。核心用法: # 安装:sudo apt install iftop(Ubuntu)/ sudo yum install iftop(CentOS)iftop -i eth0 # 监控 eth0 网卡的带宽占用 界面快捷键:N:显示 IP 地址(默认显示主机名,按 N 切换)。P:显示端口号(如 80、443)。q:退出。3. netstat(查看网络连接状态)功能:列出所有网络连接(TCP/UDP)、监听端口、进程 PID。核心用法(常用组合参数): netstat -tuln # 查看所有监听的 TCP/UDP 端口(-t:TCP,-u:UDP,-l:监听,-n:数字显示端口)netstat -anp # 查看所有网络连接(含 ESTABLISHED 连接)及对应进程 PID(-a:所有连接,-p:显示进程)netstat -anp | grep 80 # 过滤端口 80 的连接(排查 HTTP 服务) 4. ss(netstat 替代版,更快更高效)功能:与 netstat 功能一致,但性能更好(大并发连接下不卡顿),推荐优先使用。核心用法: ss -tuln # 等价于 netstat -tuln(查看监听端口)ss -anp # 等价于 netstat -anp(查看所有连接+进程)ss -anp | grep 443 # 过滤 HTTPS 端口(443)的连接 5. ping(测试网络连通性)功能:测试与目标 IP / 域名的网络连通性(基于 ICMP 协议)。核心用法: ping baidu.com # 持续 ping 百度,测试连通性ping -c 4 baidu.com # 只 ping 4 次(避免持续刷屏) 五、综合监控工具(一次性监控所有指标)如果想同时监控 CPU、内存、磁盘、网络,推荐用以下工具:1. glances(全能监控工具)功能:一站式监控所有系统指标,支持 Web 界面、远程监控。核心用法: # 安装:sudo apt install glances(Ubuntu)/ sudo yum install glances(CentOS)glances # 本地实时监控(界面含 CPU、内存、磁盘、网络、进程排名)glances -w # 启动 Web 服务,浏览器访问 http://服务器IP:61208 查看监控 总结:常用指令速查表监控指标快速查看指令详细分析指令CPUtop / htopmpstat、pidstat -u内存free -htop(按 M 排序)、vmstat磁盘容量df -hdu -sh 目录磁盘 IOiostat -xiotop网络带宽ifstatiftop网络连接ss -tuln / ss -anpnetstat -anp综合监控glances 根据需求选择即可:快速排查用 top+free -h+df -h+ss;精准定位问题用 pidstat+iotop+iftop。
-
这段时间在捣鼓网站加速和监控,试了几个工具:炸了么、FUNCDN、热网互联。没接广告、也不是测评,就是单纯分享下感受。炸了么:主打拨测和网站监控,用起来挺顺,界面也简洁。多节点测试挺方便,能一眼看到各地访问情况。对自己搭的小站挺有帮助,能及时发现抽风问题。FUNCDN:FUNCDN 是 CDN 服务,配置逻辑清晰、功能够用。速度挺稳定,国内外都试了下没太大问题。算是最近体验里比较顺手的一个。热网互联:老牌一点,稳定是最大特点。客服也挺快回应的,用着比较省心。适合那种想一劳永逸不太折腾的人。用了一段时间,个人感觉这几款挺不错的,纯分享,没收钱,有用过其他工具的也欢迎补充下,我也想多挖点好用的服务。
-
云监控服务(CES)为用户提供一个针对弹性云服务器、带宽等资源的立体化监控平台,涵盖云基础设施、高阶服务、外网网络质量监控,是基于主机监控、云服务监控、事件监控、网络监控于一体的全面、高效的监控服务。使用云监控服务,让您全面了解云上的资源使用情况、业务的运行状况,并及时收到异常告警做出反应,保证业务顺畅运行。 2025年8月,CES全新升级,对资源分组、告警、智能报表等功能升级。
-
直播回顾链接https://bbs.huaweicloud.com/live/cloud_live/202508081500.html直播问题FAQ总结:1、 如何调整全量资源的告警规则中针对少数资源调整告警阈值?Ø 可以通过告警规则配置中的排查资源的方式,将个别需要排查在外的资源进行排查,然后对这些资源按其他阈值重新创建告警。 2、 CES支持告警通知是否支持根据告警级别进行分级通知?Ø 用户使用云监控服务配置告警时,支持使用通知策略功能实现告警分级通知,将不同级别的告警按照不同的通知渠道,发送给不同的告警接收对象,实现通知人员排班的能力。 3、 使用CES可以快速批量创建不同云服务的告警规则么?Ø 支持,当用户账号下购买了大量的云服务资源,可以通过创建资源分组来批量管理这些云服务资源,当需要对这些资源进行告警配置时,可以使用自定义告警模板关联资源分组的方式,批量为这些云资源创建告警规则。 4、 对于不重要的资源有频繁收到告警通知,该如何处理?Ø 当用户无需接收部分告警时,云监控服务提供了告警屏蔽功能,可以通过合理配置屏蔽规则,减少无效告警、非紧急告警对运维人员的干扰,提升告警有效性。CES支持按资源、指标、策略等维度进行对告警的屏蔽。
-
一、简介云监控服务(CES)为用户提供一个针对弹性云服务器、带宽等资源的立体化监控平台,涵盖云基础设施、高阶服务、外网网络质量监控,是基于主机监控、云服务监控、事件监控、网络监控于一体的全面、高效的监控服务。使用云监控服务,让您全面了解云上的资源使用情况、业务的运行状况,并及时收到异常告警做出反应,保证业务顺畅运行。2025年7月,CES全新升级,对资源分组、监控大盘、告警配置、主机监控等核心特性进行了全面的优化升级,快来看看本次更新有没有你关注的内容吧!二、特性升级总览1、资源分组实例名称匹配优化: 匹配实例名称,新增忽略名称大小写的开关,实例匹配更加便捷。2、监控大盘:监控大盘支持更多云服务: 新增更多常见的核心、主力云服务(ELB,TaurusDB.GaussDB,OBS,RDS,CBR,CSS, CDN, MRS,DMS,DCS等),开箱即用服务级监控看板。3、告警配置:1)告警配置界面优化: 优化创建告警策略,双层表格展示形式,让指标展示全面,一目了然。2)默认告警模版: 提供了更多云服务的默认告警模版,配置告警引用模版更便捷。三、特性升级详细介绍1、资源分组实例名称区分大小写: 新增默认开启忽略大小写的开关,创建资源分组时,当资源名称需要区分大小写,可以关闭按钮,实现按资源名称大、小写区分资源,做到更精细化的资源匹配,满足用户多种场景诉求。BEFORE(无法区分资源名称字母大小写)AFTER(可按需求进行名称大小写区分)2、监控看板:监控大盘支持更多云服务: 新增更多常见的核心、主力云服务,覆盖更多资源监控场景,用户免配置,实现一键开启大盘,高效呈现资源的可视化监控。目前支持14个服务,共22个大盘,详情见:创建监控大盘。示例:EIP监控大盘3、告警配置:1)告警配置优化: 创建告警规则、自定义告警模版界面,告警策略由原来的单层表格改为双层表格展示,能清晰明了的显示告警规则中,配置的所有指标策略信息,方便用户创建、查看告警规则内容。2)新增服务默认告警模版: 新增云桌面Workspace等服务默认告警模板,为用户配置告警规则提供了便利。BEFORE(告警规则指标显示不完整)AFTER(告警策略清晰展示指标内容)四、上线时间往期回顾
-
应用场景对某种资源全量进行了告警规则配置,但是个别资源需要在某些时间进行阈值调整。前提条件为需要配置告警规则的所有资源,配置统一的标签;为告警规则中需要例外调整阈值的资源,配置另一种标签。操作步骤创建资源分组1)使用资源分组-智能添加-标签匹配的方式,为需要创建告警规则的资源,按标签匹配的方式创建资源分组。下图为创建全量资源的资源分组。2)创建告警中需要修改阈值的资源分组。3) 创建完成后,在资源分组列表页可查看该两个资源分组创建自定义告警模版1) 进入云服务监控左侧菜单栏,点击告警模版—自定义指标告警模版—创建自定义模版2) 进入创建告警模版界面,选择资源类型,并创建告警策略;3) 创建一个需要调整阈值的资源的告警模版,注意:如果只是简单的阈值调整,可以在将上个告警模版复制出新的模版,再做简单的阈值调整,保存即可。4)复制后点击“修改”,对模版中策略的阈值修改。5)完成后可在列表中进行查看。3.模版关联资源分组,创建两个不同的告警规则1) 将全量资源统一使用的模版,关联到全量资源的资源分组中,如下图:2) 对于需要修改阈值的资源,将对应的告警模版和资源分组关联,创建另一个告警规则。3) 创建完成后,可以在告警规则列表页查看创建的告警规则;资源的告警规则匹配创建完告警规则后,后续如果需要调整告警阈值,只需对资源的标签进行管理,即可将资源匹配到不同阈值的告警规则当中。注:资源标签的管理可参考标签TMS服务的相关指导:cid:link_3
-
要将 Prometheus 的默认时区设置为亚洲 / 上海时区(UTC+8),需要从两个层面进行配置:Prometheus 服务器本身的时区设置和前端展示(如 Grafana)的时区设置。以下是具体方法:一、设置 Prometheus 服务器的系统时区Prometheus 本身本身不直接提供时区配置参数,它默认使用服务器的系统时区。因此,首先需要确保运行 Prometheus 的服务器时区为 Asia/Shanghai。1. 查看当前系统时区 # 查看当前时区timedatect 2. 修改系统时区为上海时区 # 列出所有可用时区(可选,确认上海时区名称)timedatectl list-timezones | grep Asia/Shanghai# 设置时区为亚洲/上海sudo timedatectl set-timezone Asia/Shanghai# 再次验证timedatectl 设置完成后,重启 Prometheus 服务,使其应用系统时区: sudo systemctl restart prometheus 二、在 PromQL 中处理时区转换(可选)如果需要在 PromQL 查询中显式处理时区(例如将 UTC 时间转换为上海时间),可以使用 time() 函数结合时区偏移量(上海时区为 UTC+8,即 +8h)。 例如,查询最近 1 小时上海时区的时间范围:promql # 上海时区当前时间 = UTC时间 + 8小时sum(rate(http_requests_total[5m])) by (status) and (time() >= (timestamp("2024-08-13T00:00:00+08:00") - 3600) and time() <= timestamp("2024-08-13T01:00:00+08:00")) 三、Grafana 前端展示时区设置(关键)Prometheus 存储的数据是 UTC 时间戳,但最终用户通常通过 Grafana 查看监控面板。因此,重点需要在 Grafana 中设置上海时区,确保图表和时间范围显示为本地时间。1. Grafana 全局时区设置(管理员)登录 Grafana 管理员账号,进入 Server Admin → Settings(或 Configuration → Settings)。在 Timezone 选项中,选择 Asia/Shanghai 作为默认时区。保存设置后,所有用户的默认时区将改为上海时间。2. 个人用户时区设置(非管理员)普通用户可进入 Profile → Preferences(右上角头像 → 偏好设置)。在 Timezone 中选择 Asia/Shanghai,仅对当前用户生效。3. 面板级别的时区设置编辑 Grafana 面板时,在 Time Range 选项中,确保 Timezone 继承全局设置(或手动指定 Asia/Shanghai)。四、验证配置在 Prometheus 控制台(http://<prometheus-ip>:9090)执行 time() 函数,查看返回值是否为上海时区的当前时间戳(Unix 时间戳,可通过在线工具转换验证)。在 Grafana 中查看图表的时间轴,确认显示的时间是否与本地上海时间一致。总结Prometheus 依赖系统时区,需将服务器时区设为 Asia/Shanghai。前端展示的时区由 Grafana 控制,建议在 Grafana 中全局设置为上海时区,避免用户看到 UTC 时间。 通过以上配置,即可实现 Prometheus 相关的时间展示为亚洲 / 上海时区。
-
一、简介云监控服务(CES)为用户提供一个针对弹性云服务器、带宽等资源的立体化监控平台,涵盖云基础设施、高阶服务、外网网络质量监控,是基于主机监控、云服务监控、事件监控、网络监控于一体的全面、高效的监控服务。使用云监控服务使您全面了解云上的资源使用情况、业务的运行状况,并及时收到异常告警做出反应,保证业务顺畅运行。2025年6月,CES全新升级,对监控看板、云服务监控、主机监控、资源分组、exporter等核心特性进行了全面的优化升级,快来看看本次更新有没有你关注的内容吧!二、特性升级总览1、监控看板:监控大盘支持更多云服务:新增更多常见的核心、主力云服务,用户免配置,可以一键开通资源的监控视图。自定义监控看板图表类型优化:自定义监控看板的图表类型,增加仪表盘、数字图类型,满足用户统计、汇总具体监控指标数据的诉求。支持不同图表类型之前进行切换,可保留原有配置信息,包括已选择的指标和资源信息。2、云服务监控:针对状态字段下的图标进行优化:当云服务状态改变时,图标通过多种颜色标识,使用户更直观地了解云服务的状态。3、主机监控:批量查看资源实例指标:在CES的主机监控中,支持批量查看资源实例指标,每行自定义展示多个视图。4、资源分组: 更丰富的云服务资源:资源分组-智能添加功能,新增了表格存储服务、CBR,云手机等云服务资源。5、exporter:更丰富的资源监控:新增和刷新云服务模板,包括ER、APIGATEWAY、CDN等。exporter支持的云服务持续会进行补充,目前支持的云服务可参考文档:《安装配置CES exporter》三、特性升级详细介绍1、监控看板:监控大盘支持更多云服务:新增更多常见的核心、主力云服务,覆盖更多资源监控场景,用户免配置,实现一键开启大盘,高效呈现资源的可视化监控。示例:EIP监控大盘自定义监控视图: 用户配置自定义监控视图时,新增两种类型的图表类型:仪表盘、数字图,适用于配置汇总类的监控数据。支持图表之间相互切换,解决切换图表后,配置信息丢失的问题,实现了不同图表类型之间丝滑切换,保留自定义的配置信息。AFTER(新增仪表盘、数字图)2、云服务监控:云监控服务在使用过程中,发现我们的图标使用颜色为灰色,一般灰色代表不可用,使用时非常容易误解,期望可用时改变颜色,提升用户体验,满足用户习惯。针对状态字段下的图标进行优化:在云服务监控页面,针对状态字段的图标进行优化,从灰色改为彩色, 统一所有云服务实例的状态标识,确保颜色语义在不同服务模块间保持一致。帮助用户更快速地识别运行中的云服务实例,提高监控效率和用户满意度。AFTER(云服务资源列表针对状态字段下的图标进行优化) 3、主机监控支持批量对比查看资源实例指标:支持批量选择多台主机的资源实例,用户可以一次性查看多台主机的监控数据,方便对比分析。AFTER(支持批量对比查看资源实例指标,每行展示多个视图)4、资源分组:更丰富的云服务资源:资源分组-智能添加功能,新增了表格存储服务、CBR,云手机等云服务资源。AFTER(资源分组-智能添加支持CBR等产品)5、exporter:更丰富的资源监控:exporter是CES云监控的一个开源插件,用户可以通过exporter,将监控数据接入到自建的Prometheus/Grafana,实现更丰富的多资源监控。exporter开源能力使用指南可参考:《将监控数据导出到自建Prometheus/Grafana》、exporter插件使用地址。 四、上线时间
-
屏蔽噪音,聚焦真正影响业务的告警 当用户无需接收到部分告警时,云监控服务(CES)提供了告警屏蔽功能,通过合理配置屏蔽规则,减少无效告警、非紧急告警对运维人员的干扰,提升告警有效性。应用场景随着云上资源日益增多,生产、测试资源都配置了多个指标的告警规则,实际使用时,无需收到测试资源的告警,可以通过配置屏蔽规则,对测试环境的资源告警进行屏蔽。操作步骤登录云监控服务管理控制台。在左侧导航栏,单击“告警 > 告警屏蔽”,进入告警屏蔽界面。单击页面右上角的“创建告警屏蔽”。在“创建屏蔽规则”界面,根据界面提示配置参数,更多屏蔽规则参数请参见创建屏蔽规则。 屏蔽方式选择“资源屏蔽”。云产品选择需要配置的云服务名称。单击“选择对象”,在选择屏蔽对象页面,勾选需要屏蔽的资源,支持多选。在“选择指标”下拉框中,选择需要屏蔽的指标,支持多选;如果不指定指标,则对所有指标生效。 5. 配置完成后,单击“立即创建”,即可实现对多个资源、多个指标的告警屏蔽。
-
手把手教你精准路由关键告警,提升运维效率!用户使用云监控服务配置告警时,支持使用通知策略功能,实现告警分级通知。将不同级别的告警,按不同的通知渠道,发送给不同的告警接收对象,实现通知人员排班的能力。应用场景在创建告警策略时,用户可以通过告警分级功能,为不同的告警等级配置对应的通知通组、主题订阅,减少告警噪声干扰,避免错过重要告警消息。前提条件已将需接收不同告警级别、通知渠道、接收周期的告警通知对象,配置了通知组或主题订阅。配置通知组的操作步骤,请参见创建通知对象/通知组,配置主题订阅的操作步骤,请参见创建主题并添加订阅。操作步骤登录云监控服务管理控制台。在左侧导航栏,单击“告警 > 告警通知”,进入告警通知界面。在“通知策略”页签,单击“创建通知策略”,根据界面提示配置参数,更多参数说明,请参见创建通知策略。单击“通知范围”,可以在一个通知策略中配置多个通知范围。每个通知范围中,选择不同告警级别、通知渠道、接收周期,并在接收对象中,选择对应的通知组或主题订阅,即可创建不同的通知范围,实现告警分级,人员排班的功能,达到不同级别的告警,通过不同的通知渠道发送。完成配置后,单击“确定”,完成创建通知策略。 告警策略应用步骤登录云监控服务控制台。在左侧导航栏,单击“告警 > 告警规则”。单击“创建告警规则”,根据界面提示配置参数,关于告警规则的更多参数说明,请参见创建告警规则和通知。在配置“发送通知”时,通知方式选择通知策略,选择配置好的通知策略即可。 通过以上方式,可实现将不同级别的告警,通过不同的通知渠道,发送到对应的告警接收对象,实现告警分级通知、人员排班等能力。
-
一、简介云监控服务(CES)为用户提供一个针对弹性云服务器、带宽等资源的立体化监控平台,涵盖云基础设施、高阶服务、外网网络质量监控,是基于主机监控、云服务监控、事件监控、日志监控、站点监控于一体的全面、高效的监控服务。使用云监控服务使您全面了解云上的资源使用情况、业务的运行状况,并及时收到异常告警做出反应,保证业务顺畅运行。2025年5月,CES全新升级,对自定义监控看板、主机监控、云服务监控、告警规则、监控大屏等核心特性进行了全面的优化升级,快来看看本次更新有没有你关注的内容吧!二、特性升级总览自定义监控看板:1、创建自定义监控视图支持按资源分组范围选择资源,当所选资源分组是按智能添加方式创建,资源分组中的资源有变动时自定义视图中的资源也会同步进行更新;2、图例展示优化,支持通过当前值、最大值、最小值、平均值、求和值排序。主机监控:对Agent监控插件支持按需选择所要安装和升级插件的资源进行批量操作,对符合条件的主机能进行可视化界面操作批量安装和升级。云服务监控:在CES的云服务监控列表页和资源详情列表页增加提示,告知用户监控数据超过一定时长(大于3小时,部分云服务大于7天),未上报监控数据,将不会展示在服务列表中。告警规则:配置告警规则选择指标时增加对指标的含义说明,方便用户理解指标合理配置告警。监控大屏:自定义监控看板同步生成的监控大屏支持用户在自定义看板的视图上调整的图表排序同步保留到监控大屏上。三、特性升级详细介绍自定义监控看板:1、新增资源分组:可按资源分组维度创建视图,并支持视图同步更新。2、图例展示优化,支持通过当前值、最大值、最小值、平均值、求和值排序。BEFORE(仅支持选择全部资源或指定50个资源)AFTER(可根据分组维度创建监控视图)主机监控:新增批量安装和升级插件:支持批量安装和升级插件,能界面化快速操作完成。BEFORE(只支持单台主机进行安装和升级,无法批量化操作,导致效率降低 )AFTER(支持多台主机进行安装和升级,便捷操作,提升效率 )云服务监控:及时感知资源监控指标数据上报情况 :在CES的云服务监控列表页和资源详情列表页增加提示,告知用户监控数据超过一定时长未上报监控数据,将不会展示在服务列表中;告知用户资源的监控数据保留时长,减少用户疑惑。告警规则:新增指标含义提示:配置告警策略的时候增加指标的定义,方便快速了解指标的含义。BEFORE(不支持指标含义)AFTER(可支持展示指标详情,快速了解指标)监控大屏:自定义监控看板上调整图表的顺序,保存后,切换到监控大屏界面,即可在监控大屏上同步保存已调整的图表顺序。自定义监控视图可拖拽进行图表顺序的调整:调整后的顺序可同步呈现在监控大屏上 :四、上线时间
-
一、背景&痛点:1. 资源管理不便:当前监控视图仅支持选择全部资源或指定50个资源来查看TopN或折线图数据,缺乏分批、分组选择资源的能力。2. 手动配置负担重:当租户资源发生变化时,需要手动添加监控实例并更新相关的监控视图。二、解题思路&价值:1. 资源分组管理:提供跨云产品的资源分组管理方式,用户可以根据业务管理需求,设定匹配规则,自动创建资源分组,将业务相关的服务器、数据库等资源添加到同一资源分组中,从资源分组维度进行监控。2. 监控视图自动更新资源:通过智能方式创建的资源分组具有动态特性,当资源分组中的资源发生增删改时,相关监控视图对应的资源实例会自动更新,无需用户再次手动配置,极大地提升了资源管理的效率和便捷性。3. 展示分组内资源指标的统计值:支持按照资源分组维度创建监控视图,提供分组内资源某指标的统计值,如求和值、平均值、求TopN数据等,分组维度的监控方式能够更直观地反映业务资源的整体状态。三、操作指导:1.进入 “添加监控视图”界面,监控范围支持选择“资源分组”创建视图注:若当前无相关资源分组,提供智能添加&手动选择两种创建资源分组的方式,具体方式如下:2.资源分组创建方式:2.1创建资源分组-智能添加:智能添加有四种匹配方式,如下所示:a.匹配实例名称:通过设置实例名称的匹配规则,自动创建资源分组;将匹配的所有实例自动添加到该资源分组中进行管理,最多可添加50个示例。b.匹配企业项目:当已绑定企业项目时,可通过企业项目进行匹配,将匹配到的实例自动添加到该资源分组中进行管理。c.匹配标签:实例已绑定标签时,可通过标签匹配规则创建资源分组,将匹配的所有实例自动添加到该资源分组中进行管理。当实例与标签值匹配时,自动创建一个资源分组。未来新匹配的符合标签值的实例,也会自动加入该资源分组。d.组合匹配:已绑定标签、已有企业项目分组时,支持企业项目、标签、实例名称,选择两种以上根据设置的匹配规则组合匹配,最多可添加50个组合。2.2.创建资源分组-手动选择:手动选择指定资源:手动选择云产品/子维度下相关联的资源。(选择子维度,即选择了云产品下的部分维度)云产品层级:子维度层级:3.资源分组创建完成后,可选择对应资源分组,进行监控视图配置,完成视图创建
-
一、简介云监控服务(CES)为用户提供一个针对弹性云服务器、带宽等资源的立体化监控平台,涵盖云基础设施、高阶服务、外网网络质量监控,是基于主机监控、云服务监控、事件监控、日志监控、站点监控于一体的全面、高效的监控服务。使用云监控服务使您全面了解云上的资源使用情况、业务的运行状况,并及时收到异常告警做出反应,保证业务顺畅运行。2024年8月,CES全新升级,对主机监控、告警规则配置、告警屏蔽、我的看板等核心特性进行了优化升级,快来看看本次更新有没有你关注的内容吧!二、特性升级介绍1、主机监控:【易操作】批量安装更新Agent插件,让用户操作更加便利未安装主机批量安装:对于已经创建的 ECS 实例,只对没有安装 Agent 插件的实例的进行安装(只支持一键安装的主机)已安装主机批量升级:对于已经创建的 ECS 实例,只对安装过 Agent 插件的实例进行升级全量安装&升级:对于已经创建的 ECS 实例,安装并升级到最新版 Agent(只支持一键安装的主机)2、告警规则配置:【易使用】监控范围支持指定排除资源&规则导出&通知方式批量修改指定排除资源:配置告警规则的监控范围,选择“全部资源”或“资源分组”时,支持排除指定的资源进行差异化阈值设置告警规则导出:告警规则支持指定字段、指定资源批量导出功能告警通知批量修改:支持对告警规则批量修改通知方式,如批量关闭通知、批量更改通知组、更改通知策略3、我的看板:【易使用】丰富图表类型,优化配置界面,支持指标多维汇聚能力丰富图表类型:支持折线图、面积图、柱状图、条形图、环形图(原饼图)、表格、数字(即将到来)、热力图(即将到来)优化配置界面:图标类型选择与视图分组选择界面移动到右侧图表配置中支持指标多维汇聚:可指定资源或选择全部资源,可选择多个聚合维度,支持平均值、最小值、最大值、求和值、最新值聚合算子4、告警屏蔽:【易使用】支持指定资源屏蔽事件告警,减少无效事件干扰事件屏蔽:支持指定资源、全部资源屏蔽事件告警,可配置多个事件以及屏蔽周期5、整体优化:用户体验细节整体优化,功能增强,让客户使用更丝滑主机监控支持网卡级监控:主机监控-操作系统监控支持网卡监控,展示网络汇总指标与详情指标,选择详情可指定网卡(若存在子网卡)告警记录支持手动恢复:告警记录新增了支持手动恢复告警的功能,通过手动恢复,将告警状态改成已解决资源分组新增云服务:数据复制服务DRS(DRS运行实例)、虚拟私有云VPC(带宽、弹性IP),支持同步企业项目、标签匹配、组合匹配的方式创建资源分组告警通知增加持续时间字段:告警通知里新增了告警持续时间字段,方便用户关注告警时长,及时处理告警三、上线时间四、往期更新1、云监控服务(CES)Agent全新升级,新增ECS指标30+2、云监控服务(CES)6月全新升级
-
一、简介 云监控服务(CES)为用户提供一个针对弹性云服务器、带宽等资源的立体化监控平台,涵盖云基础设施、高阶服务、外网网络质量监控,是基于主机监控、云服务监控、事件监控、日志监控、站点监控于一体的全面、高效的监控服务。使用云监控服务使您全面了解云上的资源使用情况、业务的运行状况,并及时收到异常告警做出反应,保证业务顺畅运行。 2024年8月,CES Agent全新升级,支持2.7.2版本,新增CPU类、磁盘类、磁盘IO类、文件系统类、内存类、网络指标类、进程类以及NTP类共计30+指标,快来看看本次更新有没有你关注的内容吧!二、新增指标详情 针对CPU/CPU负载、磁盘、磁盘IO、网络、NTP、进程等几大领域增加30+指标,为用户提供更好的开箱即用体验。指标分类指标名称指标说明默认指标(2.5.6)默认指标(2.7.2)CPU类指标telescope.metric.cpu_usage(Agent) 磁盘剩余存储量√√telescope.metric.cpu_usage_idle(Agent) CPU空闲时间占比x√telescope.metric.cpu_usage_user(Agent) 用户空间CPU使用率x√telescope.metric.cpu_usage_system(Agent) 内核空间CPU使用率x√telescope.metric.cpu_usage_other(Agent) 其他CPU使用率x√telescope.metric.cpu_usage_nice(Agent) Nice进程CPU使用率x√telescope.metric.cpu_usage_iowait(Agent) iowait状态占比x√telescope.metric.cpu_usage_irq(Agent) CPU中断时间占比x√telescope.metric.cpu_usage_softirq(Agent) CPU软中断时间占比x√CPU负载类指标telescope.metric.load_average5(Agent) 1分钟平均负载√√telescope.metric.load_average1(Agent) 5分钟平均负载√√telescope.metric.load_average15(Agent) 15分钟平均负载√√磁盘类指标telescope.metric.disk_free(Agent) 磁盘剩余存储量√√telescope.metric.disk_usedPercent(Agent) 磁盘使用率√√telescope.metric.disk_total(Agent) 磁盘存储总量x√telescope.metric.disk_used(Agent) 磁盘已用存量x√telescope.metric.disk_rwstate x√磁盘IO类指标telescope.metric.disk_writeTime(Agent) 写操作平均耗时x√telescope.metric.disk_readTime(Agent) 读操作平均耗时x√telescope.metric.disk_write_bytes_per_operation(Agent) 平均写操作大小x√telescope.metric.disk_read_bytes_per_operation(Agent) 平均读操作大小x√telescope.metric.disk_io_svctm(Agent) 平均I/O服务时长x√telescope.metric.disk_ioUtils(Agent) 磁盘I/O使用率√√telescope.metric.disk_agt_read_bytes_rate(Agent) 磁盘读速率x√telescope.metric.disk_agt_read_requests_rate(Agent) 磁盘读操作速率x√telescope.metric.disk_agt_write_bytes_rate(Agent) 磁盘写速率x√telescope.metric.disk_agt_write_requests_rate(Agent) 磁盘写操作速率x√telescope.metric.disk_queue_length(Agent) 平均队列长度x√文件系统telescope.metric.disk_fs_rwstate(Agent) 文件系统读写状态x√telescope.metric.disk_inodesUsedPercent(Agent) inode已使用占比√√telescope.metric.disk_inodesUsed(Agent) inode已使用空间x√telescope.metric.disk_inodesTotal(Agent) inode空间大小x√内存类指标telescope.metric.mem_usedPercent(Agent) 内存使用率√√telescope.metric.mem_available(Agent) 可用内存x√telescope.metric.mem_free(Agent) 空闲内存量x√telescope.metric.mem_buffers(Agent) Buffers占用量x√telescope.metric.mem_cached(Agent) Cache占用量x√网络类指标telescope.metric.net_bitSent(Agent) 入网带宽√√telescope.metric.net_bitRecv(Agent) 出网带宽√√telescope.metric.net_packetSent(Agent) 网卡包发送速率√√telescope.metric.net_packetRecv(Agent) 网卡包接收速率√√telescope.metric.net_errin(Agent) 接收误包率x√telescope.metric.net_errout(Agent) 发送误包率x√telescope.metric.net_dropin(Agent) 接收丢包率x√telescope.metric.net_dropout(Agent) 发送丢包率x√telescope.metric.net_tcp_total(Agent) TCP连接总数√√telescope.metric.net_tcp_established(Agent) TCP ESTABLISHED连接数√√telescope.metric.net_udp_total(Agent) UDP连接总数√√进程类指标telescope.metric.total_open_files(Agent) 文件句柄总数x√NTP指标ntp_offset(Agent) NTP偏移量x√三、如何升级第一步:登录控制台,打开CES产品界面,点击左侧菜单栏的主机监控->弹性云服务(位置1),即可进入弹性云服务器列表第二步:进入弹性云服务器列表,您可有有以下两种途径来完成Agent的版本升级全量升级(位置2):点击安装&升级插件,即可弹出全量升级窗口单主机升级(位置3):插件版本会显示在主机列表,如不是最新版本,可点击版本后面的升级图标,即可弹出升级窗口四、升级后效果 完成升级后,点击主机监控详情页查看新增指标,效果如下所示。五、结语以上就是本次更新的所有内容,欢迎用户点击链接前往官网进行体验并提出宝贵意见,您的每一条建议都是我们前进的动力。我们将持续提升产品的核心竞争力,为用户提供更优秀的产品体验。
-
一、简介云监控服务(CES)为用户提供一个针对弹性云服务器、带宽等资源的立体化监控平台,涵盖云基础设施、高阶服务、外网网络质量监控,是基于主机监控、云服务监控、事件监控、日志监控、站点监控于一体的全面、高效的监控服务。使用云监控服务使您全面了解云上的资源使用情况、业务的运行状况,并及时收到异常告警做出反应,保证业务顺畅运行。2024年6月,CES全新升级,对告警配置、告警通知、资源分组、我的看板等核心特性进行了全面的优化升级,快来看看本次更新有没有你关注的内容吧!二、特性升级总览创建告警规则:【易上手】简化创建告警规则流程,让用户轻松上手资源层级增加去维度化优化创建告警规则流程告警通知:【易操作】新增通知策略,扩展通知渠道,通知方法更灵活新增通知策略新增通知渠道我的看板:【易观测】视图丰富度与功能全面提升,让监控没有死角支持视图分组、自定义视图位置新增视图类型,视图功能增强资源分组:【易操作】手动添加操作简化,智能匹配资源能力增强,让分组不再困难手动添加分组新增“云产品”资源维度智能添加新增实例名称匹配、组合匹配能力三、特性升级详细介绍创建告警规则1、资源层级增加去维度化:选择云产品维度(ECS),一条告警规则即可覆盖所有维度资源(磁盘、挂载点、进程) BEFORE(配置告警需要选择维度,给一台主机配置不同维度的告警需要创建多个告警规则)AFTER2、优化创建告警规则流程:优化资源选择与告警通知模块,选择云产品维度与告警策略即可流畅完成告警规则配置 BEFORE(告警规则配置复杂, 初次使用经常配不通 , 页面跳转太多打断用户创建流程)AFTER告警通知1、新增通知策略:支持根据告警级别配置不同的通知渠道,周一到周日任意时间段发送,支持同时配置多个通知范围,支持通知内容颜色自定义、可视化预览BEFORE(告警通知不支持分级通知,通知周期固定,通知内容不支持自定义)AFTER2、新增通知渠道:通知对象新增多个通知渠道(企业微信、HTTP、钉钉、飞书)可同时配置,无需跳转到SMN页面BEFORE(告警通知配置体验差,全量通知渠道需跳转SMN创建主题和订阅, 操作有断点)AFTER 我的看板1、优化看板页面操作体验:支持视图分组、自定义视图位置,用户可灵活编排视图 BEFORE(自定义监控看板不支持视图分组,无法编排视图位置)AFTER2、监控视图功能增强:新增柱状图、表格、面积图、环形图,支持同环比对比、TopN排序、阈值线和双Y轴选择等功能 BEFORE(监控视图支持类型少,控件功能单一)AFTER 资源分组1、手动添加操作体验优化:新增“云产品”资源维度,自动覆盖所有子维度资源(例如选择弹性云服务器,自动覆盖其磁盘、挂载点、进程等资源)BEFORE(资源分组手动添加,资源下的子维度也需要手动选中)AFTER2、智能添加功能增强: 支持按照实例名称、资源标签综合匹配,支持根据归属企业项目与资源标签组合匹配BEFORE(资源分组智能添加仅支持企业项目与资源标签匹配)AFTER四、上线时间为了促进技术交流,欢迎大家积极互动,积极盖楼评价!
推荐直播
-
HDC深度解读系列 - Serverless与MCP融合创新,构建AI应用全新智能中枢2025/08/20 周三 16:30-18:00
张昆鹏 HCDG北京核心组代表
HDC2025期间,华为云展示了Serverless与MCP融合创新的解决方案,本期访谈直播,由华为云开发者专家(HCDE)兼华为云开发者社区组织HCDG北京核心组代表张鹏先生主持,华为云PaaS服务产品部 Serverless总监Ewen为大家深度解读华为云Serverless与MCP如何融合构建AI应用全新智能中枢
回顾中 -
关于RISC-V生态发展的思考2025/09/02 周二 17:00-18:00
中国科学院计算技术研究所副所长包云岗教授
中科院包云岗老师将在本次直播中,探讨处理器生态的关键要素及其联系,分享过去几年推动RISC-V生态建设实践过程中的经验与教训。
回顾中 -
一键搞定华为云万级资源,3步轻松管理企业成本2025/09/09 周二 15:00-16:00
阿言 华为云交易产品经理
本直播重点介绍如何一键续费万级资源,3步轻松管理成本,帮助提升日常管理效率!
回顾中
热门标签