• [技术干货] 告警体系 - 构建智能告警管理系统
    1. Alertmanager架构解析核心组件与工作流程Alertmanager架构:text┌─────────────────┐ ┌──────────────────┐ ┌──────────────┐│ Prometheus │───▶│ Alertmanager │───▶│ 通知渠道 ││ Server │ │ │ │ (Email/Webhook) └─────────────────┘ └──────────────────┘ └──────────────┘ │ │ │ │ ▼ ▼┌─────────────────┐ ┌──────────────────┐│ 告警规则 │ │ 静默/抑制 ││ Rules │ │ Silences │└─────────────────┘ └──────────────────┘数据处理流程:接收告警:从Prometheus接收告警分组分组:按标签对告警进行分组抑制处理:处理告警抑制关系静默检查:检查是否处于静默期路由分发:根据路由树发送到不同接收器重试机制:失败告警的重试处理高可用部署方案yaml# docker-compose.ha.ymlversion: '3.8'services: alertmanager-1: image: prom/alertmanager:latest ports: - "9093:9093" command: - '--config.file=/etc/alertmanager/alertmanager.yml' - '--storage.path=/alertmanager' - '--cluster.advertise-address=alertmanager-1:9093' - '--cluster.peer=alertmanager-1:9093' - '--cluster.peer=alertmanager-2:9093' volumes: - ./alertmanager.yml:/etc/alertmanager/alertmanager.yml - alertmanager_data_1:/alertmanager alertmanager-2: image: prom/alertmanager:latest ports: - "9094:9093" command: - '--config.file=/etc/alertmanager/alertmanager.yml' - '--storage.path=/alertmanager' - '--cluster.advertise-address=alertmanager-2:9093' - '--cluster.peer=alertmanager-1:9093' - '--cluster.peer=alertmanager-2:9093' volumes: - ./alertmanager.yml:/etc/alertmanager/alertmanager.yml - alertmanager_data_2:/alertmanagervolumes: alertmanager_data_1: alertmanager_data_2:2. 告警规则配置实战基础告警规则yaml# rules/node_alerts.ymlgroups:- name: node_alerts rules: # 节点宕机告警 - alert: NodeDown expr: up{job="node"} == 0 for: 2m labels: severity: critical team: infrastructure annotations: summary: "Node {{ $labels.instance }} is down" description: "Node {{ $labels.instance }} has been down for more than 2 minutes." runbook: "https://wiki.company.com/runbooks/node-down" # CPU使用率告警 - alert: HighCPUUsage expr: 100 - (avg by(instance) (rate(node_cpu_seconds_total{mode="idle"}[5m])) * 100) > 80 for: 5m labels: severity: warning annotations: summary: "High CPU usage on {{ $labels.instance }}" description: "CPU usage is at {{ $value }}% for more than 5 minutes" # 内存使用率告警 - alert: HighMemoryUsage expr: (node_memory_MemTotal_bytes - node_memory_MemAvailable_bytes) / node_memory_MemTotal_bytes * 100 > 90 for: 5m labels: severity: warning annotations: summary: "High memory usage on {{ $labels.instance }}" description: "Memory usage is at {{ $value }}%" # 磁盘空间告警 - alert: DiskSpaceCritical expr: (1 - (node_filesystem_avail_bytes{fstype!="tmpfs"} / node_filesystem_size_bytes)) * 100 > 95 for: 2m labels: severity: critical annotations: summary: "Disk space critical on {{ $labels.instance }} ({{ $labels.mountpoint }})" description: "Disk usage is at {{ $value }}%"业务应用告警规则yaml# rules/business_alerts.ymlgroups:- name: business_alerts rules: # HTTP错误率告警 - alert: HighHTTPErrorRate expr: | ( rate(http_requests_total{status=~"5.."}[5m]) / rate(http_requests_total[5m]) ) * 100 > 5 for: 3m labels: severity: critical team: backend annotations: summary: "High HTTP error rate on {{ $labels.service }}" description: "HTTP error rate is {{ $value }}% (threshold: 5%)" # 应用响应时间告警 - alert: HighResponseTime expr: | histogram_quantile(0.95, rate(http_request_duration_seconds_bucket[5m]) ) > 1 for: 5m labels: severity: warning annotations: summary: "High response time on {{ $labels.service }}" description: "95th percentile response time is {{ $value }}s" # 业务交易量突降告警 - alert: BusinessTransactionDrop expr: | ( avg_over_time(business_transactions_total[1h]) / avg_over_time(business_transactions_total[1h] offset 1d) ) < 0.5 for: 10m labels: severity: critical team: business annotations: summary: "Business transactions dropped significantly" description: "Current transactions are {{ $value }} of normal levels"高级告警规则技巧预测性告警:yaml- alert: DiskSpacePrediction expr: | predict_linear(node_filesystem_free_bytes{fstype!="tmpfs"}[6h], 4*60*60) < 0 for: 1h labels: severity: warning annotations: summary: "Disk space predicted to run out in 4 hours" description: "Based on current usage trends, disk will be full soon"关联性告警:yaml- alert: ServiceDependencyIssue expr: | ( up{service="order-service"} == 1 and up{service="payment-service"} == 0 ) or ( rate(http_requests_total{service="order-service",status=~"5.."}[2m]) > 10 and up{service="payment-service"} == 0 ) labels: severity: critical annotations: summary: "Service dependency issue detected" description: "Order service is affected by payment service outage"3. Alertmanager配置详解主配置文件结构yaml# alertmanager.ymlglobal: # SMTP配置 smtp_smarthost: 'smtp.company.com:587' smtp_from: 'alertmanager@company.com' smtp_auth_username: 'alertmanager' smtp_auth_password: '${SMTP_PASSWORD}' # Slack配置 slack_api_url: 'https://hooks.slack.com/services/XXX' # 其他全局配置 resolve_timeout: 5m# 路由树配置route: group_by: ['alertname', 'cluster', 'service'] group_wait: 30s group_interval: 5m repeat_interval: 12h receiver: 'default-receiver' # 子路由 routes: - match: severity: critical receiver: 'critical-alerts' group_interval: 1m repeat_interval: 5m - match: service: database receiver: 'dba-team' group_wait: 10s - match_re: service: ^(frontend|backend).* receiver: 'web-team'# 接收器配置receivers: - name: 'default-receiver' email_configs: - to: 'alerts@company.com' subject: '[{{ .Status | toUpper }}] {{ .GroupLabels.alertname }}' - name: 'critical-alerts' slack_configs: - channel: '#critical-alerts' title: '🚨 {{ .GroupLabels.alertname }}' text: | {{ range .Alerts }} *Alert:* {{ .Annotations.summary }} *Description:* {{ .Annotations.description }} *Runbook:* {{ .Annotations.runbook }} *Time:* {{ .StartsAt }} {{ end }} pagerduty_configs: - service_key: '${PAGERDUTY_KEY}' description: '{{ .CommonAnnotations.summary }}' - name: 'dba-team' webhook_configs: - url: 'http://dba-tool:8080/alerts' send_resolved: true - name: 'web-team' email_configs: - to: 'web-team@company.com' slack_configs: - channel: '#web-team-alerts'# 抑制规则inhibit_rules: - source_match: severity: 'critical' target_match: severity: 'warning' equal: ['alertname', 'cluster', 'service']多通道通知配置yamlreceivers: - name: 'multi-channel' # Email通知 email_configs: - to: 'team@company.com' headers: Priority: '1' # High priority # Slack通知 slack_configs: - channel: '#alerts' color: '{{ if eq .Status "firing" }}danger{{ else }}good{{ end }}' actions: - type: button text: 'View Dashboard' url: 'http://grafana.company.com/dashboard' - type: button text: 'Runbook' url: '{{ .CommonAnnotations.runbook }}' # Webhook集成 webhook_configs: - url: 'http://chatbot:8080/alert' max_alerts: 10 # PagerDuty集成 pagerduty_configs: - service_key: '${PAGERDUTY_KEY}' severity: '{{ .CommonLabels.severity }}' details: alertname: '{{ .CommonLabels.alertname }}' summary: '{{ .CommonAnnotations.summary }}' # OpsGenie集成 opsgenie_configs: - api_key: '${OPSGENIE_KEY}' message: '{{ .CommonAnnotations.summary }}' tags: ['{{ .CommonLabels.team }}', '{{ .CommonLabels.severity }}']4. 静默与抑制配置静默管理通过Web UI创建静默:访问Alertmanager UI(默认9093端口)点击"New Silence"设置匹配标签和时间范围添加注释说明静默原因通过API创建静默:bash# 创建静默curl -X POST http://alertmanager:9093/api/v2/silences \ -H 'Content-Type: application/json' \ -d '{ "matchers": [ { "name": "alertname", "value": "NodeDown", "isRegex": false }, { "name": "instance", "value": "web-01.*", "isRegex": true } ], "startsAt": "2023-01-01T00:00:00.000Z", "endsAt": "2023-01-01T02:00:00.000Z", "createdBy": "api-user", "comment": "Planned maintenance window" }'# 列出所有静默curl http://alertmanager:9093/api/v2/silences# 删除静默curl -X DELETE http://alertmanager:9093/api/v2/silence/<silence-id>抑制规则优化yamlinhibit_rules: # 节点宕机时抑制该节点上的所有应用告警 - source_match: alertname: NodeDown target_match_re: instance: '.*' equal: ['instance'] # 集群级别故障抑制服务级别告警 - source_match: alertname: ClusterUnavailable target_match: severity: warning equal: ['cluster'] # 数据库主节点故障抑制从节点告警 - source_match: alertname: MySQLPrimaryDown role: primary target_match: alertname: MySQLReplicationLag role: replica equal: ['cluster']5. 模板自定义告警模板定制yaml# 自定义模板文件 templates/custom.tmpl{{ define "slack.custom.title" }}{{ if eq .Status "firing" }}🔥{{ else }}✅{{ end }} [{{ .Status | toUpper }}] {{ .GroupLabels.alertname }}{{ end }}{{ define "slack.custom.text" }}{{ range .Alerts }}*Alert:* {{ .Annotations.summary }}*Description:* {{ .Annotations.description }}*Severity:* {{ .Labels.severity }}*Instance:* {{ .Labels.instance }}*Started:* {{ .StartsAt.Format "2006-01-02 15:04:05" }}{{ if .GeneratorURL }}*Grafana:* <{{ .GeneratorURL }}|View Dashboard>{{ end }}{{ if .Annotations.runbook }}*Runbook:* <{{ .Annotations.runbook }}|Documentation>{{ end }}---{{ end }}在配置中引用模板:yamlglobal: # ... 其他配置# 模板文件路径templates: - '/etc/alertmanager/templates/*.tmpl'receivers: - name: 'slack-with-template' slack_configs: - channel: '#alerts' title: '{{ template "slack.custom.title" . }}' text: '{{ template "slack.custom.text" . }}' color: '{{ if eq .Status "firing" }}danger{{ else }}good{{ end }}'条件模板go{{ define "email.subject" }}{{- if eq .Status "firing" -}}[FIRING] {{ len .Alerts }} alert(s) for {{ .GroupLabels.alertname }}{{- else -}}[RESOLVED] {{ .GroupLabels.alertname }} resolved{{- end }}{{ end }}{{ define "email.html" }}<html><body><h2>Alert Summary</h2>{{ range .Alerts }}<div style="border: 1px solid {{ if eq .Status "firing" }}red{{ else }}green{{ end }}; padding: 10px; margin: 5px;"> <h3>{{ .Annotations.summary }}</h3> <p><strong>Status:</strong> {{ .Status }}</p> <p><strong>Description:</strong> {{ .Annotations.description }}</p> <p><strong>Labels:</strong></p> <ul> {{ range .Labels.SortedPairs }} <li><strong>{{ .Name }}:</strong> {{ .Value }}</li> {{ end }} </ul></div>{{ end }}</body></html>{{ end }}6. 告警最佳实践告警分级策略yaml# 严重级别定义- name: severity_critical rules: - alert: ServiceDown expr: up == 0 labels: severity: critical priority: P0 - name: severity_warning rules: - alert: HighResourceUsage expr: cpu_usage > 80 labels: severity: warning priority: P1 - name: severity_info rules: - alert: DiskSpaceWarning expr: disk_usage > 85 labels: severity: info priority: P2避免告警风暴分组与抑制策略:yamlroute: group_by: ['alertname', 'cluster'] group_wait: 30s group_interval: 5m repeat_interval: 1h routes: - match: severity: critical group_interval: 1m repeat_interval: 10m receiver: 'critical-pager' inhibit_rules: - source_match: severity: critical target_match: severity: warning equal: ['cluster', 'service']告警有效性评估监控告警本身:yaml- alert: AlertmanagerClusterDown expr: count(up{job="alertmanager"}) < 2 for: 2m labels: severity: critical annotations: summary: "Alertmanager cluster degraded" - alert: HighAlertVolume expr: | rate(alertmanager_alerts_received_total[5m]) > 100 labels: severity: warning annotations: summary: "High volume of alerts received"告警质量指标:promql# 告警触发频率rate(ALERTS{alertstate="firing"}[1h])# 平均解决时间avg_over_time(alertmanager_alerts{state="active"}[1h])# 误报率rate(ALERTS{alertstate="firing", severity="info"}[24h]) / rate(ALERTS{alertstate="firing"}[24h])7. 实战:完整的生产告警体系完整的prometheus.yml配置yamlglobal: scrape_interval: 15s evaluation_interval: 15srule_files: - "rules/*.yml"alerting: alertmanagers: - static_configs: - targets: - alertmanager-1:9093 - alertmanager-2:9093 timeout: 10s api_version: v2scrape_configs: - job_name: 'alertmanager' static_configs: - targets: ['alertmanager-1:9093', 'alertmanager-2:9093']完整的alertmanager.yml配置yamlglobal: smtp_smarthost: 'smtp.company.com:587' smtp_from: 'alertmanager@company.com' smtp_auth_username: 'alertmanager' smtp_auth_password: '${SMTP_PASSWORD}'route: receiver: 'default' group_by: ['alertname', 'cluster'] group_wait: 10s group_interval: 5m repeat_interval: 3h routes: - match: severity: critical receiver: 'critical' repeat_interval: 10m - match: team: database receiver: 'dba-team'receivers: - name: 'default' email_configs: - to: 'alerts@company.com' - name: 'critical' slack_configs: - channel: '#critical-alerts' pagerduty_configs: - service_key: '${PAGERDUTY_KEY}' - name: 'dba-team' webhook_configs: - url: 'http://dba-portal:8080/alerts'inhibit_rules: - source_match: severity: critical target_match: severity: warning equal: ['cluster', 'alertname']通过这个完整的告警体系,您可以构建一个可靠、可扩展且易于维护的监控告警系统,确保及时发现问题并快速响应。
  • [技术干货] exporter生态 - 全方位监控数据采集
    1. Exporter工作原理数据采集机制Exporter架构模式:go// 典型的Exporter结构type Exporter struct { registry *prometheus.Registry gauges map[string]*prometheus.GaugeVec counters map[string]*prometheus.CounterVec}// 数据收集接口type Collector interface { Describe(ch chan<- *prometheus.Desc) Collect(ch chan<- prometheus.Metric)}工作流程:初始化:注册指标描述符数据收集:从目标系统获取原始数据指标转换:将数据转换为Prometheus格式HTTP服务:通过/metrics端点暴露数据指标暴露格式http# HELP node_cpu_seconds_total Seconds the CPUs spent in each mode.# TYPE node_cpu_seconds_total counternode_cpu_seconds_total{cpu="0",mode="idle"} 12345.67node_cpu_seconds_total{cpu="0",mode="system"} 123.45node_cpu_seconds_total{cpu="0",mode="user"} 456.78# HELP node_memory_MemTotal_bytes Memory information field MemTotal.# TYPE node_memory_MemTotal_bytes gaugenode_memory_MemTotal_bytes 8.253952e+092. 核心Exporter部署配置Node Exporter:系统级监控Docker部署:bashdocker run -d \ --name=node-exporter \ --net="host" \ --pid="host" \ -v "/:/host:ro,rslave" \ quay.io/prometheus/node-exporter:latest \ --path.rootfs=/host \ --collector.filesystem.mount-points-exclude=^/(sys|proc|dev|host|etc)($$|/)systemd服务配置:ini[Unit]Description=Node ExporterDocumentation=https://prometheus.io/docs/guides/node-exporter/Wants=network-online.targetAfter=network-online.target[Service]User=node_exporterGroup=node_exporterType=simpleRestart=on-failureExecStart=/usr/local/bin/node-exporter \ --web.listen-address=:9100 \ --collector.systemd \ --collector.systemd.unit-whitelist=(docker|ssh|nginx).service \ --collector.textfile.directory=/var/lib/node_exporter/textfile_collector[Install]WantedBy=multi-user.target关键指标收集:yaml# Prometheus配置scrape_configs: - job_name: 'node' static_configs: - targets: ['node-exporter:9100'] scrape_interval: 15s relabel_configs: - source_labels: [__address__] target_label: instance regex: '(.*):.*' replacement: '${1}'Blackbox Exporter:网络探测配置示例:yaml# blackbox.ymlmodules: http_2xx: prober: http timeout: 5s http: valid_http_versions: ["HTTP/1.1", "HTTP/2"] valid_status_codes: [200, 301, 302] method: GET headers: User-Agent: "Blackbox Exporter/1.0" tcp_connect: prober: tcp timeout: 5s tcp: preferred_ip_protocol: "ip4" icmp: prober: icmp timeout: 5s icmp: preferred_ip_protocol: "ip4"Prometheus集成:yamlscrape_configs: - job_name: 'blackbox-http' metrics_path: /probe params: module: [http_2xx] static_configs: - targets: - https://example.com - https://google.com - http://192.168.1.1 relabel_configs: - source_labels: [__address__] target_label: __param_target - source_labels: [__param_target] target_label: instance - target_label: __address__ replacement: blackbox-exporter:9115MySQL Exporter:数据库监控部署配置:bashdocker run -d \ --name=mysql-exporter \ -p 9104:9104 \ -e DATA_SOURCE_NAME="exporter:password@(mysql-server:3306)/" \ prom/mysqld-exporter:latest高级配置:yaml# my.cnf for exporter user[client]user=exporterpassword=your_passwordhost=mysql-serverport=3306# 自定义查询配置custom-queries: | # Query for long running transactions long_running_transactions: query: "SELECT COUNT(*) as count FROM information_schema.processlist WHERE command != 'Sleep' AND time > 60" metrics: - metric_name: mysql_long_running_transactions type: gauge help: "Number of long running transactions" values: [count]关键监控指标:sql-- 连接数监控SHOW STATUS LIKE 'Threads_connected';-- 查询性能监控SHOW STATUS LIKE 'Slow_queries';-- 复制状态监控SHOW SLAVE STATUS;-- 缓冲池使用率SHOW STATUS LIKE 'Innodb_buffer_pool%';SNMP Exporter:网络设备监控生成配置文件:bash# 生成SNMP配置./snmp_exporter generate# 自定义OID配置modules: if_mib: walk: - 1.3.6.1.2.1.2 # interfaces - 1.3.6.1.2.1.31.1.1 # ifXTable version: 2 auth: community: public walk_params: max_repetitions: 25部署示例:yaml# docker-compose.ymlversion: '3'services: snmp-exporter: image: prom/snmp-exporter:latest ports: - "9116:9116" volumes: - ./snmp.yml:/etc/snmp_exporter/snmp.yml3. 业务应用ExporterJava应用监控(JMX Exporter)配置示例:yaml# jmx_config.ymlrules: - pattern: 'java.lang<type=Memory><>(.*):' name: java_memory_$1 - pattern: 'java.lang<type=Threading><>ThreadCount' name: java_threads_count type: gauge - pattern: ' Catalina<type=GlobalRequestProcessor, name=\"(\w+-\w+)-(\d+)\"><>requestCount:' name: tomcat_request_count labels: port: "$2" protocol: "$1"Java启动参数:bashjava -javaagent:./jmx_prometheus_javaagent-0.17.0.jar=8080:jmx_config.yml \ -jar your-application.jarNginx监控状态模块配置:nginx# nginx.confserver { listen 8080; location /nginx_status { stub_status on; access_log off; allow 127.0.0.1; deny all; }}Nginx Exporter配置:yaml# nginx-exporter配置- job_name: 'nginx' static_configs: - targets: ['nginx-exporter:9113'] metrics_path: /metrics params: 'nginx.scrape_uri': ['http://nginx:8080/nginx_status']Redis监控Redis Exporter部署:bashdocker run -d \ --name=redis-exporter \ -p 9121:9121 \ -e REDIS_ADDR=redis://redis-server:6379 \ oliver006/redis_exporter:latest监控关键指标:promql# 内存使用率redis_memory_used_bytes / redis_memory_max_bytes * 100# 连接数redis_connected_clients# 命中率rate(redis_keyspace_hits_total[5m]) / (rate(redis_keyspace_hits_total[5m]) + rate(redis_keyspace_misses_total[5m])) * 1004. 自定义Exporter开发Python自定义Exporterpython#!/usr/bin/env python3from prometheus_client import start_http_server, Gauge, Counterimport timeimport requestsclass CustomExporter: def __init__(self): # 定义指标 self.service_health = Gauge('service_health', 'Service health status', ['service_name']) self.request_count = Counter('http_requests_total', 'Total HTTP requests', ['method', 'endpoint']) self.response_time = Gauge('http_response_time_seconds', 'HTTP response time') def collect_metrics(self): # 收集业务指标 services = ['user-service', 'order-service', 'payment-service'] for service in services: try: response = requests.get(f'http://{service}:8080/health', timeout=5) health_status = 1 if response.status_code == 200 else 0 self.service_health.labels(service_name=service).set(health_status) except Exception as e: self.service_health.labels(service_name=service).set(0) def run(self): start_http_server(8000) while True: self.collect_metrics() time.sleep(15)if __name__ == '__main__': exporter = CustomExporter() exporter.run()Go自定义Exportergopackage mainimport ( "log" "net/http" "time" "github.com/prometheus/client_golang/prometheus" "github.com/prometheus/client_golang/prometheus/promhttp")type BusinessExporter struct { orderCount *prometheus.CounterVec revenue *prometheus.GaugeVec errorRate *prometheus.GaugeVec}func NewBusinessExporter() *BusinessExporter { return &BusinessExporter{ orderCount: prometheus.NewCounterVec( prometheus.CounterOpts{ Name: "business_orders_total", Help: "Total number of orders", }, []string{"product_type", "region"}, ), revenue: prometheus.NewGaugeVec( prometheus.GaugeOpts{ Name: "business_revenue_usd", Help: "Current revenue in USD", }, []string{"product_type"}, ), errorRate: prometheus.NewGaugeVec( prometheus.GaugeOpts{ Name: "business_error_rate", Help: "Error rate percentage", }, []string{"service"}, ), }}func (e *BusinessExporter) Describe(ch chan<- *prometheus.Desc) { e.orderCount.Describe(ch) e.revenue.Describe(ch) e.errorRate.Describe(ch)}func (e *BusinessExporter) Collect(ch chan<- prometheus.Metric) { // 模拟业务数据收集 e.orderCount.WithLabelValues("electronics", "us-west").Add(42) e.revenue.WithLabelValues("electronics").Set(15000.50) e.errorRate.WithLabelValues("payment-service").Set(0.02) e.orderCount.Collect(ch) e.revenue.Collect(ch) e.errorRate.Collect(ch)}func main() { exporter := NewBusinessExporter() prometheus.MustRegister(exporter) http.Handle("/metrics", promhttp.Handler()) log.Fatal(http.ListenAndServe(":8080", nil))}5. Exporter监控最佳实践资源监控配置yaml# 综合基础设施监控scrape_configs: # 系统级别 - job_name: 'node' static_configs: - targets: ['node-exporter:9100'] # 数据库层 - job_name: 'mysql' static_configs: - targets: ['mysql-exporter:9104'] # 缓存层 - job_name: 'redis' static_configs: - targets: ['redis-exporter:9121'] # 应用层 - job_name: 'java-apps' static_configs: - targets: ['app1:8080', 'app2:8080'] metrics_path: /actuator/prometheus # 网络探测 - job_name: 'blackbox-http' metrics_path: /probe params: module: [http_2xx] static_configs: - targets: - https://api.company.com/health - https://web.company.com/health relabel_configs: - source_labels: [__address__] target_label: __param_target - source_labels: [__param_target] target_label: instance - target_label: __address__ replacement: blackbox-exporter:9115高可用Exporter部署yaml# docker-compose.high-availability.ymlversion: '3.8'services: node-exporter-primary: image: prom/node-exporter:latest ports: - "9100:9100" deploy: replicas: 2 node-exporter-backup: image: prom/node-exporter:latest ports: - "9101:9100" command: - '--web.listen-address=:9100' - '--path.procfs=/host/proc' - '--path.sysfs=/host/sys' prometheus: image: prom/prometheus:latest ports: - "9090:9090" volumes: - ./prometheus.yml:/etc/prometheus/prometheus.yml command: - '--config.file=/etc/prometheus/prometheus.yml' - '--web.enable-lifecycle'6. 监控数据验证与调试数据质量检查bash# 检查指标端点curl -s http://node-exporter:9100/metrics | head -20# 验证指标格式promtool check metrics <(curl -s http://exporter:8080/metrics)# 指标统计分析curl -s http://exporter:8080/metrics | grep -v '^#' | wc -l常见问题排查指标丢失排查:bash# 检查目标状态curl -s http://prometheus:9090/api/v1/targets | jq '.data.activeTargets[] | select(.labels.job=="node")'# 检查抓取错误curl -s http://prometheus:9090/api/v1/targets | jq '.data.activeTargets[] | select(.lastError)'# 验证网络连通性telnet node-exporter 9100性能问题排查:bash# 检查抓取持续时间curl -s http://prometheus:9090/api/v1/targets | jq '.data.activeTargets[] | {job: .labels.job, scrapeDuration: .lastScrapeDuration}'# 监控Exporter资源使用docker stats node-exporter通过全面的Exporter生态部署,您可以构建覆盖基础设施、中间件、应用程序和业务逻辑的完整监控体系。
  • [技术干货] 构建企业级监控数据采集
    1. 配置文件深度解析global配置块:全局参数优化yamlglobal: # 默认抓取间隔 scrape_interval: 15s # 规则评估间隔 evaluation_interval: 15s # 外部标签 - 用于集群标识 external_labels: cluster: 'production' region: 'us-west-1' environment: 'prod'关键参数说明:scrape_interval:控制数据抓取频率,影响数据精度和系统负载evaluation_interval:告警规则执行频率external_labels:用于跨集群数据聚合的标识标签scrape_configs配置详解yamlscrape_configs: - job_name: 'api-server' # 抓取参数 scrape_interval: 30s scrape_timeout: 10s # 指标路径和参数 metrics_path: '/metrics' params: 'format': ['prometheus'] # 服务发现配置 kubernetes_sd_configs: - role: endpoints namespaces: names: ['default', 'monitoring'] # 标签重写规则 relabel_configs: - source_labels: [__meta_kubernetes_pod_name] target_label: pod_name - source_labels: [__meta_kubernetes_namespace] target_label: namespace2. 静态配置实战基础静态目标配置yamlscrape_configs: - job_name: 'frontend-services' static_configs: - targets: - 'web-01:8080' - 'web-02:8080' - 'web-03:8080' labels: tier: 'frontend' environment: 'production' # 抓取配置优化 scrape_interval: 30s scrape_timeout: 5s metrics_path: '/actuator/prometheus' # HTTP配置 scheme: https basic_auth: username: 'monitor' password: '${METRICS_PASSWORD}' # TLS配置 tls_config: insecure_skip_verify: false ca_file: '/etc/ssl/certs/ca.crt'多环境静态配置yamlscrape_configs: # 开发环境 - job_name: 'dev-services' static_configs: - targets: ['dev-web:8080', 'dev-api:8080'] labels: environment: 'development' scrape_interval: 60s # 开发环境降低频率 # 生产环境 - job_name: 'prod-services' static_configs: - targets: ['prod-web-01:8080', 'prod-web-02:8080'] labels: environment: 'production' scrape_interval: 15s # 生产环境更高频率 # 基础设施监控 - job_name: 'infrastructure' static_configs: - targets: - 'node-exporter:9100' - 'redis-exporter:9121' - 'postgres-exporter:9187' labels: component: 'infrastructure'3. 动态服务发现配置基于文件的服务发现创建目标文件:yaml# targets/frontend.yml- targets: - 'web-01.company.com:8080' - 'web-02.company.com:8080' labels: service: 'frontend' tier: 'web' environment: 'production'# targets/backend.yml - targets: - 'api-01.company.com:8080' - 'api-02.company.com:8080' labels: service: 'backend' tier: 'api' environment: 'production'Prometheus配置:yamlscrape_configs: - job_name: 'file-sd-frontend' file_sd_configs: - files: - 'targets/frontend.yml' refresh_interval: 5m - job_name: 'file-sd-backend' file_sd_configs: - files: - 'targets/backend.yml' refresh_interval: 5mKubernetes服务发现yamlscrape_configs: # 监控所有Pod - job_name: 'kubernetes-pods' kubernetes_sd_configs: - role: pod relabel_configs: # 只监控有注解的Pod - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_scrape] action: keep regex: true # 从注解获取指标路径 - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_path] action: replace target_label: __metrics_path__ regex: (.+) # 从注解获取端口 - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_port] action: replace target_label: __address__ regex: (.+) # 添加标准标签 - source_labels: [__meta_kubernetes_namespace] target_label: kubernetes_namespace - source_labels: [__meta_kubernetes_pod_name] target_label: kubernetes_pod_name - source_labels: [__meta_kubernetes_pod_container_name] target_label: kubernetes_container_nameConsul服务发现yamlscrape_configs: - job_name: 'consul-services' consul_sd_configs: - server: 'consul.service.consul:8500' datacenter: 'dc1' services: - 'web-service' - 'api-service' - 'database-service' relabel_configs: - source_labels: [__meta_consul_service] target_label: consul_service - source_labels: [__meta_consul_tags] separator: ',' regex: 'environment:(.+)' target_label: environment - source_labels: [__meta_consul_tags] separator: ',' regex: 'version:(.+)' target_label: version4. 标签管理实战标签重写(relabel_configs)深度解析yamlscrape_configs: - job_name: 'advanced-relabeling' static_configs: - targets: ['host1:8080', 'host2:8080'] relabel_configs: # 1. 标签重命名 - source_labels: [__address__] regex: '(.*):(.*)' replacement: '${1}' target_label: instance # 2. 标签值映射 - source_labels: [__meta_environment] regex: 'prod' replacement: 'production' target_label: environment # 3. 标签删除 - regex: 'temp_.*' action: labeldrop # 4. 条件标签添加 - source_labels: [__meta_critical_service] regex: 'true' target_label: priority replacement: 'high' # 5. 默认标签 - target_label: datacenter replacement: 'us-east-1' # 6. 哈希分片 - source_labels: [__address__] modulus: 4 target_label: __tmp_hash action: hashmod - source_labels: [__tmp_hash] regex: '0' action: keep元标签管理Kubernetes服务发现中的元标签示例:yamlrelabel_configs: # 提取Pod元数据 - source_labels: [__meta_kubernetes_pod_label_app] target_label: app - source_labels: [__meta_kubernetes_pod_label_version] target_label: version # 提取节点信息 - source_labels: [__meta_kubernetes_pod_node_name] target_label: kubernetes_node replacement: '${1}' # 服务发现元信息 - source_labels: [__meta_kubernetes_service_name] target_label: kubernetes_service5. 远程读写配置远程写入配置yaml# prometheus.ymlremote_write: - url: "http://thanos-receive:10908/api/v1/receive" # 队列配置 queue_config: capacity: 2500 max_shards: 200 min_shards: 1 max_samples_per_send: 500 batch_send_deadline: 5s min_backoff: 30ms max_backoff: 100ms # 写入重试 write_relabel_configs: - source_labels: [__name__] regex: 'up|process_.*|go_.*' action: drop # 元数据配置 metadata_config: send: true send_interval: 1m # 签名认证 sigv4: region: us-east-1远程读取配置yamlremote_read: - url: "http://thanos-query:10902/api/v1/read" read_recent: true # 必要的标签匹配 required_matchers: cluster: "production" # 查询配置 remote_timeout: 30s6. 高级配置技巧配置模板化yaml# 基础配置模板- job_name: '{{.ServiceName}}' metrics_path: '{{.MetricsPath | default "/metrics"}}' static_configs: - targets: [{{range $i, $e := .Targets}}{{if $i}},{{end}}{{$e}}{{end}}] labels: service: '{{.ServiceName}}' environment: '{{.Environment}}'# 使用Go模板生成配置__targets: - service_name: 'user-service' metrics_path: '/actuator/metrics' targets: ['user-01:8080', 'user-02:8080'] environment: 'production' - service_name: 'order-service' metrics_path: '/metrics' targets: ['order-01:8080', 'order-02:8080'] environment: 'production'环境变量配置yamlglobal: scrape_interval: ${SCRAPE_INTERVAL:-15s}scrape_configs: - job_name: 'database' static_configs: - targets: ['${DB_HOST}:${DB_METRICS_PORT}'] basic_auth: username: '${METRICS_USER}' password: '${METRICS_PASSWORD}'7. 配置验证与优化配置验证工具bash# 验证配置文件语法promtool check config prometheus.yml# 验证规则文件promtool check rules rules/*.yml# 测试服务发现promtool test rules test.yml# 检查指标名称curl -s http://localhost:9090/api/v1/label/__name__/values | jq .性能优化配置yaml# 存储配置优化storage: tsdb: # 内存配置 memory_size: 4GB # 块配置 min_block_duration: 2h max_block_duration: 24h # 保留策略 retention: 30d# 查询配置query: # 查询超时 timeout: 2m # 并发查询 max_concurrency: 20 # 查询日志 log_queries: true8. 实战配置示例完整的生产环境配置yamlglobal: scrape_interval: 15s evaluation_interval: 15s external_labels: cluster: 'production' region: 'us-west-2' environment: 'prod'# 告警规则rule_files: - "rules/node_alerts.yml" - "rules/service_alerts.yml" - "rules/business_alerts.yml"# 远程写入remote_write: - url: "http://longterm-storage:8480/insert/0/prometheus" queue_config: capacity: 10000 max_shards: 200# 抓取配置scrape_configs: # Prometheus自身监控 - job_name: 'prometheus' static_configs: - targets: ['localhost:9090'] scrape_interval: 30s # 节点监控 - job_name: 'node' file_sd_configs: - files: ['targets/nodes.yml'] metrics_path: /metrics scrape_interval: 15s # Kubernetes服务监控 - job_name: 'kubernetes-services' kubernetes_sd_configs: - role: service relabel_configs: - source_labels: [__meta_kubernetes_service_annotation_prometheus_io_scrape] action: keep regex: truealerting: alertmanagers: - static_configs: - targets: ['alertmanager:9093']这个配置实战指南涵盖了从基础到高级的各种配置场景,帮助企业构建稳定可靠的监控数据采集体系。
  • [技术干货] Prometheus全方位部署指南
    1. 环境准备与规划系统要求硬件要求(基于每秒10万样本的典型负载):CPU:4核以上内存:16GB以上磁盘:SSD,容量根据保留时间计算网络:千兆网卡容量规划公式:text所需磁盘空间 = 保留时间 × 抓取频率 × 指标数量 × 每个样本大小部署架构设计单机部署架构:text┌─────────────────┐│ Prometheus ││ Server │◄── Exporters/Applications│ ┌─────────────┐ ││ │ TSDB │ ││ └─────────────┘ │└─────────────────┘高可用部署架构:text┌─────────────────┐ ┌─────────────────┐│ Prometheus A │ │ Prometheus B ││ │ │ │└─────────────────┘ └─────────────────┘ ▲ ▲ └─────负载均衡器─────┘ │ ┌───────┴───────┐ │ 监控目标 │ └───────────────┘2. 多种安装方式详解二进制包安装(Linux)下载与解压:bash# 下载最新版本VERSION="2.47.0"ARCH="linux-amd64"wget https://github.com/prometheus/prometheus/releases/download/v$VERSION/prometheus-$VERSION.$ARCH.tar.gz# 解压tar xvfz prometheus-$VERSION.$ARCH.tar.gzcd prometheus-$VERSION.$ARCH目录结构:textprometheus-2.47.0.linux-amd64/├── prometheus # 主程序├── promtool # 管理工具├── prometheus.yml # 主配置文件└── consoles/ # 控制台文件Docker容器化部署使用Docker运行:bash# 创建配置目录mkdir -p /opt/prometheus/{data,conf}# 复制配置文件cp prometheus.yml /opt/prometheus/conf/# 运行容器docker run -d \ --name=prometheus \ -p 9090:9090 \ -v /opt/prometheus/conf/prometheus.yml:/etc/prometheus/prometheus.yml \ -v /opt/prometheus/data:/prometheus \ prom/prometheus:v2.47.0Docker Compose部署:yamlversion: '3.8'services: prometheus: image: prom/prometheus:v2.47.0 ports: - "9090:9090" volumes: - ./prometheus.yml:/etc/prometheus/prometheus.yml - prometheus_data:/prometheus command: - '--config.file=/etc/prometheus/prometheus.yml' - '--storage.tsdb.path=/prometheus' - '--web.console.libraries=/etc/prometheus/console_libraries' - '--web.console.templates=/etc/prometheus/consoles' - '--storage.tsdb.retention.time=30d' - '--web.enable-lifecycle'volumes: prometheus_data:Kubernetes Operator部署使用Prometheus Operator:yaml# 安装Prometheus Operatorkubectl create namespace monitoringhelm repo add prometheus-community https://prometheus-community.github.io/helm-chartshelm install prometheus prometheus-community/kube-prometheus-stack -n monitoring# 自定义Prometheus实例apiVersion: monitoring.coreos.com/v1kind: Prometheusmetadata: name: main namespace: monitoringspec: serviceMonitorSelector: {} resources: requests: memory: 400Mi limits: memory: 2Gi retention: 30d源码编译安装从源码构建:bash# 前提:安装Go 1.19+git clone https://github.com/prometheus/prometheus.gitcd prometheusmake build# 测试构建结果./prometheus --version3. 平台特异性部署Windows系统部署Windows Service安装:powershell# 下载Windows版本Invoke-WebRequest https://github.com/prometheus/prometheus/releases/download/v2.47.0/prometheus-2.47.0.windows-amd64.zip -OutFile prometheus.zip# 解压并安装服务Expand-Archive prometheus.zip -DestinationPath C:\PrometheusNew-Service -Name "Prometheus" -BinaryPathName "C:\Prometheus\prometheus.exe --config.file=C:\Prometheus\prometheus.yml" -StartupType AutomaticmacOS开发环境部署使用Homebrew安装:bashbrew install prometheusbrew services start prometheus4. 目录结构与文件权限配置推荐目录结构:text/opt/prometheus/├── bin/ # 二进制文件├── conf/ # 配置文件├── data/ # 数据目录├── logs/ # 日志文件└── rules/ # 告警规则文件权限配置:bash# 创建专用用户useradd --no-create-home --shell /bin/false prometheus# 设置目录权限mkdir -p /opt/prometheus/{bin,conf,data,logs,rules}chown -R prometheus:prometheus /opt/prometheuschmod 755 /opt/prometheus/{bin,conf,logs,rules}5. 系统服务配置(systemd)创建systemd服务文件:ini# /etc/systemd/system/prometheus.service[Unit]Description=Prometheus Time Series Collection and Processing ServerDocumentation=https://prometheus.io/docs/Wants=network-online.targetAfter=network-online.target[Service]User=prometheusGroup=prometheusType=simpleRestart=on-failureExecStart=/opt/prometheus/bin/prometheus \ --config.file=/opt/prometheus/conf/prometheus.yml \ --storage.tsdb.path=/opt/prometheus/data \ --web.console.libraries=/opt/prometheus/console_libraries \ --web.console.templates=/opt/prometheus/consoles \ --web.listen-address=0.0.0.0:9090 \ --web.external-url= \ --storage.tsdb.retention.time=30d \ --web.enable-lifecycleExecReload=/bin/kill -HUP $MAINPIDTimeoutStopSec=20sSendSIGKILL=noLimitNOFILE=8192[Install]WantedBy=multi-user.target管理服务:bash# 重新加载systemd配置systemctl daemon-reload# 启动服务systemctl start prometheus# 设置开机自启systemctl enable prometheus# 查看服务状态systemctl status prometheus6. 初始配置文件基础prometheus.yml:yamlglobal: scrape_interval: 15s evaluation_interval: 15s# 告警规则文件rule_files: - "rules/*.yml"# 抓取配置scrape_configs: # 监控Prometheus自身 - job_name: 'prometheus' static_configs: - targets: ['localhost:9090'] metrics_path: /metrics scrape_interval: 30s # Node Exporter示例 - job_name: 'node_exporter' static_configs: - targets: ['localhost:9100'] scrape_interval: 15s# 告警管理器配置alerting: alertmanagers: - static_configs: - targets: []7. 验证安装与初步访问检查服务状态:bash# 检查进程ps aux | grep prometheus# 检查端口监听netstat -tlnp | grep 9090# 检查日志journalctl -u prometheus -f访问Web UI:打开浏览器访问 http://localhost:9090点击Status → Targets查看抓取目标状态点击Graph进入查询界面,输入up查看服务状态基础健康检查:bash# 使用promtool验证配置/opt/prometheus/bin/promtool check config /opt/prometheus/conf/prometheus.yml# API健康检查curl http://localhost:9090/-/healthy至此,您已经成功完成了Prometheus的部署。
  • [技术干货] Prometheus核心原理深度解析
    1. 监控系统的演进历程从Nagios到Prometheus的技术演进传统监控系统如Nagios、Zabbix主要基于轮询和检查脚本,采用推模式或被动检查模式。这些系统在云原生和微服务架构下面临挑战:难以适应动态变化的服务实例维度标签支持有限存储和查询扩展性不足Prometheus作为CNCF毕业项目,采用拉模型和多维数据模型,完美契合云原生环境的需求。云原生时代监控的新挑战服务动态性:容器编排平台中服务实例频繁创建销毁规模爆炸:微服务架构导致监控目标数量激增多维分析:需要按多种维度聚合分析监控数据2. Prometheus架构深度剖析四大核心组件详解Prometheus Servergo// 核心架构组件type Prometheus struct { storage storage.Storage // 时序数据存储 scraper *scrape.Manager // 抓取管理器 ruleManager *rules.Manager // 规则管理器 notifier *notifier.Manager // 通知管理器}负责数据抓取、存储和查询内置时序数据库TSDB支持PromQL查询语言Client Library提供多种语言客户端(Go、Java、Python等)应用程序集成SDK,暴露metrics端点自动处理指标收集和暴露Pushgateway用于短期任务和批处理作业的监控作为中间网关接收push请求解决拉模型无法覆盖的场景Exporters桥接现有系统的监控数据将第三方系统指标转换为Prometheus格式生态丰富:Node Exporter、MySQL Exporter等数据模型:时间序列数据的存储原理指标标识promqlhttp_requests_total{job="api-server", method="POST", status="200"}指标名称:http_requests_total标签集合:{job="api-server", method="POST", status="200"}时间戳 + 样本值存储结构text┌─────────────────────┬────────────┬──────────┐│ Metric │ Timestamp │ Value │├─────────────────────┼────────────┼──────────┤│ http_requests_total │ 1635678900 │ 150 ││ {method="GET"} │ │ │└─────────────────────┴────────────┴──────────┘Metric类型详解Counter(计数器)只增不减的累计值适用于请求数、错误数、完成任务数使用rate()函数计算增长率Gauge(仪表盘)可任意变化的数值适用于CPU使用率、内存占用、温度等直接反映当前状态Histogram(直方图)对观测值进行分桶统计适用于请求延迟、响应大小提供分位数计算Summary(摘要)客户端计算的分位数适用于不需要聚合的统计计算开销较大3. 工作流程解析拉取模式 vs 推送模式拉取模式优势:统一配置和管理抓取目标更容易判断目标状态避免监控数据推送风暴推送模式适用场景:生命周期短的批处理任务防火墙限制无法拉取的场景需要可靠交付的监控数据服务发现机制原理yaml# 基于文件的服务发现示例scrape_configs: - job_name: 'node_exporter' file_sd_configs: - files: - 'targets/node-*.yml' refresh_interval: 5m支持的服务发现类型:静态配置文件服务发现Kubernetes服务发现Consul服务发现DNS服务发现数据抓取与存储流程服务发现:动态获取监控目标列表抓取调度:根据配置间隔调度抓取任务数据解析:解析metrics文本格式预处理:标签重写、指标过滤存储写入:写入TSDB时序数据库数据压缩:定期进行数据压缩和清理4. 在监控体系中的定位与Grafana、Alertmanager的协同工作数据流架构:text应用程序/Exporters → Prometheus Server → Grafana(可视化) → Alertmanager(告警) → 长期存储在CNCF云原生生态系统中的位置Prometheus已成为Kubernetes生态的事实监控标准:Kubernetes原生集成ServiceMonitor CRD支持与Istio等服务网格深度集成
  • [技术干货] 如何在Cursor中使用MCP服务-转载
    前言随着AI编程助手的普及,越来越多开发者选择在Cursor等智能IDE中进行高效开发。Cursor不仅支持代码补全、智能搜索,还能通过MCP(Multi-Cloud Platform)服务,轻松调用如高德地图API、数据库等多种外部服务,实现数据采集、处理和自动化办公。本文以“北京一日游自动化攻略”为例,详细讲解如何在 Cursor 中使用 MCP 服务,完成数据采集、数据库操作、文件生成和前端页面展示的全流程。学习视频:cursor中使用MCP服务一、什么是MCP服务?MCP(Multi-Cloud Platform)是Cursor内置的多云服务接口,支持调用地图、数据库、文件系统等多种API。通过MCP,开发者无需手动写HTTP请求或繁琐配置,只需在对话中描述需求,AI助手即可自动调用相关服务,极大提升开发效率。二、环境准备2.1 cursorCursor重置机器码-解决Too many free trials.2.2 python - uvx若已经配置Python环境,可使用以下命令安装:pip install uv若没有配置Python环境在Windows下可以通过PowerShell运行命令来安装:powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"使用 uv --version 和 uvx --help 检查是否安装成功,若和下图一样代表安装成功2.3 node.js - npx在官网下载node.js,并配置环境变量,如下图:三、在Cursor中添加 MCP server在 Cursor 中添加 MCP Server 有两种配置方式3.1 全局设置通过 Cursor Settings -> MCP -> Add new global MCP server 添加全局可用的 MCP 服务3.2 项目级别 (推荐)在项目目录的 .cursor 目录中新建 mcp.json 文件进行配置,仅对特定项目生效四、选择MCP Server的平台4.1 mysql选择平台:https://smithery.ai/填写信息将JSON信息复制到 mcp.json 文件中可能粘过来,不好使,需要找到github链接,从github上粘贴:注意:这个 mysql MCP服务,需要提前建好数据库,否则无法成功注意:验证是否生效将MCP服务信息填在mcp.json 文件中后,需要打开 Settings -> MCP 检查你配置的 MCP Server 是否在列表中显示,并确认有 绿点 且状态为 Enabled4.2 高德地图服务高德地图的MCP Server需要从 MCP.so 平台获取。申请高德地图的API:https://console.amap.com/4.2 filesystem服务4.4 配置参考{    "mcpServers": {        "mysql": {            "command": "npx",            "args": [                "-y",                "@f4ww4z/mcp-mysql-server"            ],            "env": {                "MYSQL_HOST": "localhost",                "MYSQL_USER": "root",                "MYSQL_PASSWORD": "数据库密码",                "MYSQL_DATABASE": "beijing_trip(数据库名字 - 请提前创建数据库)"            }        },        "amap-maps": {            "command": "npx",            "args": [                "-y",                "@amap/amap-maps-mcp-server"            ],            "env": {                "AMAP_MAPS_API_KEY": "高德key"            }        },        "filesystem": {            "command": "npx",            "args": [                "-y",                "@modelcontextprotocol/server-filesystem",                "D:/DESKTOP/MCP(保存地址自行修改)"            ]        }    }}五、功能测试5.1 参考提示词现在交给你一个任务,编写一个北京一日游的出行攻略1、从高德地图的MCP服务中获取北京站到天安门、天安门到颐和园、颐和园到南锣鼓巷的地铁线路,并保存在数据库beijing_trip的表subway_trips中2、从高德地图的MCP中获取颐和园、南锣鼓巷附件的美食信息,每处获取三家美食店铺信息,并将相应的信息存入表location_foods中3、在工作目录D:\DESKTOP\MCP下创建一个新的文件夹,命名为“北京旅行”在其中创建两个txt,分别从数据库中将两个表的内容提取出存放进去。4、最后根据txt中的内容,生成一个精美的html前端展示页面,并存放在该目录下5.2 提供提示运行MCP命令,即可输入自然语言后,cursor会自动调用MCP服务,连接数据库并执行建表SQL,无需手动写代码;自动调用MCP的高德API接口,获取经纬度、地铁换乘方案等数据,将获取到的数据插入到指定表中,无需手动写INSERT语句;最后自动操作文件系统,将数据库内容导出为txt和html文件,存放到指定目录自己创建的数据表和插入的数据-- auto-generated definitioncreate table location_foods(    id       int auto_increment        primary key,    location varchar(64)  not null,    name     varchar(128) not null,    address  varchar(256) null,    tel      varchar(64)  null,    type     varchar(64)  null,    distance varchar(32)  null);-- auto-generated definitioncreate table subway_trips(    id             int auto_increment        primary key,    start_location varchar(64) not null,    end_location   varchar(64) not null,    subway_lines   text        not null,    duration       varchar(32) null,    distance       varchar(32) null);六、实用Tips权限配置:确保MCP服务已配置好API Key和数据库权限。目录路径:文件操作需在允许的工作目录下进行,否则会报Access denied。数据安全:涉及敏感信息时,注意数据库和API密钥的保护。结语在Cursor中结合MCP服务和AI助手,可以极大提升开发和数据处理效率。无论是地图数据采集、数据库管理,还是自动化生成前端页面,都能一站式完成。如果你也想体验AI驱动的高效开发,不妨在Cursor中试试MCP服务吧!欢迎点赞、收藏、评论交流!————————————————                            版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。                        原文链接:https://blog.csdn.net/2201_75490194/article/details/147655313
  • [互动交流] CodeArts IDE 鸿蒙版本RemoteSSH/SFTP
    希望能提供 RemoteSSH/SFTP 扩展, 或在资源管理器直接集成。便利运维,增加 鸿蒙PC 使用场景
  • [问题求助] 调研下,云股东们,开发一款Linux 服务器的桌面可视化管理工具有没有市场前景
    通过 SSH 协议,我们开发了一款可视化桌面式交互的服务器管理工具 GMSSH 。与市面上常见的传统管理后台不同,我们采用前端技术打造了一套桌面的交互式服务器管理工具。现在想调研下,例如如果你使用这个工具,你想要什么功能,或者什么建议和意见。或者你看不看好这个方向服务器连接数据加密传输,系统不做任何形式的存储 。 目前服务器部署在境外,防止被人恶意使用。首次初始化可能会需要一点时间目前是云版,只是为了能够快速根据大家的反馈去更新迭代我们的产品。而并不是我们只是云版本,后面会出客户端。(如果不放心,也可以点击体验地址体验服务器,或者加我 15195951508 ,我发给你一台高性能服务器体验)欢迎大家前往体验,并提出建设性建议。可直接浏览器搜索gmssh官网,点击在线体验功能特色极强的可视化桌面:桌面交互设计、直观的界面交互代替复杂的命令操作SSH 远程连接:通过 SSH 安全连接到远程服务器执行命令、无需放开额外端口。AI 问答:在线 AI 问答,未来接入 MCP 实现服务器自动化运维架构简单,无需安装:无需在服务器安装,直接通过 SSH 连接服务器即可使用。技术栈后端:Golang前端:Vue.js通信协议:SSH 协议、SSH 隧道转发后续规划应用中心:便捷地管理服务器各个中间件,环境等、以及各色各样的业务应用(财务、管理、分析等);开发者中心:一键创建自己的应用,人人都是开发者;AI 自动化:交互式 MCP 问答,实现 AI 自动化运维服务器;客户端版本:推出客户端版本,消除大家对隐私相关的顾虑;开源:产品正式成熟后在 github 开源核心代码、并提供私有化部署解决方案;批量管理:支持批量管理服务器、发送服务器命令执行;内嵌浏览器:桌面版内嵌浏览器,试用服务器的网络访问网站!
  • [微服务类] 请大佬指点:华为云的CSE微服务的配置能不能通过api接口的方式修改
    现在遇到一个问题,需要通过编码程序监控华为云的微服务是否报错,如果有异常就要通过编码程序来修改微服务的配置,切换地址。目前搜了华为云的sdk的api接口,没有找到可以通过api接口直接改配置的方法,所以想请教大佬们 华为云的CSE微服务的配置能不能通过api接口的方式修改,感谢
  • [问题求助] 高斯数据库查询视图,输出三种格式,如何只输出驼峰格式的数据
    只要驼峰格式的,视图里面 用  a.issue_year as "issueYear" 这么拼的,查询后输出三种格式,怎么只输出驼峰的,有什么解决方法吗
  • [问题求助] 华为升级纯血鸿蒙系统之后微信版本较低,如何修改微信绑定的手机号?
    纯血鸿蒙系统微信版本为1.0.5   无法修改绑定的手机号,另外想要咨询如果退回系统版本数据是否重置?相册和微信聊天记录是否清除?
  • [运维管理] cudesc表怎么查看
    如题如题如题如题如题如题如题如题如题如题如题如题如题如题如题如题如题如题
  • [技术干货] Virtualbox中 NAT/桥接模式
    VirtualBox中的NAT模式和桥接模式是两种常见的网络连接模式,它们各自有不同的特点和适用场景。NAT模式NAT,全称为Network Address Translation,即网络地址转换。在此模式下,虚拟机不占用主机局域网的IP地址,而是被分配到一个连接宿主机的内部地址。虚拟机访问网络时,其数据会经过地址转换,通过宿主机后再访问互联网。特点:如果主机可以上网,虚拟机也可以上网。虚拟机之间不能相互访问(但在某些扩展的NAT模式下,虚拟机之间可以通信,并且仍然通过主机访问外部网络)。虚拟机可以访问主机能访问到的所有网络,但主机和网络中的其他机器不能查看和访问到虚拟机的存在。虚拟机可以ping通主机(此时ping虚拟机的网关,即是ping主机),但主机不能ping通虚拟机。适用场景:虚拟机需要访问外部网络(如互联网),但不需要外界直接访问虚拟机。虚拟机访问外部资源(如更新、下载软件),但无需对外提供服务。桥接模式(Bridged Adapter模式)桥接模式可以理解为通过主机网卡架设了一条桥,直接连入到网络中。它使得虚拟机能被分配到一个网络中独立的IP地址,所有网络功能完全和在网络中的真实机器一样。特点:如果主机可以上网,虚拟机也可以上网。虚拟机拥有独立的IP地址,与主机处于同一网络段中,因此虚拟机之间、虚拟机与主机之间、虚拟机与网络中的其他主机之间都可以相互访问。适用场景:虚拟机需要完全模拟一台实体机,并且要求可以上网。虚拟机需要与局域网中的其他设备(如服务器、打印机)通信,或者虚拟机需要被局域网中其他设备访问。区别总结网络连接:NAT模式下,虚拟机通过宿主机进行网络连接;桥接模式下,虚拟机直接连接到网络,与宿主机没有直接联系。IP地址分配:NAT模式下,虚拟机使用宿主机内部的IP地址;桥接模式下,虚拟机使用网络中的独立IP地址。网络访问:NAT模式下,虚拟机可以访问外部网络,但外部网络不能直接访问虚拟机;桥接模式下,虚拟机与外部网络之间的访问是双向的。适用场景:NAT模式适用于需要快速搭建隔离的虚拟网络环境或保护虚拟机隐私的场景;桥接模式适用于需要虚拟机拥有与主机相同的网络地位或进行高速网络通信的场景。综上所述,在选择NAT模式还是桥接模式时,需要根据具体的需求和场景来做出决定。
  • [技术干货] 流量控制/拥塞控制
    流量控制和拥塞控制是网络传输层协议中的两个关键机制,它们在确保数据传输的可靠性、效率以及防止网络过载方面起着至关重要的作用。以下是对流量控制和拥塞控制的详细分析:一、定义流量控制:流量控制主要解决发送方传输速率和接收方处理能力之间的平衡问题。它的目的是确保发送方的发送速率与接收方的处理能力匹配,以避免接收方的缓存溢出或网络资源浪费。流量控制通过协调发送和接收两端的通信速度来防止数据过载,尤其是在接收方的缓冲区满时能够及时减缓数据发送的速度。拥塞控制:拥塞控制则是为了解决网络中数据过载或拥堵时的调度问题。它专注于管理网络的整体负载,当网络拥塞时,数据包可能会在传输过程中丢失或延迟。拥塞控制机制试图根据网络状况调整发送数据的速率,以防止过度占用网络资源,避免网络拥塞。这种控制主要在发送端实施,旨在保护网络基础设施。二、实现机制流量控制:TCP流量控制的核心机制是滑动窗口(Sliding Window)。滑动窗口是一种动态调整的数据传输机制,它允许发送方在不等待每个数据包确认的情况下继续发送一定数量的数据包。流量控制机制主要通过接收方反馈给发送方的窗口大小来调节传输速度。窗口大小是接收端用来告诉发送端目前接收端能接收的最大字节数。滑动窗口分为发送端窗口和接收端窗口,它们的大小在特定的一次连接通信过程中是不变的,但窗口内的数据范围是动态变化的。拥塞控制:拥塞控制是通过拥塞窗口来实现的。拥塞窗口指发送端在一个RTT(Round-Trip Time,往返时间)内可以最多发送的数据包数。拥塞控制一般包括慢启动、拥塞避免两个阶段。慢启动阶段是从1开始指数增长到限定大小的过程;拥塞避免阶段是在超过限定大小之后线性增加的过程,以及发现丢包后将拥塞窗口改为1,并把限定大小减半的过程。拥塞控制还包括快重传和快恢复算法。快重传算法是在发送方连续收到三个重复确认时,断定分组丢失并立即重传丢失的报文段;快恢复算法是在执行完快重传算法后,重置拥塞窗口大小和慢开始门限为当前拥塞窗口大小的一半,并开始执行拥塞避免算法。三、区别与联系区别:流量控制解决的是发送方和接收方速率不匹配的问题,而拥塞控制解决的是避免网络资源被耗尽的问题。流量控制主要通过滑动窗口机制来实现,而拥塞控制则通过拥塞窗口、慢启动、拥塞避免、快重传和快恢复等算法来实现。联系:流量控制和拥塞控制都是TCP协议中保证数据可靠性的重要手段。两者在实际应用中通常会同时使用,以达到更好的通信效果。发送窗口的大小是由接收窗口和拥塞窗口共同决定的,取两者中的较小值。四、适用场景流量控制:适用于需要确保发送方和接收方之间数据传输速率匹配的场景,如实时通信、在线游戏等。在这些场景中,接收方的处理能力可能有限,需要流量控制机制来防止数据过载和缓存溢出。拥塞控制:适用于网络流量较大、可能出现拥塞的场景,如互联网数据传输、云计算服务等。在这些场景中,拥塞控制机制可以根据网络状况动态调整发送速率,防止网络过载和性能下降。综上所述,流量控制和拥塞控制是网络传输层协议中的两个重要机制,它们在确保数据传输的可靠性、效率以及防止网络过载方面发挥着关键作用。在实际应用中,需要根据具体场景和需求选择合适的控制机制,以达到最佳的网络通信效果。
  • [技术干货] TCP长连接/短连接
    TCP长连接和短连接在数据传输和管理方面存在显著差异,各自适用于不同的场景。以下是两者的区别及适用场景:一、TCP长连接与短连接的区别连接持续时间:长连接:在连接建立后,保持连接状态不断开,可以在此连接上进行多次数据交换。短连接:每次数据传输完成后,连接即被断开,每次请求都需要重新建立连接。资源消耗:长连接:由于连接保持不断开,可以减少频繁建立和断开连接的开销,降低延迟。短连接:每次请求都需要重新建立连接,消耗资源较多,可能导致较高的延迟。心跳机制:长连接:需要实现心跳机制,即定期发送小的心跳包,以确认连接的两端仍然可达,避免连接因长时间不活动而被中断。短连接:由于每次请求都重新建立连接,因此不需要心跳机制。适用场景:长连接:适用于需要频繁通信、实时性要求高的场景,如即时通讯、在线游戏、实时数据推送等。短连接:适用于请求频率不高、每次请求数据量较小的场景,如普通的网页浏览。二、TCP长连接与短连接的适用场景TCP长连接的适用场景:即时通讯:如微信、QQ等聊天应用,需要实时传输消息,长连接可以保证消息的及时传递。在线游戏:游戏需要实时的状态同步和频繁的数据交换,长连接可以提供高效的通信机制。实时数据推送:如股票行情、新闻推送等,需要快速响应市场变化,长连接可以减少通信延迟,提高推送效率。TCP短连接的适用场景:普通网页浏览:每个网页请求通常是独立的,使用短连接可以简化服务器端的连接管理,减少资源占用。文件传输:文件传输完成后,连接可以立即关闭,避免长时间占用资源。RESTful API:RESTful API设计原则是无状态的,每次请求都是独立的,短连接符合其设计理念。综上所述,TCP长连接和短连接各有优劣,选择哪种方式取决于具体的业务需求、系统架构以及网络状况。在实际应用中,可以根据系统的特性和业务需求,结合两者的优势来制定综合的连接管理策略。