-
一、问题背景客户环境备DN状态显示Down Unknown,无法正常启动。二、问题分析om_monitor通过定时任务管控cm_agent,cm_agent检测DN、CN、GTM等实例。1、查看DN最新日志$GAUSSLOG/pg_log/dn_6008/postgresql-2023-10-23_000000.log,已三天没有更新。2、查看cm_agent进程正常,日志$GAUSSLOG/cm/cm_agent/cm_agent-2023-10-23_010857-current.log,正常打印该实例不存在;3、检查system_call日志$GAUSSLOG/cm/cm_agent/system_call-2023-10-21_221505-current.log发现异常信息,异常信息如下:0 [GUC] FATAL: invalid value for parameter "max_stack_depth": 20480 [GUC] DETAIL: "max_stack_depth" must not exceed 108kB.0 [GUC] HINT: Increase the platform's stack depth limit via "ulimit -s" or local equivalent.根据报错意思是说当前参数max_stack_depth设置2048不合理,实际此处是该节点OS实际参数和正常节点不一致。三、解决步骤1、修改配置。vi /etc/security/limits.conf* soft stack 2048将2048修改为8192保存后,新开窗口生效;2、重启进程。ps -ef|grep om_monitor|grep -v grepps -ef|grep cm_agent|grep -v grep重启进程;3、观察DN状态。备DN状态恢复Standby Normal四、问题根因OS参数发生变化,因历史修改没有持久化文件导致,该节点重启后配置丢失。
-
数据库集群信息:gs_om -t status --detail [ CMServer State ] node node_ip instance state ----------------------------------------------------------------------- 1 gsnode1 172.18.183.119 1 /paas/DB_LAB/cmserver/cm_server Down 2 gsnode2 172.18.183.120 2 /paas/DB_LAB/cmserver/cm_server Standby 3 gsnode3 172.18.183.121 3 /paas/DB_LAB/cmserver/cm_server Primary [ Cluster State ] cluster_state : Degraded redistributing : No balanced : No current_az : AZ_ALL [ Datanode State ] node node_ip instance state ------------------------------------------------------------------- 1 gsnode1 172.18.183.119 6001 /paas/DB_LAB/data P Down Unknown 2 gsnode2 172.18.183.120 6002 /paas/DB_LAB/data S Primary Normal 3 gsnode3 172.18.183.121 6003 /paas/DB_LAB/data S Standby Normal单节点直接重启失败,计划直接重做下,但是也出现同样的问题gs_ctl build -D /paas/DB_LAB/data -b standby_full2023-10-25 17:44:21.141 6538e374.1 [unknown] 140143166647360 [unknown] 0 dn_6001_6002_6003 00000 0 [BACKEND] LOG: create gaussdb state file success: db state(STARTING_STATE), server mode(Standby), connection index(1) 2023-10-25 17:44:21.142 6538e374.1 [unknown] 140143166647360 [unknown] 0 dn_6001_6002_6003 00000 0 [BACKEND] LOG: max_safe_fds = 972, usable_fds = 1000, already_open = 18 The core dump path is an invalid directory ..........[2023-10-25 17:44:31.228][16336][dn_6001_6002_6003][gs_ctl]: gaussDB state is Coredump [2023-10-25 17:44:31.228][16336][dn_6001_6002_6003][gs_ctl]: stopped waiting [2023-10-25 17:44:31.228][16336][dn_6001_6002_6003][gs_ctl]: could not start server Examine the log output. [2023-10-25 17:44:31.228][16336][dn_6001_6002_6003][gs_ctl]: fopen build pid file "/paas/DB_LAB/data/gs_build.pid" success [2023-10-25 17:44:31.228][16336][dn_6001_6002_6003][gs_ctl]: fprintf build pid file "/paas/DB_LAB/data/gs_build.pid" success [2023-10-25 17:44:31.243][16336][dn_6001_6002_6003][gs_ctl]: fsync build pid file "/paas/DB_LAB/data/gs_build.pid" success 数据库日志:2023-10-25 17:44:30.690 6538e374.1 [unknown] 140143166647360 [unknown] 0 dn_6001_6002_6003 00000 0 [BACKEND] LOG: audit_process_cxt_init enter 2023-10-25 17:44:30.690 6538e374.1 [unknown] 140143166647360 [unknown] 0 dn_6001_6002_6003 00000 0 [BACKEND] LOG: audit_process_cxt_init pipe init successfully for pipe : 0 file descriptor: 86 2023-10-25 17:44:30.690 6538e374.1 [unknown] 140143166647360 [unknown] 0 dn_6001_6002_6003 58000 0 [BACKEND] FATAL: fail to read indextbl maxnum 2023-10-25 17:44:30.691 6538e375.10000 [unknown] 140134870152960 dn_6001 0 dn_6001_6002_6003 00000 0 [BACKEND] LOG: [Alarm Module]alarm checker shutting down... 2023-10-25 17:44:30.858 6538e374.1 [unknown] 140143166647360 [unknown] 0 dn_6001_6002_6003 00000 0 [BACKEND] LOG: FiniNuma allocIndex: 0. 2023-10-25 17:44:30.861 6538e374.1 [unknown] 140143166647360 [unknown] 0 dn_6001_6002_6003 00000 0 [BACKEND] LOG: Gaussdb exit(1)
-
k8s集群的bearer_token路径在哪里 ,一直找不到
-
8115版本线下集群,是否有系统表或视图或函数能看历史每个cn的连接数?
-
在虚拟机中安装了欧拉操作系统,启动opengauss数据库时,启动不了[提示错误: FATAL: lock file "postmaster.pid" already exists ]删除后再次启动还是报错
-
gsql是怎么实现返回结果集时同时返回行数的?通过JDBC 有方法实现吗?
-
通过JDBC提交sql时是否有接口可以返回pid值?
-
通过gs_guc添加白名单时,存在3.x.x.x/8一个大段,再通过reject禁用其中一个3.1.1.5/32 ip是否会被禁用?现网测试的是禁用无效
-
gaussdb 8.0.0.9 什么情况下ctime为空?
-
中奖结果公示感谢各位小伙伴参与本次活动,本次活动获奖名单如下:请各位获奖的伙伴在9月2日之前点击此处填写收货地址,如逾期未填写视为弃奖。再次感谢各位小伙伴参与本次活动,欢迎关注华为云DTSE Tech Talk 技术直播更多活动~直播简介【直播主题】数仓专家手把手教您资源管控与运维实战【直播时间】2023年8月29日 16:30-18:00【直播专家】吕鹏博 华为云EI DTSE技术布道师【直播简介】GaussDB(DWS)的CPU、内存、磁盘IO等资源管控对保证数据库性能稳定至关重要,本次直播将通过实战案例,介绍如何定位和优化资源使用情况,包括:CPU 使用率分析、内存参数优化、排队问题定位等。通过本次直播,您将学会如何科学合理地分配和管理数据库的核心资源,从而确保数据库性能的稳定。这将是一场非常实用的GaussDB(DWS)资源管控优化指南,帮助您更好地管理数据库资源,提升数据库性能。直播报名:cid:link_1活动介绍【互动方式】直播前您可以在本帖留下您疑惑的问题,专家会在直播时为您解答。直播后您可以继续在本帖留言,与专家互动交流。我们会在全部活动结束后对参与互动的用户进行评选。【活动时间】即日起—2023年8月30日【奖励说明】评奖规则:活动1:直播期间在直播间提出与直播内容相关的问题,对专家评选为优质问题的开发者进行奖励。奖品:华为云定制U型按摩枕活动2:在本帖提出与直播内容相关的问题,由专家在所有互动贴中选出最优问题贴的开发者进行奖励。奖品:华为云定制POLO衫更多直播活动直播互动有礼:官网直播间发口令“华为云 DTSE”华为云定制鼠标垫、填写问卷抽华为云定制长袖卫衣等好礼分享问卷有礼 :邀请5位朋友以上完成问卷即可获得华为云定制雨伞。老观众专属福利:连续报名并观看DTT直播3期以上抽送华为云DTT定制T恤。【注意事项】1、所有参与活动的问题,如发现为复用他人内容,则取消获奖资格。2、为保证您顺利领取活动奖品,请您在活动公示奖项后2个工作日内私信提前填写奖品收货信息,如您没有填写,视为自动放弃奖励。3、活动奖项公示时间截止2023年8月31日,如未反馈邮寄信息视为弃奖。本次活动奖品将于奖项公示后30个工作日内统一发出,请您耐心等待。4、活动期间同类子活动每个ID(同一姓名/电话/收货地址)只能获奖一次,若重复则中奖资格顺延至下一位合格开发者,仅一次顺延。5、如活动奖品出现没有库存的情况,华为云工作人员将会替换等价值的奖品,获奖者不同意此规则视为放弃奖品。6、其他事宜请参考【华为云社区常规活动规则】。
-
1 问题描述集群状态显示DN实例一直处于catchup状态。2 机制说明主备DN实例为保证数据双副本和一致性原则,需要将主DN产生的事务日志及时同步给备机,备机实例接受不及时,或备实例故常重新恢复后,会重新追赶主实例的数据,来到达主备一致状态,追赶的过程就是我们在查询集群状态时看到的Catchup状态。 主备追赶分两种类型,一种是xlog追赶,一种是数据页追赶。 更深入的机制原理,有兴趣的小伙伴可以在社区留言问题或者浏览社区精品机制原理文章。3 问题分析切换omm加载环境变量,查询集群状态,其中DN实例6021主备关系如图: 登录数据库查询catchup追赶 虽然catchup是备DN实例,但catchup线程是在主DN实例,分析dn_6021日志,发现cacthup线程在反复重启,如图: 图片详细信息,直接上文字:2023-08-09 20:38:28.893 64d377f3.5009 [unknown] 281467704376880 [unknown] 0 dn_6021_6022 00000 0 [BACKEND] LOG: catchup process start to search all bcm files. 2023-08-09 20:38:29.936 64d377f3.5009 [unknown] 281467704376880 [unknown] 0 dn_6021_6022 01000 0 [BACKEND] WARNING: page verification failed, calculated checksum 42173 but expected 56380 2023-08-09 20:38:29.936 64d377f3.5009 [unknown] 281467704376880 [unknown] 0 dn_6021_6022 XX001 0 [BACKEND] WARNING: invalid page in block 16178 of relation base/16538/13642638, try to remote read 2023-08-09 20:38:29.936 64d377f3.5009 [unknown] 281467704376880 [unknown] 0 dn_6021_6022 00000 0 [REMOTE] L0G: remote read page, file base/16538/13642638 block 16178 from :25512 2023-08-09 20:38:29.937 64d377f3.5009 [unknown] 281467704376880 [unknown] 0 dn 6021 6022 58030 0 [REMOTE] ERROR: remote read failed from :25512, remote data checksum error, maybe remote data corrupted 2023-08-09 20:38:31.941 64d377f3.5009 [unknown] 281467704376880 [unknown] 0 dn 6021 6022 00000 0 TBACKEND] LOG: catchup process start to search all bcm files. 2023-08-09 20:38:32.995 64d377f3.5009 [unknown 281467704376880 [unknown] 6 dn 6021 6022 01000 0 [BACKENDJ WARNING: page verification failed, calculated checksum 42173 but expected 56380 2023-08-09 20:38:32.995 64d377f3.5009 [unknown] 281467704376880 [unknown] 0 dn 6021 6022 XXO01 0 [BACKEND1 WARNING: invalid page in block 16178 of relation base/16538/13642638, try to remote read4 问题根因主备DN有磁盘或历史磁盘故障引起;5 解决方法1、需要查询物理文件对应表是否存在; 2、备份主备DN实例报错物理文件和bcm文件; 3、此步骤属于高危操作,请联系华为工程师处理;
-
hstore表线下那个版本实现了?
-
库里面如何查有哪些表的字段或表名带双引号?
-
1.postgresql 对VACUUM或ANALYZE t_jcxxzy_tjaj只会对主表起作用,要想分析表,需要分别分析每个分区表。GaussDB 是否一致?2.分区前后需要保证全局唯一性,这种说法是否正确?
-
中奖结果公示感谢各位小伙伴参与本次活动,本次活动获奖名单如下:请各位获奖的伙伴在8月6日之前点击此处填写收货地址,如逾期未填写视为弃奖。再次感谢各位小伙伴参与本次活动,欢迎关注华为云DTSE Tech Talk 技术直播更多活动~直播简介【直播主题】数仓实时入库利器!HStore表原理与应用实践详解【直播时间】2023年8月2日 16:30-18:00【直播专家】马俊松 华为云EI DTSE技术布道师【直播简介】面对实时入库和实时查询要求越来越高的趋势,已有的列存储无法支持并发更新入库,行存查询性能无法做到实时返回且空间压缩表现不佳。GaussDB(DWS)基于列存储格式设计和实现了全新的HStore表,同时提供高效的并发插入、更新入库,以及高性能实时查询。直播链接:cid:link_2活动介绍【互动方式】直播前您可以在本帖留下您疑惑的问题,专家会在直播时为您解答。直播后您可以继续在本帖留言,与专家互动交流。我们会在全部活动结束后对参与互动的用户进行评选。【活动时间】即日起—2023年8月3日【奖励说明】评奖规则:活动1:直播期间在直播间提出与直播内容相关的问题,对专家评选为优质问题的开发者进行奖励。奖品:华为云定制卫衣活动2:在本帖提出与直播内容相关的问题,由专家在所有互动贴中选出最优问题贴的开发者进行奖励。奖品:华为云定制Polo衫更多直播活动直播互动有礼:官网直播间发口令“华为云 DTSE”抽华为云定制棒球帽、填写问卷抽华为云定制飞盘等好礼;直播过程中提问,评选优质问题送华为云定制长袖卫衣。分享问卷有礼 :邀请5位朋友以上完成问卷即可获得华为云定制帆布袋。戳我填问卷》》老观众专属福利:连续报名并观看DTT直播3期以上抽送华为云DTT定制T恤。【注意事项】1、所有参与活动的问题,如发现为复用他人内容,则取消获奖资格。2、为保证您顺利领取活动奖品,请您在活动公示奖项后2个工作日内私信提前填写奖品收货信息,如您没有填写,视为自动放弃奖励。3、活动奖项公示时间截止2023年8月4日,如未反馈邮寄信息视为弃奖。本次活动奖品将于奖项公示后30个工作日内统一发出,请您耐心等待。4、活动期间同类子活动每个ID(同一姓名/电话/收货地址)只能获奖一次,若重复则中奖资格顺延至下一位合格开发者,仅一次顺延。5、如活动奖品出现没有库存的情况,华为云工作人员将会替换等价值的奖品,获奖者不同意此规则视为放弃奖品。6、其他事宜请参考【华为云社区常规活动规则】。
上滑加载中
推荐直播
-
华为云码道 × 仓颉编程:工程化AI编码探索2026/05/27 周三 19:00-21:00
刘俊杰-华为云仓颉语言专家/李炎-华为云码道技术专家/王智鹏-OpenCangjie开源社区发起人
本场直播围绕华为云仓颉语言与华为云码道的深度结合,展示华为云智能编程从零基础到高效落地的完整生态能力。以华为云码道为引擎,仓颉语言为载体,带给大家日常提效、趣味创新到极速量产的开发体验。
回顾中
热门标签