- 故障现象数据库重启失败。故障原因可能原因有以下:管理面与节点网络不通。处理方法根据不同的故障场景修复故障实例。步骤 1 使用浏览器,通过地址“https://ManageOne运维面主页的访问地址:31943”,登录ManageOne运维面,或通过地址“https://ManageOne主门户的访问地址”,登录ManageOne主门户,选择“运维中心(OC)”,进入ManageOne... 故障现象数据库重启失败。故障原因可能原因有以下:管理面与节点网络不通。处理方法根据不同的故障场景修复故障实例。步骤 1 使用浏览器,通过地址“https://ManageOne运维面主页的访问地址:31943”,登录ManageOne运维面,或通过地址“https://ManageOne主门户的访问地址”,登录ManageOne主门户,选择“运维中心(OC)”,进入ManageOne...
- 故障现象GaussDB实例创建失败。故障原因可能原因有以下:GaussDB Service服务不正常,或者IAAS服务不正常。处理方法步骤 1 使用浏览器,登录ManageOne运维面。登录地址:https://ManageOne运维面主页的访问地址:31943。例如,https://oc.type.com:31943。默认帐号:admin。默认密码可在《华为云Stack 帐户一览... 故障现象GaussDB实例创建失败。故障原因可能原因有以下:GaussDB Service服务不正常,或者IAAS服务不正常。处理方法步骤 1 使用浏览器,登录ManageOne运维面。登录地址:https://ManageOne运维面主页的访问地址:31943。例如,https://oc.type.com:31943。默认帐号:admin。默认密码可在《华为云Stack 帐户一览...
- 故障现象使用分区表进行分区DDL业务,出现业务报错。故障原因分区DDL操作有新增(Add)、删除(Drop)、交换(Exchange)、清空(Truncate)、分割(Split)、合并(Merge)、移动(Move)、重命名(Rename)共8种,不同的分区DDL有对应的规格限制,用户如果试图越过规格限制进行该类操作,会导致业务报错。处理方法在《特性指南》中“分区表 > 分区表运维管理”章... 故障现象使用分区表进行分区DDL业务,出现业务报错。故障原因分区DDL操作有新增(Add)、删除(Drop)、交换(Exchange)、清空(Truncate)、分割(Split)、合并(Merge)、移动(Move)、重命名(Rename)共8种,不同的分区DDL有对应的规格限制,用户如果试图越过规格限制进行该类操作,会导致业务报错。处理方法在《特性指南》中“分区表 > 分区表运维管理”章...
- 故障现象使用分区表进行DQL/DML业务,出现业务报错。故障原因导致分区表DQL/DML业务报错的原因有很多,需要根据具体的报错内容和报错的业务模型,来判断属于哪些场景。常见的可能原因有以下:开启行迁移开关后,并发UPDATE/DELETE报错。关闭行迁移开关后,跨分区更新导致的报错。插入数据无法路由到已有分区导致的报错。处理方法步骤 1 判断是否为开启行迁移开关导致的并发UPDAT... 故障现象使用分区表进行DQL/DML业务,出现业务报错。故障原因导致分区表DQL/DML业务报错的原因有很多,需要根据具体的报错内容和报错的业务模型,来判断属于哪些场景。常见的可能原因有以下:开启行迁移开关后,并发UPDATE/DELETE报错。关闭行迁移开关后,跨分区更新导致的报错。插入数据无法路由到已有分区导致的报错。处理方法步骤 1 判断是否为开启行迁移开关导致的并发UPDAT...
- 故障现象使用分区表进行相关查询业务,SQL性能慢。故障原因可能原因有以下:分区索引失效,顺序扫描导致的SQL性能慢分区表无法进行分区剪枝导致的SQL性能慢SQL计划选择非最优导致的SQL性能慢处理方法步骤 1 判断是否存在索引异常的行为。步骤 2 部分分区DDL如果不带UPDATE GLOBAL INDEX子句,会导致分区表Global索引失效。同时用户也可以使用ALTER ... 故障现象使用分区表进行相关查询业务,SQL性能慢。故障原因可能原因有以下:分区索引失效,顺序扫描导致的SQL性能慢分区表无法进行分区剪枝导致的SQL性能慢SQL计划选择非最优导致的SQL性能慢处理方法步骤 1 判断是否存在索引异常的行为。步骤 2 部分分区DDL如果不带UPDATE GLOBAL INDEX子句,会导致分区表Global索引失效。同时用户也可以使用ALTER ...
- 故障现象逻辑复制槽不推进或推进缓慢。故障原因可能原因有以下:未使用并行解码。已使用并行解码场景:− 无法正确读取日志。− 存在长事务。− 用户未及时反馈接收到的日志位置。处理方法步骤 1 判断当前逻辑复制槽是否使用并行解码。在解码节点上调用SQL函数:select * from gs_get_parallel_decode_status();返回列中parallel_decod... 故障现象逻辑复制槽不推进或推进缓慢。故障原因可能原因有以下:未使用并行解码。已使用并行解码场景:− 无法正确读取日志。− 存在长事务。− 用户未及时反馈接收到的日志位置。处理方法步骤 1 判断当前逻辑复制槽是否使用并行解码。在解码节点上调用SQL函数:select * from gs_get_parallel_decode_status();返回列中parallel_decod...
- 故障现象并行解码场景读取日志线程或解码线程占用内存过多,导致产生内存不足报错。连接解码DN(如果为连接CN解码则需连接某个主DN)使用如下SQL函数查询,发现contextname为ParallelDecodeDispatcher或ParallelDecodeLog的内存上下文占用内存比较多:select contextname, sum(totalsize)/1024/1024 sum, ... 故障现象并行解码场景读取日志线程或解码线程占用内存过多,导致产生内存不足报错。连接解码DN(如果为连接CN解码则需连接某个主DN)使用如下SQL函数查询,发现contextname为ParallelDecodeDispatcher或ParallelDecodeLog的内存上下文占用内存比较多:select contextname, sum(totalsize)/1024/1024 sum, ...
- 故障现象连接数据库解码失败,报拒绝连接错误。故障原因可能原因有以下:用户没有逻辑解码权限。报错日志如下:FATAL: must be system admin or replication role or a member of the gs_role_replication role to use replication slots用户名和用户所在机器的IP未在数据库解码CN或DN节点上... 故障现象连接数据库解码失败,报拒绝连接错误。故障原因可能原因有以下:用户没有逻辑解码权限。报错日志如下:FATAL: must be system admin or replication role or a member of the gs_role_replication role to use replication slots用户名和用户所在机器的IP未在数据库解码CN或DN节点上...
- 故障现象数据库进程内存占比较高。− 长时间占比较高。− 观察监控平台内存占用的变化曲线,无论当前数据库是否有业务在运行,数据库进程内存占总机器内存的比例长时间处于较高状态,且不下降。− 执行作业期间占比较高。− 数据库进程在没有业务执行时,内存使用持续处于较低的状态,当有业务执行时,内存占用升高,待作业执行结束后,内存又恢复到较低的状态。− 内存上涨不下降。− 数据库进程在执行业务过程中内存... 故障现象数据库进程内存占比较高。− 长时间占比较高。− 观察监控平台内存占用的变化曲线,无论当前数据库是否有业务在运行,数据库进程内存占总机器内存的比例长时间处于较高状态,且不下降。− 执行作业期间占比较高。− 数据库进程在没有业务执行时,内存使用持续处于较低的状态,当有业务执行时,内存占用升高,待作业执行结束后,内存又恢复到较低的状态。− 内存上涨不下降。− 数据库进程在执行业务过程中内存...
- 故障现象JDBC连接数据库或者执行业务语句报错,业务成功率下降或者业务持续失败。故障原因可能原因有以下:应用程序到数据库之间网络通信问题。JDBC配置问题。业务逻辑问题。数据库问题。处理方法Read timed out问题步骤 1 查看应用报错日志。如报错为:An I/O error occured while sending to the backend.detail:Read t... 故障现象JDBC连接数据库或者执行业务语句报错,业务成功率下降或者业务持续失败。故障原因可能原因有以下:应用程序到数据库之间网络通信问题。JDBC配置问题。业务逻辑问题。数据库问题。处理方法Read timed out问题步骤 1 查看应用报错日志。如报错为:An I/O error occured while sending to the backend.detail:Read t...
- 故障现象长事务在数据库的表现是session持续时间长,期间可能伴随cpu、内存升高,严重可导致数据库整体响应缓慢,业务无法正常运行。故障原因可能原因有以下:大量的锁竞争。执行了比较耗时的SQL。处理方法步骤 1 登录CN节点,gsql连接数据库。gsql -d postgres -p 8000 -U user -W password -r说明:集中式实例登录主DN节点。步骤 2 ... 故障现象长事务在数据库的表现是session持续时间长,期间可能伴随cpu、内存升高,严重可导致数据库整体响应缓慢,业务无法正常运行。故障原因可能原因有以下:大量的锁竞争。执行了比较耗时的SQL。处理方法步骤 1 登录CN节点,gsql连接数据库。gsql -d postgres -p 8000 -U user -W password -r说明:集中式实例登录主DN节点。步骤 2 ...
- 故障现象base目录占用磁盘空间大,监控页面dbsize增长快,不符合预期。故障原因可能原因有以下:长事务阻止。处理方法步骤 1 登录CN节点,并通过gsql连接数据库。gsql -d postgres -p 40000 -U user -W password -r主备版登录主DN节点。步骤 2 查看数据库大小。select datname, pg_database_size... 故障现象base目录占用磁盘空间大,监控页面dbsize增长快,不符合预期。故障原因可能原因有以下:长事务阻止。处理方法步骤 1 登录CN节点,并通过gsql连接数据库。gsql -d postgres -p 40000 -U user -W password -r主备版登录主DN节点。步骤 2 查看数据库大小。select datname, pg_database_size...
- 故障现象单个或者多个节点出现动态内存使用率超过阈值,动态内存快速上涨等现象,或者业务执行SQL报错:ERROR:memory is temporarily unavailable。故障原因可能原因有以下:会话数上涨。SQL计划缓存增多。内存泄漏。参数设置不合理。处理方法步骤 1 登录DN节点,分别查看DN内存使用情况。gsql -d postgres -p 40000 -U user... 故障现象单个或者多个节点出现动态内存使用率超过阈值,动态内存快速上涨等现象,或者业务执行SQL报错:ERROR:memory is temporarily unavailable。故障原因可能原因有以下:会话数上涨。SQL计划缓存增多。内存泄漏。参数设置不合理。处理方法步骤 1 登录DN节点,分别查看DN内存使用情况。gsql -d postgres -p 40000 -U user...
- 性能类故障 性能类故障
- 故障现象客户反馈,在05:00--10:31之间GaussDB集中式在DN主备切换。适用版本GaussDB全部版本。告警DN主备切换。业务影响业务闪断,1min内恢复。故障原因l 主备切换问题,通常先找到主备切换的节点,即原主DN,新主DN分别是哪个DN。l 然后先从cm_server主、cm_ctl等日志分析,确认主备切换的命令是由cm_server下发还是手动下发。l 最后如... 故障现象客户反馈,在05:00--10:31之间GaussDB集中式在DN主备切换。适用版本GaussDB全部版本。告警DN主备切换。业务影响业务闪断,1min内恢复。故障原因l 主备切换问题,通常先找到主备切换的节点,即原主DN,新主DN分别是哪个DN。l 然后先从cm_server主、cm_ctl等日志分析,确认主备切换的命令是由cm_server下发还是手动下发。l 最后如...
上滑加载中
推荐直播
-
昇腾AI算法挑战赛-核心算子如何优化?专家带你深度解析2025/11/17 周一 16:00-17:00
王老师 华为算子专家
昇腾AI算法挑战赛进阶赛战鼓催征!本期直播间,我们特邀华为算子专家王老师,为你深度剖析Matmul、wholereducesum等核心算子的底层原理与优化技巧,直击赛题核心。想提升代码效率、冲击更高排名?锁定直播,带你破局!
回顾中 -
AI编码实干派,“码”力全开2026/02/26 周四 15:00-16:30
谈宗玮/于邦旭/丁俊卿/陈云亮/王一男
【中国,深圳,2026年2月26日】,以“AI编码实干派,码力全开”为主题的华为云码道(CodeArts)代码智能体新春发布会在线上成功召开。华为云码道公测版正式发布,为开发者和企业提供具备工程化能力的智能编码解决方案。
回顾中 -
华为云码道-玩转OpenClaw,开启在线养虾模式2026/03/11 周三 19:00-20:00
刘昱,华为云高级工程师/谈心,华为云技术专家/李海仑,上海圭卓智能科技有限公司CEO
OpenClaw 火爆开发者圈,华为云码道最新推出 Skill ——开发者只需输入一句口令,即可部署一个功能完整的「小龙虾」智能体。直播带你玩转华为云码道,玩转OpenClaw
回顾中
热门标签