• [区域初赛赛题问题] 有没有成功参赛奖或者参赛证明啊
    比赛太卷了,想问问除开区域三等奖外,有没有类似于成功参赛奖或者参赛证明啊
  • [大赛资讯] Issues happened in Problem B
    Hi,What does the wrong message mean by "wrong output format expect integer but "ok"" in problem 2?
  • [分享交流] 公有云解决方案
    公有云解决方案-全栈方案
  • [知识分享] 不止跑路,拯救误操作rm -rf /*的小伙儿
    摘要:误执行了 rm -rf /* 之后,除了跑路还能怎么办?本文分享自华为云社区《拯救被 rm -rf 伤到的小伙》,作者:Gauss 松鼠会。灵魂画师再次上线在开饭前我们先了解下两个关键的配置文件数据目录下的postgresql.conf比对一下主备节点的postgresql.conf,应该有以下几个参数不一致listen_addresses 远程客户端连接使用的数据库主节点ip或者主机名 local_bind_address 当前节点连接openGauss其他节点时绑定的本地IP地址 replconninfo1 设置本端侦听和鉴权的第一个节点信息,如果备机有2个,就会有replconninfo2 log_directory 决定存放服务器日志文件的目录,om初始化安装时命名跟实例id相关 audit_directory 审计文件的存储目录,om初始化安装时命名跟实例id相关 application_name 连接请求时所使用的客户端名称,om初始化安装时命名跟实例id相关来自踩坑者的warning:根据某一个节点生成例外一个节点的postgresql.conf文件,俗手请按参数逐个修改,不可全量替换,容易改错ip等$GAUSSHOME/bin/cluster_static_config俗称静态配置文件,OM工具的核心,记录了当前节点和集群的基本信息,二进制结构化文件可以通过gs_om -t view 来查看可以通过gs_om -t generateconf -X XMLFILE --distribute 重新生成有静态配置文件,就有动态配置文件cluster_static_config动态配置文件最大的作用就是记录了当前节点状态,标记节点主备角色,这样重启的时候知道节点的启动方式可以通过gs_om -t refreshconf生成 只有进行过主备切换才有必要执行这个命令开胃菜拼盘之备机的数据目录丢失建立postgresql.conf文件后build即可postgresql.conf可以从主机拷贝后修改,如果日常养成了备份的习惯那就更方便了gs_om -t status --detail scp xb01:/data1/zxbog/openGauss/data/dn1/postgresql.conf ./data1/zxbog/openGauss/data/dn2/ gs_ctl build -D /data1/zxbog/openGauss/data/dn2开胃菜拼盘之主机的数据目录丢失按修复备机的方式肯定是不行滴,需要先备升主,然后按备机方式修复,最后再主备切换主机down的时候,需要在备机failover来实现备升主主机normal的时候,需要在备机switchover来实现备升主gs_ctl failover -D /data1/zxbog/openGauss/data/dn2 gs_ctl switchover -D /data1/zxbog/openGauss/data/dn1开胃菜拼盘之GPHOME/GAUSSHOME目录丢失GPHOME下主要是OM脚本(数据库运维工具),python语言如果丢失,可以从其他节点直接cp(推荐),或者安装包直接解压覆盖,也可以重新执行一遍gs_preinstallGAUSSHOME下主要存放数据库内核可执行文件,C/C++语言编译如果丢失,可以从同集群其他节点cp(推荐)或者解压安装包中的bz压缩包,由于GAUSSHOME/bin目录下存放了各自的静态配置文件,需要修改为啥我都是推荐从其他节点cp呢,通过om安装的数据库会产生证书在每个节点,解压包是不会产生这些的,如果用到了openssl,需要手动生成正菜之节点替换与修复节点替换与修复一般有两种场景机器损坏,需要重新搭建一台,配置比如ip都不变机器被征用,需要换一台新的机器,ip地址也变更了这种情况可以先用gs_dropnode删除老的节点,然后通过gs_expansion扩新的节点这两个命令都是要求在主节点下执行,如果要修改主节点,请先主备切换,并刷新静态/动态配置文件gs_dropnode 需要在普通用户下执行,gs_expansion需要在root用户下执行[xb0608@xb01 ~]$ gs_dropnode -U xb0608 -G xb0608 -h 192.168.0.26 [root@xb01 script]# /opt/software/script/gs_expansion -U xb0608 -G xb0608 -X ../double.xml -h 192.168.0.26在执行扩节点之前,为减少不必要的麻烦,请确保新的节点足够干净,邪 恶代码如下,谨慎使用ps -ef|grep ^xb0608|awk '{print $2}'|xargs kill -9 && userdel -r xb0608 rm -rf /data1/zxbog/openGauss/ groupadd xb0608 && useradd xb0608 -g xb0608 passwd xb0608 传说中的甜点如果整个集群都被 干掉了咋办~~既然有主备节点,就可以有主备集群啦OM重磅功能支持主备集群-流式容灾搭建即将上线,敬请期待
  • [技术干货] 拯救被rm -rf伤到的小伙
    灵魂画师再次上线在开饭前我们先了解下两个关键的配置文件数据目录下的postgresql.conf比对一下主备节点的postgresql.conf,应该有以下几个参数不一致listen_addresses 远程客户端连接使用的数据库主节点ip或者主机名 local_bind_address 当前节点连接openGauss其他节点时绑定的本地IP地址 replconninfo1 设置本端侦听和鉴权的第一个节点信息,如果备机有2个,就会有replconninfo2 log_directory 决定存放服务器日志文件的目录,om初始化安装时命名跟实例id相关 audit_directory 审计文件的存储目录,om初始化安装时命名跟实例id相关 application_name 连接请求时所使用的客户端名称,om初始化安装时命名跟实例id相关来自踩坑者的warning:根据某一个节点生成例外一个节点的postgresql.conf文件,俗手请按参数逐个修改,不可全量替换,容易改错ip等$GAUSSHOME/bin/cluster_static_config俗称静态配置文件,OM工具的核心,记录了当前节点和集群的基本信息,二进制结构化文件可以通过gs_om -t view 来查看可以通过gs_om -t generateconf -X XMLFILE --distribute 重新生成有静态配置文件,就有动态配置文件cluster_static_config动态配置文件最大的作用就是记录了当前节点状态,标记节点主备角色,这样重启的时候知道节点的启动方式可以通过gs_om -t refreshconf生成 只有进行过主备切换才有必要执行这个命令开胃菜拼盘之备机的数据目录丢失建立postgresql.conf文件后build即可postgresql.conf可以从主机拷贝后修改,如果日常养成了备份的习惯那就更方便了gs_om -t status --detail scp xb01:/data1/zxbog/openGauss/data/dn1/postgresql.conf ./data1/zxbog/openGauss/data/dn2/ gs_ctl build -D /data1/zxbog/openGauss/data/dn2开胃菜拼盘之主机的数据目录丢失按修复备机的方式肯定是不行滴,需要先备升主,然后按备机方式修复,最后再主备切换主机down的时候,需要在备机failover来实现备升主主机normal的时候,需要在备机switchover来实现备升主gs_ctl failover -D /data1/zxbog/openGauss/data/dn2 gs_ctl switchover -D /data1/zxbog/openGauss/data/dn1开胃菜拼盘之GPHOME/GAUSSHOME目录丢失GPHOME下主要是OM脚本(数据库运维工具),python语言如果丢失,可以从其他节点直接cp(推荐),或者安装包直接解压覆盖,也可以重新执行一遍gs_preinstallGAUSSHOME下主要存放数据库内核可执行文件,C/C++语言编译如果丢失,可以从同集群其他节点cp(推荐)或者解压安装包中的bz压缩包,由于GAUSSHOME/bin目录下存放了各自的静态配置文件,需要修改为啥我都是推荐从其他节点cp呢,通过om安装的数据库会产生证书在每个节点,解压包是不会产生这些的,如果用到了openssl,需要手动生成正菜之节点替换与修复节点替换与修复一般有两种场景机器损坏,需要重新搭建一台,配置比如ip都不变机器被征用,需要换一台新的机器,ip地址也变更了这种情况可以先用gs_dropnode删除老的节点,然后通过gs_expansion扩新的节点这两个命令都是要求在主节点下执行,如果要修改主节点,请先主备切换,并刷新静态/动态配置文件gs_dropnode 需要在普通用户下执行,gs_expansion需要在root用户下执行[xb0608@xb01 ~]$ gs_dropnode -U xb0608 -G xb0608 -h 192.168.0.26 [root@xb01 script]# /opt/software/script/gs_expansion -U xb0608 -G xb0608 -X ../double.xml -h 192.168.0.26在执行扩节点之前,为减少不必要的麻烦,请确保新的节点足够干净,邪 恶代码如下,谨慎使用ps -ef|grep ^xb0608|awk '{print $2}'|xargs kill -9 && userdel -r xb0608 rm -rf /data1/zxbog/openGauss/ groupadd xb0608 && useradd xb0608 -g xb0608 passwd xb0608 传说中的甜点如果整个集群都被 干掉了咋办~~既然有主备节点,就可以有主备集群啦OM重磅功能支持主备集群-流式容灾搭建即将上线,敬请期待
  • [课程学习] usg6000学习笔记2
    双机热备包括双机热备、主备备份、负载分担、VRRP、vgmp、hrp、心跳线、抢占等1、双机热备    为了避免网关单点故障的风险,可以在网络的节点处同时部署两台设备,形成双机热备网。    当其中一台设备故障时可以平滑地切换到备用设备上。2、主备备份    在正常情况下仅用主用设备处理业务,备份设备空闲;当朱永设备接口、链路或整机故障时,备份设备切换为主用设备。    这种方式可以有效的防止设备单点故障导致的为了中断。通常用于重点业务的入口或接入点上。3、负载分担    所谓的负载分担也可以称为互为主备。两台设备同时处理业务。当一台设备发送故障的时候另一台设备会继承处理的业务。    两台设备共同处理业务链路,提高网络的转发效率降低主备发生的故障几率。3、VGMP    VGMP的基本观念如下    (1)接口集中监控        将系统中的所有VRRP主备组都加入到VGMP管理组中,由VGMP管理组统一监控组内所有的VRRP组的状态。        将系统的业务接口加入到VGMP管理组中,由VGMP管理组统一接组内所有接口状态(HRP track)    (2)设备状态统一管理        USG是提高VGMP管理组来进行设备状态管理的。VGMP管理组的主备状态决定了双机热备组网中设备的主备状态,决定了VGMP管理组内的成员接口和VRRP备份组的状态。        当一台设备的VFMP管理组状态为master时,组内所有成员的接口状态统一为master,该设备变成组设备。另一台设备的VGMP状态为slave。则该设备为备用设备。        每台设备的VGMP管理组的初始状态由用户决定(master或slave),master优先级为65001。slave的优先级为65000。当VGMP管理组通过VRRP组或者直接监视到接口down时,会重新技术VGMP管理组优先级,计算公式如下:VGMP优先级=VGMP初始设定-N*2(N为即可数量)。4、VRRP    在双机热备中VRRP的主要在于是检测三层接口故障并通知VGMP管理组,触发VGMP优先级变化。5、HRP     USG是状态防火墙,对于每一个动态生成的回话连接,都有一个会话表项对应。主用设备主力业务的过程创建了很多会话表项;而备用设备没有流量经过,因此没有创建会话表项。    如果发生主备切换则要重新建立会话,正在进行的会话会因为没有表项导致会话中断。    为了实现主要设备出现故障能平滑的切换到备用设备,需要在主备之间备份关系配置命令和会话表的状态信息。    启动HRP备份功能后,关键配置命令和会话表状态信息会实时同步到备份设备上。6、心跳线    心跳线是指主设备和备用设备之间的直连网线,主备设备通过心跳线小虎报文了解对方的状态,以及实现配置命令和状态信息的备份。心跳线两端的接口为心跳接口。7、抢占    当主用设备恢复正常后,重新切换成主用设备处理业务的过程。    如果取消了抢占功能的配置,则原主用设备恢复后,仍是备用设备处理业务。双机热备使用限制    硬件限制        只支持两台设备进行热备。        型号和版本相同。        接口卡位置、类型和数量相同。        如果使用二层接口作为心跳线,需要将二层接口加入到vlan,创建vlanif并配置IP地址。然后将vlanif接口作为心跳接口,配置remote参数来指定对端心跳接口的IP地址。    软件限制        软件版本相同。        bootrom版本相同。        运行模式相同,级都是防火墙模式或UTM模式。        禁用主备设备的配置文件均为初始文件。否则,可能由于两台设备的配置冲突导致设备切换后出现问题。        主备设备的虚拟防火墙的名称,数量和配置顺序必须一致        主备设备的对应接口必须加入到相同的安全区域。比如主设备的G0/0/1加入了trust区域,备份设备的G0/0/1也要加入trust区域        心跳接口配置必须一致        主备设备业务即可IP地址固定,因此双机热备特性不能于pppoe拨号、dhcp Client、3g或xdsl等自动获得IP地址的特性结合使用。    与NAT结合使用的限制        双机热备与NAT结合时,主备设备的上下行业务接口必须为三层接口        配置vrrp组时,需要将NAT地址池或者NAT server与vrrp组绑定。    与IPSec结合使用限制        主备备份场景主从与IPSec结合使用,负载分担场景不支持        双机热备与IPSec结合时,主备设备的上下行业务接口必须为三层接口        双机热备和IPSec的配置与单独使用时没有区别        只需要在主用设备上配置IPSec策略,在备用设备上不需要配置IPSec策略。主用设备的IPSec策略会备份到备用设备上,因此只需要子啊备用设备的出接口上应用备份过来的IPSec策略。        作为IPSec隧道的发起方,则必须要指向命令local-address [ip-address],设置本段发起协商的地址为VRRP组的虚拟地址。    配置流程1、完成业务接口的基本配置2、配置VGMP管理组(三选一)    (1)三层业务接口连接交换机        通过vrrp备份组检测三层业务接口    (2)三层业务接口来连接路由器        通过HRP track检测三层业务接口    (3)二层业务接口        通过HTP Track检测vlan3、配置心跳口4、启动HRP备份4、(可选项)配置HRP备份方式5、配置主备防火墙的配置一致性6、验证配置结果6、(可选项)关键组网需求配置其他业务7、ENDEVRRP配置命令FW1:interface gigabitethernet 0/0/1ip address 10.0.0.1 24vrrp vrid 1 virtual-ip 10.0.0.254 24 activeFW2:interface gigabitethernet 0/0/1ip address 10.0.0.2 24vrrp vrid 1 virtual-ip 10.0.0.254 24 active !在配置vrrp的时候发现,当接口shutdown后,vrrp组进入初始化状态,USG6000的抢占延迟为60s。master在同一个设备上时是可以进行通讯,如果master在不同设备上时测试通讯失败。vrrp可能是VGMP没有进行统一管理。在USG5000型号上配置vrrp时需要使用命令vrrp virtual-mac enable,不然会不能ping通虚拟地址的情况。!配置HRP trackinterface gigabitethernet 0/0/0hrp track {master|slave}    #配置状态为master或slave的VGMP管理监测口状态    #主备场景下,主用设备的上下行接口上配置master,备用设备配置slave。    #负载分担场景下,主备设备的上下行接口都配置master和slave。hrp ospf-cost adjust-enable [slave-cost]    #区域HRP状态调整ospf相关cost值system-viewhrp preempt delay [ interval ]  #配置VGMP管理组的抢占延迟hrp enable                      #启动HRP hrp configuration check [hrp|acl]   #检测hrp两端配置一致性hrp interface [interface-type] [interface-number] remote [ip-address]   #配置心跳线(加入接口需要完成基本配置,例如IP地址防火墙区域)hrp switch active               #设置设备为主用设备hrp auto-sync [config|connection-status]    #启动命令与状态自动备份hrp auto-sync                               #启动命令与状态自动备份   hrp sync [config|connection-status]         #区域命令与状态手动批量备份bhrp mirror session enable                   #启用快速会话备份试验NAT+VRRP+HRP(基于USG 6000):hrp enablehrp interface gigabitethernet 1/0/1 remote 10.0.0.1hrp mirror session enable #hrp nat resource primary-gourp|secondary-group  在负载均衡情况下使用nat是需要在主备设备配置该命令interface gigabitethernet 1/0/2ip address 200.0.0.1 24vrrp vrid 2 virtual-address 200.0.0.3 activenat address-group 'all' 1 section 200.0.0.5 200.0.0.254 quitsecurity-policy  rule name nat  source-zone trust  destination-zone untrust action permit  quitnat-policy rule name nat  source-zone trust destination-zone untrust action source-nat quit
  • [问题求助] FusionInsight 做主备HA检测时,备节点能ha替代主,但是主节点一直无法启动oms.sh也无法启动HA
    已重装
  • [其他] DN实例发生主备切换排查
    # 一、问题现象 某个线下环境DN发生主备切换 # 二、问题影响 DN实例很频繁发生切换,业务出现断链情况 # 三、问题定位 ## 1.根据“由现象看问题本质”的原则,先看DN实例的日志 ``` source /opt/huawei/Bigdata/mppdb/.mppdbgs_profile cd $GAUSSLOG/pg_log/dn_6003 ll -thr vi postgres-xxx.log ``` 看到DN日志报:Too many open file in systems ## 2.查看OS日志 ``` cd /var/log tail -500f messages ``` 看到OS日志很多行报:VFS:file-max limit 640000 reached ## 3.进一步监控 ``` lsof -n|awk '{print $2}'|sort|uniq -c|sort -nr|more|head -n 20 ``` 本次处理打印了最多的20个文件句柄的进程,打印出结果的第二列为进程ID,可以观察是那个进程打开的文件过过多 ``` lsof -u omm |awk '{print $2}'| sort | uniq -c | sort -nr | head ``` 观察用户打开的文件句柄数 ``` ps -ef|grep 46905 ``` 也可以使用一下脚本监控: ``` #!/bin/bash while true do for PID in `lsof -u omm|awk '{print $2}'|sort|uniq -c|sort -nr| head | awk '{print $2}' | head -n 1` do date +'%Y-%m-%d %H:%M:%S' >> /home/omm/pid-2022-01-26.txt echo $PID >> /home/omm/pid-2022-01-26.txt lsof -p $PID >> /home/omm/pid-2022-01-26.txt sleep 1800 done done ``` ## 4.经确认文件句柄数达到阈值与近期新上的业务语句有关 好多表union all 和 join ## 5.调整omm用户文件句柄数 一般默认是1000000(100W),不建议改动,因为跟主机的综合性能有关,此处改为500W观察。
  • [其他] 页面 ldapserver和 krbserver异常,后台集群、主备oms均正常
    问题现象:manager页面显示 ldapserver和 krbserver异常,但后台查看这两个服务是正常的版本信息:纯软8.1.1问题影响:页面显示服务异常,影响用户使用排查过程:1.页面显示备oms节点 ldapserver和 krbserver异常,后台执行 sh /opt/huawei/Bigdata/om-server/om/sbin/status-oms.sh 主备oms状态均显示正常2.页面显示备oms节点ldap服务启动失败尝试手动启动ldap   sh /opt/huawei/Bigdata/om-server/om/ldapserver/ldapserver/local/script/ldapserver_start.sh,启动失败3.重开窗口,重启nodeagent进程 /opt/huawei/Bigdata/om-agent_6.5.1/nodeagent/bin/stop-agent.sh(start-agent.sh)重新启动ldap服务,启动成功4.页面重启 ldapserver和 krbserver服务,启动成功问题原因:现场source了mppdb的环境变量,导致启动manager的服务失败,环境变量污染解决方法:重开一个窗口,不source环境变量,重启nodeagent进程,重启异常服务
  • [管理与监控] 分布式存储(ceph)mgr主备倒换是否影响性能的验证
    验证触发mgr主备切换时,对集群性能是否有影响先给集群打上背景流量:ceph -s状态:停掉node3的mgr(active mgr)服务:systemctl stop ceph-mgr@node3ceph -s 观察,完成mgr@node3到mgr@node1的倒换,集群健康状态正常,client流量无明显波动。
  • [产品介绍] 【DRS云小课】如何在DRS上搭建MySQL异地单主灾备
    当某一地区故障而导致业务不可用,可以使用数据复制服务DRS推出的灾备场景,为业务连续性提供数据库的同步保障。本节小课为您介绍RDS for MySQL实例通过DRS服务搭建异地单主灾备的过程。实现原理RDS跨Region容灾实现原理说明:在两个数据中心独立部署RDS for MySQL实例,通过DRS服务将生产中心MySQL库中的数据同步到灾备中心MySQL库中,实现RDS for MySQL主实例和跨Region灾备实例之间的实时同步。更多关于MySQL实例灾备须知请单击这里了解。一、生产中心RDS for MySQL实例准备创建MySQL业务实例,选择已规划的业务实例所属VPC,并为实例绑定EIP。1.   登录华为云控制台。2.   单击管理控制台左上角的,选择区域“华北-北京一”。3.   单击左侧的服务列表图标,选择“数据库 > 云数据库 RDS”。4.   单击“购买数据库实例”。5.   填选实例信息后,单击“立即购买”。 选择引擎版本信息。选择规格信息。选择已规划的网络信息。设置管理员密码。6.   为创建的RDS实例绑定弹性公网IP。二、灾备中心RDS for MySQL实例准备创建MySQL灾备实例,选择已规划的灾备实例所属VPC。1.   单击管理控制台左上角的,选择区域“华北-北京四”。2.   单击左侧的服务列表图标,选择“数据库 > 云数据库 RDS”。3.   单击“购买数据库实例”。4.   填选实例信息后,单击“立即购买”。选择灾备实例引擎版本信息选择灾备实例规格信息选择灾备实例已规划的网络信息设置灾备实例管理员密码三、搭建容灾关系创建DRS灾备实例,创建时选择灾备中心创建的RDS for MySQL实例。1.   在“华北-北京四”区域,单击左侧的服务列表图标,选择“数据库 > 数据复制服务 DRS”。2.   选择左侧“实时灾备管理”,单击右上角“创建灾备任务”。3.   灾备类型选择“单主灾备”,灾备关系选择“本云为备”,灾备数据库实例选择在“华北-北京四”新创建的MySQL灾备实例,单击“下一步”,开始创建灾备实例。设置基本信息设置灾备实例信息4.   返回“实时灾备管理”页面,可以看到新创建的灾备实例。创建完成5.   在灾备实例上,单击“编辑”。6.   根据界面提示,将灾备实例的弹性公网IP加入生产中心MySQL实例所属安全组的入方向规则,选择TCP协议,端口为生产中心MySQL实例的端口号。添加安全组规则      源库信息中的“IP地址或域名”填写生产中心MySQL实例绑定的EIP,“端口”填写生产中心MySQL实例的端口号。测试通过后,单击“下一步”,直到任务启动,任务状态为“灾备中”。编辑灾备任务灾备中四、容灾切换生产中心数据库故障时,需要手动将灾备数据库实例切换为可读写状态。切换后,将通过灾备实例写入数据,并同步到源库。1.   生产中心源库发生故障,例如:源库无法连接、源库执行缓慢、CPU占比高。2.   收到SMN邮件通知。邮件通知3.   查看灾备任务时延异常。时延异常4.   用户自行判断业务已经停止。具体请参考如何确保业务数据库的全部业务已经停止。5.   选择“批量操作 > 主备倒换”,将灾备实例由只读状态更改为读写状态。主备倒换倒换完成6.   在应用端修改数据库连接地址后,可正常连接数据库,进行数据读写。
  • [产品介绍] 【DRS云小课】什么是单主灾备?什么是双主灾备?
    伴随着信息技术的高速发展,数据和信息在现代企业中扮演着越来越重要的角色,信息数据的丢失和损坏将对企业造成难以估量的损失。如何抵御大规模的灾难事件受到人们越来越多的关注,现阶段而言,容灾是较好的解决方案。关键数据的备份与恢复操作已经成为系统日常运行维护的一个重要组成部分。华为云云数据库服务的双AZ高可用实例,可以满足同城级别的灾备。数据复制服务提供的多活灾备功能具有跨区域、跨云灾备的能力,分为单主灾备和双主灾备。单主灾备单主灾备即使用一主一备的架构,当灾难发生时原灾备数据库作为业务数据库保证业务正常运行。DRS的主备倒换功能可以实现主备切换,主备倒换前,业务正常运行在业务数据库,并且将数据实时同步至灾备数据库。此时,灾备数据库不可写入数据。主备倒换后,原灾备数据库为可读写状态,可将业务切换到原灾备数据库运行,原业务数据库不可写 。双主灾备双主灾备多用于灾备双方互为主备,共同承担业务流量的场景。其角色分为主1、主2,使用之前需要首先确立本云(本区)RDS的角色,才可以更好的完成多活灾备的搭建。完整的双主灾备是由正、反两条链路构成的,其创建顺序有着严格的要求。开始时,主1为可读写状态、主2为只读状态,正向灾备将初始化数据全量同步到主2后,方可启动反向灾备。此时,主1、主2均为可读写状态,正/反向灾备分别向主2、主1持续同步增量数据。特点及使用约束·  重要! 双主灾备是对环境要求比较高的架构,实施部署双主灾备前请务必阅读约束和设计思考。·  双主灾备的搭建过程对步骤是有严格要求的,请按照以下步骤进行部署,以确保双主任务顺利部署。创建正向灾备任务,具体操作步骤请参见创建灾备任务。创建完成后,会生成两个子任务,即正向灾备和反向灾备任务,此时反向灾备任务为配置状态。当正向灾备任务进入“灾备中”状态时(反向任务操作列出现编辑),配置并启动反向任务。       在“多活灾备管理”页面,选择该灾备任务的反向任务,单击操作列的编辑,进入“创建灾备任务”页面,继续完成创建反向任务。建议您在主2进行验证,满足预期后,启动反向任务。更多内容,猛戳>>>
  • [存储] 案例:找不到数据文件&系统表索引损坏
    问题现象:1、在dn_6033上执行查询语句select count(*) from hbjc_tmp_0808.hynx_djdj_djdjjz;ERROR:dn_6033_6034:could not open file "base/33225/74636313":No such file or directory2、在dn_6033上执行查询语句select count(*) from erp_sapsr3.zfi00t_trvl_bd_u;ERROR:dn_6033_6034:could not open relation with OID 51459196解决方案:问题11、在对应数据节点主dn_6033和d备dn_6034数据文件路径/base/33225下查询是否存在文件74636313*2、若不存在,分别在主备dn路径base/33225下执行touch 746363133、分别在主备dn执行查询select count(*) from hbjc_tmp_0808.hynx_djdj_djdjjz; 看是否还报错4、查看其他节点该表是否有数据,若有对该表进行重新导入数据操作问题21、在主dn_6033执行查询select oid,* from pg_class where oid = 51459196;  无数据结果select oid,* from pg_attribute where attrelid = 51459196;  有数据结果select oid,* from pg_index where indrelid = 51459196;  有数据结果2、开脏数据开关,关闭索引开关start transaction read only;set enable_show_any_tuples = true;set enable_indexscan = off;set enable_bitmapscan = off;select oid,* from pg_class where oid = 51459196; 有多条数据3、执行rollback,后执行select oid,* from pg_class where oid = 51459196; 无数据结果set enable_indexscan = off;set enable_bitmapscan = off;select oid,* from pg_class where oid = 51459196; 有数据结果,判定为系统表索引损坏4、判定pg_class索引损坏,需要在主dn_6033修复,重建系统表pg_class索引start transaction read write;reindex table pg_class;commit;这个过程会持系统表的锁,可能会导致业务等锁变慢。注:set 参数 操作在断开dn连接后会自动回滚enable_show_any_tuples参数说明:该参数只有在只读事务中可用,用于分析。当这个参数被置为on/true时,表中元组的所有版本都会可见。该参数属于USERSET类型参数。取值范围:布尔型on/true表示表中元组的所有版本都会可见。off/false表示表中元组的所有版本都不可见。默认值:offenable_indexscan参数说明:控制优化器对索引扫描规划类型的使用。该参数属于USERSET类型参数。取值范围:布尔型on表示使用。off表示不使用。默认值:onenable_bitmapscan 参数说明:控制优化器对位图扫描规划类型的使用。该参数属于USERSET类型参数。取值范围:布尔型on表示使用。off表示不使用。默认值:on
  • [技术干货] 管理中心虚机资源说明
    1、部署管理中心为什么需要6台虚机首先,管理中心在设计的时候有两个平面的:管理面OM、数据面Tenant,两平面是分开的,这需要2个VM简称2VM,推荐在POC阶段使用,而在商用场景时,为保证高可用性,需要引入主备模式,之所以在两个平面各增加2个虚机(总计需要6VM),是因为只有奇数个节点才能完成仲裁机制,防止“脑裂”现象发生。其次,OM与Tenant服务的主备节点部署在数据面3个VM上,但并不意味着指定了某个虚机是做主/备节点使用。当一台虚机宕机时,仲裁机制启用备节点,管理中心仍然可以正常运行。最后,有些服务是采用集群的方式实现的(不是主备方式)例如minio服务,部署在数据面3个节点上。2、为什么需要连接器?连接器是什么?连接器的作用。连接器是一台安装了连接器的助手的电脑,用于远程连接执行器助手的电脑,供无人值守执行器使用。机器人流程在远程Executor上执行自动化操作过程中,如果对象是一个GUI (win32/java swing)程序或者需要截屏、鼠标、键盘操作,需保证远程计算机不能锁屏,连接器就会在无人值守执行器执行任务前,先远程连接至执行器完成屏幕解锁操作。
  • [其他] GaussDB(DWS)主备切换分析
    集群运行过程当中发现有:FI监控页面有主备断连或者不同步告警:编号日志内容1Datanode主备不通过或者断连,重要,xxxxps -ef 查看某一节点上gaussdb进程运行时间与其他实例不同查看集群状态不均衡需要分析主备切换原因。若存在以上情况可按照以下步骤进行分析步骤一:判断是否由于内存不足被oom使用root用户查看/var/log/messages日志在实例重启时间点是否有kill关键字,若存在则说明由于max_process_memory参数设置过大,将参数修改为适当值进行观察,该参数计算方式详细见产品文档。步骤二:是否被cma kill         使用omm用户(云上版本使用Ruby用户)查看cm_agent日志($GAUSSLOG/cm/cm_agent/cm_agent-xxx.log)在实例重启时间点是否有kill关键字,若存在则说明dn hang或者cm_agent与cm_server连接异常,若该问题偶尔出现一次可不需做任何处理,若出现较为频繁联系华为工程师处理。步骤三:进程core         首先确认该集群是否配置操作系统core,若为配置请先配置操作系统core之后继续观察。core配置方案见附件:GaussDB(DWS) core配置标准方案v1.1         若该集群已经配置core请检查在对应目录检查是否有core文件产生,core文件产生路径查看参考以下命令:cat /proc/sys/kernel/core_pattern,该命令结果为绝对路径直接在对应目录查看,否则在对应重启实例查看。         若产生core文件解析core文件将堆栈反馈给华为工程师进行处理。         若集群集群配置core集群实例多次重启并且不属于步骤一与步骤二的场景,请联系华为工程师处理。