• [集群&DWS] DWS集群gaussdb进程D状态原因分析
    触发条件:该问题为操作系统xfs内部实现bug,存在于EulerOS 2.9之前的所有历史版本。故障现象:数据库实例进程状态变为D状态,进程hang,集群状态无法降级。业务阻塞,数据库实例进程无法kill,需要重启OS恢复。判断方法:步骤1:使用管理员用户登录数据库。步骤2:对数据库环境进行检查。如果OS为EulerOS 2.9之前的所有历史版本,则继续执行下面的步骤,进行D进程确认;否则跳过。步骤3:执行如下命令获取进程状态ps -elf | grep gaussdb步骤4:如果gaussdb进程处于D状态(僵死状态)时,则通过如下方法检查是触发了xfs的D进程bug。通过步骤3获取到gaussdb进程的pid。查看进程栈信息。如果栈信息是如下内容,则表示当前进程是僵死在write_cache_pages函数中。​​​​​​​【措施和方案】給当前的数据库环境打xfs热补丁。具体实现参见 https://bbs.huaweicloud.com/forum/thread-0207147167992868006-1-1.html
  • [集群&DWS] EulerOS XFS bug热补丁实施方法
    【措施和方案】请联系DWS运维人员,提变更保障整改。在support中下载xfs热补丁包规避措施步骤:使用root用户登录需要部署补丁的机器,进入/root目录将附件中的xfs_files.tar.gz包拷贝至补丁机器的/root目录,并解压缩;创建临时文件/root/fix_patch_by_self.sh为解压缩后的文件fix_patch_by_self.sh赋权: chmod +x /root/fix_patch_by_self.sh执行热补丁部署sh fix_patch_by_self.sh -i回滚热补丁(选做)sh fix_patch_by_self.sh -u
  • [集群&DWS] EulerOS XFS bug导致进程D状态问题分析说明
    1. 问题现象:进程偶发性D住并且无法恢复,其堆栈信息如下:2 原因说明: Xfs在执行do_writepages时产生死锁。xfs write死锁,IO现场Hang。 ​3 问题处理 补丁修改内容参考:参加附件xfs_patch.txt4 OS分析参考 https://lore.kernel.org/all/20181218043626.GA31274@dastard/T/ 
  • [集群&DWS] EulerOS XFS bug排查实现
    1. 背景EulerOS 2.9之前的版本存在xfs 读写bug。当触发操作系统中xfs的bug时,会导致gaussdb进程成为僵尸进程,集群不可用。目前HCS大多数局点都存在风险,开发此脚本进行全网排查。排查原理:1、当EulerOS且内核版本(uname -a)大于4.19.87时,不涉及此问题;2、当OS为EulerOS SP9 和EulerOS SP10时,不涉及此问题。2. 使用要求机器已安装集群集群互信正常(集群属主用户SSH登陆免密)3. 使用方法      实现脚本参加附件check_kernel_version.txt检查脚本。在使用前先将文件后缀.txt修改为.py。HCS:将脚本上传至集群任意节点的沙箱内/home/Ruby/目录下登陆沙箱内执行命令: python /home/Ruby/check_kernel_version.py将结果进行截图或文本复制。ESL:将脚本上传至任意数据节点/home/omm/目录下root登陆此数据节点,执行以下命令:chown omm:  /home/omm/check_kernel_version.pychmod +x /home/omm/check_kernel_version.py    3. 执行以下命令:su - ommsource /opt/huawei/Bigdata/mppdb/.mppdbgs_profilepython /home/omm/check_kernel_version.py    4. 将结果进行截图或文本复制。
  • [其他] DWS集群节点打开xxxx端口
    诉求:在节点安装监控工具,需要打开xxxx端口解决措施:1.修改节点防火墙设置:1)iptables -I INPUT 1 -p tcp —dport {要放通的端口} -j ACCEPT2)修改配置文件 /etc/sysconfig/iptables.save 参考8000端口进行配置,永久生效2.租户侧安全组放通对应的端口,入方向设置为any等3.修改完成可以尝试监控eth1网卡,   curl ip:端口   或者   telnet ip 端口
  • [活动公告] 【云声专场】开发者体验官:使用Mindformers大模型套件快速构建 ChatGLM6B推理!提建议领开发者盲盒礼包~
    华为云开发者日·2023年度创享峰会来啦!参加“使用Mindformers大模型套件快速构建 ChatGLM6B推理”项目,提出你的建议有机会获得开发者盲盒礼包惊喜不容错过,快叫上小伙伴一起来吧【体验项目】使用Mindformers大模型套件快速构建 ChatGLM6B推理【活动时间】2023年12月20日-12月31日【参与方式】直接在此活动帖下方回帖提建议即可比如对产品功能的改进建议、对活动流程的感想、对现场活动的感悟等等PS:不要少于30字哦~【获奖规则】奖项设置有效回复楼层评选条件获奖名额激励礼品优质建议奖20对产品功能有改进价值的建议1名开发者盲盒礼品价值50-100元积极反馈奖20优质建议奖轮空的情况下进行抽取抽取1名开发者盲盒礼品价值50元【活动规则】1、本帖的回帖建议不少于30字,仅限于对“使用Mindformers大模型套件快速构建 ChatGLM6B推理”体验项目,其他项目建议不参与此次活动,否则将视为无效内容。2、本次活动将根据实际参与情况发放奖励,包括但不限于用户百分之百中奖或奖项轮空的情况;以上奖品均为实物奖品,具体发放视出库情况而定;3、活动预计于结束后七天内完成奖项公示,并于结束后15个工作日内完成邮寄。【温馨提示】1、请务必使用个人实名账号参与活动(IAM、企业账号等账号参与无效)。如一个实名认证对应多个账号,只有一个账号可领取奖励,若同一账号填写多个不同收件人或不同账号填写同一收件人,均不予发放奖励。2、所有获得奖品的获奖用户,请于获奖后3日内完成实名认证,否则视为放弃奖励。
  • [其他] 【升级】--【升级时提交失败】升级完成后,提交时失败
    【问题现象】升级完成后,提交时失败【日志现象】ERROR:The database cannot be created during the database upgrade【解决措施】检查upgrade_mode的值,如果为2,则将其修改为0,重新提交即可gs_guc reload -Z datanode -Z coordinator -N all -I all -c 'upgrade_mode=0'然后提交重试
  • [其他] 【扩容】-【重分布】jsonb中小于1的小数没有0,导致插入报错
    问题现象:jsonb中小于1的小数没有0,导致报错ERROR: XXX invalid input syntax for type jsonDETAIL: Token "." is invalid解决方案:behavior_compat_options参数中增加'display_leading_zero'具体措施:1.查看参数值 behavior_compat_options:show behavior_compat_options2.增加值 display_leading_zero 设置后全局生效:gs_guc reload -Z coordinator -Z datanode -N all -I all -c "behavior_compat_options= 'xx,display_leading_zero'"--xx 表示系统初始配置配置参数,display_leading_zero是新增配置项,追加到最后整改后影响:小数点前为0的,比如0.001,以前select语句的输出是.001,修改后为0.001
  • [其他] 扩容-重分布-存在reindex失败的问题,主键冲突报错
    现象:存在reindex失败的问题,主键冲突报错   规避方法:1、查询表定义(\d+ $table),找到索引列对应的字段2、用找到的字段查询(如:id)$table=lts.lts_task_t groupselect id::text ,count(1) as num from lts.lts_task_t group by 1 having num >1;3、随意再找另一个非空字段(如:tsk_group_id)排查SELECT xc_node_id,tsk_group_id,xmin FROM lts.lts_task_t WHERE id::text::bigint = 44727;4、起事务执行(tsk_group_id以及xmin均为第3步查出的结果)start transaction;select tsk_group_id from lts.lts_task_t where tsk_group_id=1118 and xmin=9247872954;---查出唯一1条记录时在进行删除delete job_id from lts.lts_job_running_log_t where job_id=15 and xmin=9247873466;如果xmin一样,则建议删除时间早的记录commit;
  • 节点GDS访问报错,路由不通
    问题现象:GDS批量业务报错,节点网络不通,路由丢失规避方案:1.对节点进行隔离 xx为对应节点编号cm_ctl stop -n xx    2.及时添加路由 route add -net {bondip}/24 dev ${bondname}sh /etc/init.d/addRoute
  • [其他] DWS正确查看裸金属兼容性列表
    确定DWS集群版本扩容场景,扩容集群版本,在运营面查看集群版本新发集群,运营面创建集群时选择的版本根据集群版本确定配套的底座版本参考升级路径获取配套底座 https://bbs.huaweicloud.com/forum/thread-02112114230588590002-1-1.html根据底座过滤查询兼容性访问兼容性查询系统 https://doc.hcs.huawei.com/solution-cqs-gw/#/HCS810X86选择底座版本选择DWS裸金属查看结果可以查看服务器,CPU,网卡,RAID卡
  • [其他] 【在线扩容】界面报 DWS.9999,无法继续
    【问题现象】在线扩容,界面报 DWS.9999,无法继续【解决方案】  因为有风险评估没有完成 评估代码报错,在界面使用离线扩容跳过该过程
  • [其他] GaussDB(DWS)【在线扩容】重分布失败,进程退出锁超时
    问题现象:       重分布失败,重分布进程退出,重分布状态未变为no原因分析:1.查看重分布状态:cm_ctl query -Cv2.查看哪些表没有完成重分布1)、 找到老的nodegroup名称old_group_nameselect group_name from pgxc_group where in_redistribution='y';2)、 分别连接每个database统计各个database下未重分布的表数量select count(*) from pgxc_class where pgroup='old_group_name';3)、 如果想知道具体未重分布的表名称,可换成如下sql:select pcrelid::regclass from pgxc_class where pgroup='old_group_name';3.查看重分布日志   1)登录cn-1-1进入到沙箱内 ssh ·hostname -i·  2)查看最新的日志:cd $GAUSSLOG/bin/gs_redis/gs_redisxxx      grep 表名 gs_redisxxx 查看报错,有报锁超时解决方法:      界面重试重分布
  • [其他] GaussDB(DWS)【管控面升级】升级工步ecf的容器失败,pod资源不足
    【问题现象】       界面显示升级dbsmonitor,ecf-clustermanager容器工步工步失败,报资源不足【问题版本】        升级到HCS811【问题根因】       cdk集群node节点资源不足之ecf命名空间资源不足【原因分析】 1.界面显示升级dbsmonitor,ecf-clustermanager失败,资源不足2.查看标签为ecf的node资源上有mrs的pod3.了解到mrs有一个服务mrszookeeper,没有删除升级导致残留在ecf标签的node到,新版本HCS811node受标签影响导致ecf的服务获取pod资源不足,导致失败4.下线mrs的服务mrszookeeper,界面重试升级通过【处理方法】         与mrs沟通下线mrszookeeper服务,下线完成后,界面重试失败的服务通过
  • [其他] 【集群升级】
    【问题现象】 点击升级,弹出 DWS.9015 升级任务下发失败【解决方案】查看空闲节点是否有失败记录,有责删除,重试升级