• [运维管理] 【系统资源】日志盘空间不足
    问题现象日志磁盘空间不足问题分析及定界第一步:登录告警节点的后台,执行df -h查看日志盘$GAUSSLOG)占用率:第二步:执行cd $GAUSSLOG,到日志目录文件夹然后执行du -h --max-depth=1,查看日志目录下,各个文件夹占用大小,选择占用大的目录,进行分析文件大小或继续分析子目录大小(du -h --max-depth=1)问题处理如果日志文件较大或日志文件未压缩或日志文件未清理等问题,需先联系华为工程师确定日志文件用途后,删除处理
  • [运维管理] 【系统资源】磁盘已使用百分比异常
    【常见场景】目前识别到的数据磁盘使用率超阈值告警触发场景主要有如下几种:1   用户数据持续增长(vacuum等);2   临时数据落盘;3   xlog回收不及时;4   产生core文件;【基本处理方法】数据磁盘告警阈值一般都比只读阈值小,以保证只读风险被提前识别,此告警处理的基本思路是确认数据磁盘中哪些文件是不该存在的并清理掉他们。步骤1:收到告警后,首先确认触发告警的节点及节点类型(CN/DN/GTM/CMS);步骤2:登陆对应节点,查看集群状态,若集群状态为只读,则说明当前阈值已经超过参数datastorage_threshold_value_check的限制,业务受损,需要快速恢复;使用df -h命令查看当前磁盘使用情况,然后cd命令进入磁盘使用率高的那个目录下,一般情况下会是CN或者DN,对应的数据目录分别为/usr/local/cn和/var/lib/engine/data1/data/dn_x,然后使用du -sh命令确认具体目录的空间占用,排查占用较高的几个子目录,包括core文件,base/pgsql_tmp目录,pg_xlog目录等。步骤3;登录ops运维管理平台,查看实例磁盘使用率,判断是否为用户数据持续增长,如果是用户数据正常增长,需要联系业务侧SRE扩容。步骤4:若pg_xlog目录下文件数量超过10K(当前常见xlog保留数量为256和9600),则说明pg_xlog可能没有正常回收,需要进一步分析xlog不回收的原因,确认原因后(或者磁盘已经只读,需要清理),若当前节点为备机,可以直接将备机的xlog文件删除.步骤5;若数据目录下存在core文件,建议将core文件另外归档后删除。
  • [生态空间] 如何定时循环清理表碎片
    通过存储过程 查询系统表,拼接VACUUM FULL ANALYZE,执行时,提示存储过程或函数无法调用VACUUM ,请问是否有其他变通方式来实现 定时全表碎片处理vacuum在存储过程中调用失败 错误代码:[0]SQL错误码: = 25001 ERROR: VACUUM cannot be executed from a function or multi-command string
  • [运维管理] CstoreColspaceCacheLock
    CstoreColspaceCacheLock这个锁什么情况下会触发,看到很多任务都在等待这个锁?
  • [问题求助] Data studio打开显示同一用户不能打开多个实例
    打开Data Studio就显示这个官方的手册也没有答案:求大佬解答
  • [问题求助] 执行分区报错
    报错内容: SQL 错误 [0A000] ERROR: Un-support feature 详细:The distributed capability is not supported currently.执行sql:CREATE TABLE list_list(month_code VARCHAR2 ( 30 ) NOT NULL ,dept_code VARCHAR2 ( 30 ) NOT NULL ,user_no VARCHAR2 ( 30 ) NOT NULL ,sales_amt int)PARTITION BY LIST (month_code) SUBPARTITION BY LIST (dept_code)(PARTITION p_201901 VALUES ( '201902' )(SUBPARTITION p_201901_a VALUES ( '1' ),SUBPARTITION p_201901_b VALUES ( '2' )),PARTITION p_201902 VALUES ( '201903' )(SUBPARTITION p_201902_a VALUES ( '1' ),SUBPARTITION p_201902_b VALUES ( '2' )));
  • [活动公告] 【HCSD】潜力测试:华为云数据库技能测评来啦~
    未来5年将是国产数据库的主战场。数据库作为竞争最激烈的国产软件赛道,在技术服务、人才发展等方面有着巨量需求。华为云数据库测评热身,快速了解自身数据库水平,闯关So-easy,还有华为手表GT2、无线耳机、华为手环4等万元奖品拿!活动对象:开发者、高校师生、对数据库感兴趣的0基础用户活动内容:参与方式:1、微信扫码报名2、点击链接直接报名活动参与测试【HCSD】潜力测试:华为云数据库技能测评3、扫描官方二维码进行报名测评规则:测评内容:了解数据库的基础理论如关系、表、事务等,SQL基础知识;测评共 (20) 道题,总分100分,通过测评分数80分;需在(60分钟)内交卷,过程中无法暂停,请提前安排好时间;如未及时交卷,则本次考试作废推荐使用Chrome浏览器,或Firefox浏览器本测试2小时内只允许答题一次完成 “华为云数据库自测题”奖励:“华为云数据库自测题”奖励奖品奖品数量HUAWEI FreeLace无线耳机10华为手环4/hilink保温杯20罗技鼠标5032 U盘80加湿器100手机支架100字母笔100文件夹100中奖率是通过自测题人数的20%,实际奖品发放数量将按照奖品数量上限的比率提供。活动规则及注意事项请务必使用个人实名账号参与活动(IAM、企业账号等账号参与无效)抽奖形式:活动结束后,将参与数据导入第三方开源抽奖平台进行抽奖,抽奖过程全程透明公开。抽奖结束后将在此贴公布结果&收集收货信息。为保证活动的公平公正,华为云有权对恶意刷活动资源(“恶意”是指为获取资源而异常注册账号等影响活动公平性的行为),利用资源从事违法违规行为的用户收回抽奖及奖励资格。所有参加本活动的用户,均视为认可并同意遵守《华为云用户协议》,包括以援引方式纳入《华为云用户协议》的《可接受的使用政策》、《法律声明》、《隐私政策声明》、相关服务等级协议(SLA),以及华为云服务网站规定的其他协议和政策(统称为“云服务协议”)的约束。如果您不同意本活动规则和云服务协议的条款,请勿参加本活动。活动奖品颜色随机,且部分奖品数量有限发完将用等值奖品代替本次活动一个实名认证账号只能对应一个获奖人,如同一账号填写多个不同获奖人,不予发放奖励本活动最终解释权归华为云所有,活动规则由华为云在法律规定范围内进行解释。华为云保留不时更新、修改或删除本活动规则的权利。上述更新、修改或删除于公布时即时生效,用户应当主动查阅本活动规则的最新内容。
  • [运维管理] 【实例状态】GaussDB 节点状态异常
    首先登陆实例一个节点,确认集群状态是否正常,若正常,说明已经恢复。排查/home/Ruby/log/watch_dog.log文件,确认对应节点异常时间点日志,若有如下日志,则使用ps命令查看om_agent进程内存是否存在,若存在,则需要确认进程启动时间,若无重启,则说明为误报告警,由于检查om_agent进程失败导致,不影响实例正常运行;否则由于om_agent进程重启导致,需要确认为什么om_agent进程重启。
  • [问题求助] 【GaussDB】查询的时候偶尔会出息如下报错
    数据库在查询的时候,偶尔会出现如下报错:org.postgresql.util.PSQLException: [***:30814/***:8000] ERROR: dn_6007_6008_6009: snapshot is not owned by resource owner TopTransaction
  • [运维管理] 【实例状态】GaussDB GTM服务异常
    问题现象收到GTM服务异常的告警问题分析及界定1.登上集群后台执行cm_ctl query -Cvid命令,查看GTM主备状态: 2.正常情三个GTM的状态应该为Primary Standby OK。 GTM主备有自动重连机制,如果此时为OK,那么证明故障已经恢复。如果过了一段时间仍显示为异常状态,需要继续定位,常见的故障有如下几种:Connection bad1.查看显示不正常的机器是否正常上电,可否登录。如果没有正常上电,或者登录不上,联系IaaS技术支持进行处理。如果正常上电,且可以登录。那么继续定位。2.登录状态不正常的GTM节点,进入GTM的日志目录$GAUSSLOG/pg_log/gtm,查看最新的GTM日志,可以根据故障信息评断是什么问题。 比如如下日志显示为网络异常,备机连不到主机。关键词:could not connect 3.主备IP地址互相PING,发现网络联不通,故障定位为网络异常。联系IaaS技术支持进行处理。4. gtm主备端口进行curl操作,端口不通。查看安全组是否包含gtm的端口,或联系网络进行技术支持。 gtm主备互信的端口,可以在gtm报错日志中查看。 Disk damaged确认磁盘是否损坏,进入沙箱之后依次检查查看cm_agent日志,cd $GAUSSLOG/cm/cm_agent  , 找到对应时间点的cm_agent-xxx.log日志,会有如下记录: data path disc writable test failed,  之后DN进程会被杀死 killing gtm by force1.df检查是否正常挂载 2.echo "hello" > /usr/local/gtm/test.txt是否能正写3.cat /usr/local/gtm/test.txt 是否能正常读。4.如果损坏(如df -h磁盘没有挂载),联系I层尝试修复磁盘故障。5.如果目录被重命名或权限不正确,恢复目录和权限,文件的正确权限为-rw------- 1 Ruby Ruby 39 Mar 11 17:37 gtm.pid,目录的正确权限为drwx------ 3 Ruby Ruby 4.0K Apr 14 19:39 gtm6.如果短时间无法解决,则联系高斯工程师,执行节点替换,使用另一个磁盘无问题的节点替换该问题节点。7.如果DN状态仍有问题,执行节点修复,修复该DN节点。Port conflictingGTM会监听两个接口:6000接口是GTM监听CN连接,6001接口是GTM的HA接口。1.登录到该GTM节点,su - Ruby 进入Ruby用户,ps -ux | more | grep gtm, 查看是否有两个名字完全相同的gtm进程,如果有则联系高斯工程师。2.如果是首次部署的集群,在Ruby用户执行cm_ctl query -Cvidp,查看故障节点上,是否数据库实例之间存在端口相同导致冲突的情况(lsof -i可以看到端口是否被GTM进程之外的程序占用,如6000 6001接口),如果有那么联系华为工程师、集群部署人员,确认并将端口号修改为正确的端口号。 3.lsof -i | grep xxxx(xxxx为GTM的端口号,如6000 6001接口),查看是否有其他进程占用了GTM需要的端口,如果有,联系集群安装部署人员及进程的拥有者,确认并修改该进程的端口号或者数据库的端口号。4.如果还没有解决,联系华为工程师,进行进一步的分析定位。Nic down1.表示网卡故障, root 用户执行ifconfig命令查看网卡是否down掉,如果是网卡故障联系I层检查并修复;2.ethx口上的IP是否存在,如果是IP丢失,重新配置IP。其他状态7.若GTM节点一直无法启动,处于异常状态。需要联系华为工程师进行定位处理。处理步骤1.查看GTM状态是否已经恢复正常。2.判断是否虚拟机故故障 -> 联系IaaS技术支持进行处理。3.判断是否节点所在网络故障 -> 联系IaaS技术支持进行处理。4.判断是否节点所在磁盘故障 -> 联系IaaS技术支持进行处理。5.其他原因 -> 联系华为工程师进行定位处理。
  • [问题求助] 数据API开发sql语句开启预编译后sql报错
    如题,在测试api的时候发现语句:(current_date - interval '${num}' day),会因为预编译而导致执行sql出错的问题。gaussdb原语句是(current_date - interval '30' day),因为涉及到多个参数且参数类型不同,尝试过cast('${num}' as int)方法不成功。也尝试过使用''两个双引号来转义也不行。取消勾选预编译后语句是可以正常运行的,请问是否还有其他方法可以在满足预编译的情况下成功执行这句话?
  • [运维管理] 【实例状态】GaussDB CM服务异常
    首先确认是否是虚拟机、网络故障,底层故障处理:PID文件未清理导致进程启动失败问题现象收到告警CM服务异常,查看集群状态,CM节点显示DOWN问题分析及定界step1.登录到故障对应CMS节点 cd $GAUSSLOG/cm/cm_serverstep2.打开对应时间点的cm_server*.log中是否含有关键词:failed to create the cm server pid file step3.如果有关键词,则此问题是由于虚拟机故障导致pid文件残留导致参照处理步骤方法一处理步骤方法一:cm_ctl query -Cvd 查看对应CMS的数据目录,到数据目录下删除对应的cm_server.pid文件即可恢复磁盘故障问题现象收到告警CM服务异常,查看集群状态,CM节点显示DOWN问题分析及定界step1.登录到故障对应CMS节点 step2.检查磁盘是否故障或占满处理步骤方法一:确认磁盘占满的原因,对磁盘进行清理(如果是日志盘,可清理一个月以前的日志文件)
  • [问题求助] 如何使用java开发对openguass数据库的应用呢?
    如题,网上使用jdbc,odbc连接openguass的教程太少了,求推荐!
  • [运维管理] 【实例状态】GaussDB DN服务异常(下)
    查询集群状态,DN状态为Building问题现象DN服务异常,DN状态为building问题分析及定界a、cm_ctl query -Cvipd查看哪些DN在building,并且会显示build的进度:如:building(80%), 连续查询cm_ctl query -Cvipd观察build进度。 该问题通常发生在业务压力非常大,数据导入太快,DN备的同步读跟不上DN主,DN主日志被回收,导致备DN只能做全量build,当集群重启时更容易发生此问题。此时需要考虑设置打开流控和并行redo等,继续按照步骤b进行定位。b、登录报错节点,su - Ruby, cd $GAUSSLOG/bin/gs_ctl/ 查看gs_ctl日志确定当前处于build的哪个阶段,以及是增量build还是全量build,如果是全量build, 日志中会有FULL_BUILD的字符串,全量build的时间会比增量build长。 继续按照步骤c定位。c、ps ux | grep gaussdb,查看dn进程的启动时间,判断其是否重启过,如果重启过,则参照场景2 DN状态为unknown中的步骤,诊断dn重启的原因查询集群状态,DN状态为Build failed问题现象DN服务异常,DN状态为build failed问题分析及定界a、登录报错节点,su - Ruby, cd $GAUSSLOG/bin/gs_ctl/ 查看gs_ctl日志确定build失败的原因,如果报错信息中出现could not connect to server,则首先按照b继续排查b、检查网络连接情况,ping xxx.xxx.xxx.xxx(主DN ip),如果无法ping通,则按照步骤1处理,否则继续按照步骤c定位c、进入数据目录,数据目录就是cm_ctl query -Cvid查看的结果中实例对应的目录,查看pg_hba.conf的设置是否正确,需要确认主dn的ip是否正确,method是否设置为trust,如果不正确,按照处理步骤2处理,如果正确,按照步骤d继续定位d、连接到步骤a日志中,本地节点需要连接的ip对应的节点,既本DN对应的主DN节点,查看$GAUSSLOG/bin/gs_ctl/下面同时间的日志,查看是否有报错信息,如果有,则按照处理步骤3处理处理步骤1、联系网络运维人员修复.2、联系华为工程师,确定不设置成trust的原因,并确定是否需要修改3、将主备DN对应的报错信息截屏发送给华为工程师,用来做进一步分析查询集群状态,DN状态为CoreDump问题现象dn服务异常,告警DN状态为CoreDump问题分析及定界a、登录到节点后,su - Ruby进入Ruby用户,进入沙箱: 执行如下命令/usr/sbin/chroot --userspec=Ruby:Ruby /var/chroot /bin/bash source /etc/profile && source ~/.bashrcb、cat /proc/sys/kernel/core_pattern 查看里面是否是路径且路径为Ruby用户可访问路径,如果是,则执行步骤b, 否则执行cb、进入该路径并查看是否有core文件生成,如果有core文件生成,则执行处理步骤1c、执行cm_ctl query -Cvipd, 找到当前dn的数据目录,进入数据目录,查看是否有core文件生成,如果有则执行处理步骤1d、cd $GAUSSLOG/ffic_log 查看是否有ffic日志,如果存在ffic日志,则执行处理步骤2处理步骤将core文件下载,并获取高斯内核版本号(gaussdb -V命令),发送给华为工程师 2. 将ffic日志下载,发送给华为工程师查询集群状态,DN状态为ReadOnly问题现象dn服务异常,告警DN状态为ReadOnly问题分析及定界a、df -h 查看磁盘空间分配情况,cm_ctl query -Cvd查看DN数据目录路径,确认所在磁盘空间使用率。b、登陆cmserver主所在节点,cd $GAUSSLOG/cm/cm_server,根据告警时间点,查看cm_server-xxx.log,搜索关键字 Set database to read only mode, 此日志表示当时磁盘使用率超过阈值,DN被设置为只读状态。c、登陆cmserver主节点,进入cmserver数据目录,到cm_server数据目录查看cm_server.conf 配置文件,查看参数datastorage_threshold_value_check的值,当磁盘使用率超过该参数值时,DN就会被设置为只读,避免磁盘被写满。比较DN磁盘使用率是否超过该参数值,如果是,则按照处理步骤1处理,如果否,则按照步骤2处理处理步骤联系华为工程师,确定是否需要扩容或者删除同磁盘的无用文件参考DN只读处理方法
  • [运维管理] 【实例状态】GaussDB DN服务异常(中)
    查询集群状态,DN状态为Need repair问题现象DN服务异常问题分析及定界a、cm_ctl query -Cvipd查看对应的DN分片是否有主(Primary),如果无主,全部是Standby,通常是DN重启后Redo没有完成,需要等待redo完成,如果5分钟还没恢复,执行处理步骤1;如果有DN主,进入下一步bb、确认DN主备间网络是否正常,登录到主DN所在节点,如果无法登录,则需要排查主DN所在节点网络是异常,否则执行cc、在主DN上执行ping xxx.xxx.xxx.xxx(备DN ip) 确定主备DN间网络是否正常d、确认备DN节点的磁盘是否正常、磁盘空间是否充足e、登录到备DN所在节点,ps -ux | more |grep datanode 查看备DN进程的启动时间,确认备DN是否重启过,如果重启过, 则按照Unknow处理流程中的d、e、f、g、h去定位进程重启的原因。如果未重启、按照处理步骤1处理查询集群状态,DN状态为Wait Promoting、Promoting、Demoting问题现象DN服务异常,发生主备倒换问题分析及定界a、如果集群中有DN的状态为Unknown, 则首先按照Unknown的步骤,对Unknown的节点进行分析处理b、如果不存在Unknown节点,则登录到原主DN节点,cd $GAUSSLOG/pg_log/dn_xxx 进入DN日志目录,ls -lrt 并查看告警发生时间,是否新产生了一份日志文件,如果有,则查看上一份日志文件,查看是否有ERROR、Fatal等导致重启的原因,然后按照定位步骤c继续分析;如果没有,按照处理步骤1处理c、按照Unkown的步骤d、e、f,查看是否有core文件或者ffic文件生成。处理步骤1、观察5分钟,查看集群是否恢复正常,如果可恢复正常,则表示DN主备切换完成,观察集群状态和业务是否恢复,后续定位主备切换原因。如果没有,可以联系华为工程师处理。查询集群状态,DN状态为Disk damaged问题现象DN服务异常,DN状态为Disk Damaged问题分析及定界a、确认磁盘是否损坏,如果损坏,则按照处理步骤1b、如果磁盘无问题,则查看DN数据目录是否被删除,或者被重命名,或者目录的读写权限以及用户组权限是否正确,参照处理步骤2处理 通过命令ps ux | grep “--datanode” 查询DN的数据目录查看DN数据目录和权限:c、有可能是磁盘IO性能差,或者磁盘IO压力太大,无法正常读写,导致检测认为磁盘故障,此时降低业务压力,或更换IO更高的磁盘。 上述3种情况查看cm_agent日志,cd $GAUSSLOG/cm/cm_agent , 找到对应时间点的cm_agent-xxx.log日志,会有如下记录: data path disc writable test failed, 之后DN进程会被杀死 killing datanode by force 处理步骤:1、联系I层尝试修复磁盘故障,如果短时间无法解决,则联系华为工程师,执行节点替换,使用另一个磁盘无问题的节点替换该问题节点2、如果目录被重命名或权限不正确,恢复目录和权限(读写权限、用户组权限),如果DN状态仍有问题,执行节点修复,修复该DN节点。查询集群状态,DN状态为Port conflicting问题现象DN服务异常,DN状态为port conflicting问题分析及定界a、登录到该DN节点,su - Ruby 进入Ruby用户,ps -ux | more | grep datanode, 查看是否有两个名字完全相同的DN进程,如果有则联系华为工程师;如果没有,则按照步骤b继续定位b、如果是首次部署的集群,在Ruby用户执行cm_ctl query -Cvidp,查看故障节点上,是否数据库实例之间存在端口相同导致冲突的情况,如果有,按照处理步骤1处理,如果没有,则按照步骤c继续定位c、lsof -i | grep xxxx(xxxx为DN的端口号),查看是否有其他进程占用了数据库需要的端口,如果有,则按照处理步骤2处理。处理步骤1、联系集群部署人员,确认并将端口号修改为正确的端口号。2、联系集群安装部署人员及进程的拥有者,确认并修改该进程的端口号或者数据库的端口号
总条数:1539 到第
上滑加载中