• [其他] 【安装】操作系统shared_buffers参数的值大于kernel.shmmax
    问题背景与现象安装OMS失败。原因分析查看gaussDB安装日志“/var/log/gaussdbinstall.log”。操作系统shared_buffers参数的值大于kernel.shmmax。解决办法编辑“/etc/sysctl.conf”文件,设置“kernel.shmmax”的值,格式如下。kernel.shmmax = value建议将shmmax的值设置为物理内存大小的一半。可用如下命令查看本机的物理内存:grep MemTotal /proc/meminfo显示类似如下的信息:MeMTotal: 6088240 kB则kernel.shmmax的大小可设置为6088240*1024/2=3117178880。kernel.shmmax = 3117178880执行如下命令,使SUSE Linux启动时自动读取内核参数。/sbin/chkconfig boot.sysctl on执行如下命令使内核参数生效。/sbin/sysctl -p 
  • [其他] 【安装】root用户属组不对导致安装gaussdb失败
    问题背景与现象安装OMS失败。原因分析查看“/var/log/Bigdata/omm/oms/install_oms.log”。手动执行报错的命令:可以看出是root用户的属组不对。解决方法修改root用户属组id为0,重新安装OMS。
  • [其他] 【安装】系统信号量不足导致安装gaussdb失败
    问题背景与现象安装OMS失败。原因分析查看gaussDB安装日志(/var/log/gaussdbinstall.log),发现是初始化db失败,进而查看初始化db日志(/home/ommdba/gs_initdb-2016-06-13_162302.log):日志中显示创建信号量失败,原因为超过了操作系统信号量资源的使用限制。【检查方法】:执行如下命令,查看操作系统信号量资源的限制参数:sysctl kernel.semkernel.sem = 2500 32000 1000 128其中第4个数据对应系统内核的SEMMNI参数,该参数用于控制整个Linux系统中信号集的最大数量。就GaussDB而言,这个参数至少应该为(max_connections / 16 + 1)。解决办法增大操作系统信号量资源的限制参数值(具体大小需要业务根据自己的资源使用来确定):修改内核配置文件"/etc/sysctl.conf",在此文件的任意位置增加如下参数:kernel.sem = 2500 32000 1000 1280Suse系统执行如下命令,使SUSE Linux启动时自动读取内核参数。(Red Hat系统可忽略)/sbin/chkconfig boot.sysctl on执行如下命令使内核参数生效。/sbin/sysctl -p修改后重新安装OMS即可。
  • [其他] 【安装】"/etc/hosts”配置不对导致安装OMS失败
    问题背景与现象安装OMS失败,查看安装日志,提示could not translate host name "localhost" to address。原因分析查看安装日志“/var/log/Bigdata/controller/scriptlog/install.log”,报如下错误:从日志中可以看出是无法解析localhost的IP地址导致连接数据库失败,进而导致安装OMS失败。这是因为“/etc/hosts”中没有配置localhost 127.0.0.1。解决办法在“/etc/hosts”中增加一行localhost 127.0.0.1,卸载后重新安装。
  • [其他] 【安装】安装备OMS时启动ntp失败
    问题背景与现象主OMS已安装成功,安装备OMS时启动ntp失败,提示Wait for ntp to startup timeout。===================================Welcome================================================== STEP 1 Preparing components...The ws_float_ip (10.103.100.106) already exists on the network.  Is it used on the active OMS HA? (y/n):yThe om_float_ip (10.103.100.104) already exists on the network. Is it used on the active OMS HA? (y/n):y=== STEP 2 Install packages. It may take several minutes. Please wait...    Waiting for ntp to satrtup.............................................................ERROR:Wait for ntp to startup timeout.ERROR:Installation failed.            Please run the following script to delete useless files:           /opt/huawei/Bigdata/om-0.0.1/inst/uninstall.sh原因分析分析NTP日志(/var/log/ntp.log),发现端口不同拒绝连接,提示connect refused。检查防火墙设置:chkconfig -lst | grep fire。解决办法先卸载已安装的备OMS。关闭防火墙设置。chkconfig SuSEfirewall2_setup offchkconfig SuSEfirewall2_init off重新安装备OMS,安装成功。
  • [其他] 【安装】安装OMS提示解密失败
    问题背景与现象安装OMS失败,报Failed to get omm db password。原因分析查看安装日志(/var/log/Bigdata/controller/scriptlog/install.log),报如下错误:java.security.InvalidKeyException: Illegal key size or default parameters        at javax.crypto.Cipher.checkCryptoPerm(Cipher.java:1011)        at javax.crypto.Cipher.implInit(Cipher.java:786)        at javax.crypto.Cipher.chooseProvider(Cipher.java:849)        at javax.crypto.Cipher.init(Cipher.java:1213)        at javax.crypto.Cipher.init(Cipher.java:1153)        at org.wcc.framework.util.encrypt.PasswordUtil.decryptByAes256(PasswordUtil.java:180)        at org.wcc.framework.util.encrypt.PasswordUtil.decryptByAes256(PasswordUtil.java:146)        at com.omm.encrypt.DecryptCommandMain.decryptCommandLine(DecryptCommandMain.java:71)        at com.omm.encrypt.DecryptCommandMain.main(DecryptCommandMain.java:130)[2014-12-09 10:58:47] ERROR Failed to get omm db password. [installcontroller.sh(main):788](12851)2.解密失败的原因最常见的就是JDK的版本不匹配,大数据FusionInsight系统会在omm用户下安装JDK。如果在安装以前root用户下已经有JDK或者JAVA_HOME环境变量,可能会导致安装FusionInsight失败。解决办法请卸载root用户下的JDK和JAVA_HOME。可以通过在root用户下执行env |grep JAVA_HOME查看。如果存在,请在“/root/.bash_profile”文件中去除JAVA相关环境变量,或者彻底删除安装的JDK,或者清除“/etc/profile”中的JAVA_HOME相关变量。
  • [其他] 【安装】安装Ldap错误导致OMS安装失败
    问题背景与现象OMS安装失败。原因分析查看日志,提示Failed to install ldap,具体内容如下:[2014-12-10 05:52:56] ERROR cleanUpCMD=/opt/huawei/Bigdata/om-0.0.1//ldapserver/ldapserver/ldapserver_wrap.sh [installLdap.sh(cleanup):173](31064)ERROR:cleanUpCMD=/opt/huawei/Bigdata/om-0.0.1//ldapserver/ldapserver/ldapserver_wrap.sh[2014-12-10 05:52:56] ERROR Failed to install ldap.scriptName=/ldapserver/ldapserver/ldapserver_wrap.sh,postinstallCMD=/opt/huawei/Bigdata/om-0.0.1//ldapserver/ldapserver/ldapserver_wrap.sh [installLdap.sh(postinstall):212](31064)ERROR:Failed to install ldap.scriptName=/ldapserver/ldapserver/ldapserver_wrap.sh,postinstallCMD=/opt/huawei/Bigdata/om-0.0.1//ldapserver/ldapserver/ldapserver_wrap.sh[2014-12-10 05:52:56] ERROR The input parameter is incorrect. [installLdap.sh(install):256](31064)ERROR:The input parameter is incorrect.[2014-12-10 05:52:56] ERROR install server failed [installLdap.sh(main):296](31064)ERROR:install server failed[2014-12-10 05:52:56] ERROR Failed to install the ldap [installLdap.sh(main):331](31064)2.查看“/var/log/Bigdata/oldapserver/ldapserver_install.log”,发现如下异常。2014-12-10 05:52:56 566 linux-126 SlapdServer ERROR ldap server rpm is not installed!2014-12-10 05:52:56 569 linux-126 SlapdServer ERROR ldap server rpm is not installed!解决办法缺少Ladp的相关rpm包,需要执行preinstall来进行包的添加。
  • [其他] 【安装】文件权限不对导致Preinstall执行失败
    问题背景与现象使用omm用户进行扩容,在执行preinstall的时候出现如下错误,报Permission denied。Connection to 182.218.146.10/ closed.Error: Execute failed on 182.218.146.107 (1)[Mon May 14 15:23:13 CST 2018] Error: Gen workspace failede on 182.218.146.107mkdir: cannot create directory '/opt/fi-preinstall': Permission denied原因分析分析preinstall日志(/tmp/fi-preinstall.log),日志中的打印和截图反馈中的相同,没有权限。查看 /opt/FusionInsight_SetupTool文件属组,发现是root:root执行preinstall的节点是oms节点,查看该节点omm用户并没有执行提权脚本preset.sh。解决办法修改属组在opt目录下执行chown omm:wheel FusionInsight_SetupTool -R在oms节点上也执行sh /opt/preset/preset.sh提权命令。如果存在root属组的/tmp/fi-preinstall.log文件先mv掉,避免omm用户没有权限写入日志。重新执行preinstall,问题解决。
  • [其他] 【安装】磁盘空间不足导致RPM安装失败
    问题背景与现象执行Preinstall,发现Add Package Failed导致PreInstall失败。原因分析分析preinstall日志(/tmp/fi-preinstall.log)。Preparing...                ###Preparing...                ############xorg-x11-libICE             ##################################################xorg-x11-libSM              ##################################################xorg-x11-libxcb             #####################################################xorg-x11-libX11             ##############################################################################installing package xorg-x11-libXau-7.4-1.15.x86_64 needs 20KB on the / filesysteminstalling package xorg-x11-libICE-7.4-1.15.x86_64 needs 132KB on the / filesysteminstalling package xorg-x11-libSM-7.4-1.18.x86_64 needs 176KB on the / filesystemError: Execute failed on 192.168.29.32 (17) ###[Mon Jun  8 15:51:38 CST 2015] Info: Run ./script//function/remote.sh -i 192.168.29.32 -P 22 -u root -a /tmp/fi-preinstall-ctrl/preinstall-p.bin -t 300 -m ssh-cmd -c rpm -ivh /tmp/fi-preinstall/192.168.29.32_rpms_dir/*.rpm failed, ret code:17[Mon Jun  8 15:51:38 CST 2015] Error: Install [ xorg-x11-libICE xorg-x11-libSM xorg-x11-libX11 xorg-x11-libXau xorg-x11-libXext xorg-x11-libXfixes xorg-x11-libXmu xorg-x11-libXp xorg-x11-libXpm xorg-x11-libXprintUtil xorg-x11-libXrender xorg-x11-libXt xorg-x11-libXv xorg-x11-libfontenc xorg-x11-libs xorg-x11-libxcb xorg-x11-libxkbfile ] on 192.168.29.32 failed. Please check rpm packages version.[Mon Jun  8 15:51:38 CST 2015] Info: Add packages failed on 192.168.29.322.根目录磁盘空间不足,导致安装失败。解决办法清理根目录磁盘空间或者扩容。执行preinstall。
  • [其他] 【安装】版本过高导致RPM安装失败
    问题背景与现象执行Preinstall,Add Package Failed导致PreInstall失败。原因分析分析Preinstall日志(/tmp/fi-preinstall.log)。[Thu Apr  9 18:16:17 CST 2015] Info: Run ./script//function/remote.sh -i 192.168.17.33 -P 22 -u root -a /tmp/fi-preinstall-ctrl/preinstall-p.bin -k /tmp/fi-preinstall-ctrl/known_hosts -t 300 -m ssh-cmd -c rpm -ivh /tmp/fi-preinstall/192.168.17.33_rpms_dir/*.rpm failed, ret code:16[Thu Apr  9 18:16:17 CST 2015] Debug: [/opt/patch/packages/squid-3.1.10-19.el6_4.x86_64.rpm] Leave [get_rpm_file:77][Thu Apr  9 18:16:17 CST 2015] Error: rpm -ivh /tmp/fi-preinstall/192.168.17.33_rpms_dir/*.rpm failed on 192.168.17.33[Thu Apr  9 18:16:17 CST 2015] Error: Add packages failed on 192.168.17.33 [Thu Apr  9 18:16:16 CST 2015] Debug: Leave [exec_cmd_r:60][Thu Apr  9 18:16:16 CST 2015] Debug: Leave [check_rpms_dir:86][Thu Apr  9 18:16:16 CST 2015] Error: [192.168.17.39] Setup os failed2.OS在安装完成后,又安装了OS补丁,有些RPM被升级到高版本了,导致有些有依赖关系的RPM包安装失败。解决办法            方法一:卸载OS补丁后,再重新执行preinstall。 方法二:下载高版本的RPM包,手动安装RPM包。
  • [其他] 【安装】文件权限导致OS优化失败
    问题背景与现象执行Preinstall,发现OS优化失败导致PreInstall失败,提示Operation not permitted。原因分析分析Preinstall日志(“/tmp/fi-preinstall.log”)。Modify /etc/sysctl.conf failed for kernel.sysrq.sed: cannot rename /etc/sedEVdcVQ: Operation not permitted[192.168.17.39]Error: run /tmp/fi-preinstall/modules/050.setup/centos-6.x/setup.sh failed[192.168.17.39]Error: run setup_main 050.setup in [/tmp/fi-preinstall/modules/050.setup] failed[Thu Apr  9 18:16:16 CST 2015] Debug: [/opt/patch/packages:m2crypto.x86_64:0] Enter [get_rpm_file:23]Debug: Missing:bind.x86_64[192.168.17.39]Error: install failedError: Execute failed on 192.168.17.39 (50) [Thu Apr  9 18:16:16 CST 2015] Debug: [/opt/patch/packages:python-simplejson.x86_64:0] Enter [get_rpm_file:23][Thu Apr  9 18:16:16 CST 2015] Info: Run ./script//function/remote.sh -i 192.168.17.39 -P 22 -u root -a /tmp/fi-preinstall-ctrl/preinstall-p.bin -k /tmp/fi-preinstall-ctrl/known_hosts -t 18000 -m ssh-cmd -c bash /tmp/fi-preinstall/modules/install.sh -i "192.168.17.39" -p "0"        -c "" -s "1" -d "1" -k "1" -o "redhat-6.3;redhat-6.4;redhat-6.5;suse-11.1;suse-11.2;centos-6.4;centos-6.5" failed, ret code:50[Thu Apr  9 18:16:16 CST 2015] Debug: Leave [exec_cmd_r:60][Thu Apr  9 18:16:16 CST 2015] Debug: Leave [check_rpms_dir:86][Thu Apr  9 18:16:16 CST 2015] Error: [192.168.17.39] Setup os failed“/etc/sysctl.conf”这个文件添加了隐藏权限(i权限),导致文件修改失败。解决办法执行lsattr -a /etc/sysctl.conf查看文件隐藏权限。执行chattr -i /etc/sysctl.conf删除文件隐藏权限(i权限)。
  • [其他] 【安装】swap分区不一致导致磁盘格式化失败
    问题背景与现象执行Preinstall,发现磁盘格式化失败导致PreInstall失败,提示Disk format failed。原因分析分析PreInstall日志(“/tmp/fi-preinstall.log”)。[Fri Jun  5 11:04:04 CST 2015] [ERROR] [check_swap:1058] sys swap and fstab swap are different.^M[Fri Jun  5 11:04:04 CST 2015] [ERROR] [check_system:622] check swap failed.^M[Fri Jun  5 11:04:04 CST 2015] [ERROR] [main:3216] check system failed.^M[Fri Jun  5 11:04:04 CST 2015] [INFO] [rollback_mount:2943] rollback no mount any yet.^M[Fri Jun  5 11:04:04 CST 2015] [ERROR] [none:3527] execute autopart.sh failed.^M[192.10.10.10]Error: run /tmp/fi-preinstall/modules/070.autopart/autopart/autopart.sh failed^M[192.10.10.10]Error: run autopart_main 070.autopart in [/tmp/fi-preinstall/modules/070.autopart] failed^M/tmp/fi-preinstall/modules/install.sh: line 249:  6036 Terminated              bash ${gc_mian_path}/${path}/schedule.sh "${gc_p_sched_file}" "${gc_sched_file}"^M[192.10.10.10]Error: install failed^MError: Execute failed on 192.10.10.10 (70)2.系统中的swap分区和“/etc/fstab”中的swap分区不一致。解决办法            1.执行swapon -s查看系统是否存在中swap分区。如果存在,请关闭(swapoff -a)。 2.检查“/etc/fstab”文件中是否包含swap分区记录信息,如果存在,请删除。
  • [其他] 【安装】磁盘数量不足导致磁盘格式化失败
    问题背景与现象执行Preinstall,发现磁盘格式化失败导致PreInstall失败,提示Disk format failed。原因分析1、析PreInstall日志(/var/log/fi-preinstall.log)[Fri Jun  5 10:15:30 CST 2015] [INFO] [get_blank_disk:1733] dev(sda) exists in mount.^M[Fri Jun  5 10:15:30 CST 2015] [INFO] [get_blank_disk:1733] dev(sdb) exists in mount.^M[Fri Jun  5 10:15:30 CST 2015] [INFO] [match_dev_size:1892] dev(sdc) size(99G) can match min required size(1G).^M[Fri Jun  5 10:15:30 CST 2015] [INFO] [disk_line_ready:2016] ready line conf(datanode1.conf) match dev(sdc) without condition.^M[Fri Jun  5 10:15:30 CST 2015] [ERROR] [disk_line_ready:2053] ready line conf(datanode2.conf) can not match dev.^M[Fri Jun  5 10:15:30 CST 2015] [ERROR] [disk_ready:2093] disk ready line(datanode2.conf  y  y  n ) invalid.^M[Fri Jun  5 10:15:30 CST 2015] [ERROR] [main:3300] disk ready failed.^M[Fri Jun  5 10:15:30 CST 2015] [INFO] [rollback_mount:2943] rollback no mount any yet.^M[Fri Jun  5 10:15:30 CST 2015] [ERROR] [none:3527] execute autopart.sh failed.^M2、服务器的空闲磁盘不足,导致datanode2挂载失败。解决办法如果是规划磁盘已经被挂载到系统中,请先卸载磁盘,再重新执行preinstall。如果是服务器磁盘不足,请添加磁盘,或调整集群规划减少挂载磁盘。
  • [其他] 【安装】reinstall报set os parameters fai
     1、适用版本FusionInsight V100R002C70*FusionInsight V100R002C80*GaussDB 200GaussDB 300FusionInsight Elk 6.5.1GaussDB A 8.0.02、问题背景与现象安装GaussDB 200GaussDB 300时报set os parameters failed、set os tcp failed;报找不到hung_task_timeout_secs、hung_task_panic或其它某个名称的参数,示例如下:3、原因分析/etc/sysctl.conf配置文件中存在无效参数,导致FI适配层在配置os参数,执行sysctl -p使参数生效时报错。4、解决办法登录执行报错的节点。切换用户到root打开/etc/sysctl.conf文件,找到报错的参数行,在行首添加#将其注释掉。
  • [其他] 【总结】【通信】GaussDB 200 网络问题定位指南
    1      问题背景GaussDB 200分布式数据库,通常由于各种网络问题,导致查询异常、丢包、数据发送失败、并发作业hang等问题。网络问题产生的原因有很多种,例如网关ping不通、路由错误、子网掩码配置有误、IP冲突、节点间连接被关闭,MTU值不一致等。掌握网络问题定位方法对于大集群环境下快速解决网络故障至关重要。2      定位策略2.1      常用视图目前,GaussDB 200对外提供两类视图来辅助网络问题的分析定位,两类视图说明如下表所示,具体用法详见第三章的3.3节。pgxc_thread_wait_status    ☆☆☆☆☆查询集群全局所有线程的层次调用关系及查询在整个集群节点上的等待状态,确定查询阻塞状态。630版本对等待视图进行增强,丰富wait status列的显示信息,且将更多存在耗时等待可能的场景纳入wait status中,扩展之前none中间过渡状态为明确的状态,尽可能地辅助用户一键式查询等待视图获知更多系统实时等待信息。pg_comm_send_stream   ☆☆☆☆展示单个DN上所有的通信库发送流状态。登录到单个DN节点,查询此视图,如果视图中某个state的值持续为CTRL_HOLD,说明发送数据阻塞。pg_comm_recv_stream   ☆☆☆☆与pg_comm_send_stream视图对应,展示单个DN上所有的通信库接收流状态。 2.2      定位方法及处理措施通信问题分类如下图2.1,如集群部署在新的环境上通信就没成功过,首先怀疑是系统环境问题,此时需要检查系统环境问题以及集群配置;否则可能是节点故障导致执行报错。图2.1 通信问题分类针对这些问题具体的诊断措施及处理方法如下表2.1:表2.1 通信问题诊断措施及处理方法问题分类问题名称检查方式解决方案系统环境问题防火墙问题查看连接两端防火墙状态,检查是否有特殊规则iptables -L关闭防火墙或清理防火墙规则  service iptables stop网卡的MTU值是否一致查看连接两端网卡MTU(ethX指业务网卡)  ifconfig ethX|grep -i mtu设置MTU,如设置为1500  ifconfig ethX mtu 1500Redhat+bond+sctp造成的通信问题检查SctpChecksumErrors,不等于0则有问题  cat /proc/net/sctp/snmp|grep SctpChecksumErrors升级内核sctp模块或关闭checksums规避  echo 1 > /sys/module/sctp/parameters/no_checksums集群配置问题listen端口不存在CN日志出现如下报错  Error message: could not connect to server: Connection refused检查DN listen端口是否存在,listen端口协议是否正确  ssh 10.185.240.51 "netstat -anop|grep 31350|grep LISTEN"  需正确配置listen端口,保持与pgxc_node中的配置一致local_bind_address配置错误CN日志出现如下报错  Error message: sctp could not translate host name "192.168.1.215,192.168.1.155", errno: 111postgresql.conf中的local_bind_address字段只能设置一个IPIP不在受信任列表DN日志出现如下报错  FATAL: no pg_hba.conf entry for host "100.144.192.22"将100.144.192.22加入pg_hba.conf受信任列表节点偶发故障进程Core、OOM、DN主备切换ps ux检查被连接进程启动时间  查看被连接进程是否有重启日志非通信问题,进一步分析宕机、网卡故障查看被连接进程所在单板系统日志  vi /var/log/messages非通信问题,进一步分析内存不足导致发送失败CN日志报错  LOG:  Connection error datanode6  到报错DN日志上找到连接的对端  Poll has already closed by remote node[4]: datanode3  到连接对端DN上根据debug_query_id,找到断开连接的报错原因  Cannot allocate memory检查是否运行drop cache脚本  检查min_free_kbytes是否为系统总内存的5%以上  /sbin/sysctl -a|grep min_free_kbytes 节点持续故障节点状态问题cm_ctl查看节点状态非通信问题,进一步分析DN线程死锁gstack查看DN进程堆栈,发现死锁  如堆栈出现类似__lll_lock_wait非通信问题,进一步分析DN连接数满DN日志出现如下报错  FATAL: sorry, too many clients already, active/non-active: 15/185.增大postgresql.conf文件中的max_connections或减小并发随机端口用尽CN日志出现如下报错  Error message: sctp bind of localaddr 192.168.1.116 is not successfull and   errno 98查看随机端口配置是否合理  sysctl -a|grep ip_local_port_range  查看连接数,如连接数过大,需减小并发  netstat -anop|wc -l注:关闭防火墙或清理防火墙规则service iptables stop如果遇到如下报错:Redirecting to /bin/systemctl stop iptables.serviceFailed to stop iptables.service: Unit iptables.service not loaded.可以执行,来关闭防火墙:systemctl stop firewalldsystemctl disable firewalld原因:在CentOS 7或RHEL 7或Fedora中防火墙由firewalld来管理,不是iptables.service。2.3      基本步骤连接失败报错后可按照以下步骤进行定位:Step1. 检查是否是环境问题(防火墙,MTU,参数)·         若在连接报错之前集群已经不正常,优先考虑是环境问题导致,需检查防火墙、MTU、参数等;若系统环境配置均正确,继续检查系统集群配置;·         若在连接报错之前集群正常,则考虑可能是节点故障导致,继续定位;Step2. 检查集群个节点状态,检查是否有DN重启,网卡故障,宕机等若存在此类情况,说明是节点故障导致连接报错,继续定位;Step3. 通过报错的详细信息,查找日志·         若是gsql客户端查询报错,直接查看CN节点日志,通过报错日志查找debug_query_id,若未分配,通过线程id往上继续查看详细信息;若已分配,根据debug_query_id继续查看日志信息;·         根据上述线程id或debug_query_id,查找当前日志信息中的关键信息,若存在与对端节点相关的记录,则到对端节点上继续根据线程id或debug_query_id查找关键信息;以此类推,直到找到连接报错最终原因;Step4. 若上述方法仍然无法定位,查看不接受连接节点的堆栈信息。2.4      常用命令在进行网络问题定位过程中,经常会用到例如网络测速、网络参数调整等与网络相关的一系列操作,本节主要介绍在定位过程如何通过命令行配置网卡速度、测试网络实际带宽、查询网卡缓存队列长度、查看丢包信息、调整网络相关参数等。2.4.1        测试网络速度通过网络测速命令speed_test,可以测试网络的速度,并能验证网络可连接,万兆网络速度应该在700MB以上。# cd $GAUSSHOME../.././huawei/wisequery/script/inspection/lib/checknetspeed/# ./speed_test send 10.185.180.119 10001 tcp# ./speed_test recv 10.185.180.119 10001 tcp查看网络设备状态的统计信息,可看到eth8每秒接收和发送的数据包以及接收和发送的字节数。# sar -n DEX 12.4.2        测试节点间网络是否可连通过网络连接命令speed_test connect,可以测试两个DN或者CN到DN之间的网络是否可连接。# cd $GAUSSHOME../.././huawei/wisequery/script/inspection/lib/checknetspeed/# ./speed_test connect 10.185.180.119 10001 tcp2.4.3        查询网卡缓存队列长度大集群大负荷环境值设计要大,比如这个设置的4096,否则容易丢包。# ethtool -g eth0Ring   parameters for eth0:Pre-set   maximums:  --最大配置RX:             4096RX   Mini:        0RX   Jumbo:       0TX:             4096Current   hardware settings: --当前配置RX:             4096RX   Mini:        0RX   Jumbo:       0TX:             40962.4.4        查看丢包信息通过以下两种方式查看丢包信息:1、执行gsar.sh脚本,观察drop和resend,比例不高于0.01%,说明无丢包。# sh gsar.sh eth82、命令行方式查询RX表示接收的包,dropped表示丢包的数量,一般只有RX会有丢包,TX发送队列没有丢包,本网卡MTU的值是1500。# ifconfig -abond0     Link encap:Ethernet  HWaddr C0:BF:C0:20:29:49          inet addr:84.*. *. *  Bcast:84. *. *. *  Mask:255.255.255.0          inet6 addr:   fe80::c2bf:c0ff:fe20:2949/64 Scope:Link          UP BROADCAST RUNNING MASTER   MULTICAST  MTU:1500  Metric:1          RX packets:8834946013 errors:0 dropped:12379671 overruns:0 frame:0          TX packets:1295482128 errors:0   dropped:0 overruns:0 carrier:0          collisions:0 txqueuelen:0          RX bytes:13235953570465 (12622788.9   Mb)  TX bytes:83375946600 (79513.4 Mb)2.4.5        检查通信协议参数GAUSSDB对OS通信协议参数有严格约束,集群安装前置脚本会配置这些参数,gs_checkos也可以检查配置是否正确,如需人工排查,可使用net_para_check.sh脚本检查通信相关参数,要求修改为“must be”后的值。# sh net_para_check.sh通信依赖的系统内核、通信协议参数如下,定位过程中,无需关注所有参数,使用以上net_para_check.sh脚本直接检查即可。net.sctp.sctp_mem=94500000       915000000       927000000net.sctp.sctp_rmem=8192 250000 16777216 net.sctp.sctp_wmem = 8192 250000 16777216 net.ipv4.tcp_wmem=8192 250000 16777216 net.ipv4.tcp_rmem=8192 250000 16777216net.core.netdev_max_backlog=65535net.ipv4.tcp_max_syn_backlog=65535net.core.somaxconn=65535net.ipv4.tcp_syncookies=1net.ipv4.tcp_retries2=80net.ipv4.tcp_keepalive_time=30net.ipv4.tcp_keepalive_intvl=30net.ipv4.tcp_keepalive_probes=9net.ipv4.tcp_max_tw_buckets=10000net.ipv4.tcp_tw_reuse=1net.ipv4.tcp_tw_recycle=1不使用drop cache脚本的环境需将vm.min_free_kbytes设置为系统内存的5%,最大15Gb,网卡收发队列设置为4096。 2.4.6        查看TCP协议栈缓存状态如遇到集群hang,怀疑是网络收发问题时,可通过观察TCP协议栈缓存状态确认。·         TCP协议栈接收缓存排序netstat -ant|awk '{print $2,$4,$5}'|sort -rn|head·         TCP协议发送栈缓存排序netstat -ant|awk '{print $3,$4,$5}'|sort -rn|head排查步骤:Step1. 集群产生hang,怀疑数据发送阻塞,首先查看发送缓存排序,如下图:Step2. 切换到接收端机器,根据发送端端口56614查看接收协议栈缓存状态,如下图:       有图中可看出,接收端接收了123120KB的数据。Step3. 分析导致发送协议栈缓存堆积的有以下几种原因:1)      观察对端接收协议栈,如接收协议栈空闲,则网络本身不通畅或达到网络性能上限,排查带宽瓶颈,排查单个CPU核是否满载。2)      持续观察接收端进程堆栈,接收线程是否存在hang或阻塞。Step4. 本例中,Step2步查询结果表明接收协议栈空闲,此时继续查看带宽使用情况,由下图可知,此场景是由于带宽达到上限导致。##常见案例,见附件,请留下邮箱,我们会将文件发送到您邮箱
总条数:2323 到第
上滑加载中