HBase_标签_开发者

博客(982)
视频(2)
论坛(138)
云声(0)
代码示例(0)

【鲲鹏翱翔】大数据组件03-Hbase2.1.0移植安装指南

1. 简介HBase–Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群，海量数据的快速随机访问。2. 部署环境Packet NameVersionDetailCentOSCentOS 7.5 64bit with ARMarm通用计算增强型 2vCPUs | 4GB | kc1.large.2Hbase2.1.0GCC4.8.5Yum安装MavenApache-maven-3.3.9 JDK1.8.0_191 Protoc2.5.0 3. 安装部署3.1安装基本依赖库yum install gcc.aarch64 gcc-c++.aarch64 gcc-gfortran.aarch64 libgcc.aarch64yum install openssl-devel zlib-devel automake libtool cmake3.2 安装OpenJDK下载OpenJDK安装包wget https://github.com/AdoptOpenJDK/openjdk8-binaries/releases/download/jdk8u191-b12/OpenJDK8U-jdk_aarch64_linux_hotspot_8u191b12.tar.gz解压安装包tar -zxvf OpenJDK8U-jdk_aarch64_linux_hotspot_8u191b12.tar.gz创建指定文件夹mkdir -p /opt/tools/installed将JDK移动到相应位置mv jdk8u191-b12 /opt/tools/installed/3.3 安装Mavenwget https://archive.apache.org/dist/maven/maven-3/3.3.9/binaries/apache-maven-3.3.9-bin.tar.gztar -zxvf apache-maven-3.3.9-bin.tar.gzmv apache-maven-3.3.9 /opt/tools/installed/下载Maven安装包配置环境变量，在/etc/profile后面加上JAVA_HOME=/opt/tools/installed/jdk8u191-b12MAVEN_HOME=/opt/tools/installed/apache-maven-3.3.9PATH=$MAVEN_HOME/bin:$JAVA_HOME/bin:$PATHexport MAVEN_HOME JAVA_HOME PATH运行命令，使环境变量生效source /etc/profile3.4 安装Protocwget https://github.com/protocolbuffers/protobuf/releases/download/v2.5.0/protobuf-2.5.0.tar.gztar -zxvf protobuf-2.5.0.tar.gzcd protobuf-2.5.0下载并解压源码打上补丁cp protoc.patch ./src/google/protobuf/stubs/cd ./src/google/protobuf/stubs/patch -p1 < protoc.patch补丁地址：https://obs-mirror-ftp4.obs.cn-north-4.myhuaweicloud.com/tools/protoc.patch安装./autogen.sh && ./configure CFLAGS='-fsigned-char' && make && make install 3.5 编译Hbase下载Hbase安装包wget http://archive.apache.org/dist/hbase/2.1.0/hbase-2.1.0-src.tar.gztar –zxvf hbase-2.1.0-src.tar.gzcd hbase-2.1.0安装Protoc依赖mvn install:install-file -DgroupId=com.google.protobuf -DartifactId=protoc -Dversion=2.5.0 -Dclassifier=linux-aarch_64 -Dpackaging=exe -Dfile=/usr/local/bin/protoc执行编译mvn clean package -DskipTests assembly:single4 FAQ编译时报错：[ERROR] Failed to execute goal org.xolstice.maven.plugins:protobuf-maven-plugin:0.5.0:compile (compile-protoc) on project hbase-protocol: Missing:执行mvn install:install-file -DgroupId=com.google.protobuf -DartifactId=protoc -Dversion=2.5.0 -Dclassifier=linux-aarch_64 -Dpackaging=exe -Dfile=/usr/local/bin/protoc可解决问题。

南七技校林书豪 发表于2020-02-17 18:00:42 2020-02-17 18:00:42 最后回复机器人木木 2020-07-17 16:08:04
3695 3

鲲鹏 HBase 大数据
hbase-shaded-netty-2.1.0.jar移植指南

1 编译环境准备1.1 安装Openjdk下载并安装到指定目录（如/opt/tools/installed）：wget https://github.com/AdoptOpenJDK/openjdk8-binaries/releases/download/jdk8u191-b12/OpenJDK8U-jdk_aarch64_linux_hotspot_8u191b12.tar.gztar -zxf OpenJDK8U-jdk_aarch64_linux_hotspot_8u191b12.tar.gzmv jdk8u191-b12 /opt/tools/installed/配置java环境变量，在/etc/profile文件末尾处增加下面的代码：JAVA_HOME=/opt/tools/installed/jdk8u191-b12PATH=$JAVA_HOME/bin:$PATHexport JAVA_HOME PATH运行下面命令，使修改的环境变量生效：source /etc/profile1.2 安装Maven下载并安装到指定目录（如/opt/tools/installed）：wget https://archive.apache.org/dist/maven/maven-3/3.5.4/binaries/apache-maven-3.5.4-bin.tar.gztar -zxf apache-maven-3.5.4-bin.tar.gzmv apache-maven-3.5.4 /opt/tools/installed/修改maven环境变量，在/etc/profile文件末尾增加下面高亮代码：JAVA_HOME=/opt/tools/installed/jdk8u191-b12MAVEN_HOME=/opt/tools/installed/apache-maven-3.5.4PATH=$MAVEN_HOME/bin:$JAVA_HOME/bin:$PATHexport MAVEN_HOME JAVA_HOME PATH运行下面的命令，是修改的环境变量生效：source /etc/profile修改maven配置文件中的：本地仓路径、远程仓等：<localRepository>/path/to/local/repo</localRepository> <mirror></mirror> 2 软件移植分析--3 依赖库编译3.1 第三方依赖包3.1.1 编译netty-all-4.1.17.Final.jar请参考链接https://bbs.huaweicloud.com/forum/thread-22723-1-1.html 编译netty-all-4.1.17.Final.jar。4 Jar包编译从官网上下载源码并解压：wget https://github.com/apache/hbase-thirdparty/archive/2.0.0RC0.tar.gztar -zxf 2.0.0RC0.tar.gzcd hbase-thirdparty-2.0.0RC0执行编译：mvn install -DskipTests编译完成后在hbase-shaded-netty/target目录下生成jar包：5 参考信息--6 FAQQuestion1：无法执行“patch”Answer1：缺少patch，需手动安装yum -y install patchQuestion2：无法找到libnetty_transport_native_epoll_x86_64.soAnswer2：修改hbase-shaded-netty/pom.xml文件，将x86_64修改为aarch_64

MT塔塔@汪汪队 发表于2020-02-16 10:49:58 2020-02-16 10:49:58 最后回复斯坦李@银河护卫队 2020-10-21 15:22:14
2674 2

JAR HBase
[问题求助] Hbase 的python 样例代码在哪里?

开发手册里面提到的路径里面没有找到https://github.com/huaweicloud/huaweicloud-mrs-example/tree/mrs-2.0

Genlk0325 发表于2019-12-24 10:35:57 2019-12-24 10:35:57 最后回复 Genlk0325 2019-12-24 10:54:36
1875 1

HBase Python
编译hbase-1.3.0报“User setting file does not exist ...\root\.m2\setting.xml“解决方法

执行“mvn package -DskipTests assembly:single”编译hbase-1.3.0-src.tar.gz时报“User setting file does not exist ...\root\.m2\setting.xml”错误时，解决方法如下：拷贝${maven.home}/conf/settings.xml的文件到${user.home}/.m2/settings.xml中即可如：cp /home/apache-maven-3.5.4/conf/settings.xml /root/.m2/【说明】：settings.xml文件中的settings元素包含用于定义以各种方式配置Maven执行的值的元素，如pom.xml，但不应与任何特定项目绑定或分配给每一个用户。这些包括本地存储库（local repository）位置，备用远程存储库服务器和认证信息等值。settings.xml文件可能存在两个位置：Maven安装：${maven.home}/conf/settings.xml用户安装：${user.home}/.m2/settings.xml前一个settings.xml也称为全局设置，后者的settings.xml称为用户设置。如果两个文件都存在，它们的内容将被合并，用户特定的settings.xml看作是主要的。

五湖四海@银河护卫队 发表于2019-10-11 17:42:58 2019-10-11 17:42:58 最后回复五湖四海@银河护卫队 2019-10-11 17:42:58
2861 0

HBase XML
编译hbase-1.3.0报“Can't find bundle for base name org.apache.jasper.resources.LocalStrings“解决方法

执行“mvn package -DskipTests assembly:single”编译hbase-1.3.0-src.tar.gz时报“Can't find bundle for base name org.apache.jasper.resources.LocalStrings, locale en_US”错误时，需要参考如下链接打patch补丁：https://issues.apache.org/jira/browse/HBASE-20551?page=com.atlassian.jira.plugin.system.issuetabpanels%3Acomment-tabpanel&focusedCommentId=16471857#comment-16471857打patch补丁步骤参考如下：1、在hbase-1.3.0-src.tar.gz解压路径执行“wget https://issues.apache.org/jira/secure/attachment/12899868/HBASE-19188.branch-1.2.002.patch”获取patch补丁2、执行“patch -p1 < HBASE-19188.branch-1.2.002.patch”打pathch补丁；3、打完patch补丁后执行“mvn clean package -DskipTests assembly:single”继续编译；

五湖四海@银河护卫队 发表于2019-10-11 17:30:06 2019-10-11 17:30:06 最后回复五湖四海@银河护卫队 2019-10-11 17:30:06
2504 0

HBase
[其他] HBase调优（转载）

1.提升Bulkload效率操作场景批量加载功能采用了MapReduce jobs直接生成符合HBase内部数据格式的文件，然后把生成的StoreFiles文件加载到正在运行的集群。使用批量加载相比直接使用HBase的API会节约更多的CPU和网络资源。ImportTSV是一个HBase的表数据加载工具。前提条件在执行批量加载时需要通过“Dimporttsv.bulk.output”参数指定文件的输出路径操作步骤参数入口：执行批量加载任务时，在BulkLoad命令行中加入如下参数。参数功能默认值/建议值hbase39现有值hbasea现有值-Dimporttsv.mapper.class用户自定义mapper通过把键值对的构造从mapper移动到reducer以帮助提高性能。mapper只需要把每一行的原始文本发送给reducer，reducer解析每一行的每一条记录并创建键值对。说明：当该值配置为“org.apache.hadoop.hbase.mapreduce.TsvImporterByteMapper”时，只在执行没有HBASE_CELL_VISIBILITY OR HBASE_CELL_TTL选项的批量加载命令时使用。使用“org.apache.hadoop.hbase.mapreduce.TsvImporterByteMapper”时可以得到更好的性能org.apache.hadoop.hbase.mapreduce.TsvImporterByteMapper和org.apache.hadoop.hbase.mapreduce.TsvImporterTextMappe不需要调整✅不需要调整✅2.提升连续put场景（修改为建议值）操作场景：对大批量、连续put的场景，配置下面的两个参数为“false”时能大量提升性能。“hbase.regionserver.wal.durable.sync”“hbase.regionserver.hfile.durable.sync”当提升性能时，缺点是对于DataNode（默认是3个）同时故障时，存在小概率数据丢失的现象。对数据可靠性要求高的场景请慎重配置参数功能默认值/建议值hbase39现有值hbasea现有值hbase.regionserver.wal.durable.sync每一条wal是否持久化到硬盘默认true，建议改为false无，即默认true无，即默认true hbase.regionserver.hfile.durable.sync hfile写是否立即持久化到硬盘。默认true，建议改为false 无，即默认true 无，即默认true 3.Put和Scan性能综合调优与JVM GC参数有关的参数RegionServer GC_OPTS参数设置建议：-Xms与-Xmx设置相同的值，需要根据实际情况设置，增大内存可以提高读写性能，可以参考参数“hfile.block.cache.size”（见表12-4）和参数“hbase.regionserver.global.memstore.size”（见表12-3）的介绍进行设置。-XX:NewSize与-XX:MaxNewSize设置相同值，建议低负载场景下设置为“512M”，高负载场景下设置为“2048M”。-XX:CMSInitiatingOccupancyFraction建议设置为“100 * (hfile.block.cache.size + hbase.regionserver.global.memstore.size + 0.05)”，最大值不超过90。-XX:MaxDirectMemorySize表示JVM使用的堆外内存，建议低负载情况下设置为“512M”，高负载情况下设置为“2048M”。参数功能默认值/建议值hbase39现有值hbasea现有值hfile.block.cache.size(提升实时读数据效率)-Xms与-Xmx设置相同的值，需要根据实际情况设置，增大内存可以提高读写性能数据缓存所占的RegionServer GC -Xmx百分比，在读高负载情况下可以适当调大以增大缓存命中率以提高性能默认值0.250.40.4hbase.regionserver.global.memstore.size建议设置为“hbase.hregion.memstore.flush.size * 写活跃region数 / RegionServer GC -Xmx”。默认值为“0.4”，表示使用RegionServer GC -Xmx的40%。默认值0.40.40.4-XX:NewSize与-XX:MaxNewSize设置相同值建议低负载场景下设置为“512M”，高负载场景下设置为“2048M”。低负载：512M 高负载：2048M无无-XX:CMSInitiatingOccupancyFraction建议设置为“100 * (hfile.block.cache.size + hbase.regionserver.global.memstore.size + 0.05)”，最大值不超过90计算值：70无无-XX:MaxDirectMemorySize表示JVM使用的堆外内存，建议低负载情况下设置为“512M”，高负载情况下设置为“2048M”。低负载：512M 高负载：2048M无无Put相关参数RegionServer处理put请求的数据，会将数据写入memstore和hlog，当memstore大小达到设置的“hbase.hregion.memstore.flush.size”参数值大小时，memstore就会刷新到HDFS生成HFile。当当前region的列簇的HFile数量达到“hbase.hstore.compaction.min”参数值时会触发compaction。当当前region的列簇HFile数达到“hbase.hstore.blockingStoreFiles”参数值时会阻塞memstore刷新生成HFile的操作，导致put请求阻塞。参数功能默认值/建议值hbase39现有值hbasea现有值hbase.hregion.memstore.flush.size当memstore大小达到设置的“hbase.hregion.memstore.flush.size”参数值大小时，memstore就会刷新到HDFS生成HFile。建议设置为HDFS块大小的整数倍，在内存足够put负载大情况下可以调整增大。单位：字节默认值：134217728字节=128mb256mb128mbhbase.hstore.compaction.min当一个Store中文件超过该值时，会进行compact，适当增大该值，可以减少文件被重复执行compaction。但是如果过大，会导致Store中文件数过多而影响读取的性能。默认值：6无无hbase.hstore.compaction.max控制一次compaction操作时的文件数量的最大值。与“hbase.hstore.compaction.max.size”的作用基本相同，主要是控制一次compaction操作的时间不要太长10空值10hbase.hstore.blockingStoreFiles当列簇的HFile数达到该阈值，阻塞该region的所有操作，直到compcation完成，在put高负载场景下可以适当调大。默认值：151010hbase.hstore.flusher.countmemstore的flush线程数，在put高负载场景下可以适当调大2无无hbase.regionserver.thread.compaction.smallHFile compaction线程数，在put高负载情况下可以适当调大10无无 Scan相关参数参数功能默认值/建议值hbase39现有值hbasea现有值hbase.client.scanner.timeout.period客户端和RegionServer端参数，表示scan租约的时间，建议设置为60000ms的整数倍，在读高负载情况下可以适当调大。单位：毫秒。60000ms60s无 Handler相关参数参数功能默认值/建议值hbase39现有值hbasea现有值hbase.regionserver.handler.count(提升实时读数据效率)RegionServer上的RPC服务器实例数，建议设置为200 ~ 400之间。2003030hbase.regionserver.metahandler.countRegionServer中处理优先请求的程序实例的数量，建议设置为200 ~ 400之间。10010无 4.提升实时写数据效率写数据服务端调优参数功能默认值/建议值hbase39现有值hbasea现有值hbase.regionserver.thread.compaction.throttle控制一次Minor Compaction时，进行compaction的文件总大小的阈值。Compaction时的文件总大小会影响这一次compaction的执行时间，如果太大，可能会阻塞其它的compaction或flush操作。1610612736（单位：字节）无无hbase.hregion.majorcompaction设置Major Compaction的执行周期。默认值为604800000毫秒。由于执行Major Compaction会占用较多的系统资源，如果正在处于系统繁忙时期，会影响系统的性能。如果业务没有较多的更新、删除、回收过期数据空间时，可以把该值设置为0，以禁止Major Compaction。如果必须要执行Major Compaction，以回收更多的空间，可以适当增加该值，同时配置参数“hbase.offpeak.end.hour”和“hbase.offpeak.start.hour”以控制Major Compaction发生在业务空闲的时期604800000（单位：毫秒）0.7day07dayhbase.regionserver.maxlogshbase.regionserver.hlog.blocksize表示一个RegionServer上未进行Flush的Hlog的文件数量的阈值，如果大于该值，RegionServer会强制进行flush操作。表示每个HLog文件的最大大小。如果HLog文件大小大于该值，就会滚动出一个新的HLog文件，旧的将被禁用并归档。这两个参数共同决定了RegionServer中可以存在的未进行Flush的hlog数量。当这个数据量小于MemStore的总大小的时候，会出现由于HLog文件过多而触发的强制flush操作。这个时候可以适当调整这两个参数的大小，以避免出现这种强制flush的情况。32134217728（单位：字节）—128mb32无无无 5.读/写数据表设计调优配置参数描述默认值COMPRESSION配置数据的压缩算法，这里的压缩是HFile中block级别的压缩。对于可以压缩的数据，配置压缩算法可以有效减少磁盘的IO，从而达到提高性能的目的。说明：并非所有数据都可以进行有效压缩。例如一张图片的数据，因为图片一般已经是压缩后的数据，所以压缩效果有限。常用的压缩算法是SNAPPY，因为它有较好的Encoding/Decoding速度和可以接受的压缩率。NONEBLOCKSIZE配置HFile中block块的大小，不同的block块大小，可以影响HBase读写数据的效率。越大的block块，配合压缩算法，压缩的效率就越好；但是由于HBase的读取数据是以block块为单位的，所以越大的block块，对于随机读的情况，性能可能会比较差。如果要提升写入的性能，一般扩大到128KB或者256KB，可以提升写数据的效率，也不会影响太大的随机读性能。65536（单位：字节）IN_MEMORY配置这个表的数据优先缓存在内存中，这样可以有效提升读取的性能。对于一些小表，而且需要频繁进行读取操作的，可以设置此配置项。false 6.JVM参数优化当集群数据量达到一定规模后，JVM的默认配置将无法满足集群的业务需求，轻则集群变慢，重则集群服务不可用。所以需要根据实际的业务情况进行合理的JVM参数配置，提高集群性能变量名变量影响的角色hbase39现有值hbasea现有值HBASE_OPTS该变量中设置的参数，将影响HBase的所有角色-Xms8g -Xmx8g -XX:+HeapDumpOnOutOfMemoryError -XX:+UseConcMarkSweepGC -XX:-CMSConcurrentMTEnabled -XX:+CMSIncrementalMode -Djava.net.preferIPv4Stack=true $HBASE_OPTS HBASE_OPTS="$HBASE_OPTS -XX:+UseConcMarkSweepGC -XX:ErrorFile=/app/log/hbase/hs_err_pid%p.log -Djava.io.tmpdir=/tmp"SERVER_GC_OPTS该变量中设置的参数，将影响HBase Server端的所有角色，例如：Master、RegionServer等。SERVER_GC_OPTS="-verbose:gc -XX:+PrintGCDetails -XX:+PrintGCDateStamps -Xloggc:/app/log/hbase/gc.log-`date +'%Y%m%d%H%M'`"CLIENT_GC_OPTS该变量中设置的参数，将影响HBase的Client进程HBASE_MASTER_OPTS该变量中设置的参数，将影响HBase的MasterHBASE_MASTER_OPTS="$HBASE_MASTER_OPTS -Xmx30720m $JDK_DEPENDED_OPTS”HBASE_MASTER_OPTS="$HBASE_MASTER_OPTS -XX:MaxDirectMemorySize=4096m " HBASE_REGIONSERVER_OPTS该变量中设置的参数，将影响HBase的RegionServerHBASE_REGIONSERVER_OPTS="$HBASE_REGIONSERVER_OPTS -Xmn4096m -XX:CMSInitiatingOccupancyFraction=70 -Xms20480m -Xmx20480m $JDK_DEPENDED_OPTS”HBASE_REGIONSERVER_OPTS="$HBASE_REGIONSERVER_OPTS -XX:MaxDirectMemorySize=4096m " HBASE_THRIFT_OPTS该变量中设置的参数，将影响HBase的Thrift转载自：https://blog.csdn.net/mnasd/article/details/81304888

Ninja 发表于2019-05-14 08:38:30 2019-05-14 08:38:30 最后回复 Joey啊 2019-08-30 10:45:18
6918 3

HBase JVM
[教程] [CloudTable服务]HBase on Sql客户端操作指南

[CloudTable服务]HBase on Sql客户端操作指南背景：为了方便用户能够像操作传统关系型数据库一样地操作HBase，我们可以以Phoenix为基础并结合其他工具分别在Linux和Windows环境上利用SQL语句来操作HBase，如创建表、数据写入、数据查询等。1 Linux客户端篇1.1 环境准备1.1.1 创建CloudTable集群并开启Lemon特性登录华为云官网，选择表格存储服务 CloudTable，进入集群模式并购买集群。注意：需要勾选Lemon高级特性；如果在创建集群时没有勾选，可以在集群创建完成后，再开启Lemon。1.1.2 创建Linux ECS并绑定公网EIP（1）选择弹性云服务器 ECS并购买云服务器，在选择镜像时要选择公共镜像，操作系统为Linux如CentOS。（2）在创建ECS时，要确保虚拟私有云VPC、网卡子网、安全组与1.1.1章节中CloudTable集群保持一致，并且需要为安全组按需配置出入规则，否则会出现网络无法访问的问题。为了能在公网直接访问该ECS，用户在创建ECS时可以勾选现在购买弹性公网IP或者在ECS创建完成后再为该ECS绑定一个弹性公网IP。CloudTable集群：ECS:（3）当ECS创建完成后，用户可以利用xshell、putty等工具登录到该ECS上（需要使用绑定的弹性公网IP）。1.1.3 一键安装部署HBase客户端（1）登录到ECS后，需要在该ECS上安装部署HBase客户端，可参照如下文档一键式安装。 https://support.huaweicloud.com/en-us/usermanual-cloudtable/cloudtable_01_0097.html1.2 客户端下载、安装及使用1.2.1 下载Phoenix客户端包进入到phoenix官网下载，选择*HBase-1.3。http://phoenix.apache.org/download.html或在ECS上使用如下命令：wget http://mirror.bit.edu.cn/apache/phoenix/apache-phoenix-4.14.1-HBase-1.3/bin/apache-phoenix-4.14.1-HBase-1.3-bin.tar.gz1.2.2 解压客户端tar.gz包tar -zxvf apache-phoenix-4.14.1-HBase-1.3-bin.tar.gz1.2.3 使用客户端cd apache-phoenix-4.14.1-HBase-1.3-bin/bin./sqlline-thin.py <cloudtable-lemon-url>:<port>关于<cloudtable-lemon-url>:<port>的获取可以查看1.1.1章节中创建的CloudTable集群的详细信息中的Lemon链接地址，当前Lemon链接地址中包含多个<cloudtable-lemon-url>:<port>，我们任意选择其中一个进行连接即可。（4）查看数据库中有哪些表!tables（5）创建数据表CREATE TABLE "test" ("time" VARCHAR, "vin" VARCHAR, "a038" VARCHAR, "a039" VARCHAR, "a040" VARCHAR CONSTRAINT rowkey PRIMARY KEY("time", "vin")) SPLIT ON ('50', '100');（6）数据写入UPSERT INTO "test" VALUES ('2019-03-08 10:00:00', 'IXX0M56GSRVQI9S1S', null, '1', '1');（7）数据查询SELECT * FROM "test";（8）创建索引CREATE INDEX "idx_test" ON "test"("vin");（9）用户可以利用1.1.3章节中安装的HBase客户端，通过hbase shell命令查看创建的"test"数据表。2 Windows客户端篇2.1 环境准备使用Windows客户端有两种方案：（1）申请一台Linux ECS并为其绑定EIP，在客户自己本地的Windows机器上采用VPN的方式通过该Linux ECS连接到CloudTable内部，前提是客户自己本地的Windows上已经配置了Jave JDK；（2）申请一台Windows ECS并为其绑定EIP，客户通过远程桌面连接的方式登录到该Windows ECS后，再在Windows ECS上进行操作。如果采用第（1）方案，则环境准备需要完成2.1.1，2.1.2， 2.1.3章节。如果采用第（2）种方案，则环境准备需要完成2.1.1，2.1.4， 2.1.5，2.1.6章节。2.1.1 创建CloudTable集群并开启Lemon特性直接参照1.1.1章节的内容。2.1.2 创建Linux ECS并绑定公网IP直接参照1.1.2章节内容。2.1.3 配置vpn连接参照如下文档：https://bbs.huaweicloud.com/forum/thread-13371-1-1.html2.1.4 创建Windows ECS并绑定公网EIP（1）选择弹性云服务器 ECS并购买云服务器，在选择镜像时要选择公共镜像，操作系统为Windows。例如：（2）同样的，在创建ECS时，要确保虚拟私有云VPC、网卡子网、安全组与1.1.1章节中CloudTable集群保持一致，并且需要为安全组按需配置出入规则，否则会出现网络无法访问的问题。为了能在公网直接访问该ECS，用户在创建ECS时可以勾选现在购买弹性公网IP或者在ECS创建完成后再为该ECS绑定一个弹性公网IP，具体可以参照1.1.2章节第（2）步内容。2.1.5 连接并登录Windows ECS利用Windows自带的远程桌面连接工具，连接上面创建的Windows ECS。2.1.6 Windows ECS配置Java JDK登录成功后，需要先安装配置Java JDK安装配置Java JDK的具体过程用户可自行上网查阅，在此不再赘述。2.2 客户端工具下载、安装及使用2.2.1 下载squirrel sql client工具进入Squirrel sql官网：http://www.squirrelsql.org/，并下载Squirrel SQL Client的Windows客户端jar 包。当前最新为3.9.1版本。2.2.2 安装squirrel sql client工具（1）打开Windows cmd命令行，进到squirrel-sql-3.9.1-standard.jar所在目录，执行如下命令： java -jar squirrel-sql-3.9.1-standard.jar（2）或者直接双击squirrel-sql-3.9.1-standard.jar文件可以直接点击Nex选择默认配置。2.2.3 配置squirrel sql client工具将1.4.1章节中下载的apache-phoenix-4.14.1-HBase-1.3-bin.tar.gz解压，并将解压目录中的phoenix-4.14.1-HBase-1.3-thin-client.jar文件放到squirrel sql client安装目录的lib目录下，如squirrel sql client安装目录为：C:\Program Files\squirrel-sql-3.9.1，则将phoenix-4.14.1-HBase-1.3-thin-client.jar文件放到C:\Program Files\squirrel-sql-3.9.1\lib目录下。2.2.4 使用squirrel sql client工具双击squirrel sql client安装目录下的squirrel-sql.bat文件，启动squirrel sql client，选择左侧的Drivers，并点击加号Create a new Driver。2.2.5 配置新的Driver在弹出的Add Driver窗口中设置相应的Driver Name， Example URL，Example URL只是一个URL模板，并在Java Class Path中选择2.2.3章节中的phoenix-4.14.1-HBase-1.3-thin-client.jar，然后点击List Drivers按钮，过一小段时候后观察最下方的Class Name对应的下拉菜单中是否有值，否则，选择org.apache.phoenix.queryserver.client.Driver项，如果没有，则手动输入org.apache.phoenix.queryserver.client.Driver。Example URL:jdbc:phoenix:thin:url=http://<lemon url>:<port>;serialization=PROTOBUFJava Class Path:C:\Program Files\squirrel-sql-3.9.1\lib\phoenix-4.14.1-HBase-1.3-thin-client.jarClass Name:org.apache.phoenix.queryserver.client.Driver2.2.6 创建新的Alias选择左侧的Aliases，并点击加号Create a new Alias2.2.7 配置Driver在弹出的Add Alias窗口中设置相应的Alias Name， Dirver，URL，UserName及Password。其中：Driver选择2.2.5章节中创建的Driver，URL则利用选中的Driver对应的模板Example URL并根据真实的Lemon URL及端口号Port来构造，UserName及Password直接填admin即可。Driver: 2.2.5章节中创建的DriverURL:jdbc:phoenix:thin:url=http://cloudtable-for-dat-lemon-2-1-OzWH5Rdy.cloudtable.com:8765;serialization=PROTOBUFUserName:adminPassword:admin2.2.8 测试配置是否正确配置完成后，点击Add Alias弹出窗下方的Test按钮，测试配置是否正确，如果弹出Connection successful则说明配置正确。2.2.9 执行创表、数据写入、数据查询分别执行以下的SQL语句：create table person(id integer not null primary key, name varchar, age integer);upsert into person values(1, 'zhangsan',18);select * from person;也可以直接通过可视化界面查看当前的表及表中数据

那人好像一条狗 发表于2019-03-13 10:30:44 2019-03-13 10:30:44 最后回复 Joey啊 2019-08-30 10:41:23
11211 3

HBase 弹性云服务器 ECS SQL 表格存储服务 CloudTable
[技术干货] MRS中使用HBase的基本命令

华为云MapReduce服务中包括了Hapoop、HBase、Spark、Kafka等等大数据组件。这里是基于华为云MapReduce服务集群讲解HBase的基本命令。1.进入HBase shell命令行注意：如果集群是安全集群（就是创建集群的时候开启Kerberos认证），在HBase shell之前，需要通过kinit username 进行认证。# hbase shell2.基本命令实例在输入HBase操作命令时不同于SQL语句，命令最后没有分号。2.1 查看HBase版本、用户和状态查看版本 hbase(main):005:0> version 查看用户 hbase(main):001:0> whoami 查看HBase状态信息 hbase(main):002:0> status2.2 查看命名空间(namespace)默认情况下，HBase里面包括hbase和default两个命名空间。在下面的表操作中，如果没有指定命名空间，默认就是default命名空间。hbase(main):011:0> list_namespace2.3 创建和删除命名空间(namespace)创建命名空间 hbase(main):012:0> create_namespace 'jun' 查看命名空间 hbase(main):013:0> list_namespace 删除命名空间 hbase(main):014:0> drop_namespace 'jun'2.4 查看表上面讲解了命名空间(namespace)，默认情况下default命名空间是默认的命名空间。Examples: list 查看下的所有表 list 'abc.*' 查看表名以abc开头的表 list 'ns:abc.*' 查看命名空间ns下表名以abc开头的表 list 'ns:.*' 查看命名空间ns下所有表可以通过 help 'list'查看list命令详解实例 hbase(main):001:0> list2.5 创建表输入创建表命令时，需要输入表名和至少一个列簇名(column family)。创建表时如果指定了命名空间，该命名空间必须存在，否则会报错。Examples： create 'ns1:t1', 'f1' 创建命名空间为ns1、表名为t1、列簇为f1的表 create 't1', 'f1','f2','f3' 创建表名为t1、列簇为f1/f2/f3三个列簇的表实例 hbase(main):028:0> create 'test','f1','f2','f3'2.3 查看表结构通过desc命令查看表的详细结构hbase(main):030:0> desc 'test'2.4 删除表在删除表之前，必须要先用disable命令。hbase(main):007:0> disable 'test' hbase(main):008:0> drop 'test'2.5 修改表结构创建表test01 hbase(main):042:0> create 'test01','f1', 'f2', 'f3' 添加列簇 hbase(main):048:0> alter 'test01','f4','f5' 删除列簇 hbase(main):053:0> alter 'test01', 'delete' => 'f5' 详细的alter命令使用可以通过帮助命令查看 hbase(main):056:0> help 'alter'2.6 添加数据hbase(main):064:0> put 'test01', 'name02', 'f2:age', '20' 下面详细介绍一下该命令： test01 ==>> 表名 name02 ==>> rowkey(唯一标识符)这个自己定义 f2 ==>> 列簇（可以当作与多列的集合） age ==>> 列簇下面的一个列，自己定义 20 ==>> 值，表示age属性的值2.7 查询数据查询属性记录值： hbase(main):076:0> get 'test01','name02','f2:age' 查看整个表数据： hbase(main):073:0> scan 'test01' hbase(main):077:0> scan 'test01', LIMIT => 2 统计表中行数： hbase(main):078:0> count 'test01'2.8 删除数据删除行中某个列值 delete 'test01','name02','f2:age' 删除一行 hbase(main):085:0> deleteall 'test01','name02'特别提醒：HBase中不懂的命令可以利用help命令进行查看详细内容参考：1.HBase官方文档：https://hbase.apache.org/book.html2.华为云MapReduce服务开发指南HBase应用开发大数据相关内容可加QQ群 940014001 进群进行详细咨询与了解。

仰望星空 发表于2019-01-07 09:42:12 2019-01-07 09:42:12 最后回复 Joey啊 2019-08-31 09:36:38
7347 3

HBase MapReduce
[公告] 【直播】HBase的DBA之路

大家都说NoSQL数据库写入性能好，查询性能好，能存海量数据，TB级/PB级分分钟的事情，但是为什么到自己手上的时候，几百G/几T的数据写入和查询都不尽人意呢？ ▼在我上大学的时候就听说，在关系型数据库时代，DBA那是很吃香的，收费可是要从出门开始按小时收费的？然而NoSQL时代，似乎没有官方盖戳的DBA了，然而是不是就代表不需要了呢？本期华为云“云视界Live”，将邀请到华为云表格存储服务CloudTable架构师Bene做客云视界Live，为我们深度探秘CloudTable的服务设计和原理，以及根据多年经验总结出的NoSQL（HBASE相关）数据库Schema设计方法。 19574 本期地址：http://zhibo.huaweicloud.com/watch/2169816本期议程：2018年7月12日 16:00-16:20 深度解析华为云CloudTable服务原理和设计16:20-16:45 CloudTable服务相关NoSQL数据库设计经验分享16:45-17:00 线上互动问答 19575

freeborn0601 发表于2018-07-12 11:37:17 2018-07-12 11:37:17 最后回复 Joey啊 2019-09-03 09:58:30
10706 3

视频直播 HBase
【直播已结束】HBase的DBA之路-7月12日周四 16:00-17:00

19515 直播地址：https://zhibo.huaweicloud.com/watch/2169816

技术火炬手 发表于2018-07-11 18:14:54 2018-07-11 18:14:54 最后回复技术火炬手 2018-07-12 11:46:49
68086 4

视频直播 HBase
HBase高性能随机查询之道

在各色数据库系统百花齐放的今天，能让大家铭记的，往往是一个数据库所能带给大家的差异化能力。正如梁宁老师的产品思维课程中所讲到的，这是一个数据库系统所能带给产品使用者的"确定性"。差异化能力通常需要从数据库底层开始构筑，而数据存储方式显得至关重要，因为它直接关乎数据写入与读取的效率。在一个系统中，这两方面的能力需要进行很好的权衡：如果设计有利于数据的快速写入，可能意味着查询时需要需要花费较大的精力去组织数据，反之，如果写入时花费精力去更好的组织数据，查询就会变的非常轻松。探讨数据库的数据存储方式，其实就是探讨数据如何在磁盘上进行有效的组织。因为我们通常以如何高效读取和消费数据为目的，而不是数据存储本身。在RDBMS领域，因为键与数据的组织方式的区别，有两种表组织结构最为常见，一种是键与数据联合存储的索引组织表结构，在这种表结构下，查到键值意味着查找到数据；另外一种是键与数据分离存储的堆表结构。在这种表结构下，查找到键以后，只是拿到了数据记录的物理地址，还需要基于该物理地址去查找具体的数据记录。在大数据分析领域，有几种通用的文件格式，如Parquet, RCFile, ORCFile，CarbonData等等，这些文件大多基于列式的设计结构，来加速通用的分析型查询。但在实时数据库领域，却以各种私有的文件格式最为常见，如Bigtable的SSTable，HBase的HFile，Kudu的DiskRowSets，Cassandra的变种SSTable，MongoDB支持的每一种Storage Engine都是私有的文件格式设计，等等。本文将详细探讨HBase的HFile设计，第一部分为HFile原理概述，第二部分介绍了一个HFile从无到有的生成过程，最后部分列出了几点与HFile有关的附加信息。HFile原理概述最初的HFile格式(HFile V1)，参考了Bigtable的SSTable以及Hadoop的TFile(HADOOP-3315)。如下图所示：HFile在生成之前，数据在内存中已经是按序组织的。存放用户数据的KeyValue，被存储在一个个默认为64kb大小的Data Block中，在Data Index部分存储了每一个Data Block的索引信息{Offset，Size，FirstKey}，而Data Index的索引信息{Data Index Offset, Data Block Count}被存储在HFile的Trailer部分。除此以外，在Meta Block部分还存储了Bloom Filter的数据。下图更直观的表达出了HFile V1中的数据组织结构：这种设计简单、直观。但用过0.90或更老版本的同学，对于这个HFile版本所存在的问题应该深有痛楚：Region Open的时候，需要加载所有的Data Block Index数据，另外，第一次读取时需要加载所有的Bloom Filter数据到内存中。一个HFile中的Bloom Filter的数据大小可达百MB级别，一个RegionServer启动时可能需要加载数GB的Data Block Index数据。这在一个大数据量的集群中，几乎无法忍受。Data Block Index究竟有多大？一个Data Block在Data Block Index中的索引信息包含{Offset, Size, FirstKey}，BlockOffset使用Long型数字表示，Size使用Int表示即可。假设用户数据RowKey的长度为50bytes，那么，一个64KB的Data Block在Data Block Index中的一条索引数据大小约为62字节。假设一个RegionServer中有500个Region，每一个Region的数量为10GB（假设这是Data Blocks的总大小），在这个RegionServer上，约有81920000个Data Blocks，此时，Data Block Index所占用的大小为81920000*62bytes，约为4.7GB。这是HFile V2设计的初衷，HFile V2期望显著降低RegionServer启动时加载HFile的时延，更希望解决一次全量加载数百MB级别的BloomFilter数据带来的时延过大的问题。下图是HFile V2的数据组织结构：较之HFile V1，我们来看看HFile V2的几点显著变化：1.分层索引无论是Data Block Index还是Bloom Filter，都采用了分层索引的设计。Data Block的索引，在HFile V2中做多可支持三层索引：最底层的Data Block Index称之为Leaf Index Block，可直接索引到Data Block；中间层称之为Intermediate Index Block，最上层称之为Root Data Index，Root Data index存放在一个称之为”Load-on-open Section“区域，Region Open时会被加载到内存中。基本的索引逻辑为：由Root Data Index索引到Intermediate Block Index，再由Intermediate Block Index索引到Leaf Index Block，最后由Leaf Index Block查找到对应的Data Block。在实际场景中，Intermediate Block Index基本上不会存在，文末部分会通过详细的计算阐述它基本不存在的原因，因此，索引逻辑被简化为：由Root Data Index直接索引到Leaf Index Block，再由Leaf Index Block查找到的对应的Data Block。Bloom Filter也被拆成了多个Bloom Block，在”Load-on-open Section”区域中，同样存放了所有Bloom Block的索引数据。2.交叉存放在”Scanned Block Section“区域，Data Block(存放用户数据KeyValue)、存放Data Block索引的Leaf Index Block(存放Data Block的索引)与Bloom Block(Bloom Filter数据)交叉存在。3.按需读取无论是Data Block的索引数据，还是Bloom Filter数据，都被拆成了多个Block，基于这样的设计，无论是索引数据，还是Bloom Filter，都可以按需读取，避免在Region Open阶段或读取阶段一次读入大量的数据，有效降低时延。从0.98版本开始，社区引入了HFile V3版本，主要是为了支持Tag特性，在HFile V2基础上只做了微量改动。在下文内容中，主要围绕HFile V2的设计展开。HFile生成流程在本章节，我们以Flush流程为例，介绍如何一步步生成HFile的流程，来加深大家对于HFile原理的理解。起初，HFile中并没有任何Block，数据还存在于MemStore中。Flush发生时，创建HFile Writer，第一个空的Data Block出现，初始化后的Data Block中为Header部分预留了空间，Header部分用来存放一个Data Block的元数据信息。而后，位于MemStore中的KeyValues被一个个append到位于内存中的第一个Data Block中：注：如果配置了Data Block Encoding，则会在Append KeyValue的时候进行同步编码，编码后的数据不再是单纯的KeyValue模式。Data Block Encoding是HBase为了降低KeyValue结构性膨胀而提供的内部编码机制。上图中所体现出来的KeyValue，只是为了方便大家理解。当Data Block增长到预设大小(默认64KB)后，一个Data Block被停止写入，该Data Block将经历如下一系列处理流程：1.如果有配置启用压缩或加密特性，对Data Block的数据按相应的算法进行压缩和加密。2.在预留的Header区，写入该Data Block的元数据信息，包含{压缩前的大小，压缩后的大小，上一个Block的偏移信息，Checksum元数据信息}等信息，下图是一个Header的完整结构：3.生成Checksum信息。4.Data Block以及Checksum信息通过HFile Writer中的输出流写入到HDFS中。5.为输出的Data Block生成一条索引记录，包含这个Data Block的{起始Key，偏移，大小}信息，这条索引记录被暂时记录到内存的Block Index Chunk中：注：上图中的firstKey并不一定是这个Data Block的第一个Key，有可能是上一个Data Block的最后一个Key与这一个Data Block的第一个Key之间的一个中间值。具体可参考附录部分的信息。至此，已经写入了第一个Data Block，并且在Block Index Chunk中记录了关于这个Data Block的一条索引记录。随着Data Blocks数量的不断增多，Block Index Chunk中的记录数量也在不断变多。当Block Index Chunk达到一定大小以后(默认为128KB)，Block Index Chunk也经与Data Block的类似处理流程后输出到HDFS中，形成第一个Leaf Index Block：此时，已输出的Scanned Block Section部分的构成如下：正是因为Leaf Index Block与Data Block在Scanned Block Section交叉存在，Leaf Index Block被称之为Inline Block（Bloom Block也属于Inline Block）。在内存中还有一个Root Block Index Chunk用来记录每一个Leaf Index Block的索引信息：从Root Index到Leaf Data Block再到Data Block的索引关系如下：我们先假设没有Bloom Filter数据。当MemStore中所有的KeyValues全部写完以后，HFile Writer开始在close方法中处理最后的”收尾”工作：1.写入最后一个Data Block。2.写入最后一个Leaf Index Block。如上属于Scanned Block Section部分的”收尾”工作。3.如果有MetaData则写入位于Non-Scanned Block Section区域的Meta Blocks，事实上这部分为空。4.写Root Block Index Chunk部分数据：如果Root Block Index Chunk超出了预设大小，则输出位于Non-Scanned Block Section区域的Intermediate Index Block数据，以及生成并输出Root Index Block(记录Intermediate Index Block索引)到Load-On-Open Section部分。如果未超出大小，则直接输出为Load-On-Open Section部分的Root Index Block。5.写入用来索引Meta Blocks的Meta Index数据（事实上这部分只是写入一个空的Block）。6.写入FileInfo信息，FileInfo中包含：Max SequenceID, MajorCompaction标记，TimeRanage信息，最早的Timestamp, Data BlockEncoding类型，BloomFilter配置，最大的Timestamp，KeyValue版本，最后一个RowKey，平均的Key长度，平均Value长度，Key比较器等。7.写入Bloom Filter元数据与索引数据。注：前面每一部分信息的写入，都以Block形式写入，都包含Header与Data两部分，Header中的结构也是相同的，只是都有不同的Block Type，在Data部分，每一种类型的Block可以有自己的定义。8.写入Trailer部分信息， Trailer中包含：Root Index Block的Offset，FileInfo部分Offset，Data Block Index的层级，Data Block Index数据总大小，第一个Data Block的Offset，最后一个Data Block的Offset，Comparator信息，Root Index Block的Entries数量，加密算法类型，Meta Index Block的Entries数量，整个HFile文件未压缩大小，整个HFile中所包含的KeyValue总个数，压缩算法类型等。至此，一个完整的HFile已生成。我们可以通过下图再简单回顾一下Root Index Block、Leaf Index Block、Data Block所处的位置以及索引关系：简单起见，上文中刻意忽略了Bloom Filter部分。Bloom Filter被用来快速判断一条记录是否在一个大的集合中存在，采用了多个Hash函数+位图的设计。写入数据时，一个记录经X个Hash函数运算后，被映射到位图中的X个位置，将位图中的这X个位置写为1。判断一条记录是否存在时，也是通过这个X个Hash函数计算后，获得X个位置，如果位图中的这X个位置都为1，则表明该记录”可能存在”，但如果至少有一个为0，则该记录”一定不存在”。详细信息，大家可以直接参考Wiki，这里不做过多展开。Bloom Filter包含Bloom元数据(Hash函数类型，Hash函数个数等)与位图数据(BloomData)，为了避免每一次读取时加载所有的Bloom Data，HFile V2中将BloomData部分分成了多个小的Bloom Block。BloomData数据也被当成一类Inline Block，与Data Block、Leaf Index Block交叉存在，而关于Bloom Filter的元数据与多个Bloom Block的索引信息，被存放在Load-On-Open Section部分。但需要注意的是，在FileInfo部分，保存了关于BloomFilter配置类型信息，共包含三种类型：不启用，基于Row构建BloomFilter，基于Row+Column构建Bloom Filter。混合了BloomFilter Block以后的HFile构成如下图所示：附录1 多大的HFile文件才存在Intermiate Index Block每一个Leaf Index Block大小的计算方法如下(HFileBlockIndex$BlockIndexChunk#getNonRootSize)：curTotalNonRootEntrySize是在每次写入一个新的Entry的时候累加的：这样子，可以看出来，每一次新增一个Entry，则累计的值为：12 + firstKey.length假设一个Leaf Index Block可以容纳的Data Block的数量为x：4 + 4 * (x + 1) + x * (12 + firstKey.length)进一步假设，firstKey.length为50bytes。而一个Leaf Index Block的默认最大大小为128KB：4 + 4 * (x + 1) + x * (12 + 50) = 128 * 1024x ≈1986也就是说，在假设firstKey.length为50Bytes时，一个128KB的Leaf Index Block所能容纳的Data Block数量约为1986个。我们再来看看Root Index Chunk大小的计算方法：基于firstKey为50 Bytes的假设，每往Root Index Chunk中新增一个Entry(关联一个Leaf Index Block)，那么，curTotalRootSize的累加值为：12 + 1 + 50 = 63因此，一个128KB的Root Index Chunk可以至少存储2080个Entries，即可存储2080个Leaf Index Block。这样，一个Root Index Chunk所关联的Data Blocks的总量应该为：1986 * 2080 = 4,130,880而每一个Data Block默认大小为64KB，那么，这个HFile的总大小至少为：4,130,880 * 64 * 1024 ≈ 252 GB即，基于每一个Block中的FirstKey为50bytes的假设，一个128KB的Root Index Block可容纳的HFile文件总大小约为252GB。如果实际的RowKey小于50 Bytes，或者将Data Block的Size调大，一个128KB的Root Index Chunk所关联的HFile文件将会更大。因此，在大多数场景中，Intermediate Index Block并不会存在。附录2 关于HFile数据查看工具HBase中提供了一个名为HFilePrettyPrinter的工具，可以以一种直观的方式查看HFile中的数据，关于该工具的帮助信息，可通过如下命令查看：hbase org.apache.hadoop.hbase.io.hfile.HFileReferences [*]HBase Architecture 101 – Storage[*]HBASE-3857: Change the HFile Format[*]HBase Document: Appendix H: HFile format[*]HADOOP-3315: New Binary file format[*]SSTable and Log Structured Storage: LevelDB

Jaison 发表于2018-07-02 17:36:09 2018-07-02 17:36:09 最后回复 whisper_chen 2020-08-26 10:16:32
16564 7

HBase 数据库
[教程指导] HBASE数据备份

本文简单介绍下集群间的HBASE数据备份（导入导出），即主集群往备集群上备份（同步）数据当前HBASE上可以使用的数据备份主要有以下几种 u Snapshots u Replication u Export u CopyTable u HTable API u Offline backup of HDFS data 分别从操作对集群的性能影响、数据空间消耗、业务中断影响、增量备份、易用性、可恢复性几个维度进行了如下的对比：以上备份方法除了Replication都可以在当前集群备份数据，由于本集群数据备份和本远端备份的操作流程相似，本文以下内容就只讨论集群间的数据备份离线数据备份离线数据备份，顾名思义它需要中断当前主集群和备集群的业务主要执行步骤为： #主集群 1）对当前集群中表数据执行flush操作，将当前内存中的数据持久化到hdfs中 flush ‘tableName’ 2）停止HBASE 3）使用distcp命令拷贝当前集群hdfs上的数据到备集群上 hadoop distcp -i /hbase/data hdfs://1.1.1.2:25000/hbasehadoop distcp –update–append –delete /hbase/ hdfs:// 1.1.1.2:25000/hbase/---1.1.1.2:25000为备集群hdfs主nn节点的ip/端口---第二条增量拷贝主要是为了拷贝除了data目录以外的文件，例如archive里面的数据可能当前还有被数据目录所引用 #备集群 1）重启hbase 2）执行hbase hbck检查是否表中所有region都已经上线注意：当用户使用了hbase协处理器，自定义jar包放在主集群的regionserver/hmaster上时，在备集群重启hbase之前，需要把这些自定义jar包也拷贝过来此种方式数据备份的优点： 1）简单暴力，可以一下子把主集群上所有数据（包含元数据）整个复制到备集群 2）由于是通过distcp直接拷贝的，所以数据备份的效率相对较高 3）实际操作时可以根据具体的需求灵活拷贝，可以只拷贝其中一个表的数据，也可以拷贝region中的其中一个hfile等。缺点和限制： 1）此操作对备集群上的hdfs的数据目录会有破坏性（整个覆盖了） 2）如果主备集群间的hbase版本不同，hdfs目录直接拷贝可能会出现问题，例如MRS上的hbase1.3版本新增了系统表index，如果使用老版本的hdfs目录直接覆盖，会找不到该数据表。所以此种方案在执行前需要慎重考虑 3）操作对hbase的能力有一定的要求，如出现异常情况需要根据实际情况执行恢复 Export和import导入导出数据Export/Import主要是启动MR任务对数据的表进行scan扫描，往远端hdfs写入SequenceFile，之后Import再把SequenceFile读出来写入hbase（put）可以参考以下操作： #主集群 1）执行表的Export操作 hbase org.apache.hadoop.hbase.mapreduce.Exportmember hdfs://10.120.169.46:25000/user/table/member ---member为表名 ---10.120.169.46为远端hdfs的主nn节点ip #备集群 1）主机群执行完之后可以在备集群上查看生成的目录数据如下： 2）在备集群上新建与主机群相同结构的表 create'member_import','id','address','info' 3）执行Import导入操作 hbaseorg.apache.hadoop.hbase.mapreduce.Import member_import -Dimport.bulk.output=/tmp/member /user/table/member --- member_import为备集群上与主集群相同表结构的表 --- Dimport.bulk.output 执行完数据的输出目录 ---/user/table/member 为从主集群上导出的数据目录 4）执行load操作 hbaseorg.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles /tmp/member member ----/tmp/member 步骤3中hfile数据的输出路径 ----member 备集群上要导入数据的表名此种方式的优点： 1）在线拷贝不中断业务，由于是scan->put的方式写入新表，所以比CopyTable更加灵活，可灵活配置需要获取的数据，数据可增量写入限制和约束： 1）由于Export是通过MR任务往远端hdfs写入SequenceFile，之后Import再把SequenceFile读出来写入hbase，实际效率不高，且需要跑两次MR任务

lijian 发表于2018-06-30 09:22:53 2018-06-30 09:22:53 最后回复 Joey啊 2019-09-05 17:46:56
16847 3

HBase 数据库
[技术干货] HBase客户端登录失败

现象描述HBase客户端程序启动并登录时，登录失败。可能原因 [*]客户端环境中没有正确配置krb5文件，该原因只会出现在安全模式下，普通模式不涉及。 [*]客户端环境的配置文件“hbase-site.xml”中没有配置访问HBase集群的用户名和密码文件等信息，或者所提供的密码文件已经过期，该原因只会出现在安全模式下，普通模式不涉及。 [*]客户端环境中的jar包与集群中的jar包不一致。 [*]客户端环境中的时间和集群的时间不一致，且相差超出3分钟以上。定位思路 [*]安全模式下，如果krb5配置文件不一致，请更新本地的配置文件。 [*]安全模式下，如果“hbase-site.xml”中没有正确配置printcipal和keytab等信息，请在配置文件中增加。 [*]如果jar包不一致，请使用集群中的jar包来更新替换本地的jar包。 [*]如果时间不一致，请尽量修改本地的时间，使其与集群时间一致，不建议直接修改集群的时间（修改集群时间的操作为高危操作，请务必谨慎）。 [*]排查修改发现问题后重启客户端程序，正常耗时10分钟。处理步骤 [*]（可选）若为安全模式，检查本地的krb5配置文件，是否与集群中的配置一致。 [*]Windows环境中的配置文件路径：“C:\Windows\krb5.ini”。 [*]Linux环境中的配置文件路径：“/etc/krb5.conf”。 [*]（可选）若为安全模式，检查kerberos的principal和keytab文件是否正确。 [*]检查本地环境的时间是否与集群的时间一致。 [*]检查本地环境的jar包与集群中的jar包是否一致（重点检查HBase、ZooKeeper、Hadoop相关的jar包），建议引用HBase lib库下的所有jar文件。

建赟 发表于2018-06-24 20:16:51 2018-06-24 20:16:51 最后回复 Joey啊 2019-09-06 10:21:37
14599 3

HBase
[其他] HBase专题博客，持续更新中……

HBase专题博客，持续更新中 https://bbs.huaweicloud.com/topic/detail?id=dd96da5006d045e6aabb8e1ab0156402

荻花子 发表于2018-06-20 10:52:57 2018-06-20 10:52:57 最后回复 Joey啊 2019-09-06 10:30:22
16665 3

HBase
[技术干货] HIVE和HBASE之间，主要的区别是什么？

Apache Hive是一个构建在hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言，这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能，但是Hive不能够进行交互查询–因为它只能够在Haoop上批量的执行Hadoop。Apache HBase是一种Key/Value系统，它运行在HDFS之上。和Hive不一样，Hbase的能够在它的数据库上实时运行，而不是运行MapReduce任务。Hive被分区为表格，表格又被进一步分割为列簇。列簇必须使用schema定义，列簇将某一类型列集合起来(列不要求schema定义)。例如，“message”列簇可能包含：“to”, ”from” “date”, “subject”, 和”body”. 每一个 key/value对在Hbase中被定义为一个cell，每一个key由row-key，列簇、列和时间戳。在Hbase中，行是key/value映射的集合，这个映射通过row-key来唯一标识。Hbase利用Hadoop的基础设施，可以利用通用的设备进行水平的扩展。两者的特点Hive帮助熟悉SQL的人运行MapReduce任务。因为它是JDBC兼容的，同时，它也能够和现存的SQL工具整合在一起。运行Hive查询会花费很长时间，因为它会默认遍历表中所有的数据。虽然有这样的缺点，一次遍历的数据量可以通过Hive的分区机制来控制。分区允许在数据集上运行过滤查询，这些数据集存储在不同的文件夹内，查询的时候只遍历指定文件夹(分区)中的数据。这种机制可以用来，例如，只处理在某一个时间范围内的文件，只要这些文件名中包括了时间格式。HBase通过存储key/value来工作。它支持四种主要的操作：增加或者更新行，查看一个范围内的cell，获取指定的行，删除指定的行、列或者是列的版本。版本信息用来获取历史数据(每一行的历史数据可以被删除，然后通过Hbase compactions就可以释放出空间)。虽然HBase包括表格，但是schema仅仅被表格和列簇所要求，列不需要schema。Hbase的表格包括增加/计数功能。限制Hive目前不支持更新操作。另外，由于hive在hadoop上运行批量操作，它需要花费很长的时间，通常是几分钟到几个小时才可以获取到查询的结果。Hive必须提供预先定义好的schema将文件和目录映射到列，并且Hive与ACID不兼容。HBase查询是通过特定的语言来编写的，这种语言需要重新学习。类SQL的功能可以通过Apache Phonenix实现，但这是以必须提供schema为代价的。另外，Hbase也并不是兼容所有的ACID特性，虽然它支持某些特性。最后但不是最重要的–为了运行Hbase，Zookeeper是必须的，zookeeper是一个用来进行分布式协调的服务，这些服务包括配置服务，维护元信息和命名空间服务。应用场景Hive适合用来对一段时间内的数据进行分析查询，例如，用来计算趋势或者网站的日志。Hive不应该用来进行实时的查询。因为它需要很长时间才可以返回结果。Hbase非常适合用来进行大数据的实时查询。Facebook用Hbase进行消息和实时的分析。它也可以用来统计Facebook的连接数。总结Hive和Hbase是两种基于Hadoop的不同技术–Hive是一种类SQL的引擎，并且运行MapReduce任务，Hbase是一种在Hadoop之上的NoSQL 的Key/vale数据库。当然，这两种工具是可以同时使用的。就像用Google来搜索，用FaceBook进行社交一样，Hive可以用来进行统计查询，HBase可以用来进行实时查询，数据也可以从Hive写到Hbase，设置再从Hbase写回Hive。

建赟 发表于2018-05-24 22:32:24 2018-05-24 22:32:24 最后回复建赟 2018-05-24 22:32:35
8636 1

HBase Hive

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript