-
HBase介绍 HBase是Hadoop Database的简称,是建立在Hadoop文件系统之上的分布式面向列的数据库,它具有高可靠、高性能、面向列和可伸缩的特性,提供快速随机访问海量数据能力。 HBase采用Master/Slave架构,由HMaster节点、RegionServer节点、ZooKeeper集群组成,底层数据存储在HDFS上。 整体架构如图所示:HMaster主要负责:在HA模式下,包含主用Master和备用Master。主用Master:负责HBase中RegionServer的管理,包括表的增删改查;RegionServer的负载均衡,Region分布调整;Region分裂以及分裂后的Region分配;RegionServer失效后的Region迁移等。备用Master:当主用Master故障时,备用Master将取代主用Master对外提供服务。故障恢复后,原主用Master降为备用。RegionServer主要负责:存放和管理本地HRegion。RegionServer负责提供表数据读写等服务,是HBase的数据处理和计算单元,直接与Client交互。RegionServer一般与HDFS集群的DataNode部署在一起,实现数据的存储功能。读写HDFS,管理Table中的数据。ZooKeeper集群主要负责:存放整个 HBase集群的元数据以及集群的状态信息。实现HMaster主从节点的Failover。HDFS集群主要负责:HDFS为HBase提供高可靠的文件存储服务,HBase的数据全部存储在HDFS中。结构说明:Store一个Region由一个或多个Store组成,每个Store对应图中的一个Column Family。MemStore一个Store包含一个MemStore,MemStore缓存客户端向Region插入的数据,当RegionServer中的MemStore大小达到配置的容量上限时,RegionServer会将MemStore中的数据“flush”到HDFS中。StoreFileMemStore的数据flush到HDFS后成为StoreFile,随着数据的插入,一个Store会产生多个StoreFile,当StoreFile的个数达到配置的阈值时,RegionServer会将多个StoreFile合并为一个大的StoreFile。HFileHFile定义了StoreFile在文件系统中的存储格式,它是当前HBase系统中StoreFile的具体实现。HLog(WAL)HLog日志保证了当RegionServer故障的情况下用户写入的数据不丢失,RegionServer的多个Region共享一个相同的HLog。HBase提供两种API来写入数据。Put:数据直接发送给RegionServer。BulkLoad:直接将HFile加载到表存储路径。HBase 冷热分离诉求HBase是Hadoop Database的简称,是建立在Hadoop文件系统之上的分布式面向列的数据库,它具有高可靠、高性能、面向列和可伸缩的特性,提供快速随机访问海量数据能力。在海量大数据场景下,表中的部分业务数据随着时间的推移仅作为归档数据或者访问频率很低,同时这部分历史数据体量非常大,比如订单数据或者监控数据,如果降低这部分数据的存储成本将会极大的节省企业的成本。冷热分离功能支持将冷热数据存储在不同的介质上,冷数据的存储类型为普通IO存储,热数据的存储类型为超高IO存储。普通IO存储的价格仅为超高IO存储的30%,大大降低了存储成本。HBase 冷热分离介绍HBase支持对同一张表的数据进行冷热分离存储。用户在表上配置数据冷热时间分界点后,HBase会依赖用户写入数据的时间戳(毫秒)和时间分界点来判断数据的冷热。数据开始存储在热存储上,随着时间的推移慢慢往冷存储上迁移。同时用户可以任意变更数据的冷热分界点,数据可以从热存储到冷存储,也可以从冷存储到热存储。整体架构如图所示:命令介绍设置表的冷热分界线创建冷热分离表:hbase(main):002:0> create 'hot_cold_table', {NAME=>'f', COLD_BOUNDARY=>'86400'}参数说明:NAME:需要冷热分离的列族。COLD_BOUNDARY:冷热分离时间点,单位为秒(s)。例如COLD_BOUNDARY为86400,代表86400秒(一天)前写入的数据会被自动归档到冷存储。取消冷热分离。hbase(main):004:0> alter 'hot_cold_table', {NAME=>'f', COLD_BOUNDARY=>""}为已经存在的表设置冷热分离,或者修改冷热分离分界线,单位为秒。hbase(main):005:0> alter 'hot_cold_table', {NAME=>'f', COLD_BOUNDARY=>'86400'}查询冷热分离是否设置或者修改成功hbase(main):005:0> desc 'hot_cold_table'数据写入冷热分离的表与普通表的数据写入方式完全一致,数据会先存储在热存储(超高IO)中。随着时间的推移,如果一行数据满足当前时间-时间列值>COLD_BOUNDARY设置的值条件,则会在执行Compaction时被归档到冷存储(普通IO)中。插入记录执行“put”命令往指定表插入一条记录,需要指定表的名称,主键,自定义列,以及插入的具体值。hbase(main):004:0> put 'hot_cold_table','row1','cf:a','value1'参数说明:hot_cold_table:表的名称。row1:主键。cf:a:自定义的列。value1:插入的值。数据查询由于冷热数据都在同一张表中,因此用户所有的查询操作都只需在一张表内进行。在查询时,建议通过配置TimeRange来指定查询的时间范围,系统将会根据指定的时间范围决定查询模式,即仅查询热存储、仅查询冷存储或同时查询冷存储和热存储。如果查询时未限定时间范围,则会导致查询冷数据。在这种情况下,查询吞吐量会受到冷存储的限制。随机查询不指定HOT_ONLY参数来查询数据。在这种情况下,将会查询冷存储中的数据。hbase(main):001:0> get 'hot_cold_table', 'row1'通过指定HOT_ONLY参数来查询数据。在这种情况下,只会查询热存储中的数据。hbase(main):002:0> get 'hot_cold_table', 'row1', {HOT_ONLY=>true}通过指定TimeRange参数来查询数据。在这种情况下,CloudTable将会比较TimeRange和冷热边界值,以确定是只查询热存储还是冷存储中的数据,还是同时查询热冷存储中的数据。hbase(main):003:0> get 'hot_cold_table', 'row1', {TIMERANGE => [0, 1568203111265]}范围查询不指定HOT_ONLY参数来查询数据。在这种情况下,将会查询冷存储中的数据。hbase(main):001:0> scan 'hot_cold_table', {STARTROW =>'row1', STOPROW=>'row9'}通过指定HOT_ONLY参数来查询数据。在这种情况下,只会查询热存储中的数据。hbase(main):002:0> scan 'hot_cold_table', {STARTROW =>'row1', STOPROW=>'row9', HOT_ONLY=>true}通过指定TimeRange参数来查询数据。在这种情况下,CloudTable将会比较TimeRange和冷热边界值,以确定是只查询热存储还是冷存储中的数据,还是同时查询热冷存储中的数据。hbase(main):003:0> scan 'hot_cold_table', {STARTROW =>'row1', STOPROW=>'row9', TIMERANGE => [0, 1568203111265]}数据合并合并表所有分区的热数据区。hbase(main):002:0> major_compact 'hot_cold_table', nil, 'NORMAL', 'HOT'合并表所有分区的冷数据区。hbase(main):002:0> major_compact 'hot_cold_table', nil, 'NORMAL', 'COLD'合并表所有分区的热冷数据区。hbase(main):002:0> major_compact 'hot_cold_table', nil, 'NORMAL', 'ALL'HBase 冷热分离效果
-
这次学习让我学到了很多东西,十分有收获,让我为以后积累了经验
-
。。。。。。。。。。。。。。
-
CloudTable使用IAM服务实现身份认证功能。CloudTable的底层计算单元运行在一个VPC网络中,VPC即虚拟私有云,是通过逻辑方式进行网络隔离,提供安全、隔离的网络环境。安全组用来实现安全组内和安全组间的访问控制,用户可以自定义安全组规则来实现对CloudTable的访问控制。
-
提供可视化管理平台,支持集群管理、修改配置参数、按CU进行在线扩容等功能。支持可视化监控运维,提供常用的监控信息(如CPU使用率、IOPS、流入流出的流量等)和自定义告警规则,简化系统运维。
-
表格存储服务:是基于Apache HBase提供的全托管NoSQL服务,提供毫秒级随机读写能力,适用于海量 (半)结构化,时空,时序数据存储,可被广泛应用于物联网、车联网、金融、智慧城市、气象等行业。
-
各位专家好: 请问CloudTable的HBase和MRS的HBase有性能对比么? CloudTable的存算分离,对HBase的读取性能影响大么? 感谢各位专家
-
CloudTable服务是华为云提供的一项分布式、可扩展的KeyValue数据存储服务。CloudTable提供Web官网服务界面,CloudTable集群模式的具体功能如下:· 创建集群:在CloudTable服务界面完成集群的创建。支持按照用户创建集群时选择的计算单元个数、实际使用存储容量计费。用户可以自主地选择服务提供的高级特性,独立安装、独立收费。扣费时余额不足先提醒用户续费,在保留期冻结集群资源,续费后再解冻。通过计算存储分离架构和计算资源动态调整,尽可能的为用户降低成本。· 扩容集群:支持集群扩容计算单元。o 扩容计算单元:用户根据实际需要或业务情况,动态的增加计算单元的个数,保证读写性能。集群自适应的实现负载均衡,保证业务不中断,平滑扩容。扩容计算单元将会产生额外的费用。· 高级特性:当前CloudTable集群模式支持OpenTSDB和GeoMesa高级特性。用户可选择性启用高级特性。启用OpenTSDB高级特性将会产生相应的费用。· 管理集群:对创建的集群进行管理。o 指标监控:集群运行中,收集各项监控数据,上报云监控(Cloud Eye),向用户以图形化的方式呈现集群运行状况。当指标出现异常时,通过消息通知用户和管理员,及时人工介入。o 删除集群:当用户不再需要集群时,可选择删除集群。此操作为高危操作,删除集群可能导致数据丢失,因此在执行删除操作之前,请确认不存在正在运行的业务,所有数据都已经保存。o 重启集群:当修改完集群HBase参数后,或者因长时间不重启导致系统运行缓慢等情况下,用户需要重启集群。重启操作将有可能会导致正在运行中的业务数据丢失,如果需要执行重启操作,请确定不存在正在运行的业务,所有数据都已经保存。o 查询告警:集群运行异常或系统故障时,CloudTable服务会收集故障信息并上报网管系统,维护人员可根据用户提供的告警信息定位问题原因。o 日志查询:记录用户对集群操作信息,便于集群运行异常时定位分析问题原因。
-
应用场景:使用CloudTable和函数服务FunctionGraph结合,用户可以快速构建高可用、自动伸缩的Web/移动应用后端。优势:高可用利用CloudTable,OBS的高可用性实现网站数据的高可靠性,利用API Gateway和FunctionGraph的高可用性实现网站逻辑的高可用。超高性能单盘最高20000 IOPS,350MB/s吞吐量。灵活扩展业务爆发时可以自动调度资源运行更多函数实例以满足处理需求。低成本只针对函数处理文件数据的时间进行计费,存储按使用量计费,弹性扩容,对于非峰值处理,无需购买冗余的资源。建议搭配使用:对象存储服务 OBS + 函数服务 FunctionGraph图5 Web/移动应用后端
-
应用场景:画像通常用一些标签来刻画自然人/物的特征,而每一个自然人/物所拥有的标签集合是不确定的,数据更新非常频繁,这类数据被广泛应用于市场决策、推荐以及广告系统中。优势稀疏矩阵HBase的稀疏矩阵模型,天然适合非结构化数据的存储,数据表无需预先定义schema,行与行之间不需要严格的列定义。支持任意更新支持行的任意更新,无性能损耗。而且利用HBase自身的多版本机制,支持保存数据的多个历史版本。建议搭配使用:数据接入服务 DIS + 实时流计算服务 CS图4 画像数据存储和查询
-
应用场景:在车联网中,通常会包含几类数据:车辆、驾驶员等基本信息,车况、电池、电机等监控数据,车辆路线。CloudTable引入了地理大数据处理套件GeoMesa,可以帮助物联网存储和分析海量时空(spatio-temporal)数据,提供区域分布统计、区域查询、密度分析、聚合、OD分析等功能。优势:多模数据库能力针对不同的数据提供不同的索引能力,为其提供最优的性能和查询分析能力。丰富的查询分析函数GeoMesa提供区域分布统计、区域查询、密度分析、聚合、OD分析等功能。无缝对接分析能力时空数据库可以和DLI服务无缝对接,提供对于时间+空间数据的良好分析能力,例如热力图等。建议搭配使用:实时流计算服务 CS + 数据接入服务 DIS + 数据湖探索 DLI + IoT平台 + 对象存储服务 OBS图3 位置大数据
-
应用场景:消息数据、报表数据、推荐类数据、风控类数据、日志数据、订单数据等结构化、半结构化的KeyValue数据均可以存储和查询。优势:海量存储支持离线、在线海量KeyValue数据存储,存储容量可扩展。高性能读写亿级写入吞吐量、ms级查询,用于在线应用和报表展现。生态丰富基于Hadoop生态组件丰富,与华为云产品有高度的整合能力。建议搭配使用:数据接入服务 DIS + 实时流计算服务 CS图2 消息日志类数据存储和查询
-
应用场景:梯联网、燃气、水务、电力、化工、互联网等IoT设备通过物联网套件服务接入上云,设备数据和分析结果实时高效写入到CloudTable的时序数据库OpenTSDB中,通过OpenTSDB接口将时序结果输出到用户的前端监控系统进行展现,实现物联网设备实时监控分析系统。优势:易接入CloudTable(OpenTSDB)开放协议,轻松对接消息系统、实时流计算系统,降低开发难度。高性能读写千万级的时序数据写入吞吐量, 百万数据点3秒查询时延。相比开源OpenTSDB,针对读性能提高30%~60%,写并发提升60%。支持聚合能力提供插值、降精度、丰富的聚合函数能力。低成本存储按使用量计费,弹性扩容,从容应对业务的不确定性。10:1的高压缩比,成本更低。建议搭配使用:实时流计算服务 CS + 数据接入服务 DIS + 数据湖探索 DLI + IoT平台 + 对象存储服务 OBS图1 IoT设备监控
-
表格存储服务(CloudTable Service,简称CloudTable)是基于Apache HBase提供的全托管NoSQL服务,提供毫秒级随机读写能力,适用于海量(半)结构化,时空,时序数据存储,可被广泛应用于物联网、车联网、金融、智慧城市、气象等行业。CloudTable集群模式为用户提供专属集群,即开即用,适合业务吞吐量大,时延要求低的用户。产品架构CloudTable服务的产品架构如下图所示:图1 产品架构生态开放:CloudTable兼容HBase/OpenTSDB/GeoMesa原生接口。HBase:支持KeyValue数据模型。架构高可用,HMaster为两个节点,主备模式,HA实时检测。计算单元故障,region可以秒级转移,保证业务的高可用。存储和计算分离保证数据的高可靠,存储采用多备份机制,存储可靠性不低于99.999999%。时序数据库:集成OpenTSDB,提供时序数据的高效读、写、查询和计算能力,读写性能提升30%-60%。支持插值、降精度、聚合强大分析能力,10:1高压缩比,成本更低。时空大数据:集成地理大数据处理套件GeoMesa,帮助物联网存储和分析海量时空(spatio-temporal)数据,提供区域分布统计、区域查询、密度分析、聚合、OD分析等功能,超越传统空间数据库功能。存储层:高可用,坏盘不影响数据读写,不影响可靠性。计算与存储分离,存储按使用量计费,成本更低。集群管理:提供可视化管理平台,支持集群管理、修改配置参数、按CU进行在线扩容等功能。支持可视化监控运维,提供常用的监控信息(如CPU使用率、IOPS、流入流出的流量等)和自定义告警规则,简化系统运维。安全:CloudTable使用IAM服务实现身份认证功能。CloudTable的底层计算单元运行在一个VPC网络中,VPC即虚拟私有云,是通过逻辑方式进行网络隔离,提供安全、隔离的网络环境。安全组用来实现安全组内和安全组间的访问控制,用户可以自定义安全组规则来实现对CloudTable的访问控制。
-
目前表格存储服务 CloudTable的取费说明不是很明确,用户购买了套餐,对费用这块还是心存疑问?比如:购买了3个包年的套餐,购买了套餐,是否还会产生其他的按需的费用?
上滑加载中
推荐直播
-
华为AI技术发展与挑战:集成需求分析的实战指南
2024/11/26 周二 18:20-20:20
Alex 华为云学堂技术讲师
本期直播将综合讨论华为AI技术的发展现状,技术挑战,并深入探讨华为AI应用开发过程中的需求分析过程,从理论到实践帮助开发者快速掌握华为AI应用集成需求的框架和方法。
去报名 -
华为云DataArts+DWS助力企业数据治理一站式解决方案及应用实践
2024/11/27 周三 16:30-18:00
Walter.chi 华为云数据治理DTSE技术布道师
想知道数据治理项目中,数据主题域如何合理划分?数据标准及主数据标准如何制定?数仓分层模型如何合理规划?华为云DataArts+DWS助力企业数据治理项目一站式解决方案和应用实践告诉您答案!本期将从数据趋势、数据治理方案、数据治理规划及落地,案例分享四个方面来助力企业数据治理项目合理咨询规划及顺利实施。
去报名
热门标签