- 针对之前对Delta 1.2.0、Iceberg 0.13.1和Hudi 011.1进行的基准测试,进行了更正测试,对Hudi组件进行深入分析后,进行了一定的调优处理,本次发布进行进过调优的性能测试结果。 针对之前对Delta 1.2.0、Iceberg 0.13.1和Hudi 011.1进行的基准测试,进行了更正测试,对Hudi组件进行深入分析后,进行了一定的调优处理,本次发布进行进过调优的性能测试结果。
- 帮助客户加速数字化转型和智能化升级 帮助客户加速数字化转型和智能化升级
- 在诞生之初,Trino是为了填补当时 Facebook 内部实时查询和 ETL 处理之间的空白。Trino的核心目标就是提供交互式查询,也就是我们常说的 Ad-Hoc Query,很多公司都使用它作为 OLAP 计算引擎。近年来业务场景越来越复杂,除了交互式查询场景,很多公司也需要兼顾批处理作业,技术大佬们开始思考如何用Trino来进行大数据集的批加工处理。 在诞生之初,Trino是为了填补当时 Facebook 内部实时查询和 ETL 处理之间的空白。Trino的核心目标就是提供交互式查询,也就是我们常说的 Ad-Hoc Query,很多公司都使用它作为 OLAP 计算引擎。近年来业务场景越来越复杂,除了交互式查询场景,很多公司也需要兼顾批处理作业,技术大佬们开始思考如何用Trino来进行大数据集的批加工处理。
- https://bbs.huaweicloud.com/blogs/281649一文介绍了HBase的启动基本流程以及部分MTTR优化实践。本文在该文章的基础上主要介绍了一些华为云在HBase 2.x内核所做的一些MTTR优化实践。 https://bbs.huaweicloud.com/blogs/281649一文介绍了HBase的启动基本流程以及部分MTTR优化实践。本文在该文章的基础上主要介绍了一些华为云在HBase 2.x内核所做的一些MTTR优化实践。
- kafka的粘性分区特性是在kafka的2.0版本以后提出的,旨在提升生产者发送数据的调度性能,笔者在生产环境使用过程中发现了一个致命的问题并在此处分享 kafka的粘性分区特性是在kafka的2.0版本以后提出的,旨在提升生产者发送数据的调度性能,笔者在生产环境使用过程中发现了一个致命的问题并在此处分享
- 数据压缩是kafka解决空间问题和超大数据问题关键场景,例如:当kafka的磁盘空间不足时,可以使用数据压缩,来节省磁盘空间的使用。当生产端需要向kafka集群发送大量的超大数据(大于1M的数据)时可以通过开启压缩模式来减少传输过程中带来的网络消耗。压缩模式开启有一定的要求,为什么会这样,先看kafka压缩的原理:Kafka服务端使用的topic最终压缩模式(由compression.typ... 数据压缩是kafka解决空间问题和超大数据问题关键场景,例如:当kafka的磁盘空间不足时,可以使用数据压缩,来节省磁盘空间的使用。当生产端需要向kafka集群发送大量的超大数据(大于1M的数据)时可以通过开启压缩模式来减少传输过程中带来的网络消耗。压缩模式开启有一定的要求,为什么会这样,先看kafka压缩的原理:Kafka服务端使用的topic最终压缩模式(由compression.typ...
- 在分布式系统中负载均衡是一个非常重要的功能,Apache HBase通常通过Region的数量实现负载均衡,StochasticLoadBalancer将不仅仅考虑Region数量,还会考虑Region负载、表负载、数据本地化、MemStore大小、Storefile大小等。本文将展开分析HBase负载均衡中StochasticLoadBalancer相关内容。 在分布式系统中负载均衡是一个非常重要的功能,Apache HBase通常通过Region的数量实现负载均衡,StochasticLoadBalancer将不仅仅考虑Region数量,还会考虑Region负载、表负载、数据本地化、MemStore大小、Storefile大小等。本文将展开分析HBase负载均衡中StochasticLoadBalancer相关内容。
- FusionInsight Manager的WEB UI运行在Tomcat上,Manager作为MRS的集群管理界面,其重要性不言而喻,一旦Tomcat出现故障,管理界面将不可用。因此监控Tomcat的JVM进程是有必要的,当再次出现类似的Tomcat异常情况时可以提前预知。Manager作为MRS集群的监控,自身的进程并没有可视化的监控界面。本文介绍一种通过JMX方式监控Tomcat进程。 FusionInsight Manager的WEB UI运行在Tomcat上,Manager作为MRS的集群管理界面,其重要性不言而喻,一旦Tomcat出现故障,管理界面将不可用。因此监控Tomcat的JVM进程是有必要的,当再次出现类似的Tomcat异常情况时可以提前预知。Manager作为MRS集群的监控,自身的进程并没有可视化的监控界面。本文介绍一种通过JMX方式监控Tomcat进程。
- 最近在处理一些现网问题时,发现好几例因为建表或者rowkey设计不合理导致的性能问题。这类问题往往在测试环境因为压力不够或者数据量过小,不易被发现。但是一旦部署到生产环境再去解决,代价往往会非常大。 根据对HBase用户对了解,往往存在如下误解: 我之前使用MySql没听说要做什么预分区; HBase对region有自动分裂的能力,为什么要做预分区? 最近在处理一些现网问题时,发现好几例因为建表或者rowkey设计不合理导致的性能问题。这类问题往往在测试环境因为压力不够或者数据量过小,不易被发现。但是一旦部署到生产环境再去解决,代价往往会非常大。 根据对HBase用户对了解,往往存在如下误解: 我之前使用MySql没听说要做什么预分区; HBase对region有自动分裂的能力,为什么要做预分区?
- kafka性能维度标准:6.5.1版本之后kafka生产者的性能基线标准如何判断一个kafka集群是否已经处于性能瓶颈,通常的判断条件有如下几点:维度1:磁盘IO读写磁盘性能是kafka重要的参数指标,如果磁盘IO到达性能瓶颈会直接导致业务故障。Kafka读写性能跟磁盘IO之间的关系计算如下:举例:假设磁盘IO的上限为100M/s,数据大小为8k,假设在topic仅设置为单副本的情况下,理论... kafka性能维度标准:6.5.1版本之后kafka生产者的性能基线标准如何判断一个kafka集群是否已经处于性能瓶颈,通常的判断条件有如下几点:维度1:磁盘IO读写磁盘性能是kafka重要的参数指标,如果磁盘IO到达性能瓶颈会直接导致业务故障。Kafka读写性能跟磁盘IO之间的关系计算如下:举例:假设磁盘IO的上限为100M/s,数据大小为8k,假设在topic仅设置为单副本的情况下,理论...
- 拉链表是缓慢变化维的一种实现形式,是数据仓库的常用数据模型。基于传统大数据需要全量覆盖写的模式进行,基于Hudi的能力,实现方案会更加简单,性能更优。 拉链表是缓慢变化维的一种实现形式,是数据仓库的常用数据模型。基于传统大数据需要全量覆盖写的模式进行,基于Hudi的能力,实现方案会更加简单,性能更优。
- 华为云FusionInsight MRS通过FGL对HDFS NameNode锁机制进行优化,有效提升了NameNode的读写吞吐量,从而能够支持更多数据,更多业务请求访问,从而更好的支撑政企客户高效用数,业务洞见更准,价值兑现更快。 华为云FusionInsight MRS通过FGL对HDFS NameNode锁机制进行优化,有效提升了NameNode的读写吞吐量,从而能够支持更多数据,更多业务请求访问,从而更好的支撑政企客户高效用数,业务洞见更准,价值兑现更快。
- hbck2使用hbase hbck -help:hbck帮助,执行后反馈输出hbck的帮助文档。没太多有效信息,主要就是说hbase2.x里面不再支持hbck1。使用hbase hbck -j /opt/hbase-hbck2-1.1.0.jar --help 输出帮助信息。bypass[OPTIONS]<PID>…参数说明:中止指定的Procedure任务。当一个Procedure任务长... hbck2使用hbase hbck -help:hbck帮助,执行后反馈输出hbck的帮助文档。没太多有效信息,主要就是说hbase2.x里面不再支持hbck1。使用hbase hbck -j /opt/hbase-hbck2-1.1.0.jar --help 输出帮助信息。bypass[OPTIONS]<PID>…参数说明:中止指定的Procedure任务。当一个Procedure任务长...
- HBaseFsck(hbck)是一种命令行工具,可检查region一致性和表完整性问题并修复损坏。目前HBCK工具有两个版本,HBCK1和HBCK2。两个版本的HBCK工具在设计上已经发生的非常大的变化,在使用方式上也有比较大的差异,两个版本的工具只能使用在对应的内核版本上,无法混用。hbck1(6.5.1版本及以前)hbck1主要用于在hbase1.x版本进行检查or修复。常用命令:-fi... HBaseFsck(hbck)是一种命令行工具,可检查region一致性和表完整性问题并修复损坏。目前HBCK工具有两个版本,HBCK1和HBCK2。两个版本的HBCK工具在设计上已经发生的非常大的变化,在使用方式上也有比较大的差异,两个版本的工具只能使用在对应的内核版本上,无法混用。hbck1(6.5.1版本及以前)hbck1主要用于在hbase1.x版本进行检查or修复。常用命令:-fi...
- 特性背景1. 实际场景需要支持JDBC客户端跨网络域访问HetuEngine服务端2. 多数据中心的数据互联互通和数据安全管理,是制约数据融合创新,挖掘数据价值的主要矛盾。华为云FusionInsight提供 HetuEngine,将物理分散的数据中心,编织为统一的超级计算网格,让客户告别数据 ETL来回搬迁数据的历史,从单数据湖靠人,迈向安全、高效、智能的跨湖融合与创新特性功能说明1、 ... 特性背景1. 实际场景需要支持JDBC客户端跨网络域访问HetuEngine服务端2. 多数据中心的数据互联互通和数据安全管理,是制约数据融合创新,挖掘数据价值的主要矛盾。华为云FusionInsight提供 HetuEngine,将物理分散的数据中心,编织为统一的超级计算网格,让客户告别数据 ETL来回搬迁数据的历史,从单数据湖靠人,迈向安全、高效、智能的跨湖融合与创新特性功能说明1、 ...
上滑加载中
推荐直播
-
让你的应用用上GaussDB
2024/12/19 周四 16:30-18:00
Jerry 华为云生态技术讲师
GaussDB很受客户关注,伙伴们想知道什么时候该选用,开发者也跃跃欲试想尝鲜。课程会分享适用的场景,并一步步演示如何用上GaussDB。
即将直播 -
2024创原会年度技术峰会
2024/12/20 周五 09:00-12:00
华为云讲师团
2024创原会年度技术峰会将于12月20日在海南万宁石梅湾威斯汀酒店举办,本次大会将以“智能・进化”为主题探讨从Cloud Native到AI Native的新阶段企业如何通过AI技术重塑企业应用,围绕AI如何在千行万业落地进行深入交流,探索可以先行先试先成功的创新场景和实现路径。
即将直播 -
华为云开发者日·2024年度创享峰会
2024/12/23 周一 14:00-16:00
华为云讲师团
华为云开发者日HDC.Cloud Day是面向全球开发者的旗舰活动,汇聚来自千行百业、高校及科研院所的开发人员。致力于打造开发者专属的技术盛宴,全方位服务与赋能开发者围绕华为云生态“知、学、用、创、商”的成长路径。通过前沿的技术分享、场景化的动手体验、优秀的应用创新推介,为开发者提供沉浸式学习与交流平台。开放创新,与开发者共创、共享、共赢未来。
去报名
热门标签