- 针对之前对Delta 1.2.0、Iceberg 0.13.1和Hudi 011.1进行的基准测试,进行了更正测试,对Hudi组件进行深入分析后,进行了一定的调优处理,本次发布进行进过调优的性能测试结果。 针对之前对Delta 1.2.0、Iceberg 0.13.1和Hudi 011.1进行的基准测试,进行了更正测试,对Hudi组件进行深入分析后,进行了一定的调优处理,本次发布进行进过调优的性能测试结果。
- 帮助客户加速数字化转型和智能化升级 帮助客户加速数字化转型和智能化升级
- 在诞生之初,Trino是为了填补当时 Facebook 内部实时查询和 ETL 处理之间的空白。Trino的核心目标就是提供交互式查询,也就是我们常说的 Ad-Hoc Query,很多公司都使用它作为 OLAP 计算引擎。近年来业务场景越来越复杂,除了交互式查询场景,很多公司也需要兼顾批处理作业,技术大佬们开始思考如何用Trino来进行大数据集的批加工处理。 在诞生之初,Trino是为了填补当时 Facebook 内部实时查询和 ETL 处理之间的空白。Trino的核心目标就是提供交互式查询,也就是我们常说的 Ad-Hoc Query,很多公司都使用它作为 OLAP 计算引擎。近年来业务场景越来越复杂,除了交互式查询场景,很多公司也需要兼顾批处理作业,技术大佬们开始思考如何用Trino来进行大数据集的批加工处理。
- https://bbs.huaweicloud.com/blogs/281649一文介绍了HBase的启动基本流程以及部分MTTR优化实践。本文在该文章的基础上主要介绍了一些华为云在HBase 2.x内核所做的一些MTTR优化实践。 https://bbs.huaweicloud.com/blogs/281649一文介绍了HBase的启动基本流程以及部分MTTR优化实践。本文在该文章的基础上主要介绍了一些华为云在HBase 2.x内核所做的一些MTTR优化实践。
- kafka的粘性分区特性是在kafka的2.0版本以后提出的,旨在提升生产者发送数据的调度性能,笔者在生产环境使用过程中发现了一个致命的问题并在此处分享 kafka的粘性分区特性是在kafka的2.0版本以后提出的,旨在提升生产者发送数据的调度性能,笔者在生产环境使用过程中发现了一个致命的问题并在此处分享
- 数据压缩是kafka解决空间问题和超大数据问题关键场景,例如:当kafka的磁盘空间不足时,可以使用数据压缩,来节省磁盘空间的使用。当生产端需要向kafka集群发送大量的超大数据(大于1M的数据)时可以通过开启压缩模式来减少传输过程中带来的网络消耗。压缩模式开启有一定的要求,为什么会这样,先看kafka压缩的原理:Kafka服务端使用的topic最终压缩模式(由compression.typ... 数据压缩是kafka解决空间问题和超大数据问题关键场景,例如:当kafka的磁盘空间不足时,可以使用数据压缩,来节省磁盘空间的使用。当生产端需要向kafka集群发送大量的超大数据(大于1M的数据)时可以通过开启压缩模式来减少传输过程中带来的网络消耗。压缩模式开启有一定的要求,为什么会这样,先看kafka压缩的原理:Kafka服务端使用的topic最终压缩模式(由compression.typ...
- 在分布式系统中负载均衡是一个非常重要的功能,Apache HBase通常通过Region的数量实现负载均衡,StochasticLoadBalancer将不仅仅考虑Region数量,还会考虑Region负载、表负载、数据本地化、MemStore大小、Storefile大小等。本文将展开分析HBase负载均衡中StochasticLoadBalancer相关内容。 在分布式系统中负载均衡是一个非常重要的功能,Apache HBase通常通过Region的数量实现负载均衡,StochasticLoadBalancer将不仅仅考虑Region数量,还会考虑Region负载、表负载、数据本地化、MemStore大小、Storefile大小等。本文将展开分析HBase负载均衡中StochasticLoadBalancer相关内容。
- FusionInsight Manager的WEB UI运行在Tomcat上,Manager作为MRS的集群管理界面,其重要性不言而喻,一旦Tomcat出现故障,管理界面将不可用。因此监控Tomcat的JVM进程是有必要的,当再次出现类似的Tomcat异常情况时可以提前预知。Manager作为MRS集群的监控,自身的进程并没有可视化的监控界面。本文介绍一种通过JMX方式监控Tomcat进程。 FusionInsight Manager的WEB UI运行在Tomcat上,Manager作为MRS的集群管理界面,其重要性不言而喻,一旦Tomcat出现故障,管理界面将不可用。因此监控Tomcat的JVM进程是有必要的,当再次出现类似的Tomcat异常情况时可以提前预知。Manager作为MRS集群的监控,自身的进程并没有可视化的监控界面。本文介绍一种通过JMX方式监控Tomcat进程。
- 最近在处理一些现网问题时,发现好几例因为建表或者rowkey设计不合理导致的性能问题。这类问题往往在测试环境因为压力不够或者数据量过小,不易被发现。但是一旦部署到生产环境再去解决,代价往往会非常大。 根据对HBase用户对了解,往往存在如下误解: 我之前使用MySql没听说要做什么预分区; HBase对region有自动分裂的能力,为什么要做预分区? 最近在处理一些现网问题时,发现好几例因为建表或者rowkey设计不合理导致的性能问题。这类问题往往在测试环境因为压力不够或者数据量过小,不易被发现。但是一旦部署到生产环境再去解决,代价往往会非常大。 根据对HBase用户对了解,往往存在如下误解: 我之前使用MySql没听说要做什么预分区; HBase对region有自动分裂的能力,为什么要做预分区?
- kafka性能维度标准:6.5.1版本之后kafka生产者的性能基线标准如何判断一个kafka集群是否已经处于性能瓶颈,通常的判断条件有如下几点:维度1:磁盘IO读写磁盘性能是kafka重要的参数指标,如果磁盘IO到达性能瓶颈会直接导致业务故障。Kafka读写性能跟磁盘IO之间的关系计算如下:举例:假设磁盘IO的上限为100M/s,数据大小为8k,假设在topic仅设置为单副本的情况下,理论... kafka性能维度标准:6.5.1版本之后kafka生产者的性能基线标准如何判断一个kafka集群是否已经处于性能瓶颈,通常的判断条件有如下几点:维度1:磁盘IO读写磁盘性能是kafka重要的参数指标,如果磁盘IO到达性能瓶颈会直接导致业务故障。Kafka读写性能跟磁盘IO之间的关系计算如下:举例:假设磁盘IO的上限为100M/s,数据大小为8k,假设在topic仅设置为单副本的情况下,理论...
- 拉链表是缓慢变化维的一种实现形式,是数据仓库的常用数据模型。基于传统大数据需要全量覆盖写的模式进行,基于Hudi的能力,实现方案会更加简单,性能更优。 拉链表是缓慢变化维的一种实现形式,是数据仓库的常用数据模型。基于传统大数据需要全量覆盖写的模式进行,基于Hudi的能力,实现方案会更加简单,性能更优。
- 华为云FusionInsight MRS通过FGL对HDFS NameNode锁机制进行优化,有效提升了NameNode的读写吞吐量,从而能够支持更多数据,更多业务请求访问,从而更好的支撑政企客户高效用数,业务洞见更准,价值兑现更快。 华为云FusionInsight MRS通过FGL对HDFS NameNode锁机制进行优化,有效提升了NameNode的读写吞吐量,从而能够支持更多数据,更多业务请求访问,从而更好的支撑政企客户高效用数,业务洞见更准,价值兑现更快。
- hbck2使用hbase hbck -help:hbck帮助,执行后反馈输出hbck的帮助文档。没太多有效信息,主要就是说hbase2.x里面不再支持hbck1。使用hbase hbck -j /opt/hbase-hbck2-1.1.0.jar --help 输出帮助信息。bypass[OPTIONS]<PID>…参数说明:中止指定的Procedure任务。当一个Procedure任务长... hbck2使用hbase hbck -help:hbck帮助,执行后反馈输出hbck的帮助文档。没太多有效信息,主要就是说hbase2.x里面不再支持hbck1。使用hbase hbck -j /opt/hbase-hbck2-1.1.0.jar --help 输出帮助信息。bypass[OPTIONS]<PID>…参数说明:中止指定的Procedure任务。当一个Procedure任务长...
- HBaseFsck(hbck)是一种命令行工具,可检查region一致性和表完整性问题并修复损坏。目前HBCK工具有两个版本,HBCK1和HBCK2。两个版本的HBCK工具在设计上已经发生的非常大的变化,在使用方式上也有比较大的差异,两个版本的工具只能使用在对应的内核版本上,无法混用。hbck1(6.5.1版本及以前)hbck1主要用于在hbase1.x版本进行检查or修复。常用命令:-fi... HBaseFsck(hbck)是一种命令行工具,可检查region一致性和表完整性问题并修复损坏。目前HBCK工具有两个版本,HBCK1和HBCK2。两个版本的HBCK工具在设计上已经发生的非常大的变化,在使用方式上也有比较大的差异,两个版本的工具只能使用在对应的内核版本上,无法混用。hbck1(6.5.1版本及以前)hbck1主要用于在hbase1.x版本进行检查or修复。常用命令:-fi...
- 特性背景1. 实际场景需要支持JDBC客户端跨网络域访问HetuEngine服务端2. 多数据中心的数据互联互通和数据安全管理,是制约数据融合创新,挖掘数据价值的主要矛盾。华为云FusionInsight提供 HetuEngine,将物理分散的数据中心,编织为统一的超级计算网格,让客户告别数据 ETL来回搬迁数据的历史,从单数据湖靠人,迈向安全、高效、智能的跨湖融合与创新特性功能说明1、 ... 特性背景1. 实际场景需要支持JDBC客户端跨网络域访问HetuEngine服务端2. 多数据中心的数据互联互通和数据安全管理,是制约数据融合创新,挖掘数据价值的主要矛盾。华为云FusionInsight提供 HetuEngine,将物理分散的数据中心,编织为统一的超级计算网格,让客户告别数据 ETL来回搬迁数据的历史,从单数据湖靠人,迈向安全、高效、智能的跨湖融合与创新特性功能说明1、 ...
上滑加载中
推荐直播
-
openEuler Summit 2024
2024/11/16 周六 09:30-12:00
华为讲师团
2024年11月15日-16日,我们将在北京中关村国际创新中心举办 操作系统大会&openEuler Summit 2024,本次大会旨在汇聚全球产业发展力量,邀请思想引领者、商业精英、技术专家、合作伙伴以及全球开源基金会等业界同仁,共同探讨操作系统产业发展方向和未来机遇,联合伙伴展示最新合作成果,分享数字化转型实践,以技术驱动创新不断激发新质生产力。
回顾中 -
华为云AI入门课:AI发展趋势与华为愿景
2024/11/18 周一 18:20-20:20
Alex 华为云学堂技术讲师
本期直播旨在帮助开发者熟悉理解AI技术概念,AI发展趋势,AI实用化前景,了解熟悉未来主要技术栈,当前发展瓶颈等行业化知识。帮助开发者在AI领域快速构建知识体系,构建职业竞争力。
去报名 -
华为云软件开发生产线(CodeArts)10月新特性解读
2024/11/19 周二 19:00-20:00
苏柏亚培 华为云高级产品经理
不知道产品的最新特性?没法和产品团队建立直接的沟通?本期直播产品经理将为您解读华为云软件开发生产线10月发布的新特性,并在直播过程中为您答疑解惑。
去报名
热门标签