FusionInsight_标签_开发者

走向批处理-交互式分析一体化： Trino容错模式深度测评与思考

在诞生之初，Trino是为了填补当时 Facebook 内部实时查询和 ETL 处理之间的空白。Trino的核心目标就是提供交互式查询，也就是我们常说的 Ad-Hoc Query，很多公司都使用它作为 OLAP 计算引擎。近年来业务场景越来越复杂，除了交互式查询场景，很多公司也需要兼顾批处理作业，技术大佬们开始思考如何用Trino来进行大数据集的批加工处理。

HetuEngine九级代言

发表于2023-09-19 16:56:39

16861 0 0

16.8k 0 0

在诞生之初，Trino是为了填补当时 Facebook 内部实时查询和 ETL 处理之间的空白。Trino的核心目标就是提供交互式查询，也就是我们常说的 Ad-Hoc Query，很多公司都使用它作为 OLAP 计算引擎。近年来业务场景越来越复杂，除了交互式查询场景，很多公司也需要兼顾批处理作业，技术大佬们开始思考如何用Trino来进行大数据集的批加工处理。

FusionInsight HetuEngine MapReduce 大数据

华为云在HBase MTTR上的优化实践

https://bbs.huaweicloud.com/blogs/281649一文介绍了HBase的启动基本流程以及部分MTTR优化实践。本文在该文章的基础上主要介绍了一些华为云在HBase 2.x内核所做的一些MTTR优化实践。

搬砖小能手

发表于2023-01-02 22:15:01

11086 0 1

11.0k 0 1

https://bbs.huaweicloud.com/blogs/281649一文介绍了HBase的启动基本流程以及部分MTTR优化实践。本文在该文章的基础上主要介绍了一些华为云在HBase 2.x内核所做的一些MTTR优化实践。

EI企业智能 FusionInsight HBase

关于kafka的Producer的粘性分区的坑

kafka的粘性分区特性是在kafka的2.0版本以后提出的，旨在提升生产者发送数据的调度性能，笔者在生产环境使用过程中发现了一个致命的问题并在此处分享

Bigdata Go!

发表于2022-11-28 10:40:26

10687 0 0

10.6k 0 0

kafka的粘性分区特性是在kafka的2.0版本以后提出的，旨在提升生产者发送数据的调度性能，笔者在生产环境使用过程中发现了一个致命的问题并在此处分享

EI企业智能 FusionInsight Kafka MapReduce服务 MRS 大数据

kafka业务侧使用了与服务端版本不一致的客户端，并且开启了数据压缩带来的问题

数据压缩是kafka解决空间问题和超大数据问题关键场景，例如：当kafka的磁盘空间不足时，可以使用数据压缩，来节省磁盘空间的使用。当生产端需要向kafka集群发送大量的超大数据（大于1M的数据）时可以通过开启压缩模式来减少传输过程中带来的网络消耗。压缩模式开启有一定的要求，为什么会这样，先看kafka压缩的原理：Kafka服务端使用的topic最终压缩模式（由compression.typ...

Bigdata Go!

发表于2022-11-28 10:38:34

9268 0 0

9.2k 0 0

数据压缩是kafka解决空间问题和超大数据问题关键场景，例如：当kafka的磁盘空间不足时，可以使用数据压缩，来节省磁盘空间的使用。当生产端需要向kafka集群发送大量的超大数据（大于1M的数据）时可以通过开启压缩模式来减少传输过程中带来的网络消耗。压缩模式开启有一定的要求，为什么会这样，先看kafka压缩的原理：Kafka服务端使用的topic最终压缩模式（由compression.typ...

FusionInsight Kafka 大数据

Apache HBase 负载均衡机制（三） -- StochasticLoadBalancer详解

在分布式系统中负载均衡是一个非常重要的功能，Apache HBase通常通过Region的数量实现负载均衡，StochasticLoadBalancer将不仅仅考虑Region数量，还会考虑Region负载、表负载、数据本地化、MemStore大小、Storefile大小等。本文将展开分析HBase负载均衡中StochasticLoadBalancer相关内容。

milan

发表于2022-10-31 18:33:24

10799 1 1

10.7k 1 1

在分布式系统中负载均衡是一个非常重要的功能，Apache HBase通常通过Region的数量实现负载均衡，StochasticLoadBalancer将不仅仅考虑Region数量，还会考虑Region负载、表负载、数据本地化、MemStore大小、Storefile大小等。本文将展开分析HBase负载均衡中StochasticLoadBalancer相关内容。

EI企业智能 FusionInsight HBase MapReduce服务 MRS 大数据

JMX监控Manager的Tomcat进程

FusionInsight Manager的WEB UI运行在Tomcat上，Manager作为MRS的集群管理界面，其重要性不言而喻，一旦Tomcat出现故障，管理界面将不可用。因此监控Tomcat的JVM进程是有必要的，当再次出现类似的Tomcat异常情况时可以提前预知。Manager作为MRS集群的监控，自身的进程并没有可视化的监控界面。本文介绍一种通过JMX方式监控Tomcat进程。

小霸王

发表于2022-10-12 15:17:35

9419 0 0

9.4k 0 0

FusionInsight Manager的WEB UI运行在Tomcat上，Manager作为MRS的集群管理界面，其重要性不言而喻，一旦Tomcat出现故障，管理界面将不可用。因此监控Tomcat的JVM进程是有必要的，当再次出现类似的Tomcat异常情况时可以提前预知。Manager作为MRS集群的监控，自身的进程并没有可视化的监控界面。本文介绍一种通过JMX方式监控Tomcat进程。

EI企业智能 FusionInsight JVM Tomcat

浅谈HBase建表预分区的重要性

最近在处理一些现网问题时，发现好几例因为建表或者rowkey设计不合理导致的性能问题。这类问题往往在测试环境因为压力不够或者数据量过小，不易被发现。但是一旦部署到生产环境再去解决，代价往往会非常大。根据对HBase用户对了解，往往存在如下误解：我之前使用MySql没听说要做什么预分区； HBase对region有自动分裂的能力，为什么要做预分区？

搬砖小能手

发表于2022-10-09 22:04:01

8484 1 1

8.4k 1 1

最近在处理一些现网问题时，发现好几例因为建表或者rowkey设计不合理导致的性能问题。这类问题往往在测试环境因为压力不够或者数据量过小，不易被发现。但是一旦部署到生产环境再去解决，代价往往会非常大。根据对HBase用户对了解，往往存在如下误解：我之前使用MySql没听说要做什么预分区； HBase对region有自动分裂的能力，为什么要做预分区？

EI企业智能 FusionInsight HBase

FusionInsight HD集群kafka性能维度标准及常见场景（草稿）

kafka性能维度标准：6.5.1版本之后kafka生产者的性能基线标准如何判断一个kafka集群是否已经处于性能瓶颈，通常的判断条件有如下几点：维度1：磁盘IO读写磁盘性能是kafka重要的参数指标，如果磁盘IO到达性能瓶颈会直接导致业务故障。Kafka读写性能跟磁盘IO之间的关系计算如下：举例：假设磁盘IO的上限为100M/s，数据大小为8k，假设在topic仅设置为单副本的情况下，理论...

边塞诗人

发表于2022-07-26 16:53:30

9312 0 0

9.3k 0 0

kafka性能维度标准：6.5.1版本之后kafka生产者的性能基线标准如何判断一个kafka集群是否已经处于性能瓶颈，通常的判断条件有如下几点：维度1：磁盘IO读写磁盘性能是kafka重要的参数指标，如果磁盘IO到达性能瓶颈会直接导致业务故障。Kafka读写性能跟磁盘IO之间的关系计算如下：举例：假设磁盘IO的上限为100M/s，数据大小为8k，假设在topic仅设置为单副本的情况下，理论...

FusionInsight Kafka

如何基于MRS-Hudi实现拉链表

拉链表是缓慢变化维的一种实现形式，是数据仓库的常用数据模型。基于传统大数据需要全量覆盖写的模式进行，基于Hudi的能力，实现方案会更加简单，性能更优。

受春柏

发表于2022-05-24 11:12:19

14032 0 0

14.0k 0 0

拉链表是缓慢变化维的一种实现形式，是数据仓库的常用数据模型。基于传统大数据需要全量覆盖写的模式进行，基于Hudi的能力，实现方案会更加简单，性能更优。

EI企业智能 FusionInsight MapReduce服务 MRS spark 大数据

FusionInsight MRS HDFS 细粒度锁优化实践

华为云FusionInsight MRS通过FGL对HDFS NameNode锁机制进行优化，有效提升了NameNode的读写吞吐量，从而能够支持更多数据，更多业务请求访问，从而更好的支撑政企客户高效用数，业务洞见更准，价值兑现更快。

milan

发表于2022-05-17 21:07:22

13221 2 5

13.2k 2 5

华为云FusionInsight MRS通过FGL对HDFS NameNode锁机制进行优化，有效提升了NameNode的读写吞吐量，从而能够支持更多数据，更多业务请求访问，从而更好的支撑政企客户高效用数，业务洞见更准，价值兑现更快。

EI企业智能 FusionInsight MapReduce服务 MRS 大数据

HBase hbck2详解

hbck2使用hbase hbck -help：hbck帮助，执行后反馈输出hbck的帮助文档。没太多有效信息，主要就是说hbase2.x里面不再支持hbck1。使用hbase hbck -j /opt/hbase-hbck2-1.1.0.jar --help 输出帮助信息。bypass[OPTIONS]<PID>…参数说明：中止指定的Procedure任务。当一个Procedure任务长...

FI小粉丝

发表于2022-05-17 16:55:04

10245 0 0

10.2k 0 0

hbck2使用hbase hbck -help：hbck帮助，执行后反馈输出hbck的帮助文档。没太多有效信息，主要就是说hbase2.x里面不再支持hbck1。使用hbase hbck -j /opt/hbase-hbck2-1.1.0.jar --help 输出帮助信息。bypass[OPTIONS]<PID>…参数说明：中止指定的Procedure任务。当一个Procedure任务长...

EI企业智能 FusionInsight HBase MapReduce MapReduce服务 MRS

HBase hbck详解

HBaseFsck（hbck）是一种命令行工具，可检查region一致性和表完整性问题并修复损坏。目前HBCK工具有两个版本，HBCK1和HBCK2。两个版本的HBCK工具在设计上已经发生的非常大的变化，在使用方式上也有比较大的差异，两个版本的工具只能使用在对应的内核版本上，无法混用。hbck1（6.5.1版本及以前）hbck1主要用于在hbase1.x版本进行检查or修复。常用命令：-fi...

FI小粉丝

发表于2022-05-17 16:52:07

17164 0 0

17.1k 0 0

HBaseFsck（hbck）是一种命令行工具，可检查region一致性和表完整性问题并修复损坏。目前HBCK工具有两个版本，HBCK1和HBCK2。两个版本的HBCK工具在设计上已经发生的非常大的变化，在使用方式上也有比较大的差异，两个版本的工具只能使用在对应的内核版本上，无法混用。hbck1（6.5.1版本及以前）hbck1主要用于在hbase1.x版本进行检查or修复。常用命令：-fi...

EI企业智能 FusionInsight HBase MapReduce MapReduce服务 MRS

MRS3.1.3-LTS 交互式分析引擎HetuEngine新特性之 HSFabric统一入口特性介绍

特性背景1. 实际场景需要支持JDBC客户端跨网络域访问HetuEngine服务端2. 多数据中心的数据互联互通和数据安全管理，是制约数据融合创新，挖掘数据价值的主要矛盾。华为云FusionInsight提供 HetuEngine，将物理分散的数据中心，编织为统一的超级计算网格，让客户告别数据 ETL来回搬迁数据的历史，从单数据湖靠人，迈向安全、高效、智能的跨湖融合与创新特性功能说明1、 ...

HetuEngine九级代言

发表于2022-05-08 12:46:13

10872 0 0

10.8k 0 0

特性背景1. 实际场景需要支持JDBC客户端跨网络域访问HetuEngine服务端2. 多数据中心的数据互联互通和数据安全管理，是制约数据融合创新，挖掘数据价值的主要矛盾。华为云FusionInsight提供 HetuEngine，将物理分散的数据中心，编织为统一的超级计算网格，让客户告别数据 ETL来回搬迁数据的历史，从单数据湖靠人，迈向安全、高效、智能的跨湖融合与创新特性功能说明1、 ...

EI企业智能 FusionInsight HetuEngine MapReduce 大数据

MRS3.1.3-LTS 交互式分析引擎HetuEngine新特性之 Massive Data Exchange

特性背景传统JDBC或者copymanager方式对GaussDB进行数据写入时，数据都是经过GaussDB的Coordinator节点进入集群，会对coordinator节点带来较大压力，并且存在性能瓶颈。因此HetuEngine使用MDE特性来解决这类问题。在使用HetuEngine向GaussDB写入数据时（包含CREATE TABLE AS SELECT和INSERT INTO SE...

HetuEngine九级代言

发表于2022-05-08 12:41:39

9608 0 0

9.6k 0 0

特性背景传统JDBC或者copymanager方式对GaussDB进行数据写入时，数据都是经过GaussDB的Coordinator节点进入集群，会对coordinator节点带来较大压力，并且存在性能瓶颈。因此HetuEngine使用MDE特性来解决这类问题。在使用HetuEngine向GaussDB写入数据时（包含CREATE TABLE AS SELECT和INSERT INTO SE...

EI企业智能 FusionInsight HetuEngine MapReduce 大数据

MRS3.1.3-LTS 交互式分析引擎HetuEngine新特性之支持HUDI Schema演进

一. 什么是Schema演进？Schema演进是指保持表的数据不变，对表的schema进行变换，包括列的位置变更，新增删除列或者列的数据类型变更，查询引擎能正确地处理这些数据与表schema不一致的变更。二．HetuEngine哪些表支持Schema演进？ COW表的schema变更支持MOR表的RT表的schema变更支持MOR表的RO表的schema变更支持三．HetuEng...

HetuEngine九级代言

发表于2022-05-08 12:33:40

6925 0 0

6.9k 0 0

一. 什么是Schema演进？Schema演进是指保持表的数据不变，对表的schema进行变换，包括列的位置变更，新增删除列或者列的数据类型变更，查询引擎能正确地处理这些数据与表schema不一致的变更。二．HetuEngine哪些表支持Schema演进？ COW表的schema变更支持MOR表的RT表的schema变更支持MOR表的RO表的schema变更支持三．HetuEng...

EI企业智能 FusionInsight HetuEngine MapReduce 大数据