MapReduce服务 MRS_标签_开发者

MRS1.9.2安装Flume客户端并且对接Kafka到HDFS

yd_254158608

发表于2023-03-06 11:20:30

8406 0 1

8.4k 0 1

MRS1.9.2安装Flume客户端并且对接Kafka到HDFS

MapReduce服务 MRS

关于kafka的Producer的粘性分区的坑

kafka的粘性分区特性是在kafka的2.0版本以后提出的，旨在提升生产者发送数据的调度性能，笔者在生产环境使用过程中发现了一个致命的问题并在此处分享

Bigdata Go!

发表于2022-11-28 10:40:26

10617 0 0

10.6k 0 0

kafka的粘性分区特性是在kafka的2.0版本以后提出的，旨在提升生产者发送数据的调度性能，笔者在生产环境使用过程中发现了一个致命的问题并在此处分享

EI企业智能 FusionInsight Kafka MapReduce服务 MRS 大数据

Apache HBase 负载均衡机制（三） -- StochasticLoadBalancer详解

在分布式系统中负载均衡是一个非常重要的功能，Apache HBase通常通过Region的数量实现负载均衡，StochasticLoadBalancer将不仅仅考虑Region数量，还会考虑Region负载、表负载、数据本地化、MemStore大小、Storefile大小等。本文将展开分析HBase负载均衡中StochasticLoadBalancer相关内容。

milan

发表于2022-10-31 18:33:24

10704 1 1

10.7k 1 1

在分布式系统中负载均衡是一个非常重要的功能，Apache HBase通常通过Region的数量实现负载均衡，StochasticLoadBalancer将不仅仅考虑Region数量，还会考虑Region负载、表负载、数据本地化、MemStore大小、Storefile大小等。本文将展开分析HBase负载均衡中StochasticLoadBalancer相关内容。

EI企业智能 FusionInsight HBase MapReduce服务 MRS 大数据

PyFlink实现自定义SourceFunction

本文主要介绍pyflink实现自定义SourceFunction的两种方法

想要一只猫

发表于2022-06-13 00:39:39

10587 0 0

10.5k 0 0

本文主要介绍pyflink实现自定义SourceFunction的两种方法

EI企业智能 Flink MapReduce服务 MRS Python 智能数据

如何基于MRS-Hudi实现拉链表

拉链表是缓慢变化维的一种实现形式，是数据仓库的常用数据模型。基于传统大数据需要全量覆盖写的模式进行，基于Hudi的能力，实现方案会更加简单，性能更优。

受春柏

发表于2022-05-24 11:12:19

13950 0 0

13.9k 0 0

拉链表是缓慢变化维的一种实现形式，是数据仓库的常用数据模型。基于传统大数据需要全量覆盖写的模式进行，基于Hudi的能力，实现方案会更加简单，性能更优。

EI企业智能 FusionInsight MapReduce服务 MRS spark 大数据

FusionInsight MRS HDFS 细粒度锁优化实践

华为云FusionInsight MRS通过FGL对HDFS NameNode锁机制进行优化，有效提升了NameNode的读写吞吐量，从而能够支持更多数据，更多业务请求访问，从而更好的支撑政企客户高效用数，业务洞见更准，价值兑现更快。

milan

发表于2022-05-17 21:07:22

13114 2 5

13.1k 2 5

华为云FusionInsight MRS通过FGL对HDFS NameNode锁机制进行优化，有效提升了NameNode的读写吞吐量，从而能够支持更多数据，更多业务请求访问，从而更好的支撑政企客户高效用数，业务洞见更准，价值兑现更快。

EI企业智能 FusionInsight MapReduce服务 MRS 大数据

HBase hbck2详解

hbck2使用hbase hbck -help：hbck帮助，执行后反馈输出hbck的帮助文档。没太多有效信息，主要就是说hbase2.x里面不再支持hbck1。使用hbase hbck -j /opt/hbase-hbck2-1.1.0.jar --help 输出帮助信息。bypass[OPTIONS]<PID>…参数说明：中止指定的Procedure任务。当一个Procedure任务长...

FI小粉丝

发表于2022-05-17 16:55:04

10164 0 0

10.1k 0 0

hbck2使用hbase hbck -help：hbck帮助，执行后反馈输出hbck的帮助文档。没太多有效信息，主要就是说hbase2.x里面不再支持hbck1。使用hbase hbck -j /opt/hbase-hbck2-1.1.0.jar --help 输出帮助信息。bypass[OPTIONS]<PID>…参数说明：中止指定的Procedure任务。当一个Procedure任务长...

EI企业智能 FusionInsight HBase MapReduce MapReduce服务 MRS

HBase hbck详解

HBaseFsck（hbck）是一种命令行工具，可检查region一致性和表完整性问题并修复损坏。目前HBCK工具有两个版本，HBCK1和HBCK2。两个版本的HBCK工具在设计上已经发生的非常大的变化，在使用方式上也有比较大的差异，两个版本的工具只能使用在对应的内核版本上，无法混用。hbck1（6.5.1版本及以前）hbck1主要用于在hbase1.x版本进行检查or修复。常用命令：-fi...

FI小粉丝

发表于2022-05-17 16:52:07

17072 0 0

17.0k 0 0

HBaseFsck（hbck）是一种命令行工具，可检查region一致性和表完整性问题并修复损坏。目前HBCK工具有两个版本，HBCK1和HBCK2。两个版本的HBCK工具在设计上已经发生的非常大的变化，在使用方式上也有比较大的差异，两个版本的工具只能使用在对应的内核版本上，无法混用。hbck1（6.5.1版本及以前）hbck1主要用于在hbase1.x版本进行检查or修复。常用命令：-fi...

EI企业智能 FusionInsight HBase MapReduce MapReduce服务 MRS

MRS管控面基本操作

MRS后台容器命令查看MRS后台部署服务mrsapigw和mrsdeployer容器信息，及容器常见操作命令。ServiceOM页面查询EICommon-Region-Master。登录任意节点，执行K8S命令。容器状态：kubectl get pods -n mrs -owide进入容器：kubectl exec -ti -n mrs 容器名称 bash删除容器：kubectl delet...

FI小粉丝

发表于2021-12-27 10:20:37

11241 0 1

11.2k 0 1

MRS后台容器命令查看MRS后台部署服务mrsapigw和mrsdeployer容器信息，及容器常见操作命令。ServiceOM页面查询EICommon-Region-Master。登录任意节点，执行K8S命令。容器状态：kubectl get pods -n mrs -owide进入容器：kubectl exec -ti -n mrs 容器名称 bash删除容器：kubectl delet...

EI企业智能 FusionInsight MapReduce MapReduce服务 MRS

基于华为云原生数据湖MRS HetuEgine的数据虚拟化实践

大数据时代的技术特点导致一个企业的数据分散存储在不同组件甚至不同地域的不同组件之中，为企业数据的高效使用带来挑战。数据虚拟化技术使应用在不关心数据源的数据格式及物理存储位置的情况下以一种统一的方式获取和使用整个组织中所有的数据。华为云原生数据湖MRS HetuEngine就是一款优秀的数据虚拟化引擎，并在众多企业的数字化转型过程中落地实践。

前锋

发表于2021-10-29 11:07:36

11325 0 1

11.3k 0 1

大数据时代的技术特点导致一个企业的数据分散存储在不同组件甚至不同地域的不同组件之中，为企业数据的高效使用带来挑战。数据虚拟化技术使应用在不关心数据源的数据格式及物理存储位置的情况下以一种统一的方式获取和使用整个组织中所有的数据。华为云原生数据湖MRS HetuEngine就是一款优秀的数据虚拟化引擎，并在众多企业的数字化转型过程中落地实践。

EI企业智能 FusionInsight MapReduce服务 MRS

如何在实验室进行MRS大集群规模测试

随着时代发展，数据变得更加开放、共享，客户的业务也面临着多元化处理，原有的集群亟待扩容，另外，推到原有小规模集群的烟囱建设，打造一体化数据湖的诉求也越来越迫切。在这一背景下，原本上千规模的集群已经远远无法满足客户的业务诉求，于是，迫切需要建设上万规模的数据湖。而上万规模的数据湖如何在进行实验室进行功能、性能、可靠性等方面的测试，也成为我们研发团队需要考虑的问题。 ...

老人与海

发表于2021-10-27 21:58:50

10036 0 1

10.0k 0 1

随着时代发展，数据变得更加开放、共享，客户的业务也面临着多元化处理，原有的集群亟待扩容，另外，推到原有小规模集群的烟囱建设，打造一体化数据湖的诉求也越来越迫切。在这一背景下，原本上千规模的集群已经远远无法满足客户的业务诉求，于是，迫切需要建设上万规模的数据湖。而上万规模的数据湖如何在进行实验室进行功能、性能、可靠性等方面的测试，也成为我们研发团队需要考虑的问题。 ...

FusionInsight MapReduce服务 MRS 大数据

从python编译到运行pyspark样例

MRS集群默认会带上Python2.7.5和Python3.8.0两个版本的Python。默认使用的是Python2.7.5。但是有时候我们希望使用的是我们指定的Python版本来运行pyspark任务，因此需要自行上传对应的Python版本包。由于Python较依赖环境，不同环境编译出来的Python版本可能并不通用。

泽及天下不为仁

发表于2021-09-14 14:27:19

12494 0 1

12.4k 0 1

MRS集群默认会带上Python2.7.5和Python3.8.0两个版本的Python。默认使用的是Python2.7.5。但是有时候我们希望使用的是我们指定的Python版本来运行pyspark任务，因此需要自行上传对应的Python版本包。由于Python较依赖环境，不同环境编译出来的Python版本可能并不通用。

MapReduce服务 MRS spark

上新！MRS集成Hudi

Hudi是数据湖的文件组织层，对Parquet格式文件进行管理提供数据湖能力，支持多种计算引擎，提供IUD接口，在 HDFS/OBS的数据集上提供了插入更新和增量拉取的流原语。图1 Hudi基本架构Hudi特性 ACID事务能力，支持实时入湖和批量入湖。多种视图能力（读优化视图/增量视图/实时视图），支持快速数据分析。 MVCC设计，支持数据版本回溯。自动管理文件大小和布局，以优化查询性...

数据湖爱好者

发表于2021-07-29 11:52:28

13845 0 0

13.8k 0 0

Hudi是数据湖的文件组织层，对Parquet格式文件进行管理提供数据湖能力，支持多种计算引擎，提供IUD接口，在 HDFS/OBS的数据集上提供了插入更新和增量拉取的流原语。图1 Hudi基本架构Hudi特性 ACID事务能力，支持实时入湖和批量入湖。多种视图能力（读优化视图/增量视图/实时视图），支持快速数据分析。 MVCC设计，支持数据版本回溯。自动管理文件大小和布局，以优化查询性...

EI企业智能 Hive MapReduce MapReduce服务 MRS 智能数据

云计算行业应用—大数据@音视频（二）

在上节云计算行业应用—大数据@音视频（一）中，我们探讨了随着企业业务发展和产生消费数据量级的增加，大数据技术不断打破原有极限，相关技术不断演进，新的大数据架构层出不穷。本节我们将深入大数据行业应用，从上节讨论到的数据湖出发，结合音视频行业相关业务场景和相关大数据架构，更进一步的理解大数据技术和华为云相关服务的应用。1. 数据湖基本架构数据湖是伴随企业业余和数据...

图森破

发表于2021-06-29 09:37:13

10743 0 1

10.7k 0 1

在上节云计算行业应用—大数据@音视频（一）中，我们探讨了随着企业业务发展和产生消费数据量级的增加，大数据技术不断打破原有极限，相关技术不断演进，新的大数据架构层出不穷。本节我们将深入大数据行业应用，从上节讨论到的数据湖出发，结合音视频行业相关业务场景和相关大数据架构，更进一步的理解大数据技术和华为云相关服务的应用。1. 数据湖基本架构数据湖是伴随企业业余和数据...

BigData Pro 大数据 MapReduce服务 MRS 云计算图引擎服务 GES 云数据仓库 GaussDB(DWS)

大数据资源管理方案研究

在实际的大数据工程部署中，多个业务部门经常需要运行多个数据应用，在搭建Hadoop集群时，经常面临如何划分大数据集群及进行资源隔离的问题。本文分析如何综合使用物理多租和逻辑多租，来进行大数据集群划分和资源管理。

大数据资源管理

发表于2021-06-26 15:40:44

12325 0 0

12.3k 0 0

在实际的大数据工程部署中，多个业务部门经常需要运行多个数据应用，在搭建Hadoop集群时，经常面临如何划分大数据集群及进行资源隔离的问题。本文分析如何综合使用物理多租和逻辑多租，来进行大数据集群划分和资源管理。

FusionInsight MapReduce服务 MRS Yarn 大数据