- 本文主要介绍了MapTask和ReduceTask并行度的决定机制 本文主要介绍了MapTask和ReduceTask并行度的决定机制
- 本文主要介绍了两种HBase跨集群数据迁移的方法 本文主要介绍了两种HBase跨集群数据迁移的方法
- MRS 2.x版本集群配置presto查询kudu MRS 2.x版本集群配置presto查询kudu
- Zeppelin对接MRS 1.8\1.9版本普通集群指南 Zeppelin对接MRS 1.8\1.9版本普通集群指南
- MRS集群Hive对接LDAP MRS集群Hive对接LDAP
- JDBCServer是一个JDBC接口,用户可以通过JDBC连接JDBCServer来访问SparkSQL的数据。 如果客户需要使用额外的jar包来执行sql语句(例如:自定义UDF)则需要将jar包传递给JDBCServer。本文主要介绍如何上传jar包给JDBCServer。 JDBCServer是一个JDBC接口,用户可以通过JDBC连接JDBCServer来访问SparkSQL的数据。 如果客户需要使用额外的jar包来执行sql语句(例如:自定义UDF)则需要将jar包传递给JDBCServer。本文主要介绍如何上传jar包给JDBCServer。
- 操作场景Flume采集文件内容导入到habse前提条件已创建启用Kerberos认证的流集群。已在日志生成节点安装Flume客户端,请参见安装Flume客户端。已配置网络,使日志生成节点与流集群互通。操作步骤(1) 从HDFS客户端拷贝配置文件core-site.xml,hdfs-site.xml到Flume Client的配置目录 " /opt/FlumeClient/fusionins... 操作场景Flume采集文件内容导入到habse前提条件已创建启用Kerberos认证的流集群。已在日志生成节点安装Flume客户端,请参见安装Flume客户端。已配置网络,使日志生成节点与流集群互通。操作步骤(1) 从HDFS客户端拷贝配置文件core-site.xml,hdfs-site.xml到Flume Client的配置目录 " /opt/FlumeClient/fusionins...
- Jupyter调用Spark Sql指导 Jupyter调用Spark Sql指导
- 本文用于指导在MRS 2.x版本非kerberos集群中使用Hue连接开启ldap认证的impala 本文用于指导在MRS 2.x版本非kerberos集群中使用Hue连接开启ldap认证的impala
- MRS普通集群Impala开启ldap认证 MRS普通集群Impala开启ldap认证
- 在实际应用中,需要存储大大小小的数据,比如图像数据、文档。小于10MB的数据一般都可以存储在HBase上,对于小于100KB的数据,HBase的读写性能是最优的。如果存放在HBase的数据大于100KB甚至到10MB大小时,插入同样个数的数据文件,但是总的数据量会很大,会导致频繁的compaction和split,占用很多CPU,磁盘IO频率很高,性能严重下降。 在实际应用中,需要存储大大小小的数据,比如图像数据、文档。小于10MB的数据一般都可以存储在HBase上,对于小于100KB的数据,HBase的读写性能是最优的。如果存放在HBase的数据大于100KB甚至到10MB大小时,插入同样个数的数据文件,但是总的数据量会很大,会导致频繁的compaction和split,占用很多CPU,磁盘IO频率很高,性能严重下降。
- 在进行大数据迁移过程中,往往老集群上还会不断地生产新文件,当老集群上整体数据量不大的时候,可以直接借助CDM的全量扫描+跳过重复文件的方式来迁移新增的文件。但是当老集群上数据量较大(比如>1PB以上,又存在大量小文件5千万以上甚至上亿个),CDM的全量扫描会耗费大量时间,搬迁效率较低。因此本文给出了一种借助HDFS审计日志解析来识别出增量的文件范围,然后将该列表输出给CDM,由CDM只按照列表中的 在进行大数据迁移过程中,往往老集群上还会不断地生产新文件,当老集群上整体数据量不大的时候,可以直接借助CDM的全量扫描+跳过重复文件的方式来迁移新增的文件。但是当老集群上数据量较大(比如>1PB以上,又存在大量小文件5千万以上甚至上亿个),CDM的全量扫描会耗费大量时间,搬迁效率较低。因此本文给出了一种借助HDFS审计日志解析来识别出增量的文件范围,然后将该列表输出给CDM,由CDM只按照列表中的
- Spark内存管理的策略主要分为静态内存管理和统一内存管理两种,本文主要对这两种内存管理策略进行研究 Spark内存管理的策略主要分为静态内存管理和统一内存管理两种,本文主要对这两种内存管理策略进行研究
- 前言高性能引擎简介ClickHouse是最近这两年非常火的一款开源的分析型数据库,来自俄罗斯的Yandex公司,2016年开源。它独立于Hadoop大数据体系,其最核心的特点是极致压缩率和极速查询性能,能为用户节约大量成本,同时创造更多收益。它提供了兼容标准SQL协议的接口,支持JDBC、ODBC驱动,使用C++语言实现。当然它还有个宏伟的目标:成为世界上最快的分析型数据库,官方测试数据表明... 前言高性能引擎简介ClickHouse是最近这两年非常火的一款开源的分析型数据库,来自俄罗斯的Yandex公司,2016年开源。它独立于Hadoop大数据体系,其最核心的特点是极致压缩率和极速查询性能,能为用户节约大量成本,同时创造更多收益。它提供了兼容标准SQL协议的接口,支持JDBC、ODBC驱动,使用C++语言实现。当然它还有个宏伟的目标:成为世界上最快的分析型数据库,官方测试数据表明...
- MRS 2.x 普通集群通过密码验证访问presto MRS 2.x 普通集群通过密码验证访问presto
上滑加载中
推荐直播
-
华为云云原生FinOps解决方案,为您释放云原生最大价值
2024/04/24 周三 16:30-18:00
Roc 华为云云原生DTSE技术布道师
还在对CCE集群成本评估感到束手无策?还在担心不合理的K8s集群资源申请和过度浪费?华为云容器服务CCE全新上线云原生FinOps中心,为用户提供多维度集群成本可视化,结合智能规格推荐、混部、超卖等成本优化手段,助力客户降本增效,释放云原生最大价值。
去报名 -
鲲鹏开发者创享日·江苏站暨数字技术创新应用峰会
2024/04/25 周四 09:30-12:00
鲲鹏专家团
这是华为推出的旨在和众多技术大牛、行业大咖一同探讨最前沿的技术思考,分享最纯粹的技术经验,进行最真实的动手体验,为开发者提供一个深度探讨与交流的平台。
即将直播 -
产教融合专家大讲堂·第①期《高校人才培养创新模式经验分享》
2024/04/25 周四 16:00-18:00
于晓东 上海杉达学院信息科学与技术学院副院长;崔宝才 天津电子信息职业技术学院电子与通信技术系主任
本期直播将与您一起探讨高校人才培养创新模式经验。
去报名
热门标签