- 本文主要介绍了MapTask和ReduceTask并行度的决定机制 本文主要介绍了MapTask和ReduceTask并行度的决定机制
- 本文主要介绍了两种HBase跨集群数据迁移的方法 本文主要介绍了两种HBase跨集群数据迁移的方法
- MRS 2.x版本集群配置presto查询kudu MRS 2.x版本集群配置presto查询kudu
- Zeppelin对接MRS 1.8\1.9版本普通集群指南 Zeppelin对接MRS 1.8\1.9版本普通集群指南
- MRS集群Hive对接LDAP MRS集群Hive对接LDAP
- JDBCServer是一个JDBC接口,用户可以通过JDBC连接JDBCServer来访问SparkSQL的数据。 如果客户需要使用额外的jar包来执行sql语句(例如:自定义UDF)则需要将jar包传递给JDBCServer。本文主要介绍如何上传jar包给JDBCServer。 JDBCServer是一个JDBC接口,用户可以通过JDBC连接JDBCServer来访问SparkSQL的数据。 如果客户需要使用额外的jar包来执行sql语句(例如:自定义UDF)则需要将jar包传递给JDBCServer。本文主要介绍如何上传jar包给JDBCServer。
- 操作场景Flume采集文件内容导入到habse前提条件已创建启用Kerberos认证的流集群。已在日志生成节点安装Flume客户端,请参见安装Flume客户端。已配置网络,使日志生成节点与流集群互通。操作步骤(1) 从HDFS客户端拷贝配置文件core-site.xml,hdfs-site.xml到Flume Client的配置目录 " /opt/FlumeClient/fusionins... 操作场景Flume采集文件内容导入到habse前提条件已创建启用Kerberos认证的流集群。已在日志生成节点安装Flume客户端,请参见安装Flume客户端。已配置网络,使日志生成节点与流集群互通。操作步骤(1) 从HDFS客户端拷贝配置文件core-site.xml,hdfs-site.xml到Flume Client的配置目录 " /opt/FlumeClient/fusionins...
- Jupyter调用Spark Sql指导 Jupyter调用Spark Sql指导
- 本文用于指导在MRS 2.x版本非kerberos集群中使用Hue连接开启ldap认证的impala 本文用于指导在MRS 2.x版本非kerberos集群中使用Hue连接开启ldap认证的impala
- MRS普通集群Impala开启ldap认证 MRS普通集群Impala开启ldap认证
- 在实际应用中,需要存储大大小小的数据,比如图像数据、文档。小于10MB的数据一般都可以存储在HBase上,对于小于100KB的数据,HBase的读写性能是最优的。如果存放在HBase的数据大于100KB甚至到10MB大小时,插入同样个数的数据文件,但是总的数据量会很大,会导致频繁的compaction和split,占用很多CPU,磁盘IO频率很高,性能严重下降。 在实际应用中,需要存储大大小小的数据,比如图像数据、文档。小于10MB的数据一般都可以存储在HBase上,对于小于100KB的数据,HBase的读写性能是最优的。如果存放在HBase的数据大于100KB甚至到10MB大小时,插入同样个数的数据文件,但是总的数据量会很大,会导致频繁的compaction和split,占用很多CPU,磁盘IO频率很高,性能严重下降。
- 在进行大数据迁移过程中,往往老集群上还会不断地生产新文件,当老集群上整体数据量不大的时候,可以直接借助CDM的全量扫描+跳过重复文件的方式来迁移新增的文件。但是当老集群上数据量较大(比如>1PB以上,又存在大量小文件5千万以上甚至上亿个),CDM的全量扫描会耗费大量时间,搬迁效率较低。因此本文给出了一种借助HDFS审计日志解析来识别出增量的文件范围,然后将该列表输出给CDM,由CDM只按照列表中的 在进行大数据迁移过程中,往往老集群上还会不断地生产新文件,当老集群上整体数据量不大的时候,可以直接借助CDM的全量扫描+跳过重复文件的方式来迁移新增的文件。但是当老集群上数据量较大(比如>1PB以上,又存在大量小文件5千万以上甚至上亿个),CDM的全量扫描会耗费大量时间,搬迁效率较低。因此本文给出了一种借助HDFS审计日志解析来识别出增量的文件范围,然后将该列表输出给CDM,由CDM只按照列表中的
- Spark内存管理的策略主要分为静态内存管理和统一内存管理两种,本文主要对这两种内存管理策略进行研究 Spark内存管理的策略主要分为静态内存管理和统一内存管理两种,本文主要对这两种内存管理策略进行研究
- 前言高性能引擎简介ClickHouse是最近这两年非常火的一款开源的分析型数据库,来自俄罗斯的Yandex公司,2016年开源。它独立于Hadoop大数据体系,其最核心的特点是极致压缩率和极速查询性能,能为用户节约大量成本,同时创造更多收益。它提供了兼容标准SQL协议的接口,支持JDBC、ODBC驱动,使用C++语言实现。当然它还有个宏伟的目标:成为世界上最快的分析型数据库,官方测试数据表明... 前言高性能引擎简介ClickHouse是最近这两年非常火的一款开源的分析型数据库,来自俄罗斯的Yandex公司,2016年开源。它独立于Hadoop大数据体系,其最核心的特点是极致压缩率和极速查询性能,能为用户节约大量成本,同时创造更多收益。它提供了兼容标准SQL协议的接口,支持JDBC、ODBC驱动,使用C++语言实现。当然它还有个宏伟的目标:成为世界上最快的分析型数据库,官方测试数据表明...
- MRS 2.x 普通集群通过密码验证访问presto MRS 2.x 普通集群通过密码验证访问presto
上滑加载中
推荐直播
-
华为云IoT开源专家实践分享:开源让物联网平台更开放、易用
2024/05/22 周三 16:30-18:00
张俭 华为云IoT DTSE技术布道师
开源,意味着开放、共享、互助、共赢。作为万物上云及各行业数字化的物联网底座,华为云IoT积极拥抱开源,借助行业开源的最佳实践,构建可靠、易用的物联网平台,并通过开放南北向SDK,助力开发者快速构建物联网应用。本期直播,华为云IoT开源专家、物联网平台资深“程序猿”张俭,带你了解华为云IoT的开源生态,并手把手教你玩转开源社区!
去报名 -
数字技术创新与商业愿景--数字化转型战略解读
2024/05/22 周三 19:00-20:30
王纪奎老师 华为科学家咨询委员会CTO
数字化转型浪潮下,你是否缺乏对前沿科技的战略洞察、难以将企业转型与国家战略相融合、缺少系统性规划的数字化思维…… 我们特别邀请了华为科学家咨询委员会CTO、战略研究院数字经济与数字化转型首席专家、《数字化转型战略》一书的作者——王纪奎老师。 在5月22日(周三)19点,为我们带来一场主题为“数字技术创新与商业愿景--数字化转型战略解决”的精彩直播。
去报名 -
华为云开发者日·广州站
2024/05/23 周四 14:30-17:30
华为云专家团
华为云开发者日HDC.Cloud Day是面向全球开发者的旗舰活动,汇聚来自千行百业、高校及科研院所的开发人员。致力于打造开发者专属的技术盛宴,全方位服务与赋能开发者围绕华为云生态“知、学、用、创、商”的成长路径。通过前沿的技术分享、场景化的动手体验、优秀的应用创新推介,为开发者提供沉浸式学习与交流平台。开放创新,与开发者共创、共享、共赢未来。
去报名
热门标签