- Spark on RDMA指在Spark计算的shuffle过程中采用RDMA的技术来加快shuffle数据的传输以加快数据处理的计算性能。而目前常用的RDMA设备由IB及Mellanox,本文中采用的为Mellanox的网卡及SparkRDMA套件。1.SparkRDMA及Hibench套件的下载SparkRDMA的下载地址为 https://github.com/Mellanox/Spa... Spark on RDMA指在Spark计算的shuffle过程中采用RDMA的技术来加快shuffle数据的传输以加快数据处理的计算性能。而目前常用的RDMA设备由IB及Mellanox,本文中采用的为Mellanox的网卡及SparkRDMA套件。1.SparkRDMA及Hibench套件的下载SparkRDMA的下载地址为 https://github.com/Mellanox/Spa...
- Spark内存管理的策略主要分为静态内存管理和统一内存管理两种,本文主要对这两种内存管理策略进行研究 Spark内存管理的策略主要分为静态内存管理和统一内存管理两种,本文主要对这两种内存管理策略进行研究
- Hive on Spark参数介绍Hive on Spark 功能增加的参数,具体含义如下: hive.spark.client.future.timeoutHive client请求Spark driver的超时时间,如果没有指定时间单位,默认是秒。 hive.spark.job.monitor.timeoutJob监控获取Spark作业的超时时间,如果没有... Hive on Spark参数介绍Hive on Spark 功能增加的参数,具体含义如下: hive.spark.client.future.timeoutHive client请求Spark driver的超时时间,如果没有指定时间单位,默认是秒。 hive.spark.job.monitor.timeoutJob监控获取Spark作业的超时时间,如果没有...
- Apache Spark是一个快速的大数据和机器学习统一分析引擎。 Apache Spark是一个快速的大数据和机器学习统一分析引擎。
- shuffle data持久化在磁盘上,如果一直不清理,磁盘容易被撑爆。那shuffle data什么时候会被清理呢。一般来说可以分成3种场景:1、spark application主动停止,需要清理该application下所属的全部shuffle data。清理流程如下(本文均以未启用external shuffle service,spark 2.x代码为例):2、applicatio... shuffle data持久化在磁盘上,如果一直不清理,磁盘容易被撑爆。那shuffle data什么时候会被清理呢。一般来说可以分成3种场景:1、spark application主动停止,需要清理该application下所属的全部shuffle data。清理流程如下(本文均以未启用external shuffle service,spark 2.x代码为例):2、applicatio...
- 1. 动态资源分配Spark的动态资源分配就是executor数据量的动态增减,具体的增加和删除数量根据业务的实际需要动态的调整。具体表现为:如果executor数据量不够,则增加数量,如果executor在一段时间内空闲,则移除这个executor。动态增加executor配置项:spark.dynamicAllocation.schedulerBacklogTimeout说明... 1. 动态资源分配Spark的动态资源分配就是executor数据量的动态增减,具体的增加和删除数量根据业务的实际需要动态的调整。具体表现为:如果executor数据量不够,则增加数量,如果executor在一段时间内空闲,则移除这个executor。动态增加executor配置项:spark.dynamicAllocation.schedulerBacklogTimeout说明...
- Spark Hive自定义函数使用解析1. 简介Spark目前支持UDF,UDTF,UDAF三种类型的自定义函数。UDF使用场景:输入一行,返回一个结果,一对一,比如定义一个函数,功能是输入一个IP地址,返回一个对应的省份。UDTF使用场景: 输入一行,返回多行(hive),一对多, 而sparkSQL中没有UDTF, spark中用flatMap即可实现该功能。UDAF: 输入多... Spark Hive自定义函数使用解析1. 简介Spark目前支持UDF,UDTF,UDAF三种类型的自定义函数。UDF使用场景:输入一行,返回一个结果,一对一,比如定义一个函数,功能是输入一个IP地址,返回一个对应的省份。UDTF使用场景: 输入一行,返回多行(hive),一对多, 而sparkSQL中没有UDTF, spark中用flatMap即可实现该功能。UDAF: 输入多...
- 以一条SQL语句为例,探寻SparkSQL中的代码调用 以一条SQL语句为例,探寻SparkSQL中的代码调用
- 基本原理简介互联网时代,随着网络技术的发展,企业积累的数据越来越多。伴随着数据集的不断 增加,传统的关系型数据库查询性能会随之变差,特别是针对一些特殊的业务场景, 所以迫切的需要一种新的解决方案去应对这种危机。为了解决复杂的关系问题,图数 据库应运而生。图数据库,是指以“图”这种数据结构存储和查询数据,图包含节点和关系,节点和 关系可以存在标签和属性,且边可以有方向。GraphBase是基于... 基本原理简介互联网时代,随着网络技术的发展,企业积累的数据越来越多。伴随着数据集的不断 增加,传统的关系型数据库查询性能会随之变差,特别是针对一些特殊的业务场景, 所以迫切的需要一种新的解决方案去应对这种危机。为了解决复杂的关系问题,图数 据库应运而生。图数据库,是指以“图”这种数据结构存储和查询数据,图包含节点和关系,节点和 关系可以存在标签和属性,且边可以有方向。GraphBase是基于...
- spark作为当前主流的计算框架,集成到项目已经越来越普遍,本文介绍的是以SparkLauncher.launch()方式,另一种SparkLauncher.startApplication()不再赘述。 spark作为当前主流的计算框架,集成到项目已经越来越普遍,本文介绍的是以SparkLauncher.launch()方式,另一种SparkLauncher.startApplication()不再赘述。
- Elasticsearch 在对大批量数据进行统计、聚合等操作时,性能较差。在大批量数据下的统计、聚合、排序等场景,可借助 Spark 提升运算性能。 Elasticsearch 在对大批量数据进行统计、聚合等操作时,性能较差。在大批量数据下的统计、聚合、排序等场景,可借助 Spark 提升运算性能。
- 实现Kerberos认证集群与开源elasticsearch对接 实现Kerberos认证集群与开源elasticsearch对接
- 一、原理当前 Spark Streaming 插件使用的是类似于直接读取 Kafka 的方式来集成 DIS:Driver 使用subscribe方式订阅通道,然后根据 Executor 数量将通道分区分配给 Executor;Executor 使用assign方式消费通道数据并提交 Checkpoint二、FAQ2.1 如何控制 Spark Streaming 从 DIS 的消费速度?有关消... 一、原理当前 Spark Streaming 插件使用的是类似于直接读取 Kafka 的方式来集成 DIS:Driver 使用subscribe方式订阅通道,然后根据 Executor 数量将通道分区分配给 Executor;Executor 使用assign方式消费通道数据并提交 Checkpoint二、FAQ2.1 如何控制 Spark Streaming 从 DIS 的消费速度?有关消...
- Spark为什么选择Scala1. Scala特点第一眼看到luxor-core中的Scala代码时(之前没有读过Scala的任何代码)就感觉非常迷茫。独特的语法和编写方式,各种各样的语法糖(如果不去看专业书籍或者Scala手册根本不明白),代码编写灵活、随意,让人触不及防。但是不同的语言有不同的特点和各自不同优势,大部分应用程序选择语言时最关键的应该是看语言使用的类库适不适合自身;... Spark为什么选择Scala1. Scala特点第一眼看到luxor-core中的Scala代码时(之前没有读过Scala的任何代码)就感觉非常迷茫。独特的语法和编写方式,各种各样的语法糖(如果不去看专业书籍或者Scala手册根本不明白),代码编写灵活、随意,让人触不及防。但是不同的语言有不同的特点和各自不同优势,大部分应用程序选择语言时最关键的应该是看语言使用的类库适不适合自身;...
- 最近在测试Hive的时候,使用Hive的Union remove优化器遇到了一个奇怪的问题,记录下定位的过程和结果,避免其他同学也碰到同样的坑。复现方法使用版本:MRS_1.9.3 (Hive-2.3.3),MRS_2.1.0(Hive-3.1.0) 步骤:create table test_union_all(version string, rk int);insert into test... 最近在测试Hive的时候,使用Hive的Union remove优化器遇到了一个奇怪的问题,记录下定位的过程和结果,避免其他同学也碰到同样的坑。复现方法使用版本:MRS_1.9.3 (Hive-2.3.3),MRS_2.1.0(Hive-3.1.0) 步骤:create table test_union_all(version string, rk int);insert into test...
上滑加载中
推荐直播
-
昇腾AI算法挑战赛-核心算子如何优化?专家带你深度解析2025/11/17 周一 16:00-17:00
王老师 华为算子专家
昇腾AI算法挑战赛进阶赛战鼓催征!本期直播间,我们特邀华为算子专家王老师,为你深度剖析Matmul、wholereducesum等核心算子的底层原理与优化技巧,直击赛题核心。想提升代码效率、冲击更高排名?锁定直播,带你破局!
回顾中 -
AI编码实干派,“码”力全开2026/02/26 周四 15:00-16:30
谈宗玮/于邦旭/丁俊卿/陈云亮/王一男
【中国,深圳,2026年2月26日】,以“AI编码实干派,码力全开”为主题的华为云码道(CodeArts)代码智能体新春发布会在线上成功召开。华为云码道公测版正式发布,为开发者和企业提供具备工程化能力的智能编码解决方案。
回顾中 -
华为云码道-玩转OpenClaw,开启在线养虾模式2026/03/11 周三 19:00-20:00
刘昱,华为云高级工程师/谈心,华为云技术专家/李海仑,上海圭卓智能科技有限公司CEO
OpenClaw 火爆开发者圈,华为云码道最新推出 Skill ——开发者只需输入一句口令,即可部署一个功能完整的「小龙虾」智能体。直播带你玩转华为云码道,玩转OpenClaw
回顾中
热门标签