- 简单修改了 spark3.0.1 源码,然后用华为云镜像对其编译 简单修改了 spark3.0.1 源码,然后用华为云镜像对其编译
- Spark Wordcount 产生多少个 RDD,您知道么? Spark Wordcount 产生多少个 RDD,您知道么?
- Spark on RDMA指在Spark计算的shuffle过程中采用RDMA的技术来加快shuffle数据的传输以加快数据处理的计算性能。而目前常用的RDMA设备由IB及Mellanox,本文中采用的为Mellanox的网卡及SparkRDMA套件。1.SparkRDMA及Hibench套件的下载SparkRDMA的下载地址为 https://github.com/Mellanox/Spa... Spark on RDMA指在Spark计算的shuffle过程中采用RDMA的技术来加快shuffle数据的传输以加快数据处理的计算性能。而目前常用的RDMA设备由IB及Mellanox,本文中采用的为Mellanox的网卡及SparkRDMA套件。1.SparkRDMA及Hibench套件的下载SparkRDMA的下载地址为 https://github.com/Mellanox/Spa...
- Spark内存管理的策略主要分为静态内存管理和统一内存管理两种,本文主要对这两种内存管理策略进行研究 Spark内存管理的策略主要分为静态内存管理和统一内存管理两种,本文主要对这两种内存管理策略进行研究
- Hive on Spark参数介绍Hive on Spark 功能增加的参数,具体含义如下: hive.spark.client.future.timeoutHive client请求Spark driver的超时时间,如果没有指定时间单位,默认是秒。 hive.spark.job.monitor.timeoutJob监控获取Spark作业的超时时间,如果没有... Hive on Spark参数介绍Hive on Spark 功能增加的参数,具体含义如下: hive.spark.client.future.timeoutHive client请求Spark driver的超时时间,如果没有指定时间单位,默认是秒。 hive.spark.job.monitor.timeoutJob监控获取Spark作业的超时时间,如果没有...
- Apache Spark是一个快速的大数据和机器学习统一分析引擎。 Apache Spark是一个快速的大数据和机器学习统一分析引擎。
- shuffle data持久化在磁盘上,如果一直不清理,磁盘容易被撑爆。那shuffle data什么时候会被清理呢。一般来说可以分成3种场景:1、spark application主动停止,需要清理该application下所属的全部shuffle data。清理流程如下(本文均以未启用external shuffle service,spark 2.x代码为例):2、applicatio... shuffle data持久化在磁盘上,如果一直不清理,磁盘容易被撑爆。那shuffle data什么时候会被清理呢。一般来说可以分成3种场景:1、spark application主动停止,需要清理该application下所属的全部shuffle data。清理流程如下(本文均以未启用external shuffle service,spark 2.x代码为例):2、applicatio...
- 1. 动态资源分配Spark的动态资源分配就是executor数据量的动态增减,具体的增加和删除数量根据业务的实际需要动态的调整。具体表现为:如果executor数据量不够,则增加数量,如果executor在一段时间内空闲,则移除这个executor。动态增加executor配置项:spark.dynamicAllocation.schedulerBacklogTimeout说明... 1. 动态资源分配Spark的动态资源分配就是executor数据量的动态增减,具体的增加和删除数量根据业务的实际需要动态的调整。具体表现为:如果executor数据量不够,则增加数量,如果executor在一段时间内空闲,则移除这个executor。动态增加executor配置项:spark.dynamicAllocation.schedulerBacklogTimeout说明...
- Spark Hive自定义函数使用解析1. 简介Spark目前支持UDF,UDTF,UDAF三种类型的自定义函数。UDF使用场景:输入一行,返回一个结果,一对一,比如定义一个函数,功能是输入一个IP地址,返回一个对应的省份。UDTF使用场景: 输入一行,返回多行(hive),一对多, 而sparkSQL中没有UDTF, spark中用flatMap即可实现该功能。UDAF: 输入多... Spark Hive自定义函数使用解析1. 简介Spark目前支持UDF,UDTF,UDAF三种类型的自定义函数。UDF使用场景:输入一行,返回一个结果,一对一,比如定义一个函数,功能是输入一个IP地址,返回一个对应的省份。UDTF使用场景: 输入一行,返回多行(hive),一对多, 而sparkSQL中没有UDTF, spark中用flatMap即可实现该功能。UDAF: 输入多...
- 以一条SQL语句为例,探寻SparkSQL中的代码调用 以一条SQL语句为例,探寻SparkSQL中的代码调用
- 基本原理简介互联网时代,随着网络技术的发展,企业积累的数据越来越多。伴随着数据集的不断 增加,传统的关系型数据库查询性能会随之变差,特别是针对一些特殊的业务场景, 所以迫切的需要一种新的解决方案去应对这种危机。为了解决复杂的关系问题,图数 据库应运而生。图数据库,是指以“图”这种数据结构存储和查询数据,图包含节点和关系,节点和 关系可以存在标签和属性,且边可以有方向。GraphBase是基于... 基本原理简介互联网时代,随着网络技术的发展,企业积累的数据越来越多。伴随着数据集的不断 增加,传统的关系型数据库查询性能会随之变差,特别是针对一些特殊的业务场景, 所以迫切的需要一种新的解决方案去应对这种危机。为了解决复杂的关系问题,图数 据库应运而生。图数据库,是指以“图”这种数据结构存储和查询数据,图包含节点和关系,节点和 关系可以存在标签和属性,且边可以有方向。GraphBase是基于...
- spark作为当前主流的计算框架,集成到项目已经越来越普遍,本文介绍的是以SparkLauncher.launch()方式,另一种SparkLauncher.startApplication()不再赘述。 spark作为当前主流的计算框架,集成到项目已经越来越普遍,本文介绍的是以SparkLauncher.launch()方式,另一种SparkLauncher.startApplication()不再赘述。
- Elasticsearch 在对大批量数据进行统计、聚合等操作时,性能较差。在大批量数据下的统计、聚合、排序等场景,可借助 Spark 提升运算性能。 Elasticsearch 在对大批量数据进行统计、聚合等操作时,性能较差。在大批量数据下的统计、聚合、排序等场景,可借助 Spark 提升运算性能。
- 实现Kerberos认证集群与开源elasticsearch对接 实现Kerberos认证集群与开源elasticsearch对接
- 一、原理当前 Spark Streaming 插件使用的是类似于直接读取 Kafka 的方式来集成 DIS:Driver 使用subscribe方式订阅通道,然后根据 Executor 数量将通道分区分配给 Executor;Executor 使用assign方式消费通道数据并提交 Checkpoint二、FAQ2.1 如何控制 Spark Streaming 从 DIS 的消费速度?有关消... 一、原理当前 Spark Streaming 插件使用的是类似于直接读取 Kafka 的方式来集成 DIS:Driver 使用subscribe方式订阅通道,然后根据 Executor 数量将通道分区分配给 Executor;Executor 使用assign方式消费通道数据并提交 Checkpoint二、FAQ2.1 如何控制 Spark Streaming 从 DIS 的消费速度?有关消...
上滑加载中
推荐直播
-
大模型Prompt工程深度实践
2025/02/24 周一 16:00-17:30
盖伦 华为云学堂技术讲师
如何让大模型精准理解开发需求并生成可靠输出?本期直播聚焦大模型Prompt工程核心技术:理解大模型推理基础原理,关键采样参数定义,提示词撰写关键策略及Prompt工程技巧分享。
回顾中 -
华为云 x DeepSeek:AI驱动云上应用创新
2025/02/26 周三 16:00-18:00
华为云 AI专家大咖团
在 AI 技术飞速发展之际,DeepSeek 备受关注。它凭借哪些技术与理念脱颖而出?华为云与 DeepSeek 合作,将如何重塑产品与应用模式,助力企业数字化转型?在华为开发者空间,怎样高效部署 DeepSeek,搭建专属服务器?基于华为云平台,又该如何挖掘 DeepSeek 潜力,实现智能化升级?本期直播围绕DeepSeek在云上的应用案例,与DTSE布道师们一起探讨如何利用AI 驱动云上应用创新。
去报名
热门标签