- Spark Wordcount 产生多少个 RDD,您知道么? Spark Wordcount 产生多少个 RDD,您知道么?
- Spark on RDMA指在Spark计算的shuffle过程中采用RDMA的技术来加快shuffle数据的传输以加快数据处理的计算性能。而目前常用的RDMA设备由IB及Mellanox,本文中采用的为Mellanox的网卡及SparkRDMA套件。1.SparkRDMA及Hibench套件的下载SparkRDMA的下载地址为 https://github.com/Mellanox/Spa... Spark on RDMA指在Spark计算的shuffle过程中采用RDMA的技术来加快shuffle数据的传输以加快数据处理的计算性能。而目前常用的RDMA设备由IB及Mellanox,本文中采用的为Mellanox的网卡及SparkRDMA套件。1.SparkRDMA及Hibench套件的下载SparkRDMA的下载地址为 https://github.com/Mellanox/Spa...
- Spark内存管理的策略主要分为静态内存管理和统一内存管理两种,本文主要对这两种内存管理策略进行研究 Spark内存管理的策略主要分为静态内存管理和统一内存管理两种,本文主要对这两种内存管理策略进行研究
- Hive on Spark参数介绍Hive on Spark 功能增加的参数,具体含义如下: hive.spark.client.future.timeoutHive client请求Spark driver的超时时间,如果没有指定时间单位,默认是秒。 hive.spark.job.monitor.timeoutJob监控获取Spark作业的超时时间,如果没有... Hive on Spark参数介绍Hive on Spark 功能增加的参数,具体含义如下: hive.spark.client.future.timeoutHive client请求Spark driver的超时时间,如果没有指定时间单位,默认是秒。 hive.spark.job.monitor.timeoutJob监控获取Spark作业的超时时间,如果没有...
- Apache Spark是一个快速的大数据和机器学习统一分析引擎。 Apache Spark是一个快速的大数据和机器学习统一分析引擎。
- shuffle data持久化在磁盘上,如果一直不清理,磁盘容易被撑爆。那shuffle data什么时候会被清理呢。一般来说可以分成3种场景:1、spark application主动停止,需要清理该application下所属的全部shuffle data。清理流程如下(本文均以未启用external shuffle service,spark 2.x代码为例):2、applicatio... shuffle data持久化在磁盘上,如果一直不清理,磁盘容易被撑爆。那shuffle data什么时候会被清理呢。一般来说可以分成3种场景:1、spark application主动停止,需要清理该application下所属的全部shuffle data。清理流程如下(本文均以未启用external shuffle service,spark 2.x代码为例):2、applicatio...
- 1. 动态资源分配Spark的动态资源分配就是executor数据量的动态增减,具体的增加和删除数量根据业务的实际需要动态的调整。具体表现为:如果executor数据量不够,则增加数量,如果executor在一段时间内空闲,则移除这个executor。动态增加executor配置项:spark.dynamicAllocation.schedulerBacklogTimeout说明... 1. 动态资源分配Spark的动态资源分配就是executor数据量的动态增减,具体的增加和删除数量根据业务的实际需要动态的调整。具体表现为:如果executor数据量不够,则增加数量,如果executor在一段时间内空闲,则移除这个executor。动态增加executor配置项:spark.dynamicAllocation.schedulerBacklogTimeout说明...
- Spark Hive自定义函数使用解析1. 简介Spark目前支持UDF,UDTF,UDAF三种类型的自定义函数。UDF使用场景:输入一行,返回一个结果,一对一,比如定义一个函数,功能是输入一个IP地址,返回一个对应的省份。UDTF使用场景: 输入一行,返回多行(hive),一对多, 而sparkSQL中没有UDTF, spark中用flatMap即可实现该功能。UDAF: 输入多... Spark Hive自定义函数使用解析1. 简介Spark目前支持UDF,UDTF,UDAF三种类型的自定义函数。UDF使用场景:输入一行,返回一个结果,一对一,比如定义一个函数,功能是输入一个IP地址,返回一个对应的省份。UDTF使用场景: 输入一行,返回多行(hive),一对多, 而sparkSQL中没有UDTF, spark中用flatMap即可实现该功能。UDAF: 输入多...
- 以一条SQL语句为例,探寻SparkSQL中的代码调用 以一条SQL语句为例,探寻SparkSQL中的代码调用
- 基本原理简介互联网时代,随着网络技术的发展,企业积累的数据越来越多。伴随着数据集的不断 增加,传统的关系型数据库查询性能会随之变差,特别是针对一些特殊的业务场景, 所以迫切的需要一种新的解决方案去应对这种危机。为了解决复杂的关系问题,图数 据库应运而生。图数据库,是指以“图”这种数据结构存储和查询数据,图包含节点和关系,节点和 关系可以存在标签和属性,且边可以有方向。GraphBase是基于... 基本原理简介互联网时代,随着网络技术的发展,企业积累的数据越来越多。伴随着数据集的不断 增加,传统的关系型数据库查询性能会随之变差,特别是针对一些特殊的业务场景, 所以迫切的需要一种新的解决方案去应对这种危机。为了解决复杂的关系问题,图数 据库应运而生。图数据库,是指以“图”这种数据结构存储和查询数据,图包含节点和关系,节点和 关系可以存在标签和属性,且边可以有方向。GraphBase是基于...
- spark作为当前主流的计算框架,集成到项目已经越来越普遍,本文介绍的是以SparkLauncher.launch()方式,另一种SparkLauncher.startApplication()不再赘述。 spark作为当前主流的计算框架,集成到项目已经越来越普遍,本文介绍的是以SparkLauncher.launch()方式,另一种SparkLauncher.startApplication()不再赘述。
- Elasticsearch 在对大批量数据进行统计、聚合等操作时,性能较差。在大批量数据下的统计、聚合、排序等场景,可借助 Spark 提升运算性能。 Elasticsearch 在对大批量数据进行统计、聚合等操作时,性能较差。在大批量数据下的统计、聚合、排序等场景,可借助 Spark 提升运算性能。
- 实现Kerberos认证集群与开源elasticsearch对接 实现Kerberos认证集群与开源elasticsearch对接
- 一、原理当前 Spark Streaming 插件使用的是类似于直接读取 Kafka 的方式来集成 DIS:Driver 使用subscribe方式订阅通道,然后根据 Executor 数量将通道分区分配给 Executor;Executor 使用assign方式消费通道数据并提交 Checkpoint二、FAQ2.1 如何控制 Spark Streaming 从 DIS 的消费速度?有关消... 一、原理当前 Spark Streaming 插件使用的是类似于直接读取 Kafka 的方式来集成 DIS:Driver 使用subscribe方式订阅通道,然后根据 Executor 数量将通道分区分配给 Executor;Executor 使用assign方式消费通道数据并提交 Checkpoint二、FAQ2.1 如何控制 Spark Streaming 从 DIS 的消费速度?有关消...
- Spark为什么选择Scala1. Scala特点第一眼看到luxor-core中的Scala代码时(之前没有读过Scala的任何代码)就感觉非常迷茫。独特的语法和编写方式,各种各样的语法糖(如果不去看专业书籍或者Scala手册根本不明白),代码编写灵活、随意,让人触不及防。但是不同的语言有不同的特点和各自不同优势,大部分应用程序选择语言时最关键的应该是看语言使用的类库适不适合自身;... Spark为什么选择Scala1. Scala特点第一眼看到luxor-core中的Scala代码时(之前没有读过Scala的任何代码)就感觉非常迷茫。独特的语法和编写方式,各种各样的语法糖(如果不去看专业书籍或者Scala手册根本不明白),代码编写灵活、随意,让人触不及防。但是不同的语言有不同的特点和各自不同优势,大部分应用程序选择语言时最关键的应该是看语言使用的类库适不适合自身;...
上滑加载中
推荐直播
-
DTT年度收官盛典:华为开发者空间大咖汇,共探云端开发创新
2025/01/08 周三 16:30-18:00
Yawei 华为云开发工具和效率首席专家 Edwin 华为开发者空间产品总监
数字化转型进程持续加速,驱动着技术革新发展,华为开发者空间如何巧妙整合鸿蒙、昇腾、鲲鹏等核心资源,打破平台间的壁垒,实现跨平台协同?在科技迅猛发展的今天,开发者们如何迅速把握机遇,实现高效、创新的技术突破?DTT 年度收官盛典,将与大家共同探索华为开发者空间的创新奥秘。
回顾中 -
GaussDB应用实战:手把手带你写SQL
2025/01/09 周四 16:00-18:00
Steven 华为云学堂技术讲师
本期直播将围绕数据库中常用的数据类型、数据库对象、系统函数及操作符等内容展开介绍,帮助初学者掌握SQL入门级的基础语法。同时在线手把手教你写好SQL。
回顾中 -
算子工具性能优化新特性演示——MatMulLeakyRelu性能调优实操
2025/01/10 周五 15:30-17:30
MindStudio布道师
算子工具性能优化新特性演示——MatMulLeakyRelu性能调优实操
即将直播
热门标签