spark_标签_开发者_华为云

博客(672)
视频(2)
论坛(0)
云声(0)
代码示例(0)

spark任务提交使用Python3
操作步骤把Python环境打包上传到hdfs。打包自定义python包：zip –r test_python.zip test_python/上传到hdfs：hadoop fs -put /opt/test_python.zip /test_python提交Spark应用spark-submit --master yarn --archiveshdfs:///test_python/test...

顾先生啊
发表于2022-12-30 11:11:51
3756 0 0

3.7k 0 0

操作步骤把Python环境打包上传到hdfs。打包自定义python包：zip –r test_python.zip test_python/上传到hdfs：hadoop fs -put /opt/test_python.zip /test_python提交Spark应用spark-submit --master yarn --archiveshdfs:///test_python/test...
Python spark
spark任务修改日志级别
场景一、driver端的日志级别修改客户端下：/opt/hadoopclient/Spark2x/spark/conf/log4j.propertieslog4j.rootCategory=WARN, console =>log4j.rootCategory=INFO, console场景二、executor端的日志级别,默认INFO修改客户端下：/opt/hadoopclient/S...

顾先生啊
发表于2022-12-29 16:35:03
4559 0 0

4.5k 0 0

场景一、driver端的日志级别修改客户端下：/opt/hadoopclient/Spark2x/spark/conf/log4j.propertieslog4j.rootCategory=WARN, console =>log4j.rootCategory=INFO, console场景二、executor端的日志级别,默认INFO修改客户端下：/opt/hadoopclient/S...
spark
spark任务executor心跳丢失
场景一：driver日志中有executor丢失情况，或者在原生页面看到很多executor的状态是deaddriver日志中搜索Lost executor，如果有打印:Executor heartbeat timed out after xxxms查看executor日志在同一时间点是否有长时间gc，搜索“real=”解决方法：调整executor.cores与spark.executor...

顾先生啊
发表于2022-12-27 17:24:04
5814 0 0

5.8k 0 0

场景一：driver日志中有executor丢失情况，或者在原生页面看到很多executor的状态是deaddriver日志中搜索Lost executor，如果有打印:Executor heartbeat timed out after xxxms查看executor日志在同一时间点是否有长时间gc，搜索“real=”解决方法：调整executor.cores与spark.executor...
spark
大数据建模、分析、挖掘技术应用进修
一、大数据概述1.大数据及特点分析2.大数据关健技术3.大数据计算模式4.大数据应用实例二、大数据处理架构Hadoop1.Hadoop项目结构2.Hadoop安装与使用3.Hadoop集群的部署与使用4.Hadoop 代表性组件1.Hadoop Single Node Cluster2. Hadoop Multi Node Cluster三、分布式文件系统HDFS1.HDFS体系结构2.HD...

ssdandan
发表于2022-08-17 09:44:41
7949 2 0

7.9k 2 0

一、大数据概述1.大数据及特点分析2.大数据关健技术3.大数据计算模式4.大数据应用实例二、大数据处理架构Hadoop1.Hadoop项目结构2.Hadoop安装与使用3.Hadoop集群的部署与使用4.Hadoop 代表性组件1.Hadoop Single Node Cluster2. Hadoop Multi Node Cluster三、分布式文件系统HDFS1.HDFS体系结构2.HD...
spark 大数据数据挖掘
Spark高效数据分析02、基础知识13篇
编辑Spark高效数据分析01、idea开发环境搭建📋前言📋💝博客：【红目香薰的博客_CSDN博客-计算机理论,2022年蓝桥杯,MySQL领域博主】💝✍本文由在下【红目香薰】原创，首发于CSDN✍🤗2022年最大愿望：【服务百万技术人次】🤗💝Spark初始环境地址：【Spark高效数据分析01、idea开发环境搭建】💝环境需求环境：win10开发工具：IntelliJ...

红目香薰
发表于2022-07-29 10:22:41
2049 0 0

2.0k 0 0

编辑Spark高效数据分析01、idea开发环境搭建📋前言📋💝博客：【红目香薰的博客_CSDN博客-计算机理论,2022年蓝桥杯,MySQL领域博主】💝✍本文由在下【红目香薰】原创，首发于CSDN✍🤗2022年最大愿望：【服务百万技术人次】🤗💝Spark初始环境地址：【Spark高效数据分析01、idea开发环境搭建】💝环境需求环境：win10开发工具：IntelliJ...
spark 数据挖掘
RDD分区
转换操作对于RDD而言，每一次转换操作都会产生不同的RDD，供给下一个“转换”使用转换得到的RDD是惰性求值的，也就是说，整个转换过程只是记录了转换的轨迹，并不会发生真正的计算，只有遇到行动操作时，才会发生真正的计算，开始从血缘关系源头开始，进行物理的转换操作 filter(func)scala> val lines =sc.textFile(file:///usr/local/spa...

俺想吃蜂蜜
发表于2022-04-08 21:54:44
2761 0 0

2.7k 0 0

转换操作对于RDD而言，每一次转换操作都会产生不同的RDD，供给下一个“转换”使用转换得到的RDD是惰性求值的，也就是说，整个转换过程只是记录了转换的轨迹，并不会发生真正的计算，只有遇到行动操作时，才会发生真正的计算，开始从血缘关系源头开始，进行物理的转换操作 filter(func)scala> val lines =sc.textFile(file:///usr/local/spa...
spark
Spark 主备切换机制原理知道吗？
Spark 主备切换机制原理知道吗？Master 实际上可以配置两个，Spark 原生的 standalone 模式是支持 Master 主备切换的。当 Active Master 节点挂掉以后，我们可以将 Standby Master 切换为 Active Master。Spark Master 主备切换可以基于两种机制，一种是基于文件系统的，一种是基于 ZooKeeper 的。基于文件...

孙中明
发表于2022-04-03 16:52:38
5298 0 0

5.2k 0 0

Spark 主备切换机制原理知道吗？Master 实际上可以配置两个，Spark 原生的 standalone 模式是支持 Master 主备切换的。当 Active Master 节点挂掉以后，我们可以将 Standby Master 切换为 Active Master。Spark Master 主备切换可以基于两种机制，一种是基于文件系统的，一种是基于 ZooKeeper 的。基于文件...
spark 云容灾
Spark RTC windows端demo 报错
添加#include <HWVideoWnd.cpp>头文件

狗蛋
发表于2022-03-10 12:56:08
2802 0 0

2.8k 0 0

添加#include <HWVideoWnd.cpp>头文件
spark Windows
spark有哪几种join
spark有哪几种joinSpark 中和 join 相关的算子有这几个：join、fullOuterJoin、leftOuterJoin、rightOuterJoinjoinjoin函数会输出两个RDD中key相同的所有项，并将它们的value联结起来，它联结的key要求在两个表中都存在，类似于SQL中的INNER JOIN。但它不满足交换律，a.join(b)与b.join(a)的结果...

孙中明
发表于2022-02-23 08:28:03
2510 0 0

2.5k 0 0

spark有哪几种joinSpark 中和 join 相关的算子有这几个：join、fullOuterJoin、leftOuterJoin、rightOuterJoinjoinjoin函数会输出两个RDD中key相同的所有项，并将它们的value联结起来，它联结的key要求在两个表中都存在，类似于SQL中的INNER JOIN。但它不满足交换律，a.join(b)与b.join(a)的结果...
spark
spark 解决了 hadoop 的哪些问题(spark VS MR)？
spark 解决了 hadoop 的哪些问题(spark VS MR)？MR：抽象层次低，需要使用手工代码来完成程序编写，使用上难以上手；Spark：Spark 采用 RDD 计算模型，简单容易上手。MR：只提供 map 和 reduce 两个操作，表达能力欠缺；Spark：Spark 采用更加丰富的算子模型，包括 map、flatmap、groupbykey、reducebykey 等；...

孙中明
发表于2022-02-23 08:27:35
2806 0 0

2.8k 0 0

spark 解决了 hadoop 的哪些问题(spark VS MR)？MR：抽象层次低，需要使用手工代码来完成程序编写，使用上难以上手；Spark：Spark 采用 RDD 计算模型，简单容易上手。MR：只提供 map 和 reduce 两个操作，表达能力欠缺；Spark：Spark 采用更加丰富的算子模型，包括 map、flatmap、groupbykey、reducebykey 等；...
spark
Spark运行模式(资源调度框架的使用，了解)
Spark运行模式(资源调度框架的使用，了解)Local模式:启动多线程或者多进程对程序进行单机调试的。分布式部署模式:👉Standalone模式:独立模式，自带完整的模式。在架构上和 MapReduce1比较，具有一致性，都是由Master、worker组成(只是名称不一样)，资源抽象为粗粒式的slot，多少slot多少task。👉Spark on YARN：因为现在企业用到 had...

孙中明
发表于2022-02-23 08:25:51
2554 0 0

2.5k 0 0

Spark运行模式(资源调度框架的使用，了解)Local模式:启动多线程或者多进程对程序进行单机调试的。分布式部署模式:👉Standalone模式:独立模式，自带完整的模式。在架构上和 MapReduce1比较，具有一致性，都是由Master、worker组成(只是名称不一样)，资源抽象为粗粒式的slot，多少slot多少task。👉Spark on YARN：因为现在企业用到 had...
spark
Spark为什么快，Spark SQL 一定比 Hive 快吗
Spark为什么快，Spark SQL 一定比 Hive 快吗Spark SQL 比 Hadoop Hive 快，是有一定条件的，而且不是 Spark SQL 的引擎比 Hive 的引擎快，相反，Hive 的 HQL 引擎还比 Spark SQL 的引擎更快。其实，关键还是在于 Spark 本身快。消除了冗余的 HDFS 读写: Hadoop 每次 shuffle 操作后，必须写到磁盘，而...

孙中明
发表于2022-02-23 08:24:56
3706 0 0

3.7k 0 0

Spark为什么快，Spark SQL 一定比 Hive 快吗Spark SQL 比 Hadoop Hive 快，是有一定条件的，而且不是 Spark SQL 的引擎比 Hive 的引擎快，相反，Hive 的 HQL 引擎还比 Spark SQL 的引擎更快。其实，关键还是在于 Spark 本身快。消除了冗余的 HDFS 读写: Hadoop 每次 shuffle 操作后，必须写到磁盘，而...
Hive spark SQL
Spark的 RDD容错机制。
spark的stage是如何划分的stage的划分依据就是看是否产生了shuflle(即宽依赖),遇到一个shuffle操作就划分为前后两个stage. Spark的 RDD容错机制。两个方法:利用“血缘（Lineage）容错”和检查点（checkpoint）机制。“血缘”容错：利用依赖关系进行数据恢复，在容错机制中，如果一个节点死机了,而且运算窄依赖，则只要把丢失的父RDD分区重算即可，...

孙中明
发表于2022-02-23 08:22:31
2478 0 0

2.4k 0 0

spark的stage是如何划分的stage的划分依据就是看是否产生了shuflle(即宽依赖),遇到一个shuffle操作就划分为前后两个stage. Spark的 RDD容错机制。两个方法:利用“血缘（Lineage）容错”和检查点（checkpoint）机制。“血缘”容错：利用依赖关系进行数据恢复，在容错机制中，如果一个节点死机了,而且运算窄依赖，则只要把丢失的父RDD分区重算即可，...
spark
spark ml性能优化思路
spark ml性能优化思路

anqier
发表于2022-01-21 15:07:45
7851 0 0

7.8k 0 0

spark ml性能优化思路
Hadoop spark
「Spark从精通到重新入门(二)」Spark中不可不知的动态资源分配
前言资源是影响 Spark 应用执行效率的一个重要因素。Spark 应用中真正执行 task 的组件是 Executor，可以通过spark.executor.instances 指定 Spark 应用的 Executor 的数量。在运行过程中，无论 Executor上是否有 task 在执行，都会被一直占有直到此 Spark 应用结束。上篇我们从动态优化的角度讲述了 Spark 3.0 版...

开源小E
发表于2021-12-14 14:26:23
3620 0 0

3.6k 0 0

前言资源是影响 Spark 应用执行效率的一个重要因素。Spark 应用中真正执行 task 的组件是 Executor，可以通过spark.executor.instances 指定 Spark 应用的 Executor 的数量。在运行过程中，无论 Executor上是否有 task 在执行，都会被一直占有直到此 Spark 应用结束。上篇我们从动态优化的角度讲述了 Spark 3.0 版...
spark SQL

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript