- 本书摘自《企业级大数据平台构建:架构与实现》——书中第2章,2.5.1节,作者是朱凯。 本书摘自《企业级大数据平台构建:架构与实现》——书中第2章,2.5.1节,作者是朱凯。
- 本书摘自《Spark机器学习进阶实战》——书中的第3章,第3.3.2节,作者是马海平、于俊、吕昕、向海。 本书摘自《Spark机器学习进阶实战》——书中的第3章,第3.3.2节,作者是马海平、于俊、吕昕、向海。
- Spark安装教程 Spark安装教程
- Scala产生于瑞士的洛桑联邦理工学院(EPEL),是“可扩展语言”(Scalable Language)的缩写,Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。利用Scala可以编写出更加精简的程序,也能用于构建大型复杂系统,还可以访问任何Java类库并且与Java框架进行交互。 运行在JVM和JavaScript之上: ... Scala产生于瑞士的洛桑联邦理工学院(EPEL),是“可扩展语言”(Scalable Language)的缩写,Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。利用Scala可以编写出更加精简的程序,也能用于构建大型复杂系统,还可以访问任何Java类库并且与Java框架进行交互。 运行在JVM和JavaScript之上: ...
- 四、DataFrame存储+Spark UDF函数1、储存DataFrame1)、将DataFrame存储为parquet文件2)、将DataFrame存储到JDBC数据库3)、将DataFrame存储到Hive表2、UDF:用户自定义函数可以自定义类实现UDFX接口java:SparkConf conf = new SparkConf();conf.setMaster("local")... 四、DataFrame存储+Spark UDF函数1、储存DataFrame1)、将DataFrame存储为parquet文件2)、将DataFrame存储到JDBC数据库3)、将DataFrame存储到Hive表2、UDF:用户自定义函数可以自定义类实现UDFX接口java:SparkConf conf = new SparkConf();conf.setMaster("local")...
- 1、Spark On Hive的配置1)、在Spark客户端配置Hive On Spark在Spark客户端安装包下spark-2.3.1/conf中创建文件hive-site.xml:配置hive的metastore路径<configuration> <property> <name>hive.metastore.uris</name> <value>t... 1、Spark On Hive的配置1)、在Spark客户端配置Hive On Spark在Spark客户端安装包下spark-2.3.1/conf中创建文件hive-site.xml:配置hive的metastore路径<configuration> <property> <name>hive.metastore.uris</name> <value>t...
- 一、SparkSQL介绍1、SharkShark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎,由于底层的计算采用了Spark,性能比MapReduce的Hive普遍快2倍以上,当数据全部load在内存的话,将快10倍以上,因此Shark可以作为交互式查询应用服务来使用。除了基于Spark的特性外,Shark是完全兼容Hive的语法,表结构以及UDF函数等,已有的Hive... 一、SparkSQL介绍1、SharkShark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎,由于底层的计算采用了Spark,性能比MapReduce的Hive普遍快2倍以上,当数据全部load在内存的话,将快10倍以上,因此Shark可以作为交互式查询应用服务来使用。除了基于Spark的特性外,Shark是完全兼容Hive的语法,表结构以及UDF函数等,已有的Hive...
- 五、Spark Shuffle文件寻址1、Shuffle文件寻址1)、MapOutputTrackerMapOutputTracker是Spark架构中的一个模块,是一个主从架构。管理磁盘小文件的地址。MapOutputTrackerMaster是主对象,存在于Driver中。MapOutputTrackerWorker是从对象,存在于Excutor中。2)、BlockManagerBl... 五、Spark Shuffle文件寻址1、Shuffle文件寻址1)、MapOutputTrackerMapOutputTracker是Spark架构中的一个模块,是一个主从架构。管理磁盘小文件的地址。MapOutputTrackerMaster是主对象,存在于Driver中。MapOutputTrackerWorker是从对象,存在于Excutor中。2)、BlockManagerBl...
- 三、Spark Master HA1、Master的高可用原理Standalone集群只有一个Master,如果Master挂了就无法提交应用程序,需要给Master进行高可用配置,Master的高可用可以使用fileSystem(文件系统)和zookeeper(分布式协调服务)。fileSystem只有存储功能,可以存储Master的元数据信息,用fileSystem搭建的Master... 三、Spark Master HA1、Master的高可用原理Standalone集群只有一个Master,如果Master挂了就无法提交应用程序,需要给Master进行高可用配置,Master的高可用可以使用fileSystem(文件系统)和zookeeper(分布式协调服务)。fileSystem只有存储功能,可以存储Master的元数据信息,用fileSystem搭建的Master...
- 一、Spark广播变量和累加器1、广播变量1)、广播变量理解图2)、广播变量使用val conf = new SparkConf()conf.setMaster("local").setAppName("brocast")val sc = new SparkContext(conf)val broadCast = sc.broadcast(list)val lineRDD = sc.t... 一、Spark广播变量和累加器1、广播变量1)、广播变量理解图2)、广播变量使用val conf = new SparkConf()conf.setMaster("local").setAppName("brocast")val sc = new SparkContext(conf)val broadCast = sc.broadcast(list)val lineRDD = sc.t...
- 一、Spark Master启动1、Spark资源任务调度对象关系图2、集群启动过程Spark集群启动之后,首先调用$SPARK_HOME/sbin/start-all.sh,start-all.sh脚本中调用了“start-master.sh”脚本和“start-slaves.sh”脚本,在start-master.sh脚本中可以看到启动Master角色的主类:“org.apache... 一、Spark Master启动1、Spark资源任务调度对象关系图2、集群启动过程Spark集群启动之后,首先调用$SPARK_HOME/sbin/start-all.sh,start-all.sh脚本中调用了“start-master.sh”脚本和“start-slaves.sh”脚本,在start-master.sh脚本中可以看到启动Master角色的主类:“org.apache...
- 四、补充算子1、transformations 类算子mapPartitionWithIndex类似于mapPartitions,除此之外还会携带分区的索引值。repartition增加或减少分区。会产生shuffle。(多个分区分到一个分区不会产生shuffle)coalescecoalesce常用来减少分区,第二个参数是减少分区的过程中是否产生shuffle。true为产生shuffle... 四、补充算子1、transformations 类算子mapPartitionWithIndex类似于mapPartitions,除此之外还会携带分区的索引值。repartition增加或减少分区。会产生shuffle。(多个分区分到一个分区不会产生shuffle)coalescecoalesce常用来减少分区,第二个参数是减少分区的过程中是否产生shuffle。true为产生shuffle...
- 一、Spark补充Transformation算子1、join,leftOuterJoin,rightOuterJoin,fullOuterJoin作用在K,V格式的RDD上。根据K进行连接,对(K,V)join(K,W)返回(K,(V,W))join后的分区数与父RDD分区数多的那一个相同。2、union合并两个数据集。两个数据集的类型要一致。返回新的RDD的分区数是合并RDD分区数的总和... 一、Spark补充Transformation算子1、join,leftOuterJoin,rightOuterJoin,fullOuterJoin作用在K,V格式的RDD上。根据K进行连接,对(K,V)join(K,W)返回(K,(V,W))join后的分区数与父RDD分区数多的那一个相同。2、union合并两个数据集。两个数据集的类型要一致。返回新的RDD的分区数是合并RDD分区数的总和...
- Yarn模式两种提交任务方式一、yarn-client提交任务方式1、提交命令./spark-submit --master yarn--class org.apache.spark.examples.SparkPi ../examples/jars/spark-examples_2.11-2.3.1.jar 100或者./spark-submit --master yarn–client-... Yarn模式两种提交任务方式一、yarn-client提交任务方式1、提交命令./spark-submit --master yarn--class org.apache.spark.examples.SparkPi ../examples/jars/spark-examples_2.11-2.3.1.jar 100或者./spark-submit --master yarn–client-...
- Standalone模式两种提交任务方式一、Standalone-client提交任务方式1、提交命令./spark-submit --master spark://mynode1:7077 --class org.apache.spark.examples.SparkPi ../examples/jars/spark-examples_2.11-2.3.1.jar 100或者./spar... Standalone模式两种提交任务方式一、Standalone-client提交任务方式1、提交命令./spark-submit --master spark://mynode1:7077 --class org.apache.spark.examples.SparkPi ../examples/jars/spark-examples_2.11-2.3.1.jar 100或者./spar...
上滑加载中
推荐直播
-
华为云码道-玩转OpenClaw,在线养虾2026/03/11 周三 19:00-21:00
刘昱,华为云高级工程师/谈心,华为云技术专家/李海仑,上海圭卓智能科技有限公司CEO
OpenClaw 火爆开发者圈,华为云码道最新推出 Skill ——开发者只需输入一句口令,即可部署一个功能完整的「小龙虾」智能体。直播带你玩转华为云码道,玩转OpenClaw
回顾中 -
华为云码道-AI时代应用开发利器2026/03/18 周三 19:00-20:00
童得力,华为云开发者生态运营总监/姚圣伟,华为云HCDE开发者专家
本次直播由华为专家带你实战应用开发,看华为云码道(CodeArts)代码智能体如何在AI时代让你的创意应用快速落地。更有华为云HCDE开发者专家带你用码道玩转JiuwenClaw,让小艺成为你的AI助理。
回顾中 -
Skill 构建 × 智能创作:基于华为云码道的 AI 内容生产提效方案2026/03/25 周三 19:00-20:00
余伟,华为云软件研发工程师/万邵业(万少),华为云HCDE开发者专家
本次直播带来两大实战:华为云码道 Skill-Creator 手把手搭建专属知识库 Skill;如何用码道提效 OpenClaw 小说文本,打造从大纲到成稿的 AI 原创小说全链路。技术干货 + OPC创作思路,一次讲透!
回顾中
热门标签