spark_标签_开发者_华为云

博客(6.8k)
视频(2)
论坛(0)
云声(0)
代码示例(0)

Spark环境搭建和使用方法
目的安装Spark在spark-shell中运行代码编写Spark独立应用程序基础环境Spark支持4种不同类型的部署方式，包括：Local模式：单机模式Standalone模式：使用Spark自带的简单集群管理器YARN模式：使用YARN作为集群管理器Mesos模式：使用Mesos作为集群管理器Spark可以独立安装使用，也可以和Hadoop一起安装使用。安装了Hadoop后，就可以让...

俺想吃蜂蜜
发表于2022-04-13 08:15:30
6479 0 0

6.4k 0 0

目的安装Spark在spark-shell中运行代码编写Spark独立应用程序基础环境Spark支持4种不同类型的部署方式，包括：Local模式：单机模式Standalone模式：使用Spark自带的简单集群管理器YARN模式：使用YARN作为集群管理器Mesos模式：使用Mesos作为集群管理器Spark可以独立安装使用，也可以和Hadoop一起安装使用。安装了Hadoop后，就可以让...
Hadoop spark
spark 的运行架构
讲一下spark 的运行架构👉Cluster Manager(Master)：在standalone模式中即为Master主节点，控制整个集群，监控worker。在YARN模式中为资源管理器👉 Worker节点：从节点，负责控制计算节点，启动Executor或者Driver。👉 Driver：运行Application 的main()函数👉 Executor：执行器，是为某个App...

孙中明
发表于2022-04-08 09:03:19
4173 0 0

4.1k 0 0

讲一下spark 的运行架构👉Cluster Manager(Master)：在standalone模式中即为Master主节点，控制整个集群，监控worker。在YARN模式中为资源管理器👉 Worker节点：从节点，负责控制计算节点，启动Executor或者Driver。👉 Driver：运行Application 的main()函数👉 Executor：执行器，是为某个App...
spark 任务调度
Spark SQL三种join
Spark SQL三种joinMysql 的 join怎么实现的?对于Spark来说有3中Join的实现，每种 Join对应着不同的应用场景:Broadcast Hash Join:适合一张较小的表和一张大表进行joinShuffle Hash Join :适合一张小表和一张大表进行join,或者是两张小表之间的joinSort Merge Join:适合两张较大的表之间进行 joinHa...

孙中明
发表于2022-04-08 09:01:17
3452 0 0

3.4k 0 0

Spark SQL三种joinMysql 的 join怎么实现的?对于Spark来说有3中Join的实现，每种 Join对应着不同的应用场景:Broadcast Hash Join:适合一张较小的表和一张大表进行joinShuffle Hash Join :适合一张小表和一张大表进行join,或者是两张小表之间的joinSort Merge Join:适合两张较大的表之间进行 joinHa...
spark
RDD分区
RDD是弹性分布式数据集，通常RDD很大，会被分成很多个分区，分别保存在不同的节点上 1.分区的作用（1）增加并行度（2）减少通信开销UserData（UserId，UserInfo）Events（UserID，LinkInfo）UserData 和Events 表进行连接操作，获得（UserID，UserInfo，LinkInfo） 2.RDD分区原则RDD分区的一个原则是使得分区的个数尽...

俺想吃蜂蜜
发表于2022-04-07 21:48:05
3947 0 0

3.9k 0 0

RDD是弹性分布式数据集，通常RDD很大，会被分成很多个分区，分别保存在不同的节点上 1.分区的作用（1）增加并行度（2）减少通信开销UserData（UserId，UserInfo）Events（UserID，LinkInfo）UserData 和Events 表进行连接操作，获得（UserID，UserInfo，LinkInfo） 2.RDD分区原则RDD分区的一个原则是使得分区的个数尽...
spark
hive语法创建分区表，方便CDM做增量导出
背景：数据湖里面建表，可以使用DataSource语法或Hive语法，两种建表语法创建的OBS表（即外表）在运行job时，在分区表下的文件夹路径会有所不同，DataSource语法创建的OBS分区表路径生成无规律，不利于CDM做数据的增量导出。

roger_0936
发表于2022-03-28 19:09:15
7650 0 0

7.6k 0 0

背景：数据湖里面建表，可以使用DataSource语法或Hive语法，两种建表语法创建的OBS表（即外表）在运行job时，在分区表下的文件夹路径会有所不同，DataSource语法创建的OBS分区表路径生成无规律，不利于CDM做数据的增量导出。
Hive spark 云数据迁移 CDM 数据湖探索 DLI
Flink和Spark读写avro文件
前面文章基于Java实现Avro文件读写功能我们说到如何使用java读写avro文件，本文基于上述文章进行扩展，展示flink和spark如何读取avro文件。 Flink读写avro文件flink支持avro文件格式，内置如下依赖：<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-avro</artif...

从大数据到人工智能
发表于2022-03-28 00:39:33
4044 0 0

4.0k 0 0

前面文章基于Java实现Avro文件读写功能我们说到如何使用java读写avro文件，本文基于上述文章进行扩展，展示flink和spark如何读取avro文件。 Flink读写avro文件flink支持avro文件格式，内置如下依赖：<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-avro</artif...
Flink spark
使用spark3操作hudi数据湖初探
环境：hadoop 3.2.0spark 3.0.3-bin-hadoop3.2hudi 0.8.0本文基于上述组件版本使用spark插入数据到hudi数据湖中。为了确保以下各步骤能够成功完成，请确保hadoop集群正常启动。确保已经配置环境变量HADOOP_CLASSPATH对于开源版本hadoop，HADOOP_CLASSPATH配置为：export HADOOP_CLASSPATH=...

从大数据到人工智能
发表于2022-03-28 00:30:01
3906 0 0

3.9k 0 0

环境：hadoop 3.2.0spark 3.0.3-bin-hadoop3.2hudi 0.8.0本文基于上述组件版本使用spark插入数据到hudi数据湖中。为了确保以下各步骤能够成功完成，请确保hadoop集群正常启动。确保已经配置环境变量HADOOP_CLASSPATH对于开源版本hadoop，HADOOP_CLASSPATH配置为：export HADOOP_CLASSPATH=...
spark
spark-shell操作hudi并使用hbase作为索引
前言接上一篇文章，上篇文章说到hudi适配hbase 2.2.6，这篇文章在spark-shell中操作hudi，并使用hbase作为索引。要完成以下实验，请先确保你已经按照文章步骤对hudi进行适配。并且得到了hudi-spark3-bundle_2.12-0.9.0.jar当然，如果你想先做一个实验，那么可以从这里以下链接下载我已经编译好的jar包。hudi-spark3-bundle...

从大数据到人工智能
发表于2022-03-28 00:28:25
3269 0 0

3.2k 0 0

前言接上一篇文章，上篇文章说到hudi适配hbase 2.2.6，这篇文章在spark-shell中操作hudi，并使用hbase作为索引。要完成以下实验，请先确保你已经按照文章步骤对hudi进行适配。并且得到了hudi-spark3-bundle_2.12-0.9.0.jar当然，如果你想先做一个实验，那么可以从这里以下链接下载我已经编译好的jar包。hudi-spark3-bundle...
HBase Shell spark
讲一下spark的几种部署方式
讲一下spark的几种部署方式目前,除了local模式为本地调试模式以为, Spark支持三种分布式部署方式，分别是standalone、spark on mesos和 spark on YARNStandalone模式即独立模式，自带完整的服务，可单独部署到一个集群中，无需依赖任何其他资源管理系统。从一定程度上说，该模式是其他两种的基础。目前Spark在standalone模式下是没有任...

孙中明
发表于2022-02-23 08:30:17
5187 0 0

5.1k 0 0

讲一下spark的几种部署方式目前,除了local模式为本地调试模式以为, Spark支持三种分布式部署方式，分别是standalone、spark on mesos和 spark on YARNStandalone模式即独立模式，自带完整的服务，可单独部署到一个集群中，无需依赖任何其他资源管理系统。从一定程度上说，该模式是其他两种的基础。目前Spark在standalone模式下是没有任...
spark Yarn
Spark的shuffle介绍
Spark的shuffle介绍shuffle简介:在 DAG 阶段以shuffle为界，划分 stage，上游 stage做 map task，每个maptask将计算结果数据分成多份，每一份对应到下游stage 的每个partition中，并将其临时写到磁盘,该过程叫做shuffle write;下游stage 做reduce task,每个reduce task通过网络拉取上游 sta...

孙中明
发表于2022-02-23 08:24:25
3471 0 0

3.4k 0 0

Spark的shuffle介绍shuffle简介:在 DAG 阶段以shuffle为界，划分 stage，上游 stage做 map task，每个maptask将计算结果数据分成多份，每一份对应到下游stage 的每个partition中，并将其临时写到磁盘,该过程叫做shuffle write;下游stage 做reduce task,每个reduce task通过网络拉取上游 sta...
spark
一天学完spark的Scala基础语法教程九、迭代器(idea版本)
📋前言📋💝博客主页：红目香薰_CSDN博客-大数据,计算机理论,MySQL领域博主💝✍本文由在下【红目香薰】原创✍🤗2022年最大愿望：【服务百万技术人次】🤗💝初始环境地址：【spark环境搭建(idea版本)_红目香薰-CSDN博客】💝环境需求环境：win10开发工具：IntelliJ IDEA 2021.2maven版本：3.6.3创建测试类【day1/demo9.sc...

红目香薰
发表于2022-01-30 13:57:20
3180 0 0

3.1k 0 0

📋前言📋💝博客主页：红目香薰_CSDN博客-大数据,计算机理论,MySQL领域博主💝✍本文由在下【红目香薰】原创✍🤗2022年最大愿望：【服务百万技术人次】🤗💝初始环境地址：【spark环境搭建(idea版本)_红目香薰-CSDN博客】💝环境需求环境：win10开发工具：IntelliJ IDEA 2021.2maven版本：3.6.3创建测试类【day1/demo9.sc...
IDE Java Scala spark
一天学完spark的Scala基础语法教程八、集合(idea版本)
📋前言📋💝博客主页：红目香薰_CSDN博客-大数据,计算机理论,MySQL领域博主💝✍本文由在下【红目香薰】原创✍🤗2022年最大愿望：【服务百万技术人次】🤗💝初始环境地址：【spark环境搭建(idea版本)_红目香薰-CSDN博客】💝环境需求环境：win10开发工具：IntelliJ IDEA 2021.2maven版本：3.6.3目录📋前言📋环境需求Scala ...

红目香薰
发表于2022-01-30 13:56:50
3038 0 0

3.0k 0 0

📋前言📋💝博客主页：红目香薰_CSDN博客-大数据,计算机理论,MySQL领域博主💝✍本文由在下【红目香薰】原创✍🤗2022年最大愿望：【服务百万技术人次】🤗💝初始环境地址：【spark环境搭建(idea版本)_红目香薰-CSDN博客】💝环境需求环境：win10开发工具：IntelliJ IDEA 2021.2maven版本：3.6.3目录📋前言📋环境需求Scala ...
IDE Scala spark 容器
一天学完spark的Scala基础语法教程四、方法与函数(idea版本)
📋前言📋💝博客主页：红目香薰_CSDN博客-大数据,计算机理论,MySQL领域博主💝✍本文由在下【红目香薰】原创🤗2022年最大愿望：【服务百万技术人次】🤗💝初始环境地址：【spark环境搭建(idea版本)_红目香薰-CSDN博客】💝环境需求环境：win10开发工具：IntelliJ IDEA 2021.2maven版本：3.6.3目录📋前言📋环境需求 ...

红目香薰
发表于2022-01-27 16:08:23
2860 0 0

2.8k 0 0

📋前言📋💝博客主页：红目香薰_CSDN博客-大数据,计算机理论,MySQL领域博主💝✍本文由在下【红目香薰】原创🤗2022年最大愿望：【服务百万技术人次】🤗💝初始环境地址：【spark环境搭建(idea版本)_红目香薰-CSDN博客】💝环境需求环境：win10开发工具：IntelliJ IDEA 2021.2maven版本：3.6.3目录📋前言📋环境需求 ...
IDE Scala spark
一天学完spark的Scala基础语法教程一、基础语法与变量(idea版本)
📋前言📋💝博客主页：红目香薰_CSDN博客-大数据,计算机理论,MySQL领域博主💝✍本文由在下【红目香薰】原创🤗2022年最大愿望：【服务百万技术人次】🤗💝初始环境地址：【spark环境搭建(idea版本)_红目香薰-CSDN博客】💝环境需求环境：win10开发工具：IntelliJ IDEA 2021.2maven版本：3.6.3目录📋前言📋环境需求创建测试类：基本...

红目香薰
发表于2022-01-27 16:06:30
3064 0 0

3.0k 0 0

📋前言📋💝博客主页：红目香薰_CSDN博客-大数据,计算机理论,MySQL领域博主💝✍本文由在下【红目香薰】原创🤗2022年最大愿望：【服务百万技术人次】🤗💝初始环境地址：【spark环境搭建(idea版本)_红目香薰-CSDN博客】💝环境需求环境：win10开发工具：IntelliJ IDEA 2021.2maven版本：3.6.3目录📋前言📋环境需求创建测试类：基本...
IDE Java Scala spark
spark环境搭建(idea版本)
📋前言📋💝博客主页：红目香薰_CSDN博客-大数据,计算机理论,MySQL领域博主💝✍本文由在下【红目香薰】原创🤗2022年最大愿望：【服务百万技术人次】🤗导读：为了对初学者可以进行友好的交流，本文通过windows的idea快速搭建spark的运行环境，让初学者可以快速的感受spark带来的惊艳感受。Linux效果更佳，但是对初学者没那么友好，咱们先搞定windows之后再琢...

红目香薰
发表于2022-01-27 16:05:48
3797 0 0

3.7k 0 0

📋前言📋💝博客主页：红目香薰_CSDN博客-大数据,计算机理论,MySQL领域博主💝✍本文由在下【红目香薰】原创🤗2022年最大愿望：【服务百万技术人次】🤗导读：为了对初学者可以进行友好的交流，本文通过windows的idea快速搭建spark的运行环境，让初学者可以快速的感受spark带来的惊艳感受。Linux效果更佳，但是对初学者没那么友好，咱们先搞定windows之后再琢...
IDE spark

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript