- Spark官网:(https://spark.apache.org/) Spark是一个大数据领域统一的数据分析/计算/处理引擎 目录 环境配置 一、解压更名 二、配置环境变量 三、配置Spark参数 四、环境测试 五、提交任务 六、结果查看 七、查看spark任务web-ui ... Spark官网:(https://spark.apache.org/) Spark是一个大数据领域统一的数据分析/计算/处理引擎 目录 环境配置 一、解压更名 二、配置环境变量 三、配置Spark参数 四、环境测试 五、提交任务 六、结果查看 七、查看spark任务web-ui ...
- 支持的数据源-JDBC 需求说明:使用Spark流式计算 将数据写入MySQL,并读取数据库信息进行打印 文章目录 支持的数据源-JDBC 项目主体架构 pom.xml依赖 创建数据库 业务逻辑 完整代码 程序运行 项目总结 项目主体架构 pom.xml依赖 ... 支持的数据源-JDBC 需求说明:使用Spark流式计算 将数据写入MySQL,并读取数据库信息进行打印 文章目录 支持的数据源-JDBC 项目主体架构 pom.xml依赖 创建数据库 业务逻辑 完整代码 程序运行 项目总结 项目主体架构 pom.xml依赖 ...
- Spark环境搭建 Spark的部署方式 目前Spark支持4种部署方式,分别是Local、Standalone、Spark on Mesos和 Spark on YARN。Local模式是单机模式。Standalone模式即独立模式,自... Spark环境搭建 Spark的部署方式 目前Spark支持4种部署方式,分别是Local、Standalone、Spark on Mesos和 Spark on YARN。Local模式是单机模式。Standalone模式即独立模式,自...
- 读取本地文件上传至Hive数据仓库 pom.xml <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.12</artifact... 读取本地文件上传至Hive数据仓库 pom.xml <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.12</artifact...
- 前景连接: Hadoop HA部署(MINI版)https://blog.csdn.net/m0_54925305/article/details/121566611?spm=1001.2014.3001.5501https://blog.csdn.net/m0_54925305/article/details/121566611?s... 前景连接: Hadoop HA部署(MINI版)https://blog.csdn.net/m0_54925305/article/details/121566611?spm=1001.2014.3001.5501https://blog.csdn.net/m0_54925305/article/details/121566611?s...
- 本地运行:在IDEA中直接运行控制台输出结果即可 集群运行:在本地将程序打包为 jar,提交至集群运行其程序(将结果上传至hdfs) 文章目录 一、本地运行spark程序 二、集群运行spark程序 一、本地运行spark程序  ... 本地运行:在IDEA中直接运行控制台输出结果即可 集群运行:在本地将程序打包为 jar,提交至集群运行其程序(将结果上传至hdfs) 文章目录 一、本地运行spark程序 二、集群运行spark程序 一、本地运行spark程序  ...
- textFile文件读取 读取数据展示 代码 package org.example.SQL import org.apache.log4j.{Level, Logger}import org.apache.spark.SparkContextimport org.apache.spark.rdd.RDD... textFile文件读取 读取数据展示 代码 package org.example.SQL import org.apache.log4j.{Level, Logger}import org.apache.spark.SparkContextimport org.apache.spark.rdd.RDD...
- 1、spark 的JavaRDD使用map、flatmap、filter等算子时,统一需要implement接口 org.apache.spark.api.java.function.Function ... 1、spark 的JavaRDD使用map、flatmap、filter等算子时,统一需要implement接口 org.apache.spark.api.java.function.Function ...
- 读取JSON文件,以JSON,CSV,jdbc格式写出 数据展示 代码 package org.example.SQL import org.apache.log4j.{Level, Logger}import org.apache.spark.sql.{DataFrame, SaveMode, SparkSes... 读取JSON文件,以JSON,CSV,jdbc格式写出 数据展示 代码 package org.example.SQL import org.apache.log4j.{Level, Logger}import org.apache.spark.sql.{DataFrame, SaveMode, SparkSes...
- 文章目录 一、皮尔逊相关系数 (一)皮尔逊相关系数公式 (二)根据皮尔逊相关系数判断相关强度 二、利用Spark ML计算皮尔逊相关系数矩阵... 文章目录 一、皮尔逊相关系数 (一)皮尔逊相关系数公式 (二)根据皮尔逊相关系数判断相关强度 二、利用Spark ML计算皮尔逊相关系数矩阵...
- 文章目录 一、提出任务 二、完成任务 (一)将成绩文件上传到HDFS (二)创建Maven项目 (三)添加依赖和构建插件 (四)创建日... 文章目录 一、提出任务 二、完成任务 (一)将成绩文件上传到HDFS (二)创建Maven项目 (三)添加依赖和构建插件 (四)创建日...
- 对电影评分数据进行分析,使用SQL编程,获取电影平均分Top10,要求电影的评分次数大于200 数据展示 代码 package org.example.SQL import org.apache.log4j.{Level, Logger}import org.apache.spark.sql.{DataF... 对电影评分数据进行分析,使用SQL编程,获取电影平均分Top10,要求电影的评分次数大于200 数据展示 代码 package org.example.SQL import org.apache.log4j.{Level, Logger}import org.apache.spark.sql.{DataF...
- 共享变量 广播变量(Broadcast Variables):广播变量用来把变量在所有节点的内存之间进行共享,在每个机器上缓存一个只读的变量,而不是为机器上的每个任务都生成一个副本,简单理解:减少内存,减小计算压力; 累加器(Accumulators):累加器支持在所有不同节点之间进行累加计算(比如计数或者求和); ... 共享变量 广播变量(Broadcast Variables):广播变量用来把变量在所有节点的内存之间进行共享,在每个机器上缓存一个只读的变量,而不是为机器上的每个任务都生成一个副本,简单理解:减少内存,减小计算压力; 累加器(Accumulators):累加器支持在所有不同节点之间进行累加计算(比如计数或者求和); ...
- 文章目录 一、pyspark.sql部分1.窗口函数2.更换列名:3.sql将一个字段根据某个字符拆分成多个字段显示4.pd和spark的dataframe进行转换:5.报错ValueError:... 文章目录 一、pyspark.sql部分1.窗口函数2.更换列名:3.sql将一个字段根据某个字符拆分成多个字段显示4.pd和spark的dataframe进行转换:5.报错ValueError:...
- 文章目录 零、本讲学习目标一、基本数据源(一)文件流1、读取文件流概述2、读取文件流演示 零、本讲学习目标 掌握Spark Streaming基本数据源掌握Spark Strea... 文章目录 零、本讲学习目标一、基本数据源(一)文件流1、读取文件流概述2、读取文件流演示 零、本讲学习目标 掌握Spark Streaming基本数据源掌握Spark Strea...
上滑加载中
推荐直播
-
HDC深度解读系列 - Serverless与MCP融合创新,构建AI应用全新智能中枢2025/08/20 周三 16:30-18:00
张昆鹏 HCDG北京核心组代表
HDC2025期间,华为云展示了Serverless与MCP融合创新的解决方案,本期访谈直播,由华为云开发者专家(HCDE)兼华为云开发者社区组织HCDG北京核心组代表张鹏先生主持,华为云PaaS服务产品部 Serverless总监Ewen为大家深度解读华为云Serverless与MCP如何融合构建AI应用全新智能中枢
回顾中 -
关于RISC-V生态发展的思考2025/09/02 周二 17:00-18:00
中国科学院计算技术研究所副所长包云岗教授
中科院包云岗老师将在本次直播中,探讨处理器生态的关键要素及其联系,分享过去几年推动RISC-V生态建设实践过程中的经验与教训。
回顾中 -
一键搞定华为云万级资源,3步轻松管理企业成本2025/09/09 周二 15:00-16:00
阿言 华为云交易产品经理
本直播重点介绍如何一键续费万级资源,3步轻松管理成本,帮助提升日常管理效率!
回顾中
热门标签