- 目录 RDD算子练习 map 算子 filter 算子 flatMap 算子 交集、并集、差集、笛卡尔积 distinct 算子 first、take、top 算子 keys、values 算子 mapValues 算子 ... 目录 RDD算子练习 map 算子 filter 算子 flatMap 算子 交集、并集、差集、笛卡尔积 distinct 算子 first、take、top 算子 keys、values 算子 mapValues 算子 ...
- 上一篇博客已经为大家介绍完了SparkSQL的基本概念以及其提供的两个编程抽象:DataFrame和Data... 上一篇博客已经为大家介绍完了SparkSQL的基本概念以及其提供的两个编程抽象:DataFrame和Data...
- 目录 自定义UDF函数 第一种:UDF(User-Defined-Function) 函数 第二种:UDAF(User-Defined Aggregation Function) 聚合函数 第三种:UDTF(User-Defined Table-Generating Functions) 函数 SQL方式 DSL方式 代码... 目录 自定义UDF函数 第一种:UDF(User-Defined-Function) 函数 第二种:UDAF(User-Defined Aggregation Function) 聚合函数 第三种:UDTF(User-Defined Table-Generating Functions) 函数 SQL方式 DSL方式 代码...
- 目录 案例一:花式查询 案例二:WordCount 基于DSL编程 基于SQL编程 具体演示代码如下: 案例一:花式查询 package cn.itcast.sql import org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimp... 目录 案例一:花式查询 案例二:WordCount 基于DSL编程 基于SQL编程 具体演示代码如下: 案例一:花式查询 package cn.itcast.sql import org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimp...
- 目录 SparkStreaming实战案例五 TopN-transform 需求 注意: 代码实现 SparkStreaming实战案例五 TopN-transform 需求 使用窗口计算模拟热搜排行榜: 每隔10s计算最近20s的热搜排行榜! 注意: DStream没有直接排序的... 目录 SparkStreaming实战案例五 TopN-transform 需求 注意: 代码实现 SparkStreaming实战案例五 TopN-transform 需求 使用窗口计算模拟热搜排行榜: 每隔10s计算最近20s的热搜排行榜! 注意: DStream没有直接排序的...
- 目录 SparkSQL数据处理分析 基于DSL分析 基于SQL分析 第一步、注册为临时视图 第二步、编写SQL,执行分析 SparkSQL数据处理分析 在SparkSQL模块中,将结构化数据封装到DataFrame或Dataset集合中后,提供两种... 目录 SparkSQL数据处理分析 基于DSL分析 基于SQL分析 第一步、注册为临时视图 第二步、编写SQL,执行分析 SparkSQL数据处理分析 在SparkSQL模块中,将结构化数据封装到DataFrame或Dataset集合中后,提供两种...
- 目录 RDD Checkpoint 引入 API 代码演示 总结:持久化和Checkpoint的区别 问题: 答案: 区别: RDD Checkpoint 引入 RDD 数据可以持久化,但是持久化/缓存可以把数据放在内存中,虽然是快速的,但是也是最不可靠的;也可以把数据放在磁盘... 目录 RDD Checkpoint 引入 API 代码演示 总结:持久化和Checkpoint的区别 问题: 答案: 区别: RDD Checkpoint 引入 RDD 数据可以持久化,但是持久化/缓存可以把数据放在内存中,虽然是快速的,但是也是最不可靠的;也可以把数据放在磁盘...
- 目录 SparkSQL数据抽象 DataFrame 引入 DataFrame是什么 Schema 信息 Row Dataset 引入 Dataset 是什么 面试题:如何理解RDD、DataFrame和Dataset SparkSQL数据抽象 DataFrame 引入 就易用性而言,对比传统的MapRedu... 目录 SparkSQL数据抽象 DataFrame 引入 DataFrame是什么 Schema 信息 Row Dataset 引入 Dataset 是什么 面试题:如何理解RDD、DataFrame和Dataset SparkSQL数据抽象 DataFrame 引入 就易用性而言,对比传统的MapRedu...
- 目录 扩展阅读 SparkSQL底层如何执行 RDD 和 SparkSQL 运行时的区别 Catalyst 扩展阅读 SparkSQL底层如何执行 RDD 和 SparkSQL 运行时的区别 RDD 的运行流程 大致运行步骤 先将 RDD 解析为由 ... 目录 扩展阅读 SparkSQL底层如何执行 RDD 和 SparkSQL 运行时的区别 Catalyst 扩展阅读 SparkSQL底层如何执行 RDD 和 SparkSQL 运行时的区别 RDD 的运行流程 大致运行步骤 先将 RDD 解析为由 ...
- 目录 案例三:电影评分数据分析 代码实现 Shuffle分区数 案例三:电影评分数据分析 使用电影评分数据进行数据分析,分别使用DSL编程和SQL编程,熟悉数据处理函数及SQL使用,业务需求说明: 对电影评分数据进行统计分析,获取Top10电影(电影评分平均值最高... 目录 案例三:电影评分数据分析 代码实现 Shuffle分区数 案例三:电影评分数据分析 使用电影评分数据进行数据分析,分别使用DSL编程和SQL编程,熟悉数据处理函数及SQL使用,业务需求说明: 对电影评分数据进行统计分析,获取Top10电影(电影评分平均值最高...
- 上一篇博客《什么是RDD?带你快速了解Spark中RDD的概念!》为大家带来了RDD的概述之后。本篇博客,博... 上一篇博客《什么是RDD?带你快速了解Spark中RDD的概念!》为大家带来了RDD的概述之后。本篇博客,博...
- 目录 SparkStreaming实战案例三 状态恢复-扩展 需求 代码实现 SparkStreaming实战案例三 状态恢复-扩展 需求 在上面的基础之上 实现SparkStreaming程序停止之后再启动时还能够接着上次的结果进行累加 如: 先发送spark,得到spark,1 再发送spa... 目录 SparkStreaming实战案例三 状态恢复-扩展 需求 代码实现 SparkStreaming实战案例三 状态恢复-扩展 需求 在上面的基础之上 实现SparkStreaming程序停止之后再启动时还能够接着上次的结果进行累加 如: 先发送spark,得到spark,1 再发送spa...
- 本篇博客是Spark之【RDD编程】系列第三篇,为大家带来的是Action的内容。  ... 本篇博客是Spark之【RDD编程】系列第三篇,为大家带来的是Action的内容。  ...
- 目录 分布式SQL引擎 Hive的SQL交互方式 ThriftServer JDBC/ODBC Server 开启sparksql的thriftserver 使用beeline 客户端连接 JDBC/ODBC 客户端 分布式SQL引擎 Hive的SQL交互方式 回顾一下,如何使用Hive进行数据分析的,提供... 目录 分布式SQL引擎 Hive的SQL交互方式 ThriftServer JDBC/ODBC Server 开启sparksql的thriftserver 使用beeline 客户端连接 JDBC/ODBC 客户端 分布式SQL引擎 Hive的SQL交互方式 回顾一下,如何使用Hive进行数据分析的,提供...
- 目录 SparkStreaming数据抽象-DStream DStream 是什么 DStream Operations Transformation Output函数 SparkStreaming数据抽象-DStream DStream 是什么 Spark Streamin... 目录 SparkStreaming数据抽象-DStream DStream 是什么 DStream Operations Transformation Output函数 SparkStreaming数据抽象-DStream DStream 是什么 Spark Streamin...
上滑加载中
推荐直播
-
HDC深度解读系列 - Serverless与MCP融合创新,构建AI应用全新智能中枢2025/08/20 周三 16:30-18:00
张昆鹏 HCDG北京核心组代表
HDC2025期间,华为云展示了Serverless与MCP融合创新的解决方案,本期访谈直播,由华为云开发者专家(HCDE)兼华为云开发者社区组织HCDG北京核心组代表张鹏先生主持,华为云PaaS服务产品部 Serverless总监Ewen为大家深度解读华为云Serverless与MCP如何融合构建AI应用全新智能中枢
回顾中 -
关于RISC-V生态发展的思考2025/09/02 周二 17:00-18:00
中国科学院计算技术研究所副所长包云岗教授
中科院包云岗老师将在本次直播中,探讨处理器生态的关键要素及其联系,分享过去几年推动RISC-V生态建设实践过程中的经验与教训。
回顾中 -
一键搞定华为云万级资源,3步轻松管理企业成本2025/09/09 周二 15:00-16:00
阿言 华为云交易产品经理
本直播重点介绍如何一键续费万级资源,3步轻松管理成本,帮助提升日常管理效率!
回顾中
热门标签