- 目录 案例一:花式查询 案例二:WordCount 基于DSL编程 基于SQL编程 具体演示代码如下: 案例一:花式查询 package cn.itcast.sql import org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimp... 目录 案例一:花式查询 案例二:WordCount 基于DSL编程 基于SQL编程 具体演示代码如下: 案例一:花式查询 package cn.itcast.sql import org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimp...
- 目录 SparkStreaming实战案例五 TopN-transform 需求 注意: 代码实现 SparkStreaming实战案例五 TopN-transform 需求 使用窗口计算模拟热搜排行榜: 每隔10s计算最近20s的热搜排行榜! 注意: DStream没有直接排序的... 目录 SparkStreaming实战案例五 TopN-transform 需求 注意: 代码实现 SparkStreaming实战案例五 TopN-transform 需求 使用窗口计算模拟热搜排行榜: 每隔10s计算最近20s的热搜排行榜! 注意: DStream没有直接排序的...
- 目录 SparkSQL数据处理分析 基于DSL分析 基于SQL分析 第一步、注册为临时视图 第二步、编写SQL,执行分析 SparkSQL数据处理分析 在SparkSQL模块中,将结构化数据封装到DataFrame或Dataset集合中后,提供两种... 目录 SparkSQL数据处理分析 基于DSL分析 基于SQL分析 第一步、注册为临时视图 第二步、编写SQL,执行分析 SparkSQL数据处理分析 在SparkSQL模块中,将结构化数据封装到DataFrame或Dataset集合中后,提供两种...
- 目录 案例二 基于数量的滚动和滑动窗口 需求 代码实现 案例二 基于数量的滚动和滑动窗口 需求 需求1:统计在最近5条消息中,各自路口通过的汽车数量,相同的key每出现5次进行统计--基于数量的滚动窗口 需求2:统计在最近5条消息中,各自路口通过的汽车数量,相同的key每出现3次进行统计--基于数量的滑动窗... 目录 案例二 基于数量的滚动和滑动窗口 需求 代码实现 案例二 基于数量的滚动和滑动窗口 需求 需求1:统计在最近5条消息中,各自路口通过的汽车数量,相同的key每出现5次进行统计--基于数量的滚动窗口 需求2:统计在最近5条消息中,各自路口通过的汽车数量,相同的key每出现3次进行统计--基于数量的滑动窗...
- 目录 RDD Checkpoint 引入 API 代码演示 总结:持久化和Checkpoint的区别 问题: 答案: 区别: RDD Checkpoint 引入 RDD 数据可以持久化,但是持久化/缓存可以把数据放在内存中,虽然是快速的,但是也是最不可靠的;也可以把数据放在磁盘... 目录 RDD Checkpoint 引入 API 代码演示 总结:持久化和Checkpoint的区别 问题: 答案: 区别: RDD Checkpoint 引入 RDD 数据可以持久化,但是持久化/缓存可以把数据放在内存中,虽然是快速的,但是也是最不可靠的;也可以把数据放在磁盘...
- 目录 SparkSQL数据抽象 DataFrame 引入 DataFrame是什么 Schema 信息 Row Dataset 引入 Dataset 是什么 面试题:如何理解RDD、DataFrame和Dataset SparkSQL数据抽象 DataFrame 引入 就易用性而言,对比传统的MapRedu... 目录 SparkSQL数据抽象 DataFrame 引入 DataFrame是什么 Schema 信息 Row Dataset 引入 Dataset 是什么 面试题:如何理解RDD、DataFrame和Dataset SparkSQL数据抽象 DataFrame 引入 就易用性而言,对比传统的MapRedu...
- 目录 扩展阅读 SparkSQL底层如何执行 RDD 和 SparkSQL 运行时的区别 Catalyst 扩展阅读 SparkSQL底层如何执行 RDD 和 SparkSQL 运行时的区别 RDD 的运行流程 大致运行步骤 先将 RDD 解析为由 ... 目录 扩展阅读 SparkSQL底层如何执行 RDD 和 SparkSQL 运行时的区别 Catalyst 扩展阅读 SparkSQL底层如何执行 RDD 和 SparkSQL 运行时的区别 RDD 的运行流程 大致运行步骤 先将 RDD 解析为由 ...
- 目录 Flink-Time与Watermaker Time分类 EventTime的重要性 示例1 示例2 示例3 示例4 总结 Watermaker水印机制/水位线机制 什么是Watermaker? 如何计算Watermaker? Water... 目录 Flink-Time与Watermaker Time分类 EventTime的重要性 示例1 示例2 示例3 示例4 总结 Watermaker水印机制/水位线机制 什么是Watermaker? 如何计算Watermaker? Water...
- 目录 案例三:电影评分数据分析 代码实现 Shuffle分区数 案例三:电影评分数据分析 使用电影评分数据进行数据分析,分别使用DSL编程和SQL编程,熟悉数据处理函数及SQL使用,业务需求说明: 对电影评分数据进行统计分析,获取Top10电影(电影评分平均值最高... 目录 案例三:电影评分数据分析 代码实现 Shuffle分区数 案例三:电影评分数据分析 使用电影评分数据进行数据分析,分别使用DSL编程和SQL编程,熟悉数据处理函数及SQL使用,业务需求说明: 对电影评分数据进行统计分析,获取Top10电影(电影评分平均值最高...
- 目录 SparkStreaming实战案例三 状态恢复-扩展 需求 代码实现 SparkStreaming实战案例三 状态恢复-扩展 需求 在上面的基础之上 实现SparkStreaming程序停止之后再启动时还能够接着上次的结果进行累加 如: 先发送spark,得到spark,1 再发送spa... 目录 SparkStreaming实战案例三 状态恢复-扩展 需求 代码实现 SparkStreaming实战案例三 状态恢复-扩展 需求 在上面的基础之上 实现SparkStreaming程序停止之后再启动时还能够接着上次的结果进行累加 如: 先发送spark,得到spark,1 再发送spa...
- 目录 ZooKeeper集群搭建 第一步:下载zookeeeper的压缩包,下载网址如下 第二步:解压 第三步:修改配置文件 第四步:添加myid配置 第五步:安装包分发并修改myid的值 第六步:三台机器启动zookeeper服务 ZooKeeper集群搭建 Zookeeper... 目录 ZooKeeper集群搭建 第一步:下载zookeeeper的压缩包,下载网址如下 第二步:解压 第三步:修改配置文件 第四步:添加myid配置 第五步:安装包分发并修改myid的值 第六步:三台机器启动zookeeper服务 ZooKeeper集群搭建 Zookeeper...
- 目录 案例一 基于时间的滚动和滑动窗口 需求 代码实现 案例一 基于时间的滚动和滑动窗口 需求 nc -lk 9999 有如下数据表示: 信号灯编号和通过该信号灯的车的数量 9,3 9,2 9,7 4,9 2,6 1,5 2,3 5,7 5,4 需求1:每5秒钟统计一次,最近5秒钟内,各个路口通过红... 目录 案例一 基于时间的滚动和滑动窗口 需求 代码实现 案例一 基于时间的滚动和滑动窗口 需求 nc -lk 9999 有如下数据表示: 信号灯编号和通过该信号灯的车的数量 9,3 9,2 9,7 4,9 2,6 1,5 2,3 5,7 5,4 需求1:每5秒钟统计一次,最近5秒钟内,各个路口通过红...
- 目录 高阶函数用法 作为值的函数 匿名函数 柯里化(多参数列表) 闭包 高阶函数用法 Scala 混合了面向对象和函数式的特性,在函数式编程语言中,函数是“头等公民”,它和Int、String、Class等其他类型处于同等的地位,可以像其他任何数据类型一样被传递和操作。 高阶函数包含:作为值的函数、匿名函数、闭包、柯里... 目录 高阶函数用法 作为值的函数 匿名函数 柯里化(多参数列表) 闭包 高阶函数用法 Scala 混合了面向对象和函数式的特性,在函数式编程语言中,函数是“头等公民”,它和Int、String、Class等其他类型处于同等的地位,可以像其他任何数据类型一样被传递和操作。 高阶函数包含:作为值的函数、匿名函数、闭包、柯里...
- 目录 方法参数 默认参数 带名参数 变长参数 方法参数 scala中的方法参数,使用比较灵活。它支持以下几种类型的参数: 默认参数带名参数变长参数 默认参数 在定义方法时可以给参数定义一个默认值。 示例 定义一个计算两个值相加的方法,这两个值默认为0 调用该方法,不传任何参数 参考代码 // ... 目录 方法参数 默认参数 带名参数 变长参数 方法参数 scala中的方法参数,使用比较灵活。它支持以下几种类型的参数: 默认参数带名参数变长参数 默认参数 在定义方法时可以给参数定义一个默认值。 示例 定义一个计算两个值相加的方法,这两个值默认为0 调用该方法,不传任何参数 参考代码 // ...
- Allowed Lateness案例演示 需求 有订单数据,格式为: (订单ID,用户ID,时间戳/事件时间,订单金额) 要求每隔5s,计算5秒内,每个用户的订单总金额 并添加Watermaker来解决一定程度上的数据延迟和数据乱序问题。 并使用OutputTag+allowedLateness解决数据丢失问题 ... Allowed Lateness案例演示 需求 有订单数据,格式为: (订单ID,用户ID,时间戳/事件时间,订单金额) 要求每隔5s,计算5秒内,每个用户的订单总金额 并添加Watermaker来解决一定程度上的数据延迟和数据乱序问题。 并使用OutputTag+allowedLateness解决数据丢失问题 ...
上滑加载中
推荐直播
-
华为云码道 × 仓颉编程:工程化AI编码探索2026/05/27 周三 19:00-21:00
刘俊杰-华为云仓颉语言专家/李炎-华为云码道技术专家/王智鹏-OpenCangjie开源社区发起人
本场直播围绕华为云仓颉语言与华为云码道的深度结合,展示华为云智能编程从零基础到高效落地的完整生态能力。以华为云码道为引擎,仓颉语言为载体,带给大家日常提效、趣味创新到极速量产的开发体验。
即将直播
热门标签