Flink_标签_开发者_华为云

博客(403)
视频(0)
论坛(0)
云声(0)
代码示例(0)

2021年大数据Flink（四十七）：扩展阅读  File Sink
目录扩展阅读  File Sink 介绍案例演示扩展阅读  File Sink 介绍 https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/connectors/file_sink.html &n...

Lansonli
发表于2021-09-27 23:44:06
4259 0 0

4.2k 0 0

目录扩展阅读  File Sink 介绍案例演示扩展阅读  File Sink 介绍 https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/connectors/file_sink.html &n...
Flink 大数据
2021年大数据Flink（三十五）：Table与SQL 案例二
目录案例二需求代码实现-SQL 代码实现-Table 案例二需求使用SQL和Table两种方式对DataStream中的单词进行统计代码实现-SQL package cn.itcast.sql; import lombok.AllArgsConstructor;import lombok.Data;imp...

Lansonli
发表于2021-09-27 23:43:13
3804 0 0

3.8k 0 0

目录案例二需求代码实现-SQL 代码实现-Table 案例二需求使用SQL和Table两种方式对DataStream中的单词进行统计代码实现-SQL package cn.itcast.sql; import lombok.AllArgsConstructor;import lombok.Data;imp...
Flink SQL 大数据
2021年大数据Flink（二十九）：Flink 容错机制 Savepoint
目录 Savepoint Savepoint介绍 Savepoint VS Checkpoint Savepoint演示 Savepoint Savepoint介绍 Savepoint:保存点,类似于以前玩游戏的时候,遇到难关了/遇到boss了,赶紧手动存个档,然后接着玩,如果失败了,赶紧从上次的存档中恢复,然...

Lansonli
发表于2021-09-27 22:41:08
3789 0 0

3.7k 0 0

目录 Savepoint Savepoint介绍 Savepoint VS Checkpoint Savepoint演示 Savepoint Savepoint介绍 Savepoint:保存点,类似于以前玩游戏的时候,遇到难关了/遇到boss了,赶紧手动存个档,然后接着玩,如果失败了,赶紧从上次的存档中恢复,然...
Flink 大数据
2021年大数据Flink（三十一）：Table与SQL案例准备依赖和程序结构
目录案例准备依赖程序结构案例准备依赖 https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/table/   <dependency>    &...

Lansonli
发表于2021-09-27 22:10:56
3613 0 0

3.6k 0 0

目录案例准备依赖程序结构案例准备依赖 https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/table/   <dependency>    &...
Flink SQL 大数据
Flink 实时计算在微博的应用
Flink 实时计算在微博的应用 https://zhuanlan.zhihu.com/p/375032985 Flink GitHub 地址 https://github.com/apache/flink 一、微博介绍二、数据计算平台介绍 1. 数据计算平台概况基于 K8s 和 Yarn 分别部署了实时数据处理的 Flink、Storm，以及用于离线处理的 SQL 服务。...

bigdata张凯翔
发表于2021-05-27 00:17:43
4466 0 0

4.4k 0 0

Flink 实时计算在微博的应用 https://zhuanlan.zhihu.com/p/375032985 Flink GitHub 地址 https://github.com/apache/flink 一、微博介绍二、数据计算平台介绍 1. 数据计算平台概况基于 K8s 和 Yarn 分别部署了实时数据处理的 Flink、Storm，以及用于离线处理的 SQL 服务。...
Flink SQL
5、Flink 分布式快照的原理是什么？
答：Flink的分布式快照是根据Chandy-Lamport算法量身定做的。简单来说就是持续创建分布式数据流及其状态的一致快照。核心思想是在 input source 端插入 barrier，控制 barrier 的同步来实现 snapshot 的备份和 exactly-once 语义。什么是Chandy-Lamport算法什么是barrier 标记 snapsh...

bigdata张凯翔
发表于2021-04-30 00:18:24
5830 0 0

5.8k 0 0

答：Flink的分布式快照是根据Chandy-Lamport算法量身定做的。简单来说就是持续创建分布式数据流及其状态的一致快照。核心思想是在 input source 端插入 barrier，控制 barrier 的同步来实现 snapshot 的备份和 exactly-once 语义。什么是Chandy-Lamport算法什么是barrier 标记 snapsh...
Flink 分布式
yarn获取flink日志方法
请按照如下方法进行日志获取： 1、登录yarn原生界面找到对应任务的appid 已经任务提交用户 2、 hdfs dfs –get /tmp/logs/提交任务用户名/logs/任务ID /tmp 3、到/tmp目录下找到get下来的文件

bigdata张凯翔
发表于2021-04-24 02:12:01
5986 0 0

5.9k 0 0

请按照如下方法进行日志获取： 1、登录yarn原生界面找到对应任务的appid 已经任务提交用户 2、 hdfs dfs –get /tmp/logs/提交任务用户名/logs/任务ID /tmp 3、到/tmp目录下找到get下来的文件
Flink Yarn
Flink并行度可以有如下几种指定方式
1.Operator Level（算子级别）(可以使用) 一个算子、数据源和sink的并行度可以通过调用 setParallelism()方法来指定 image.png 2.Execution Environment Level（Env级别）(可以使用) 执行环境(任务)的默认并行度可以通过调用setParallelism()方法指定。为了以并行度3来执行所有的...

bigdata张凯翔
发表于2021-04-05 23:43:48
4193 0 0

4.1k 0 0

1.Operator Level（算子级别）(可以使用) 一个算子、数据源和sink的并行度可以通过调用 setParallelism()方法来指定 image.png 2.Execution Environment Level（Env级别）(可以使用) 执行环境(任务)的默认并行度可以通过调用setParallelism()方法指定。为了以并行度3来执行所有的...
Flink
flink写入hdfs文件大小和时间间隔
sink.setBatchSize(1024 * 1024 * 400L); // this is 400 MB, sink.setBatchRolloverInterval(20 * 60 * 1000L); // this is 20 mins 注意：batchSize和BatchRolloverInterval一定要加L，虽然不加L也不会报错，但笔者遇到一个坑设置10...

bigdata张凯翔
发表于2021-04-05 23:19:27
4474 0 0

4.4k 0 0

sink.setBatchSize(1024 * 1024 * 400L); // this is 400 MB, sink.setBatchRolloverInterval(20 * 60 * 1000L); // this is 20 mins 注意：batchSize和BatchRolloverInterval一定要加L，虽然不加L也不会报错，但笔者遇到一个坑设置10...
Flink Hadoop
flink集成hudi
Flink.png flink 1.12.2 hudi 0.9.0 一、组件下载 1.1、flink1.12.2编译包下载： https://mirrors.tuna.tsinghua.edu.cn/apache/flink/flink-1.12.2/flink-1.12.2-bin-scala_2.11.tgz 1.2、hudi编译： git clone htt...

bigdata张凯翔
发表于2021-04-04 00:18:34
5952 1 1

5.9k 1 1

Flink.png flink 1.12.2 hudi 0.9.0 一、组件下载 1.1、flink1.12.2编译包下载： https://mirrors.tuna.tsinghua.edu.cn/apache/flink/flink-1.12.2/flink-1.12.2-bin-scala_2.11.tgz 1.2、hudi编译： git clone htt...
Flink Scala
Flink执行流程源码解析
Flink 中的执行图可以分成四层：StreamGraph -> JobGraph -> ExecutionGraph -> 物理执行图。 StreamGraph：是根据用户通过 Stream API 编写的代码生成的最初的图。用来表示程序的拓扑结构。 JobGraph：StreamGraph经过优化后生成了 JobGraph，提交给 JobManager 的...

bigdata张凯翔
发表于2021-04-03 02:21:00
4040 0 0

4.0k 0 0

Flink 中的执行图可以分成四层：StreamGraph -> JobGraph -> ExecutionGraph -> 物理执行图。 StreamGraph：是根据用户通过 Stream API 编写的代码生成的最初的图。用来表示程序的拓扑结构。 JobGraph：StreamGraph经过优化后生成了 JobGraph，提交给 JobManager 的...
Flink 数据结构
07. Flink8种分区策略及源码解读
Flink8种分区策略有哪几种？ Flink实现的分区策略继承图：.png GlobalPartitioner: DataStream => DataStream GlobalPartitioner数据会被分发到下游算子的第一个实例中进行处理。 GlobalPartitioner,GLOBAL分区。`将记录输出到下游Operator的第一个实例。源码解读: /*...

bigdata张凯翔
发表于2021-04-02 04:49:33
4124 0 0

4.1k 0 0

Flink8种分区策略有哪几种？ Flink实现的分区策略继承图：.png GlobalPartitioner: DataStream => DataStream GlobalPartitioner数据会被分发到下游算子的第一个实例中进行处理。 GlobalPartitioner,GLOBAL分区。`将记录输出到下游Operator的第一个实例。源码解读: /*...
Flink
Checkpoint复杂流程
下图左侧是 Checkpoint Coordinator，是整个 Checkpoint 的发起者，中间是由两个 source，一个 sink 组成的 Flink 作业，最右侧的是持久化存储，在大部分用户场景中对应 HDFS。 1.Checkpoint Coordinator 向所有 source 节点 trigger Checkpoint。 image.png 2...

bigdata张凯翔
发表于2021-03-30 02:26:49
4112 0 0

4.1k 0 0

下图左侧是 Checkpoint Coordinator，是整个 Checkpoint 的发起者，中间是由两个 source，一个 sink 组成的 Flink 作业，最右侧的是持久化存储，在大部分用户场景中对应 HDFS。 1.Checkpoint Coordinator 向所有 source 节点 trigger Checkpoint。 image.png 2...
Flink
Apache Flink 进阶（五）：数据类型和序列化
本文根据 Apache Flink 系列直播整理而成，由 Apache Flink Contributor、360 数据开发高级工程师马庆祥老师分享。文章主要从如何为Flink量身定制的序列化框架、Flink序列化的最佳实践、Flink通信层的序列化三部分分享。第一部分: 大家都知道现在大数据生态非常火，大多数技术组件都是运行在 JVM 上的，Flink 也是运行在 J...

bigdata张凯翔
发表于2021-03-29 05:07:07
8492 0 0

8.4k 0 0

本文根据 Apache Flink 系列直播整理而成，由 Apache Flink Contributor、360 数据开发高级工程师马庆祥老师分享。文章主要从如何为Flink量身定制的序列化框架、Flink序列化的最佳实践、Flink通信层的序列化三部分分享。第一部分: 大家都知道现在大数据生态非常火，大多数技术组件都是运行在 JVM 上的，Flink 也是运行在 J...
Apache Flink Java 数据结构
Apache Flink 进阶（二）：时间属性深度解析
简介：时间属性是流处理中最重要的一个方面，是流处理系统的基石之一，贯穿这三层 API。在 DataStream API 这一层中因为封装方面的原因，我们能够接触到时间的地方不是很多，所以我们将重点放在底层的 ProcessFunction 和最上层作者：崔星灿整理: 平凡的爱 image.png image.png 前言 Flink 的...

bigdata张凯翔
发表于2021-03-29 04:39:50
7141 0 0

7.1k 0 0

简介：时间属性是流处理中最重要的一个方面，是流处理系统的基石之一，贯穿这三层 API。在 DataStream API 这一层中因为封装方面的原因，我们能够接触到时间的地方不是很多，所以我们将重点放在底层的 ProcessFunction 和最上层作者：崔星灿整理: 平凡的爱 image.png image.png 前言 Flink 的...
Apache Flink

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript