- 实践如何将flink数据集sink到kafka 实践如何将flink数据集sink到kafka
- 学习和实践Flink的data sink相关的技术细节 学习和实践Flink的data sink相关的技术细节
- 来体验Flink内置connector提供的source能力 来体验Flink内置connector提供的source能力
- 修改flink1.9.2源码,并编译构建,在新的任务中使用和验证 修改flink1.9.2源码,并编译构建,在新的任务中使用和验证
- 将最简单的flink任务在IDEA上开发和运行,为后面的深入学习和实践打好基础 将最简单的flink任务在IDEA上开发和运行,为后面的深入学习和实践打好基础
- 本文是《Flink on Yarn三部曲》系列的第二篇,前面已经为部署做好了准备,现在可以一起来部署和启动Yarn环境了 本文是《Flink on Yarn三部曲》系列的第二篇,前面已经为部署做好了准备,现在可以一起来部署和启动Yarn环境了
- 前面文章基于Java实现Avro文件读写功能我们说到如何使用java读写avro文件,本文基于上述文章进行扩展,展示flink和spark如何读取avro文件。 Flink读写avro文件flink支持avro文件格式,内置如下依赖:<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-avro</artif... 前面文章基于Java实现Avro文件读写功能我们说到如何使用java读写avro文件,本文基于上述文章进行扩展,展示flink和spark如何读取avro文件。 Flink读写avro文件flink支持avro文件格式,内置如下依赖:<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-avro</artif...
- 总览 bulk_insert用于快速导入快照数据到hudi。 基本特性bulk_insert可以减少数据序列化以及合并操作,于此同时,该数据写入方式会跳过数据去重,所以用户需要保证数据的唯一性。bulk_insert在批量写入模式中是更加有效率的。默认情况下,批量执行模式按照分区路径对输入记录进行排序,并将这些记录写入Hudi,该方式可以避免频繁切换文件句柄导致的写性能下降。bulk_in... 总览 bulk_insert用于快速导入快照数据到hudi。 基本特性bulk_insert可以减少数据序列化以及合并操作,于此同时,该数据写入方式会跳过数据去重,所以用户需要保证数据的唯一性。bulk_insert在批量写入模式中是更加有效率的。默认情况下,批量执行模式按照分区路径对输入记录进行排序,并将这些记录写入Hudi,该方式可以避免频繁切换文件句柄导致的写性能下降。bulk_in...
- 环境:hadoop 3.2.0flink 1.11.4-bin-scala_2.11hudi 0.8.0本文基于上述组件版本使用flink插入数据到hudi数据湖中。为了确保以下各步骤能够成功完成,请确保hadoop集群正常启动。确保已经配置环境变量HADOOP_CLASSPATH对于开源版本hadoop,HADOOP_CLASSPATH配置为:export HADOOP_CLASSPAT... 环境:hadoop 3.2.0flink 1.11.4-bin-scala_2.11hudi 0.8.0本文基于上述组件版本使用flink插入数据到hudi数据湖中。为了确保以下各步骤能够成功完成,请确保hadoop集群正常启动。确保已经配置环境变量HADOOP_CLASSPATH对于开源版本hadoop,HADOOP_CLASSPATH配置为:export HADOOP_CLASSPAT...
- 测试环境组件版本mysql 5.7hive 3.1.2flink 1.12.2hudi 0.9.0hadoop 3.2.0首先请确保以下组件正常启动:mysqlhivemetastorehiveserver2hdfsyarn hudi适配hive 3.1.2源码编译0.9.0版本的hudi在适配hive3时,其hudi/package/hudi-flink-bundle/pom.xml文件... 测试环境组件版本mysql 5.7hive 3.1.2flink 1.12.2hudi 0.9.0hadoop 3.2.0首先请确保以下组件正常启动:mysqlhivemetastorehiveserver2hdfsyarn hudi适配hive 3.1.2源码编译0.9.0版本的hudi在适配hive3时,其hudi/package/hudi-flink-bundle/pom.xml文件...
- 入门指南本入门部分将指导您在 Kubernetes 上设置功能齐全的 Flink 集群。 基本介绍Kubernetes 是一种流行的容器编排系统,用于自动化计算机应用程序的部署、扩展和管理。 Flink 的原生 Kubernetes 集成允许您直接在运行的 Kubernetes 集群上部署 Flink。 此外,Flink 能够根据所需资源动态分配和取消分配 TaskManager,因为它可... 入门指南本入门部分将指导您在 Kubernetes 上设置功能齐全的 Flink 集群。 基本介绍Kubernetes 是一种流行的容器编排系统,用于自动化计算机应用程序的部署、扩展和管理。 Flink 的原生 Kubernetes 集成允许您直接在运行的 Kubernetes 集群上部署 Flink。 此外,Flink 能够根据所需资源动态分配和取消分配 TaskManager,因为它可...
- 基本环境集群主机IPhost14710.1.0.147host14810.1.0.148host14910.1.0.149配置域名映射vim /etc/hosts10.1.0.147 host14710.1.0.148 host14810.1.0.149 host149下载Flink安装包,将其放到/data目录下,并解压mkdir /data && cd /datawget http://... 基本环境集群主机IPhost14710.1.0.147host14810.1.0.148host14910.1.0.149配置域名映射vim /etc/hosts10.1.0.147 host14710.1.0.148 host14810.1.0.149 host149下载Flink安装包,将其放到/data目录下,并解压mkdir /data && cd /datawget http://...
- Parquet介绍Parquet 是一种开源文件格式,用于处理扁平列式存储数据格式,可供 Hadoop 生态系统中的任何项目使用。 Parquet 可以很好地处理大量复杂数据。它以其高性能的数据压缩和处理各种编码类型的能力而闻名。与基于行的文件(如 CSV 或 TSV 文件)相比,Apache Parquet 旨在实现高效且高性能的平面列式数据存储格式。Parquet 使用记录粉碎和组装算... Parquet介绍Parquet 是一种开源文件格式,用于处理扁平列式存储数据格式,可供 Hadoop 生态系统中的任何项目使用。 Parquet 可以很好地处理大量复杂数据。它以其高性能的数据压缩和处理各种编码类型的能力而闻名。与基于行的文件(如 CSV 或 TSV 文件)相比,Apache Parquet 旨在实现高效且高性能的平面列式数据存储格式。Parquet 使用记录粉碎和组装算...
- 关于ZeppelinZeppelin是基于 Web 的notebook,是支持使用 SQL、Scala、Python、R 等进行数据驱动的交互式数据分析和协作的Notebook。Zeppelin支持多种语言后端,Apache Zeppelin 解释器允许将任何语言/数据处理后端插入 Zeppelin。 目前 Apache Zeppelin 支持 Apache Spark、Apache Fl... 关于ZeppelinZeppelin是基于 Web 的notebook,是支持使用 SQL、Scala、Python、R 等进行数据驱动的交互式数据分析和协作的Notebook。Zeppelin支持多种语言后端,Apache Zeppelin 解释器允许将任何语言/数据处理后端插入 Zeppelin。 目前 Apache Zeppelin 支持 Apache Spark、Apache Fl...
- 本文基于Flink SQL与hudi构建准实时数仓,在Flink从kafka接入数据之后,即将所有数据存于hudi中,包括所有中间处理数据以及最终数据。文章《实时数仓|基于Flink1.11的SQL构建实时数仓探索实践 (qq.com)》描述了基于Flink SQL与kafka构建的实时数仓,本文以上述文章为基础。 在完成本文实践的同时可以同步参考上述文章。 最终结果: ... 本文基于Flink SQL与hudi构建准实时数仓,在Flink从kafka接入数据之后,即将所有数据存于hudi中,包括所有中间处理数据以及最终数据。文章《实时数仓|基于Flink1.11的SQL构建实时数仓探索实践 (qq.com)》描述了基于Flink SQL与kafka构建的实时数仓,本文以上述文章为基础。 在完成本文实践的同时可以同步参考上述文章。 最终结果: ...
上滑加载中
推荐直播
-
华为云码道 × 仓颉编程:工程化AI编码探索2026/05/27 周三 19:00-21:00
刘俊杰-华为云仓颉语言专家/李炎-华为云码道技术专家/王智鹏-OpenCangjie开源社区发起人
本场直播围绕华为云仓颉语言与华为云码道的深度结合,展示华为云智能编程从零基础到高效落地的完整生态能力。以华为云码道为引擎,仓颉语言为载体,带给大家日常提效、趣味创新到极速量产的开发体验。
回顾中
热门标签