- 在《寻找海量数据集用于大数据开发实战(维基百科网站统计数据)》一文中,我们了解了如何获取维基百科网站的网页点击量统计数据,并且介绍了数据格式的基本内容,本文以这些数据进行实战,练习基本的spark开发 在《寻找海量数据集用于大数据开发实战(维基百科网站统计数据)》一文中,我们了解了如何获取维基百科网站的网页点击量统计数据,并且介绍了数据格式的基本内容,本文以这些数据进行实战,练习基本的spark开发
- 搭建spark和hdfs的集群环境会消耗一些时间和精力,今天咱们就借助docker,极速搭建和体验spark和hdfs的集群环境 搭建spark和hdfs的集群环境会消耗一些时间和精力,今天咱们就借助docker,极速搭建和体验spark和hdfs的集群环境
- 部署Spark on Yarn集群 部署Spark on Yarn集群
- java版的spark应用开发 java版的spark应用开发
- 一起来实战部署spark2.2集群(standalone模式) 一起来实战部署spark2.2集群(standalone模式)
- 1. MySQL数据准备1.1 MySQL数据说明(1)数据库:movie(2)genre:电影类别表(3)movie:电影基本信息表(4)movie_to_genre:电影与类别的对应关系 【电影id == 类别id】(5)person:演员基本信息表(6)person_to_movie:演员与电影对应的关系【演员id == 电影id】1.2 MySQL数据脚本语句数据sql脚本下面提供了... 1. MySQL数据准备1.1 MySQL数据说明(1)数据库:movie(2)genre:电影类别表(3)movie:电影基本信息表(4)movie_to_genre:电影与类别的对应关系 【电影id == 类别id】(5)person:演员基本信息表(6)person_to_movie:演员与电影对应的关系【演员id == 电影id】1.2 MySQL数据脚本语句数据sql脚本下面提供了...
- 大数据建模、分析、挖掘技术应用研修2022年8月5日 — 2022年8月9日1.掌握大数据建模分析与使用方法。2.掌握大数据平台技术架构。3.掌握国内外主流的大数据分析与BI商业智能分析解决方案。4.掌握大数据分析在搜索引擎、广告服务推荐、电商数据分析、金融客户分析方面的应用。5.掌握主流的基于大数据Hadoop和Spark、R的大数据分析平台架构和实际应用。6.掌握基于Hadoop大数据平... 大数据建模、分析、挖掘技术应用研修2022年8月5日 — 2022年8月9日1.掌握大数据建模分析与使用方法。2.掌握大数据平台技术架构。3.掌握国内外主流的大数据分析与BI商业智能分析解决方案。4.掌握大数据分析在搜索引擎、广告服务推荐、电商数据分析、金融客户分析方面的应用。5.掌握主流的基于大数据Hadoop和Spark、R的大数据分析平台架构和实际应用。6.掌握基于Hadoop大数据平...
- 编辑Spark高效数据分析04、RDD创建📋前言📋💝博客:【红目香薰的博客_CSDN博客-计算机理论,2022年蓝桥杯,MySQL领域博主】💝✍本文由在下【红目香薰】原创,首发于CSDN✍🤗2022年最大愿望:【服务百万技术人次】🤗💝Spark初始环境地址:【Spark高效数据分析01、idea开发环境搭建】💝环境需求环境:win10开发工具:IntelliJ IDEA... 编辑Spark高效数据分析04、RDD创建📋前言📋💝博客:【红目香薰的博客_CSDN博客-计算机理论,2022年蓝桥杯,MySQL领域博主】💝✍本文由在下【红目香薰】原创,首发于CSDN✍🤗2022年最大愿望:【服务百万技术人次】🤗💝Spark初始环境地址:【Spark高效数据分析01、idea开发环境搭建】💝环境需求环境:win10开发工具:IntelliJ IDEA...
- 11-[掌握]-Java 操作 Kudu之创建表(范围分区)为了提供可扩展性,Kudu 表被划分为称为 tablets 的单元,并分布在许多 tablet servers 上。1)、哈希分区:Hash Partitioning哈希分区通过哈希值,将行分配到不同的 buckets ( 存储桶 )中;哈希分区是一种有效的策略,当不需要对表进行有序访问时,哈希分区对于在 tablet 之间随机散... 11-[掌握]-Java 操作 Kudu之创建表(范围分区)为了提供可扩展性,Kudu 表被划分为称为 tablets 的单元,并分布在许多 tablet servers 上。1)、哈希分区:Hash Partitioning哈希分区通过哈希值,将行分配到不同的 buckets ( 存储桶 )中;哈希分区是一种有效的策略,当不需要对表进行有序访问时,哈希分区对于在 tablet 之间随机散...
- 11-[掌握]-Java 操作 Kudu之创建表(范围分区)为了提供可扩展性,Kudu 表被划分为称为 tablets 的单元,并分布在许多 tablet servers 上。1)、哈希分区:Hash Partitioning哈希分区通过哈希值,将行分配到不同的 buckets ( 存储桶 )中;哈希分区是一种有效的策略,当不需要对表进行有序访问时,哈希分区对于在 tablet 之间随机散... 11-[掌握]-Java 操作 Kudu之创建表(范围分区)为了提供可扩展性,Kudu 表被划分为称为 tablets 的单元,并分布在许多 tablet servers 上。1)、哈希分区:Hash Partitioning哈希分区通过哈希值,将行分配到不同的 buckets ( 存储桶 )中;哈希分区是一种有效的策略,当不需要对表进行有序访问时,哈希分区对于在 tablet 之间随机散...
- Hudi与Spark整合一、向Hudi插入数据默认Spark操作Hudi使用表类型为Copy On Write模式。Hudi与Spark整合时有很多参数配置,可以参照https://hudi.apache.org/docs/configurations.html配置项来查询,此外,整合时有几个需要注意的点,如下:Hudi这里使用的是0.8.0版本,其对应使用的Spark版本是2.4.3+版... Hudi与Spark整合一、向Hudi插入数据默认Spark操作Hudi使用表类型为Copy On Write模式。Hudi与Spark整合时有很多参数配置,可以参照https://hudi.apache.org/docs/configurations.html配置项来查询,此外,整合时有几个需要注意的点,如下:Hudi这里使用的是0.8.0版本,其对应使用的Spark版本是2.4.3+版...
- Spark+grafana可视化项目实战,赶快收藏~ Spark+grafana可视化项目实战,赶快收藏~
- 拉链表是缓慢变化维的一种实现形式,是数据仓库的常用数据模型。基于传统大数据需要全量覆盖写的模式进行,基于Hudi的能力,实现方案会更加简单,性能更优。 拉链表是缓慢变化维的一种实现形式,是数据仓库的常用数据模型。基于传统大数据需要全量覆盖写的模式进行,基于Hudi的能力,实现方案会更加简单,性能更优。
- 目的安装Spark在spark-shell中运行代码编写Spark独立应用程序 基础环境Spark支持4种不同类型的部署方式,包括:Local模式:单机模式Standalone模式:使用Spark自带的简单集群管理器YARN模式:使用YARN作为集群管理器Mesos模式:使用Mesos作为集群管理器Spark可以独立安装使用,也可以和Hadoop一起安装使用。安装了Hadoop后,就可以让... 目的安装Spark在spark-shell中运行代码编写Spark独立应用程序 基础环境Spark支持4种不同类型的部署方式,包括:Local模式:单机模式Standalone模式:使用Spark自带的简单集群管理器YARN模式:使用YARN作为集群管理器Mesos模式:使用Mesos作为集群管理器Spark可以独立安装使用,也可以和Hadoop一起安装使用。安装了Hadoop后,就可以让...
- 讲一下spark 的运行架构👉Cluster Manager(Master):在standalone模式中即为Master主节点,控制整个集群,监控worker。在YARN模式中为资源管理器👉 Worker节点:从节点,负责控制计算节点,启动Executor或者Driver。👉 Driver: 运行Application 的main()函数👉 Executor:执行器,是为某个App... 讲一下spark 的运行架构👉Cluster Manager(Master):在standalone模式中即为Master主节点,控制整个集群,监控worker。在YARN模式中为资源管理器👉 Worker节点:从节点,负责控制计算节点,启动Executor或者Driver。👉 Driver: 运行Application 的main()函数👉 Executor:执行器,是为某个App...
上滑加载中
推荐直播
-
Skill 构建 × 智能创作:基于华为云码道的 AI 内容生产提效方案2026/03/25 周三 19:00-20:00
余伟,华为云软件研发工程师/万邵业(万少),华为云HCDE开发者专家
本次直播带来两大实战:华为云码道 Skill-Creator 手把手搭建专属知识库 Skill;如何用码道提效 OpenClaw 小说文本,打造从大纲到成稿的 AI 原创小说全链路。技术干货 + OPC创作思路,一次讲透!
回顾中 -
码道新技能,AI 新生产力——从自动视频生成到开源项目解析2026/04/08 周三 19:00-21:00
童得力-华为云开发者生态运营总监/何文强-无人机企业AI提效负责人
本次华为云码道 Skill 实战活动,聚焦两大 AI 开发场景:通过实战教学,带你打造 AI 编程自动生成视频 Skill,并实现对 GitHub 热门开源项目的智能知识抽取,手把手掌握 Skill 开发全流程,用 AI 提升研发效率与内容生产力。
回顾中 -
华为云码道:零代码股票智能决策平台全功能实战2026/04/18 周六 10:00-12:00
秦拳德-中软国际教育卓越研究院研究员、华为云金牌讲师、云原生技术专家
利用Tushare接口获取实时行情数据,采用Transformer算法进行时序预测与涨跌分析,并集成DeepSeek API提供智能解读。同时,项目深度结合华为云CodeArts(码道)的代码智能体能力,实现代码一键推送至云端代码仓库,建立起高效、可协作的团队开发新范式。开发者可快速上手,从零打造功能完整的个股筛选、智能分析与风险管控产品。
回顾中
热门标签