- Spark 批处理调优这点事:资源怎么要、Shuffle 怎么省、序列化怎么选?我用这些年踩过的坑告诉你 Spark 批处理调优这点事:资源怎么要、Shuffle 怎么省、序列化怎么选?我用这些年踩过的坑告诉你
- Parquet 和 ORC 到底有啥区别?别再云里雾里了,咱今天把列式存储聊明白! Parquet 和 ORC 到底有啥区别?别再云里雾里了,咱今天把列式存储聊明白!
- 在“数据即石油”的时代,企业每天产生的数据量以TB甚至PB计。然而,原始数据本身并无价值——它如同深埋地下的原油,唯有经过开采、提炼与精制,才能转化为驱动业务增长的燃料。这一转化过程,离不开三大核心技术支柱:大数据处理框架(如 Hadoop 与 Spark)、灵活的数据存储模型(SQL 与 NoSQL),以及高效的数据可视化能力。它们分别对应着数据的“炼油厂”、“储油罐”与“仪表盘”,共同构... 在“数据即石油”的时代,企业每天产生的数据量以TB甚至PB计。然而,原始数据本身并无价值——它如同深埋地下的原油,唯有经过开采、提炼与精制,才能转化为驱动业务增长的燃料。这一转化过程,离不开三大核心技术支柱:大数据处理框架(如 Hadoop 与 Spark)、灵活的数据存储模型(SQL 与 NoSQL),以及高效的数据可视化能力。它们分别对应着数据的“炼油厂”、“储油罐”与“仪表盘”,共同构...
- 随着物联网设备的普及,海量时序数据的采集与分析需求日益增长。本文围绕 时序数据库→Hadoop分布式计算→机器学习建模→预测分析→数据可视化 的技术链路,详细阐述如何构建一套完整的智能预测系统。通过对比不同技术选型的性能差异,结合实际业务场景优化参数,最终实现从数据接入到决策支持的全流程闭环。本方案特别适用于工业设备预测性维护、能源消耗优化等场景,可显著提升数据分析效率与预测准确率。 一、引... 随着物联网设备的普及,海量时序数据的采集与分析需求日益增长。本文围绕 时序数据库→Hadoop分布式计算→机器学习建模→预测分析→数据可视化 的技术链路,详细阐述如何构建一套完整的智能预测系统。通过对比不同技术选型的性能差异,结合实际业务场景优化参数,最终实现从数据接入到决策支持的全流程闭环。本方案特别适用于工业设备预测性维护、能源消耗优化等场景,可显著提升数据分析效率与预测准确率。 一、引...
- 在电商平台大促期间,我曾遇到一个棘手问题:用户行为分析任务在纯Hadoop MapReduce 上耗时长达6小时,而业务方要求实时生成推荐模型。这让我深刻意识到,孤立使用Hadoop组件如同单兵作战,唯有构建协同生态才能突破性能瓶颈。经过三次架构迭代,我们最终通过Hadoop、Spark、HBase的深度集成,将任务耗时压缩至23分钟。本文将结合实战经验,分享如何让这些组件真正“协同”而非“... 在电商平台大促期间,我曾遇到一个棘手问题:用户行为分析任务在纯Hadoop MapReduce 上耗时长达6小时,而业务方要求实时生成推荐模型。这让我深刻意识到,孤立使用Hadoop组件如同单兵作战,唯有构建协同生态才能突破性能瓶颈。经过三次架构迭代,我们最终通过Hadoop、Spark、HBase的深度集成,将任务耗时压缩至23分钟。本文将结合实战经验,分享如何让这些组件真正“协同”而非“...
- 每日一句正能量 第3章 Spark RDD弹性分布式数据集 章节概要 3.7 Spark的任务调度 3.7.1 DAG的概念 3.7.2 RDD在Spark中的运行流程 总结 每日一句正能量成功的速度一定要超过父母老去的速度,努力吧。做事不必与俗同,亦不与俗异;做事不必令人喜,亦不令人憎。若我白发苍苍,容颜迟暮,你会不会,依旧如此,牵我双手,倾世温柔。 第3章 Spark RDD弹性分... 每日一句正能量 第3章 Spark RDD弹性分布式数据集 章节概要 3.7 Spark的任务调度 3.7.1 DAG的概念 3.7.2 RDD在Spark中的运行流程 总结 每日一句正能量成功的速度一定要超过父母老去的速度,努力吧。做事不必与俗同,亦不与俗异;做事不必令人喜,亦不令人憎。若我白发苍苍,容颜迟暮,你会不会,依旧如此,牵我双手,倾世温柔。 第3章 Spark RDD弹性分...
- 每日一句正能量 第3章 Spark RDD弹性分布式数据集 章节概要 3.6 RDD机制 3.6.1 持久化机制 3.6.2 容错机制 总结 每日一句正能量勤奋踏实,诚实守信。我始终相信我读过的所有书都不会白读,它总会在未来日子的某一个场合帮助我表现得更出色,读书是可以给人以力量的,它更能给人快乐。 第3章 Spark RDD弹性分布式数据集 章节概要传统的MapReduce虽然具有自... 每日一句正能量 第3章 Spark RDD弹性分布式数据集 章节概要 3.6 RDD机制 3.6.1 持久化机制 3.6.2 容错机制 总结 每日一句正能量勤奋踏实,诚实守信。我始终相信我读过的所有书都不会白读,它总会在未来日子的某一个场合帮助我表现得更出色,读书是可以给人以力量的,它更能给人快乐。 第3章 Spark RDD弹性分布式数据集 章节概要传统的MapReduce虽然具有自...
- 每日一句正能量 第3章 Spark RDD弹性分布式数据集 章节概要 3.4 RDD的分区 3.5 RDD的依赖关系 后记 每日一句正能量书籍是最好的朋友。当生活中遇到任何困难的时候,你都能够向它求助,它永远不会背弃你。 第3章 Spark RDD弹性分布式数据集 章节概要传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是采用非循环式的数据流模型,使得... 每日一句正能量 第3章 Spark RDD弹性分布式数据集 章节概要 3.4 RDD的分区 3.5 RDD的依赖关系 后记 每日一句正能量书籍是最好的朋友。当生活中遇到任何困难的时候,你都能够向它求助,它永远不会背弃你。 第3章 Spark RDD弹性分布式数据集 章节概要传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是采用非循环式的数据流模型,使得...
- 每日一句正能量 第3章 Spark RDD弹性分布式数据集 章节概要 3.3 RDD的处理过程 3.3.1 转换算子 3.3.2 行动算子 3.3.3 编写WordCount词频统计案例 每日一句正能量人生很长,不必慌张。你未长大,我要担当。 第3章 Spark RDD弹性分布式数据集 章节概要传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是采用非循... 每日一句正能量 第3章 Spark RDD弹性分布式数据集 章节概要 3.3 RDD的处理过程 3.3.1 转换算子 3.3.2 行动算子 3.3.3 编写WordCount词频统计案例 每日一句正能量人生很长,不必慌张。你未长大,我要担当。 第3章 Spark RDD弹性分布式数据集 章节概要传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是采用非循...
- 每日一句正能量 第3章 Spark RDD弹性分布式数据集 章节概要 3.1 RDD简介 3.2 RDD的创建方式 3.2.1 从文件系统加载数据创建RDD 3.2.2 通过并行集合创建RDD 每日一句正能量学如积薪,后来者居上。 第3章 Spark RDD弹性分布式数据集 章节概要传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是采用非循环式的数据流... 每日一句正能量 第3章 Spark RDD弹性分布式数据集 章节概要 3.1 RDD简介 3.2 RDD的创建方式 3.2.1 从文件系统加载数据创建RDD 3.2.2 通过并行集合创建RDD 每日一句正能量学如积薪,后来者居上。 第3章 Spark RDD弹性分布式数据集 章节概要传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是采用非循环式的数据流...
- 每日一句正能量 2.6 IDEA开发WordCount程序 2.6.1 本地模式执行Spark程序 2.6.2 集群模式执行Spark程序 每日一句正能量我们全都要从前辈和同辈学习到一些东西。就连最大的天才,如果想单凭他所特有的内在自我去对付一切,他也决不会有多大成就。 2.6 IDEA开发WordCount程序Spark-Shell通常在测试和验证我们的程序时使用的较多,然而在生产环境中... 每日一句正能量 2.6 IDEA开发WordCount程序 2.6.1 本地模式执行Spark程序 2.6.2 集群模式执行Spark程序 每日一句正能量我们全都要从前辈和同辈学习到一些东西。就连最大的天才,如果想单凭他所特有的内在自我去对付一切,他也决不会有多大成就。 2.6 IDEA开发WordCount程序Spark-Shell通常在测试和验证我们的程序时使用的较多,然而在生产环境中...
- 每日一句正能量 前言 2.5 启动Spark-Shell 2.5.1 运行Spark-Shell命令 2.5.2 运行Spark-Shell读取HDFS文件 后记 每日一句正能量成长是一条必走的路路上我们伤痛在所难免。 前言在大数据处理和分析领域,Spark被广泛应用于解决海量数据处理和实时计算的挑战。作为一个快速、可扩展且易于使用的分布式计算框架,Spark为开发人员提供了丰富的A... 每日一句正能量 前言 2.5 启动Spark-Shell 2.5.1 运行Spark-Shell命令 2.5.2 运行Spark-Shell读取HDFS文件 后记 每日一句正能量成长是一条必走的路路上我们伤痛在所难免。 前言在大数据处理和分析领域,Spark被广泛应用于解决海量数据处理和实时计算的挑战。作为一个快速、可扩展且易于使用的分布式计算框架,Spark为开发人员提供了丰富的A...
- 每日一句正能量 引言 章节概要 2.4 体验第一个Spark程序 2.4.1 运行Spark官方示例SparkPi 总结 每日一句正能量“春风十里,不如你。”这句来自现代作家安妮宝贝的经典句子,它表达了对他人的赞美与崇拜。每个人都有着不同的闪光点和特长,在这个世界上,不必去羡慕别人的光芒,自己所拥有的价值是独一无二的。每个人都有无限的潜力和能力,只要勇敢展现自己,就能在人生舞台上绽放光彩。... 每日一句正能量 引言 章节概要 2.4 体验第一个Spark程序 2.4.1 运行Spark官方示例SparkPi 总结 每日一句正能量“春风十里,不如你。”这句来自现代作家安妮宝贝的经典句子,它表达了对他人的赞美与崇拜。每个人都有着不同的闪光点和特长,在这个世界上,不必去羡慕别人的光芒,自己所拥有的价值是独一无二的。每个人都有无限的潜力和能力,只要勇敢展现自己,就能在人生舞台上绽放光彩。...
- 每日一句正能量 章节概要 2.3 Spark运行架构与原理 2.3.1 基本概念 2.3.2 Spark集群运行架构 2.3.3 Spark运行基本流程 总结 每日一句正能量又回到了原点,就从现在开始我的新生活吧。 章节概要章节概要:Spark运行架构与原理I. 引言A. 概述SparkB. Spark的特点和优势II. Spark运行架构概述A. Spark集群模式B. Spark... 每日一句正能量 章节概要 2.3 Spark运行架构与原理 2.3.1 基本概念 2.3.2 Spark集群运行架构 2.3.3 Spark运行基本流程 总结 每日一句正能量又回到了原点,就从现在开始我的新生活吧。 章节概要章节概要:Spark运行架构与原理I. 引言A. 概述SparkB. Spark的特点和优势II. Spark运行架构概述A. Spark集群模式B. Spark...
- 每日一句正能量 第2章 Spark基础 章节概要 2.1 初识Spark 2.1.1 Spark概述 2.1.2 Spark的特点 2.1.3 Spark应用场景 2.1.4 Spark与Hadoop对比 每日一句正能量宁愿跑起来被拌倒无数次,也不愿规规矩矩走一辈子,就算跌倒也要豪迈的笑。 第2章 Spark基础 章节概要Spark于2009年诞生于美国加州大学伯克利分校的AMP实验室... 每日一句正能量 第2章 Spark基础 章节概要 2.1 初识Spark 2.1.1 Spark概述 2.1.2 Spark的特点 2.1.3 Spark应用场景 2.1.4 Spark与Hadoop对比 每日一句正能量宁愿跑起来被拌倒无数次,也不愿规规矩矩走一辈子,就算跌倒也要豪迈的笑。 第2章 Spark基础 章节概要Spark于2009年诞生于美国加州大学伯克利分校的AMP实验室...
上滑加载中
推荐直播
-
码道新技能,AI 新生产力——从自动视频生成到开源项目解析2026/04/08 周三 19:00-21:00
童得力-华为云开发者生态运营总监/何文强-无人机企业AI提效负责人
本次华为云码道 Skill 实战活动,聚焦两大 AI 开发场景:通过实战教学,带你打造 AI 编程自动生成视频 Skill,并实现对 GitHub 热门开源项目的智能知识抽取,手把手掌握 Skill 开发全流程,用 AI 提升研发效率与内容生产力。
回顾中 -
华为云码道:零代码股票智能决策平台全功能实战2026/04/18 周六 10:00-12:00
秦拳德-中软国际教育卓越研究院研究员、华为云金牌讲师、云原生技术专家
利用Tushare接口获取实时行情数据,采用Transformer算法进行时序预测与涨跌分析,并集成DeepSeek API提供智能解读。同时,项目深度结合华为云CodeArts(码道)的代码智能体能力,实现代码一键推送至云端代码仓库,建立起高效、可协作的团队开发新范式。开发者可快速上手,从零打造功能完整的个股筛选、智能分析与风险管控产品。
回顾中 -
华为云码道全新升级,多会话并行与多智能体协作2026/05/08 周五 19:00-21:00
王一男-华为云码道产品专家;张嘉冉-华为云码道工程师;胡琦-华为云HCDE;程诗杰-华为云HCDG
华为云码道4月份版本全新升级,此次直播深度解读4月份产品特性,通过“特性解读+实操演示+实战案例+设计创新”的组合,全方位展现码道在多会话并行与多智能体协作方面的能力,赋能开发者提升效率
正在直播
热门标签