- 获取spark 或hadoop运行日志https://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=103786#实现代码https://ld246.com/article/1588084878671 #获取日志https://blog.csdn.net/qq_37927069/article/details/108660347 获取spark 或hadoop运行日志https://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=103786#实现代码https://ld246.com/article/1588084878671 #获取日志https://blog.csdn.net/qq_37927069/article/details/108660347
- 在项目交付中经常会遇到各种异构数据库间的迁移替换,该场景重度依赖迁移工具完成同步。目前华为云上没有现成的数据迁移工具能够支持Clickhouse到GaussDB(DWS)的迁移,本文提供一种思路,通过Spark代码完成ClickHouse中表数据读取,并写入到GaussDB(DWS)中完成迁移。 在项目交付中经常会遇到各种异构数据库间的迁移替换,该场景重度依赖迁移工具完成同步。目前华为云上没有现成的数据迁移工具能够支持Clickhouse到GaussDB(DWS)的迁移,本文提供一种思路,通过Spark代码完成ClickHouse中表数据读取,并写入到GaussDB(DWS)中完成迁移。
- 在当今数字化时代,公司流量监控成为保障业务稳健运行的不可或缺的一环。本文将介绍如何使用Rust语言结合先进的技术,开发高性能的流量监控软件模块,以确保对大数据的高效处理。引言随着业务的不断发展,公司所面临的数据规模也在不断膨胀。为了更好地处理这些海量数据,我们选择了Rust作为开发语言,以其出色的性能和并发处理能力而著称。Rust语言与高性能Rust是一种系统级编程语言,其独特的所有权系统使... 在当今数字化时代,公司流量监控成为保障业务稳健运行的不可或缺的一环。本文将介绍如何使用Rust语言结合先进的技术,开发高性能的流量监控软件模块,以确保对大数据的高效处理。引言随着业务的不断发展,公司所面临的数据规模也在不断膨胀。为了更好地处理这些海量数据,我们选择了Rust作为开发语言,以其出色的性能和并发处理能力而著称。Rust语言与高性能Rust是一种系统级编程语言,其独特的所有权系统使...
- Spark Mlib建模流程 在Jupyter Notebook中导入pyspark、数据处理numpy等相关包import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport sklearnimport osfrom pyspark.sql import Spar... Spark Mlib建模流程 在Jupyter Notebook中导入pyspark、数据处理numpy等相关包import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport sklearnimport osfrom pyspark.sql import Spar...
- 1. 弹性分布式数据集RDD1.1. RDD概述1.1.1. 什么是RDDRDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,... 1. 弹性分布式数据集RDD1.1. RDD概述1.1.1. 什么是RDDRDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,...
- 本书摘自《企业级大数据平台构建:架构与实现》——书中第2章,2.5.7节,作者是朱凯。 本书摘自《企业级大数据平台构建:架构与实现》——书中第2章,2.5.7节,作者是朱凯。
- 数据湖不是湖,是江湖:Delta Lake / Iceberg / Hudi 到底该选谁?很多同学一上来就问我一句话灵魂拷问:Echo,Delta、Iceberg、Hudi,我到底该用哪个?现在不用是不是就“落后”了?说实话,这问题就跟问我:MySQL、PostgreSQL、MongoDB,哪个最好?——答案永远是:看你干啥。今天这篇文章,我不打算给你一个“标准答案”,而是想帮你建立一个选... 数据湖不是湖,是江湖:Delta Lake / Iceberg / Hudi 到底该选谁?很多同学一上来就问我一句话灵魂拷问:Echo,Delta、Iceberg、Hudi,我到底该用哪个?现在不用是不是就“落后”了?说实话,这问题就跟问我:MySQL、PostgreSQL、MongoDB,哪个最好?——答案永远是:看你干啥。今天这篇文章,我不打算给你一个“标准答案”,而是想帮你建立一个选...
- Airflow 做 ETL,真不是“排个 DAG 就完事儿”:那些年我踩过的坑与悟出的道 Airflow 做 ETL,真不是“排个 DAG 就完事儿”:那些年我踩过的坑与悟出的道
- Spark 批处理调优这点事:资源怎么要、Shuffle 怎么省、序列化怎么选?我用这些年踩过的坑告诉你 Spark 批处理调优这点事:资源怎么要、Shuffle 怎么省、序列化怎么选?我用这些年踩过的坑告诉你
- Parquet 和 ORC 到底有啥区别?别再云里雾里了,咱今天把列式存储聊明白! Parquet 和 ORC 到底有啥区别?别再云里雾里了,咱今天把列式存储聊明白!
- 在“数据即石油”的时代,企业每天产生的数据量以TB甚至PB计。然而,原始数据本身并无价值——它如同深埋地下的原油,唯有经过开采、提炼与精制,才能转化为驱动业务增长的燃料。这一转化过程,离不开三大核心技术支柱:大数据处理框架(如 Hadoop 与 Spark)、灵活的数据存储模型(SQL 与 NoSQL),以及高效的数据可视化能力。它们分别对应着数据的“炼油厂”、“储油罐”与“仪表盘”,共同构... 在“数据即石油”的时代,企业每天产生的数据量以TB甚至PB计。然而,原始数据本身并无价值——它如同深埋地下的原油,唯有经过开采、提炼与精制,才能转化为驱动业务增长的燃料。这一转化过程,离不开三大核心技术支柱:大数据处理框架(如 Hadoop 与 Spark)、灵活的数据存储模型(SQL 与 NoSQL),以及高效的数据可视化能力。它们分别对应着数据的“炼油厂”、“储油罐”与“仪表盘”,共同构...
- 随着物联网设备的普及,海量时序数据的采集与分析需求日益增长。本文围绕 时序数据库→Hadoop分布式计算→机器学习建模→预测分析→数据可视化 的技术链路,详细阐述如何构建一套完整的智能预测系统。通过对比不同技术选型的性能差异,结合实际业务场景优化参数,最终实现从数据接入到决策支持的全流程闭环。本方案特别适用于工业设备预测性维护、能源消耗优化等场景,可显著提升数据分析效率与预测准确率。 一、引... 随着物联网设备的普及,海量时序数据的采集与分析需求日益增长。本文围绕 时序数据库→Hadoop分布式计算→机器学习建模→预测分析→数据可视化 的技术链路,详细阐述如何构建一套完整的智能预测系统。通过对比不同技术选型的性能差异,结合实际业务场景优化参数,最终实现从数据接入到决策支持的全流程闭环。本方案特别适用于工业设备预测性维护、能源消耗优化等场景,可显著提升数据分析效率与预测准确率。 一、引...
- 在电商平台大促期间,我曾遇到一个棘手问题:用户行为分析任务在纯Hadoop MapReduce 上耗时长达6小时,而业务方要求实时生成推荐模型。这让我深刻意识到,孤立使用Hadoop组件如同单兵作战,唯有构建协同生态才能突破性能瓶颈。经过三次架构迭代,我们最终通过Hadoop、Spark、HBase的深度集成,将任务耗时压缩至23分钟。本文将结合实战经验,分享如何让这些组件真正“协同”而非“... 在电商平台大促期间,我曾遇到一个棘手问题:用户行为分析任务在纯Hadoop MapReduce 上耗时长达6小时,而业务方要求实时生成推荐模型。这让我深刻意识到,孤立使用Hadoop组件如同单兵作战,唯有构建协同生态才能突破性能瓶颈。经过三次架构迭代,我们最终通过Hadoop、Spark、HBase的深度集成,将任务耗时压缩至23分钟。本文将结合实战经验,分享如何让这些组件真正“协同”而非“...
- 每日一句正能量 第3章 Spark RDD弹性分布式数据集 章节概要 3.7 Spark的任务调度 3.7.1 DAG的概念 3.7.2 RDD在Spark中的运行流程 总结 每日一句正能量成功的速度一定要超过父母老去的速度,努力吧。做事不必与俗同,亦不与俗异;做事不必令人喜,亦不令人憎。若我白发苍苍,容颜迟暮,你会不会,依旧如此,牵我双手,倾世温柔。 第3章 Spark RDD弹性分... 每日一句正能量 第3章 Spark RDD弹性分布式数据集 章节概要 3.7 Spark的任务调度 3.7.1 DAG的概念 3.7.2 RDD在Spark中的运行流程 总结 每日一句正能量成功的速度一定要超过父母老去的速度,努力吧。做事不必与俗同,亦不与俗异;做事不必令人喜,亦不令人憎。若我白发苍苍,容颜迟暮,你会不会,依旧如此,牵我双手,倾世温柔。 第3章 Spark RDD弹性分...
- 每日一句正能量 第3章 Spark RDD弹性分布式数据集 章节概要 3.6 RDD机制 3.6.1 持久化机制 3.6.2 容错机制 总结 每日一句正能量勤奋踏实,诚实守信。我始终相信我读过的所有书都不会白读,它总会在未来日子的某一个场合帮助我表现得更出色,读书是可以给人以力量的,它更能给人快乐。 第3章 Spark RDD弹性分布式数据集 章节概要传统的MapReduce虽然具有自... 每日一句正能量 第3章 Spark RDD弹性分布式数据集 章节概要 3.6 RDD机制 3.6.1 持久化机制 3.6.2 容错机制 总结 每日一句正能量勤奋踏实,诚实守信。我始终相信我读过的所有书都不会白读,它总会在未来日子的某一个场合帮助我表现得更出色,读书是可以给人以力量的,它更能给人快乐。 第3章 Spark RDD弹性分布式数据集 章节概要传统的MapReduce虽然具有自...
上滑加载中
推荐直播
-
HDC深度解读系列 - Serverless与MCP融合创新,构建AI应用全新智能中枢2025/08/20 周三 16:30-18:00
张昆鹏 HCDG北京核心组代表
HDC2025期间,华为云展示了Serverless与MCP融合创新的解决方案,本期访谈直播,由华为云开发者专家(HCDE)兼华为云开发者社区组织HCDG北京核心组代表张鹏先生主持,华为云PaaS服务产品部 Serverless总监Ewen为大家深度解读华为云Serverless与MCP如何融合构建AI应用全新智能中枢
回顾中 -
关于RISC-V生态发展的思考2025/09/02 周二 17:00-18:00
中国科学院计算技术研究所副所长包云岗教授
中科院包云岗老师将在本次直播中,探讨处理器生态的关键要素及其联系,分享过去几年推动RISC-V生态建设实践过程中的经验与教训。
回顾中 -
一键搞定华为云万级资源,3步轻松管理企业成本2025/09/09 周二 15:00-16:00
阿言 华为云交易产品经理
本直播重点介绍如何一键续费万级资源,3步轻松管理成本,帮助提升日常管理效率!
回顾中
热门标签