- 获取spark 或hadoop运行日志https://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=103786#实现代码https://ld246.com/article/1588084878671 #获取日志https://blog.csdn.net/qq_37927069/article/details/108660347 获取spark 或hadoop运行日志https://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=103786#实现代码https://ld246.com/article/1588084878671 #获取日志https://blog.csdn.net/qq_37927069/article/details/108660347
- 在项目交付中经常会遇到各种异构数据库间的迁移替换,该场景重度依赖迁移工具完成同步。目前华为云上没有现成的数据迁移工具能够支持Clickhouse到GaussDB(DWS)的迁移,本文提供一种思路,通过Spark代码完成ClickHouse中表数据读取,并写入到GaussDB(DWS)中完成迁移。 在项目交付中经常会遇到各种异构数据库间的迁移替换,该场景重度依赖迁移工具完成同步。目前华为云上没有现成的数据迁移工具能够支持Clickhouse到GaussDB(DWS)的迁移,本文提供一种思路,通过Spark代码完成ClickHouse中表数据读取,并写入到GaussDB(DWS)中完成迁移。
- 在当今数字化时代,公司流量监控成为保障业务稳健运行的不可或缺的一环。本文将介绍如何使用Rust语言结合先进的技术,开发高性能的流量监控软件模块,以确保对大数据的高效处理。引言随着业务的不断发展,公司所面临的数据规模也在不断膨胀。为了更好地处理这些海量数据,我们选择了Rust作为开发语言,以其出色的性能和并发处理能力而著称。Rust语言与高性能Rust是一种系统级编程语言,其独特的所有权系统使... 在当今数字化时代,公司流量监控成为保障业务稳健运行的不可或缺的一环。本文将介绍如何使用Rust语言结合先进的技术,开发高性能的流量监控软件模块,以确保对大数据的高效处理。引言随着业务的不断发展,公司所面临的数据规模也在不断膨胀。为了更好地处理这些海量数据,我们选择了Rust作为开发语言,以其出色的性能和并发处理能力而著称。Rust语言与高性能Rust是一种系统级编程语言,其独特的所有权系统使...
- Spark Mlib建模流程 在Jupyter Notebook中导入pyspark、数据处理numpy等相关包import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport sklearnimport osfrom pyspark.sql import Spar... Spark Mlib建模流程 在Jupyter Notebook中导入pyspark、数据处理numpy等相关包import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport sklearnimport osfrom pyspark.sql import Spar...
- 1. 弹性分布式数据集RDD1.1. RDD概述1.1.1. 什么是RDDRDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,... 1. 弹性分布式数据集RDD1.1. RDD概述1.1.1. 什么是RDDRDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,...
- 本书摘自《企业级大数据平台构建:架构与实现》——书中第2章,2.5.7节,作者是朱凯。 本书摘自《企业级大数据平台构建:架构与实现》——书中第2章,2.5.7节,作者是朱凯。
- Spark / Flink 跑在 Kubernetes 上真的更香吗?聊聊那些没人提前告诉你的性能坑 Spark / Flink 跑在 Kubernetes 上真的更香吗?聊聊那些没人提前告诉你的性能坑
- 别再把 Spark / Dask 当“放大版 Pandas”了——聊聊大规模特征计算那些真能救命的技巧 别再把 Spark / Dask 当“放大版 Pandas”了——聊聊大规模特征计算那些真能救命的技巧
- 用户零等待指标交付,逻辑变更分钟级生效,无需 ETL;100%一致口径,所有人与 AI 通过同一语义层访问数据;无缝对接 AI,语义层为 AI 提供标准化查询 API。 用户零等待指标交付,逻辑变更分钟级生效,无需 ETL;100%一致口径,所有人与 AI 通过同一语义层访问数据;无缝对接 AI,语义层为 AI 提供标准化查询 API。
- Aloudata CAN 双引擎架构的推出和生产级验证,标志着 NoETL 指标平台这一自动化数据开发与治理的新品类已经具备了处理企业级核心、极端负载的成熟能力。面对千亿级数据,企业无需再为“算不动”而焦虑,也无需在“灵活性”与“稳定性”之间做艰难取舍。 Aloudata CAN 双引擎架构的推出和生产级验证,标志着 NoETL 指标平台这一自动化数据开发与治理的新品类已经具备了处理企业级核心、极端负载的成熟能力。面对千亿级数据,企业无需再为“算不动”而焦虑,也无需在“灵活性”与“稳定性”之间做艰难取舍。
- 别被“结构化”骗了:聊聊 Spark Structured Streaming 的原理与那些年我踩过的坑 别被“结构化”骗了:聊聊 Spark Structured Streaming 的原理与那些年我踩过的坑
- 数据慢半拍,问题可能不在“数据”:聊聊数据传播延迟的那些坑 数据慢半拍,问题可能不在“数据”:聊聊数据传播延迟的那些坑
- 作为全球首款基于NVIDIA Grace Blackwell架构的个人AI超级计算机,DGX Spark将工业级的AI性能带入您的私人工作空间,让您从原型设计到大规模部署,实现真正的无缝衔接。 作为全球首款基于NVIDIA Grace Blackwell架构的个人AI超级计算机,DGX Spark将工业级的AI性能带入您的私人工作空间,让您从原型设计到大规模部署,实现真正的无缝衔接。
- 数据湖不是湖,是江湖:Delta Lake / Iceberg / Hudi 到底该选谁?很多同学一上来就问我一句话灵魂拷问:Echo,Delta、Iceberg、Hudi,我到底该用哪个?现在不用是不是就“落后”了?说实话,这问题就跟问我:MySQL、PostgreSQL、MongoDB,哪个最好?——答案永远是:看你干啥。今天这篇文章,我不打算给你一个“标准答案”,而是想帮你建立一个选... 数据湖不是湖,是江湖:Delta Lake / Iceberg / Hudi 到底该选谁?很多同学一上来就问我一句话灵魂拷问:Echo,Delta、Iceberg、Hudi,我到底该用哪个?现在不用是不是就“落后”了?说实话,这问题就跟问我:MySQL、PostgreSQL、MongoDB,哪个最好?——答案永远是:看你干啥。今天这篇文章,我不打算给你一个“标准答案”,而是想帮你建立一个选...
- Airflow 做 ETL,真不是“排个 DAG 就完事儿”:那些年我踩过的坑与悟出的道 Airflow 做 ETL,真不是“排个 DAG 就完事儿”:那些年我踩过的坑与悟出的道
上滑加载中
推荐直播
-
华为云码道 × 仓颉编程:工程化AI编码探索2026/05/27 周三 19:00-21:00
刘俊杰-华为云仓颉语言专家/李炎-华为云码道技术专家/王智鹏-OpenCangjie开源社区发起人
本场直播围绕华为云仓颉语言与华为云码道的深度结合,展示华为云智能编程从零基础到高效落地的完整生态能力。以华为云码道为引擎,仓颉语言为载体,带给大家日常提效、趣味创新到极速量产的开发体验。
回顾中
热门标签