- 获取spark 或hadoop运行日志https://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=103786#实现代码https://ld246.com/article/1588084878671 #获取日志https://blog.csdn.net/qq_37927069/article/details/108660347 获取spark 或hadoop运行日志https://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=103786#实现代码https://ld246.com/article/1588084878671 #获取日志https://blog.csdn.net/qq_37927069/article/details/108660347
- 在项目交付中经常会遇到各种异构数据库间的迁移替换,该场景重度依赖迁移工具完成同步。目前华为云上没有现成的数据迁移工具能够支持Clickhouse到GaussDB(DWS)的迁移,本文提供一种思路,通过Spark代码完成ClickHouse中表数据读取,并写入到GaussDB(DWS)中完成迁移。 在项目交付中经常会遇到各种异构数据库间的迁移替换,该场景重度依赖迁移工具完成同步。目前华为云上没有现成的数据迁移工具能够支持Clickhouse到GaussDB(DWS)的迁移,本文提供一种思路,通过Spark代码完成ClickHouse中表数据读取,并写入到GaussDB(DWS)中完成迁移。
- 在当今数字化时代,公司流量监控成为保障业务稳健运行的不可或缺的一环。本文将介绍如何使用Rust语言结合先进的技术,开发高性能的流量监控软件模块,以确保对大数据的高效处理。引言随着业务的不断发展,公司所面临的数据规模也在不断膨胀。为了更好地处理这些海量数据,我们选择了Rust作为开发语言,以其出色的性能和并发处理能力而著称。Rust语言与高性能Rust是一种系统级编程语言,其独特的所有权系统使... 在当今数字化时代,公司流量监控成为保障业务稳健运行的不可或缺的一环。本文将介绍如何使用Rust语言结合先进的技术,开发高性能的流量监控软件模块,以确保对大数据的高效处理。引言随着业务的不断发展,公司所面临的数据规模也在不断膨胀。为了更好地处理这些海量数据,我们选择了Rust作为开发语言,以其出色的性能和并发处理能力而著称。Rust语言与高性能Rust是一种系统级编程语言,其独特的所有权系统使...
- Spark Mlib建模流程 在Jupyter Notebook中导入pyspark、数据处理numpy等相关包import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport sklearnimport osfrom pyspark.sql import Spar... Spark Mlib建模流程 在Jupyter Notebook中导入pyspark、数据处理numpy等相关包import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport sklearnimport osfrom pyspark.sql import Spar...
- 1. 弹性分布式数据集RDD1.1. RDD概述1.1.1. 什么是RDDRDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,... 1. 弹性分布式数据集RDD1.1. RDD概述1.1.1. 什么是RDDRDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,...
- 本书摘自《企业级大数据平台构建:架构与实现》——书中第2章,2.5.7节,作者是朱凯。 本书摘自《企业级大数据平台构建:架构与实现》——书中第2章,2.5.7节,作者是朱凯。
- Spark / Flink 跑在 Kubernetes 上真的更香吗?聊聊那些没人提前告诉你的性能坑 Spark / Flink 跑在 Kubernetes 上真的更香吗?聊聊那些没人提前告诉你的性能坑
- 别再把 Spark / Dask 当“放大版 Pandas”了——聊聊大规模特征计算那些真能救命的技巧 别再把 Spark / Dask 当“放大版 Pandas”了——聊聊大规模特征计算那些真能救命的技巧
- 用户零等待指标交付,逻辑变更分钟级生效,无需 ETL;100%一致口径,所有人与 AI 通过同一语义层访问数据;无缝对接 AI,语义层为 AI 提供标准化查询 API。 用户零等待指标交付,逻辑变更分钟级生效,无需 ETL;100%一致口径,所有人与 AI 通过同一语义层访问数据;无缝对接 AI,语义层为 AI 提供标准化查询 API。
- Aloudata CAN 双引擎架构的推出和生产级验证,标志着 NoETL 指标平台这一自动化数据开发与治理的新品类已经具备了处理企业级核心、极端负载的成熟能力。面对千亿级数据,企业无需再为“算不动”而焦虑,也无需在“灵活性”与“稳定性”之间做艰难取舍。 Aloudata CAN 双引擎架构的推出和生产级验证,标志着 NoETL 指标平台这一自动化数据开发与治理的新品类已经具备了处理企业级核心、极端负载的成熟能力。面对千亿级数据,企业无需再为“算不动”而焦虑,也无需在“灵活性”与“稳定性”之间做艰难取舍。
- 别被“结构化”骗了:聊聊 Spark Structured Streaming 的原理与那些年我踩过的坑 别被“结构化”骗了:聊聊 Spark Structured Streaming 的原理与那些年我踩过的坑
- 数据慢半拍,问题可能不在“数据”:聊聊数据传播延迟的那些坑 数据慢半拍,问题可能不在“数据”:聊聊数据传播延迟的那些坑
- 作为全球首款基于NVIDIA Grace Blackwell架构的个人AI超级计算机,DGX Spark将工业级的AI性能带入您的私人工作空间,让您从原型设计到大规模部署,实现真正的无缝衔接。 作为全球首款基于NVIDIA Grace Blackwell架构的个人AI超级计算机,DGX Spark将工业级的AI性能带入您的私人工作空间,让您从原型设计到大规模部署,实现真正的无缝衔接。
- 数据湖不是湖,是江湖:Delta Lake / Iceberg / Hudi 到底该选谁?很多同学一上来就问我一句话灵魂拷问:Echo,Delta、Iceberg、Hudi,我到底该用哪个?现在不用是不是就“落后”了?说实话,这问题就跟问我:MySQL、PostgreSQL、MongoDB,哪个最好?——答案永远是:看你干啥。今天这篇文章,我不打算给你一个“标准答案”,而是想帮你建立一个选... 数据湖不是湖,是江湖:Delta Lake / Iceberg / Hudi 到底该选谁?很多同学一上来就问我一句话灵魂拷问:Echo,Delta、Iceberg、Hudi,我到底该用哪个?现在不用是不是就“落后”了?说实话,这问题就跟问我:MySQL、PostgreSQL、MongoDB,哪个最好?——答案永远是:看你干啥。今天这篇文章,我不打算给你一个“标准答案”,而是想帮你建立一个选...
- Airflow 做 ETL,真不是“排个 DAG 就完事儿”:那些年我踩过的坑与悟出的道 Airflow 做 ETL,真不是“排个 DAG 就完事儿”:那些年我踩过的坑与悟出的道
上滑加载中
推荐直播
-
昇腾AI算法挑战赛-核心算子如何优化?专家带你深度解析2025/11/17 周一 16:00-17:00
王老师 华为算子专家
昇腾AI算法挑战赛进阶赛战鼓催征!本期直播间,我们特邀华为算子专家王老师,为你深度剖析Matmul、wholereducesum等核心算子的底层原理与优化技巧,直击赛题核心。想提升代码效率、冲击更高排名?锁定直播,带你破局!
回顾中 -
AI编码实干派,“码”力全开2026/02/26 周四 15:00-16:30
谈宗玮/于邦旭/丁俊卿/陈云亮/王一男
【中国,深圳,2026年2月26日】,以“AI编码实干派,码力全开”为主题的华为云码道(CodeArts)代码智能体新春发布会在线上成功召开。华为云码道公测版正式发布,为开发者和企业提供具备工程化能力的智能编码解决方案。
回顾中 -
华为云码道-玩转OpenClaw,开启在线养虾模式2026/03/11 周三 19:00-20:00
刘昱,华为云高级工程师/谈心,华为云技术专家/李海仑,上海圭卓智能科技有限公司CEO
OpenClaw 火爆开发者圈,华为云码道最新推出 Skill ——开发者只需输入一句口令,即可部署一个功能完整的「小龙虾」智能体。直播带你玩转华为云码道,玩转OpenClaw
回顾中
热门标签