- 随着大数据和AI业务的不断融合,大数据分析和处理过程中,通过深度学习技术多非结构化数据(如图片、音频、文本)的进行大数据处理的业务场景越来越多。本文会介绍Spark如何与深度学习框架进行协同工作,在大数据的处理过程利用深度学习框架对非结构化数据进行处理。 随着大数据和AI业务的不断融合,大数据分析和处理过程中,通过深度学习技术多非结构化数据(如图片、音频、文本)的进行大数据处理的业务场景越来越多。本文会介绍Spark如何与深度学习框架进行协同工作,在大数据的处理过程利用深度学习框架对非结构化数据进行处理。
- external-shuffle-service是Spark里面一个重要的特性,有了它后,executor可以在不同的stage阶段动态改变数量,大大提升集群资源利用率。但是这个特性当前在k8s上并不能很好的运行。让我们来看看,在k8s上要实现这个external-shuffle-service特性的最新进展吧。 external-shuffle-service是Spark里面一个重要的特性,有了它后,executor可以在不同的stage阶段动态改变数量,大大提升集群资源利用率。但是这个特性当前在k8s上并不能很好的运行。让我们来看看,在k8s上要实现这个external-shuffle-service特性的最新进展吧。
- 本文对生产环境中的Spark任务读写hdfs数据任务,其高并发、大数据量下的shuffle导致的driver内存溢出,做分析优化。 本文对生产环境中的Spark任务读写hdfs数据任务,其高并发、大数据量下的shuffle导致的driver内存溢出,做分析优化。
- 本文通过简单的例子来解析,大数据实践中的Spark读写流程,内容主要聚焦于Spark中的高效并行读写以及在写过程中如何保证事务性。 本文通过简单的例子来解析,大数据实践中的Spark读写流程,内容主要聚焦于Spark中的高效并行读写以及在写过程中如何保证事务性。
- 在大数据/数据库领域,数据的存储格式直接影响着系统的读写性能。Spark针对不同的用户/开发者,支持了多种数据文件存储方式。 在大数据/数据库领域,数据的存储格式直接影响着系统的读写性能。Spark针对不同的用户/开发者,支持了多种数据文件存储方式。
- Spark社区在2.3版本开始,已经可以很好的支持跑着Kubernetes上了。这样对于统一资源池,提高整体资源利用率,降低运维成本(特别是技术栈归一)有着非常大的帮助。这些趋势是一个大数据人不得不重视的信号,所以提前开始了解并考虑起来吧:-) Spark社区在2.3版本开始,已经可以很好的支持跑着Kubernetes上了。这样对于统一资源池,提高整体资源利用率,降低运维成本(特别是技术栈归一)有着非常大的帮助。这些趋势是一个大数据人不得不重视的信号,所以提前开始了解并考虑起来吧:-)
- 本书摘自《Spark机器学习进阶实战》——书中的第3章,第3.1节,作者是马海平、于俊、吕昕、向海。 本书摘自《Spark机器学习进阶实战》——书中的第3章,第3.1节,作者是马海平、于俊、吕昕、向海。
- 本书摘自《Spark机器学习进阶实战》——书中的第1章,第1.2.1节,作者是马海平、于俊、吕昕、向海。 本书摘自《Spark机器学习进阶实战》——书中的第1章,第1.2.1节,作者是马海平、于俊、吕昕、向海。
- 本书摘自《Spark机器学习进阶实战》——书中的第1章,第1.1.1节,作者是马海平、于俊、吕昕、向海。 本书摘自《Spark机器学习进阶实战》——书中的第1章,第1.1.1节,作者是马海平、于俊、吕昕、向海。
- 本文将介绍如何通过在Linux的机器上,执行kettle脚本,在MRS集群中,运行Spark程序。 本文将介绍如何通过在Linux的机器上,执行kettle脚本,在MRS集群中,运行Spark程序。
- 本文介绍了如何创建cce、安装spark,并将spark的任务提交到cce中运行。本文介绍的是将spark用allinone的方式安装到cce的node结点上。以及如何在cce上运行spark任务 本文介绍了如何创建cce、安装spark,并将spark的任务提交到cce中运行。本文介绍的是将spark用allinone的方式安装到cce的node结点上。以及如何在cce上运行spark任务
- 揭秘华为云DLI背后的核心计算引擎 本文主要给大家介绍隐藏在华为云EI(企业智能)数据湖探索服务(以下简称DLI)背后的核心计算引擎——Spark。华为云EI数据湖探索服务团队在Spark之上做了大量的性能优化与服务化改造,但其本质还是脱离不了Spark的核心概念与思想,本文从以下几点阐述,让读者快速对Spark有一个直观的认识,玩转DLI。更多资讯关注公众号“智能数据湖” Spark的诞生... 揭秘华为云DLI背后的核心计算引擎 本文主要给大家介绍隐藏在华为云EI(企业智能)数据湖探索服务(以下简称DLI)背后的核心计算引擎——Spark。华为云EI数据湖探索服务团队在Spark之上做了大量的性能优化与服务化改造,但其本质还是脱离不了Spark的核心概念与思想,本文从以下几点阐述,让读者快速对Spark有一个直观的认识,玩转DLI。更多资讯关注公众号“智能数据湖” Spark的诞生...
- 欢迎阅读美图数据技术团队的「Spark,从入门到精通」系列文章,本系列文章将由浅入深为大家介绍 Spark,从框架入门到底层架构的实现,相信总有一种姿势适合你,欢迎大家持续关注:)往期直通车:Hello Spark!为什么需要 Yarn?Yarn 的全称是 Yet Anther Resource Negotiator(另一种资源协商者)。它作为 Hadoop 的一个组件,官方对它的定义是一个... 欢迎阅读美图数据技术团队的「Spark,从入门到精通」系列文章,本系列文章将由浅入深为大家介绍 Spark,从框架入门到底层架构的实现,相信总有一种姿势适合你,欢迎大家持续关注:)往期直通车:Hello Spark!为什么需要 Yarn?Yarn 的全称是 Yet Anther Resource Negotiator(另一种资源协商者)。它作为 Hadoop 的一个组件,官方对它的定义是一个...
- 欢迎阅读美图数据技术团队的「Spark,从入门到精通」系列文章,本系列文章将由浅入深为大家介绍 Spark,从框架入门到底层架构的实现,相信总有一种姿势适合你,欢迎大家持续关注:)如上图所示是 Spark 的执行过程,那么具体 Drvier 是如何把 Task 提交给 Executor 的呢?本文将通过 DAGScheduler 、TaskScheduler、调度池和 Executor 四部... 欢迎阅读美图数据技术团队的「Spark,从入门到精通」系列文章,本系列文章将由浅入深为大家介绍 Spark,从框架入门到底层架构的实现,相信总有一种姿势适合你,欢迎大家持续关注:)如上图所示是 Spark 的执行过程,那么具体 Drvier 是如何把 Task 提交给 Executor 的呢?本文将通过 DAGScheduler 、TaskScheduler、调度池和 Executor 四部...
- 欢迎阅读美图数据技术团队的「Spark,从入门到精通」系列文章,本系列文章将由浅入深为大家介绍 Spark,从框架入门到底层架构的实现,相信总有一种姿势适合你,欢迎大家持续关注:)什么是 RDD?传统的 MapReduce 虽然具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是在迭代计算式的时候,要进行大量的磁盘 IO 操作,而 RDD 正是解决这一缺点的抽象方法。RDD(Resili... 欢迎阅读美图数据技术团队的「Spark,从入门到精通」系列文章,本系列文章将由浅入深为大家介绍 Spark,从框架入门到底层架构的实现,相信总有一种姿势适合你,欢迎大家持续关注:)什么是 RDD?传统的 MapReduce 虽然具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是在迭代计算式的时候,要进行大量的磁盘 IO 操作,而 RDD 正是解决这一缺点的抽象方法。RDD(Resili...
上滑加载中
推荐直播
-
昇腾AI算法挑战赛-核心算子如何优化?专家带你深度解析2025/11/17 周一 16:00-17:00
王老师 华为算子专家
昇腾AI算法挑战赛进阶赛战鼓催征!本期直播间,我们特邀华为算子专家王老师,为你深度剖析Matmul、wholereducesum等核心算子的底层原理与优化技巧,直击赛题核心。想提升代码效率、冲击更高排名?锁定直播,带你破局!
回顾中 -
AI编码实干派,“码”力全开2026/02/26 周四 15:00-16:30
谈宗玮/于邦旭/丁俊卿/陈云亮/王一男
【中国,深圳,2026年2月26日】,以“AI编码实干派,码力全开”为主题的华为云码道(CodeArts)代码智能体新春发布会在线上成功召开。华为云码道公测版正式发布,为开发者和企业提供具备工程化能力的智能编码解决方案。
回顾中 -
华为云码道-玩转OpenClaw,开启在线养虾模式2026/03/11 周三 19:00-20:00
刘昱,华为云高级工程师/谈心,华为云技术专家/李海仑,上海圭卓智能科技有限公司CEO
OpenClaw 火爆开发者圈,华为云码道最新推出 Skill ——开发者只需输入一句口令,即可部署一个功能完整的「小龙虾」智能体。直播带你玩转华为云码道,玩转OpenClaw
回顾中
热门标签