spark_标签_开发者

博客(6.8k)
视频(2)
论坛(0)
云声(0)
代码示例(0)

大数据常见问题：数据倾斜
offer收割系列介绍： 1、分享桥哥本人或小伙伴在面试大厂时遇到的真题，并给出参考答案！！如果能帮到大家，点赞、收藏、评论是对我最大的支持！！ 2、涉及岗位：主要为大数据开发、数据仓库（桥哥干过的），其它岗位也可参考 3、涵盖技术：mysql、hadoop、hive、Spark、Flink、Kudu、Impala等...   推荐阅读： ★ ...

不吃西红柿
发表于2021-07-15 01:28:17
5093 0 0

5.0k 0 0

offer收割系列介绍： 1、分享桥哥本人或小伙伴在面试大厂时遇到的真题，并给出参考答案！！如果能帮到大家，点赞、收藏、评论是对我最大的支持！！ 2、涉及岗位：主要为大数据开发、数据仓库（桥哥干过的），其它岗位也可参考 3、涵盖技术：mysql、hadoop、hive、Spark、Flink、Kudu、Impala等...   推荐阅读： ★ ...
spark 大数据
基于Spark的机器学习实践 (六) - 基础统计模块
0 相关源码 1 基础统计模块及常用统计学知识介绍 ◆ Spark 的基础统计模块即MLlib组件中的Basic Statistics部分 ◆ Basic Statistics主要包括Correlation 与Hypothesis testing等 ◆ 其大多被封装在orq.apache spark.mllib.stat._ 中 1.1 基础统计学知识 1....

JavaEdge
发表于2021-06-04 01:13:29
3624 0 0

3.6k 0 0

0 相关源码 1 基础统计模块及常用统计学知识介绍 ◆ Spark 的基础统计模块即MLlib组件中的Basic Statistics部分 ◆ Basic Statistics主要包括Correlation 与Hypothesis testing等 ◆ 其大多被封装在orq.apache spark.mllib.stat._ 中 1.1 基础统计学知识 1....
spark 机器学习
基于Spark的机器学习实践 (八) - 分类算法
0 相关源码 1 朴素贝叶斯算法及原理概述 1.1 朴素贝叶斯简介 ◆ 朴素贝叶斯算法是基于贝叶斯定理和特征条件独立假设的一种分类方法 ◆ 朴素贝叶斯算法是一种基于联合概率分布的统计学习方法 ◆ 朴素贝叶斯算法实现简单,效果良好,是一种常用的机器学习方法 1.2 贝叶斯定理 ◆ 朴素贝叶斯算法的一个基础是贝叶斯定理贝叶斯定理（英语：Bayes’ the...

JavaEdge
发表于2021-06-04 00:26:37
3938 0 0

3.9k 0 0

0 相关源码 1 朴素贝叶斯算法及原理概述 1.1 朴素贝叶斯简介 ◆ 朴素贝叶斯算法是基于贝叶斯定理和特征条件独立假设的一种分类方法 ◆ 朴素贝叶斯算法是一种基于联合概率分布的统计学习方法 ◆ 朴素贝叶斯算法实现简单,效果良好,是一种常用的机器学习方法 1.2 贝叶斯定理 ◆ 朴素贝叶斯算法的一个基础是贝叶斯定理贝叶斯定理（英语：Bayes’ the...
spark 机器学习
如何避免Spark SQL做数据导入时产生大量小文件
01什么是小文件？生产上，我们往往将Spark SQL作为Hive的替代方案，来获得SQL on Hadoop更出色的性能。因此，本文所讲的是指存储于HDFS中小文件，即指文件的大小远小于HDFS上块（dfs.block.size）大小的文件。02小文件问题的影响一方面，大量的小文件会给Hadoop集群的扩展性和性能带来严重的影响。NameNode在内存中维护整个文件系统的元数据镜像，用户...

数据湖爱好者
发表于2021-05-13 15:40:29
12094 0 0

12.0k 0 0

01什么是小文件？生产上，我们往往将Spark SQL作为Hive的替代方案，来获得SQL on Hadoop更出色的性能。因此，本文所讲的是指存储于HDFS中小文件，即指文件的大小远小于HDFS上块（dfs.block.size）大小的文件。02小文件问题的影响一方面，大量的小文件会给Hadoop集群的扩展性和性能带来严重的影响。NameNode在内存中维护整个文件系统的元数据镜像，用户...
EI企业智能 Hadoop spark 数据湖探索 DLI 智能数据
如何使用 PySpark 进行大数据流处理
随着大数据的迅速发展，流处理（streaming processing）已成为处理实时数据流的关键技术。PySpark，作为 Apache Spark 的 Python API，提供了强大的大数据处理能力，其中包括流数据处理的功能。通过 PySpark Streaming，用户可以实时地处理数据流，进行复杂的计算和分析。本文将介绍如何使用 PySpark 进行大数据流处理，重点介绍如何通过 ...

数字扫地僧
发表于2024-12-03 13:08:03
634 0 0

634 0 0

随着大数据的迅速发展，流处理（streaming processing）已成为处理实时数据流的关键技术。PySpark，作为 Apache Spark 的 Python API，提供了强大的大数据处理能力，其中包括流数据处理的功能。通过 PySpark Streaming，用户可以实时地处理数据流，进行复杂的计算和分析。本文将介绍如何使用 PySpark 进行大数据流处理，重点介绍如何通过 ...
spark 大数据
Spark任务OOM问题如何解决？
大家好，我是 V 哥。在实际的业务场景中，Spark任务出现OOM（Out of Memory）问题通常是由于任务处理的数据量过大、资源分配不合理或者代码存在性能瓶颈等原因造成的。针对不同的业务场景和原因，可以从以下几个方面进行优化和解决。一、业务场景及可能的OOM原因分析数据量过大：业务场景：处理海量数据集（例如，数亿行日志数据或数十TB的数据集），任务执行过程中需要对数据进行大规模的...

威哥爱编程
发表于2024-11-25 15:26:24
497 0 0

497 0 0

大家好，我是 V 哥。在实际的业务场景中，Spark任务出现OOM（Out of Memory）问题通常是由于任务处理的数据量过大、资源分配不合理或者代码存在性能瓶颈等原因造成的。针对不同的业务场景和原因，可以从以下几个方面进行优化和解决。一、业务场景及可能的OOM原因分析数据量过大：业务场景：处理海量数据集（例如，数亿行日志数据或数十TB的数据集），任务执行过程中需要对数据进行大规模的...
spark
解释 Spark 在 Databricks 中的使用方式
Apache Spark 是一个强大的开源大数据处理引擎，以其高效的分布式计算能力著称。在 Databricks 中，Spark 是核心组件之一，Databricks 为用户提供了一个简化的、托管的 Spark 环境，使得数据处理、分析和机器学习变得更加高效。本文将详细解释 Spark 在 Databricks 中的使用方式，包括其架构、集群管理、数据处理和机器学习等方面。 1. Datab...

wljslmz
发表于2024-08-12 23:57:08
993 0 0

993 0 0

Apache Spark 是一个强大的开源大数据处理引擎，以其高效的分布式计算能力著称。在 Databricks 中，Spark 是核心组件之一，Databricks 为用户提供了一个简化的、托管的 Spark 环境，使得数据处理、分析和机器学习变得更加高效。本文将详细解释 Spark 在 Databricks 中的使用方式，包括其架构、集群管理、数据处理和机器学习等方面。 1. Datab...
spark
【Spark On Hive】—— 基于电商数据分析的项目实战
@[TOC] Spark On Hive 详解本文基于Spark重构基于Hive的电商数据分析的项目需求，在重构的同时对Spark On Hive的全流程进行详细的讲解。所谓的Spark On X指的是从X数据源中获取数据并在Spark进行计算之后，将计算结果导入该数据库或者数仓。获取数据和导入数据的地方可以是不同的。一、项目配置 1. 创建工程首先，创建一个空的Maven工程，在创建之后...

Byyyi耀
发表于2024-08-09 14:24:53
1261 0 0

1.2k 0 0

@[TOC] Spark On Hive 详解本文基于Spark重构基于Hive的电商数据分析的项目需求，在重构的同时对Spark On Hive的全流程进行详细的讲解。所谓的Spark On X指的是从X数据源中获取数据并在Spark进行计算之后，将计算结果导入该数据库或者数仓。获取数据和导入数据的地方可以是不同的。一、项目配置 1. 创建工程首先，创建一个空的Maven工程，在创建之后...
Hive spark 自建电商
大数据组件Spark在鲲鹏920服务器的部署
在鲲鹏920服务器上部署Spark-3.5.1的两种方法和详细过程。

wyj17999824
发表于2024-07-25 10:06:46
1561 0 0

1.5k 0 0

在鲲鹏920服务器上部署Spark-3.5.1的两种方法和详细过程。
ARM spark 大数据
大数据技术之RDD的概述
一、RDD的基本概念接下来我们来学习RDD的一些核心概念：RDD是Spark中最重要的概念之一，全称叫弹性分布式数据集，我们可以简单的把它理解为提供了很多操作接口的数据集合。但是它跟我们一般使用的数据集不同的点在哪里呢？比如平时我们用Python或java开发程序时，操作的数据集合都是存放在我们单台的计算机上的，但是RDD实际上是把数据以分布式的方式存储在一批机器的内存或磁盘当中，这个概念跟...

tea_year
发表于2024-06-10 18:06:27
1428 0 0

1.4k 0 0

一、RDD的基本概念接下来我们来学习RDD的一些核心概念：RDD是Spark中最重要的概念之一，全称叫弹性分布式数据集，我们可以简单的把它理解为提供了很多操作接口的数据集合。但是它跟我们一般使用的数据集不同的点在哪里呢？比如平时我们用Python或java开发程序时，操作的数据集合都是存放在我们单台的计算机上的，但是RDD实际上是把数据以分布式的方式存储在一批机器的内存或磁盘当中，这个概念跟...
spark 大数据
大数据技术实战之Spark开发环境配置-scala项目
一、Spark开发环境配置-scala项目1. 确认已安装scala插件2. 创建一个新的scala工程（在已有的scala工程中配置也可以）：3. 配置Spark开发依赖包(1) 点击菜单栏中的“File”->“Project Structure” ，选择“Libraries”。(2) 单击“+”按钮，选择“Java”选项。(3) 在弹出的界面中找到Spark安装包下的“jars”文件夹，...

tea_year
发表于2024-06-10 17:33:31
1245 0 0

1.2k 0 0

一、Spark开发环境配置-scala项目1. 确认已安装scala插件2. 创建一个新的scala工程（在已有的scala工程中配置也可以）：3. 配置Spark开发依赖包(1) 点击菜单栏中的“File”->“Project Structure” ，选择“Libraries”。(2) 单击“+”按钮，选择“Java”选项。(3) 在弹出的界面中找到Spark安装包下的“jars”文件夹，...
Scala spark 大数据
大数据技术实践之Spark集群的安装配置
Spark集群的安装配置1. spark安装包上传与解压1　用XShell传输工具XFtp将Spark安装包spark-3.2.1-bin-hadoop2.7.tgz导入到opt目录下面的software文件夹下2　将JDK和hadoop安装包解压到/opt/module目录下[syf@hadoop102 ~]$ tar -zxvf /opt/software/spark-3.2.1-b...

tea_year
发表于2024-06-10 17:31:10
4359 0 0

4.3k 0 0

Spark集群的安装配置1. spark安装包上传与解压1　用XShell传输工具XFtp将Spark安装包spark-3.2.1-bin-hadoop2.7.tgz导入到opt目录下面的software文件夹下2　将JDK和hadoop安装包解压到/opt/module目录下[syf@hadoop102 ~]$ tar -zxvf /opt/software/spark-3.2.1-b...
Hadoop spark
大数据处理中的数据倾斜问题及其解决方案：以Apache Spark为例
在当今数据驱动的时代，大数据处理技术如Apache Spark已经成为企业数据湖和数据分析的核心组件。然而，在处理海量数据时，数据倾斜问题成为了一个难以忽视的挑战，它不仅会显著降低数据处理效率，甚至可能导致任务失败。本文将深入探讨数据倾斜的概念、产生原因、识别方法，并通过一个现实案例分析，介绍如何在Apache Spark中有效解决数据倾斜问题，辅以代码示例，帮助读者在实践中应对这一挑战。数...

周周的奇妙编程
发表于2024-06-10 00:27:30
2785 0 0

2.7k 0 0

在当今数据驱动的时代，大数据处理技术如Apache Spark已经成为企业数据湖和数据分析的核心组件。然而，在处理海量数据时，数据倾斜问题成为了一个难以忽视的挑战，它不仅会显著降低数据处理效率，甚至可能导致任务失败。本文将深入探讨数据倾斜的概念、产生原因、识别方法，并通过一个现实案例分析，介绍如何在Apache Spark中有效解决数据倾斜问题，辅以代码示例，帮助读者在实践中应对这一挑战。数...
Apache spark 大数据
《吊打面试官》- 大数据工程师50道中大厂面试真题保姆级详解
《吊打面试官》- 大数据工程师50道中大厂面试真题保姆级详解

Byyyi耀
发表于2024-05-06 10:52:39
4182 0 0

4.1k 0 0

《吊打面试官》- 大数据工程师50道中大厂面试真题保姆级详解
Hadoop spark 大数据
大规模数据处理指南
随着数据量的不断增长，大规模数据处理变得越来越重要。在这个领域，Hadoop和Spark是两个备受关注的技术。本文将介绍如何利用Python编程语言结合Hadoop和Spark来进行大规模数据处理，并比较它们在不同方面的优劣。简介 HadoopHadoop是一个开源的分布式数据处理框架，它基于MapReduce编程模型，可以处理大规模数据集。Hadoop包括HDFS（分布式文件系统）和Ma...

柠檬味拥抱1
发表于2024-04-22 00:10:03
2481 0 0

2.4k 0 0

随着数据量的不断增长，大规模数据处理变得越来越重要。在这个领域，Hadoop和Spark是两个备受关注的技术。本文将介绍如何利用Python编程语言结合Hadoop和Spark来进行大规模数据处理，并比较它们在不同方面的优劣。简介 HadoopHadoop是一个开源的分布式数据处理框架，它基于MapReduce编程模型，可以处理大规模数据集。Hadoop包括HDFS（分布式文件系统）和Ma...
Hadoop spark

上滑加载中

推荐直播

0.25

基于开源鸿蒙+海思星闪开发板：嵌入式系统开发实战（Day1）
2025/03/29 周六 09:00-18:00

华为开发者布道师

本次为期两天的课程将深入讲解OpenHarmony操作系统及其与星闪技术的结合应用，涵盖WS63E星闪开发板的详细介绍、“OpenHarmony+星闪”的创新实践、实验环境搭建以及编写首个“Hello World”程序等内容，旨在帮助学员全面掌握相关技术并进行实际操作
回顾中
华为云软件开发生产线（CodeArts）1月&2月新特性解读
2025/03/18 周二 19:00-20:00

阿星华为云高级产品经理

不知道产品的最新特性？没法和产品团队建立直接的沟通？本期直播产品经理将为您解读华为云软件开发生产线1月&2月发布的新特性，并在直播过程中为您答疑解惑。
回顾中
基于能力图谱的openGauss项目闯关
2025/03/20 周四 19:00-20:30

华为开发者布道师

想成为顶级数据库开发者吗？本次直播将从银行业务系统的数据库设计出发，带你逐步掌握openGauss的建库表、数据封装、密态技术、性能调优及AI应用。通过实战案例，全面展示openGauss的强大功能，助你提升技能，为未来的职业发展打下坚实基础。立即报名，开启你的数据库进阶之旅！
回顾中
基于开源鸿蒙+海思星闪开发板：嵌入式系统开发实战（Day1）
2025/03/29 周六 09:00-18:00

华为开发者布道师

本次为期两天的课程将深入讲解OpenHarmony操作系统及其与星闪技术的结合应用，涵盖WS63E星闪开发板的详细介绍、“OpenHarmony+星闪”的创新实践、实验环境搭建以及编写首个“Hello World”程序等内容，旨在帮助学员全面掌握相关技术并进行实际操作
回顾中
华为云软件开发生产线（CodeArts）1月&2月新特性解读
2025/03/18 周二 19:00-20:00

阿星华为云高级产品经理

不知道产品的最新特性？没法和产品团队建立直接的沟通？本期直播产品经理将为您解读华为云软件开发生产线1月&2月发布的新特性，并在直播过程中为您答疑解惑。
回顾中

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript

开发者空间

了解空间

工作台

开发工具

实战案例

空间活动

空间论坛

开发平台

软件开发生产线 CodeArts

AI平台ModelArts

数据治理中心 DataArts Studio

数字内容生产线 MetaStudio

精选服务

云数据库 GaussDB

云数据库 RDS for MySQL

MapReduce服务 MRS

数据仓库服务 DWS

分布式缓存服务Redis版

分布式消息服务 DMS

华为云实时音视频 SparkRTC

媒体处理 MPC

主机迁移服务 SMS

对象存储迁移服务 OMS

云消息服务 KooMessage

云手机服务 KooPhone

企业搜索服务 KooSearch

云地图服务 KooMap

更多开放能力

开发工具

API生态

CodeArts API

API Explorer

Terraform Explorer

KooCLI

API 中心

SDK 中心

开发服务

Codelabs

DevStar

低代码平台Astro

CodeArts IDE

Huawei Cloud Toolkit

Classroom

开发资源

开源镜像站

开源资源

开发语言

开发实践

入门精选

分发资源

企业应用中心

企业通用专区

教育专区

华为应用专区

政务云专区

硬件云服务商城

医疗健康专区

跳蚤市场

华为云开发者日

直播专区

开发者精品活动

DTSE Tech Talk

加入HCDE

加入HCDG

加入HCSD

加入HCWD

鲁班会

沃土云创计划·企业

沃土云创计划·高校

沃土云创计划·个人

沃土云创计划·开源共创

博客

论坛

专题

开发者榜单

学习路径

在线课程

动手实验

考试认证

培训服务