- offer收割系列介绍: 1、分享桥哥本人或小伙伴在面试大厂时遇到的真题,并给出参考答案!!如果能帮到大家,点赞、收藏、评论是对我最大的支持!! 2、涉及岗位:主要为大数据开发、数据仓库(桥哥干过的),其它岗位也可参考 3、涵盖技术:mysql、hadoop、hive、Spark、Flink、Kudu、Impala等... 推荐阅读: ★ ... offer收割系列介绍: 1、分享桥哥本人或小伙伴在面试大厂时遇到的真题,并给出参考答案!!如果能帮到大家,点赞、收藏、评论是对我最大的支持!! 2、涉及岗位:主要为大数据开发、数据仓库(桥哥干过的),其它岗位也可参考 3、涵盖技术:mysql、hadoop、hive、Spark、Flink、Kudu、Impala等... 推荐阅读: ★ ...
- 0 相关源码 1 基础统计模块及常用统计学知识介绍 ◆ Spark 的基础统计模块即MLlib组件中的Basic Statistics部分 ◆ Basic Statistics主要包括Correlation 与Hypothesis testing等 ◆ 其大多被封装在orq.apache spark.mllib.stat._ 中 1.1 基础统计学知识 1.... 0 相关源码 1 基础统计模块及常用统计学知识介绍 ◆ Spark 的基础统计模块即MLlib组件中的Basic Statistics部分 ◆ Basic Statistics主要包括Correlation 与Hypothesis testing等 ◆ 其大多被封装在orq.apache spark.mllib.stat._ 中 1.1 基础统计学知识 1....
- 0 相关源码 1 朴素贝叶斯算法及原理概述 1.1 朴素贝叶斯简介 ◆ 朴素贝叶斯算法是基于贝叶斯定理和特征条件独立假设的一种分类方法 ◆ 朴素贝叶斯算法是一种基于联合概率分布的统计学习方法 ◆ 朴素贝叶斯算法实现简单,效果良好,是一种常用的机器学习方法 1.2 贝叶斯定理 ◆ 朴素贝叶斯算法的一个基础是贝叶斯定理 贝叶斯定理(英语:Bayes’ the... 0 相关源码 1 朴素贝叶斯算法及原理概述 1.1 朴素贝叶斯简介 ◆ 朴素贝叶斯算法是基于贝叶斯定理和特征条件独立假设的一种分类方法 ◆ 朴素贝叶斯算法是一种基于联合概率分布的统计学习方法 ◆ 朴素贝叶斯算法实现简单,效果良好,是一种常用的机器学习方法 1.2 贝叶斯定理 ◆ 朴素贝叶斯算法的一个基础是贝叶斯定理 贝叶斯定理(英语:Bayes’ the...
- 01什么是小文件?生产上,我们往往将Spark SQL作为Hive的替代方案,来获得SQL on Hadoop更出色的性能。因此,本文所讲的是指存储于HDFS中小文件,即指文件的大小远小于HDFS上块(dfs.block.size)大小的文件。02小文件问题的影响一方面,大量的小文件会给Hadoop集群的扩展性和性能带来严重的影响。NameNode在内存中维护整个文件系统的元数据镜像,用户... 01什么是小文件?生产上,我们往往将Spark SQL作为Hive的替代方案,来获得SQL on Hadoop更出色的性能。因此,本文所讲的是指存储于HDFS中小文件,即指文件的大小远小于HDFS上块(dfs.block.size)大小的文件。02小文件问题的影响一方面,大量的小文件会给Hadoop集群的扩展性和性能带来严重的影响。NameNode在内存中维护整个文件系统的元数据镜像,用户...
- 随着大数据的迅速发展,流处理(streaming processing)已成为处理实时数据流的关键技术。PySpark,作为 Apache Spark 的 Python API,提供了强大的大数据处理能力,其中包括流数据处理的功能。通过 PySpark Streaming,用户可以实时地处理数据流,进行复杂的计算和分析。本文将介绍如何使用 PySpark 进行大数据流处理,重点介绍如何通过 ... 随着大数据的迅速发展,流处理(streaming processing)已成为处理实时数据流的关键技术。PySpark,作为 Apache Spark 的 Python API,提供了强大的大数据处理能力,其中包括流数据处理的功能。通过 PySpark Streaming,用户可以实时地处理数据流,进行复杂的计算和分析。本文将介绍如何使用 PySpark 进行大数据流处理,重点介绍如何通过 ...
- 大家好,我是 V 哥。在实际的业务场景中,Spark任务出现OOM(Out of Memory) 问题通常是由于任务处理的数据量过大、资源分配不合理或者代码存在性能瓶颈等原因造成的。针对不同的业务场景和原因,可以从以下几个方面进行优化和解决。 一、业务场景及可能的OOM原因分析数据量过大:业务场景:处理海量数据集(例如,数亿行日志数据或数十TB的数据集),任务执行过程中需要对数据进行大规模的... 大家好,我是 V 哥。在实际的业务场景中,Spark任务出现OOM(Out of Memory) 问题通常是由于任务处理的数据量过大、资源分配不合理或者代码存在性能瓶颈等原因造成的。针对不同的业务场景和原因,可以从以下几个方面进行优化和解决。 一、业务场景及可能的OOM原因分析数据量过大:业务场景:处理海量数据集(例如,数亿行日志数据或数十TB的数据集),任务执行过程中需要对数据进行大规模的...
- Apache Spark 是一个强大的开源大数据处理引擎,以其高效的分布式计算能力著称。在 Databricks 中,Spark 是核心组件之一,Databricks 为用户提供了一个简化的、托管的 Spark 环境,使得数据处理、分析和机器学习变得更加高效。本文将详细解释 Spark 在 Databricks 中的使用方式,包括其架构、集群管理、数据处理和机器学习等方面。 1. Datab... Apache Spark 是一个强大的开源大数据处理引擎,以其高效的分布式计算能力著称。在 Databricks 中,Spark 是核心组件之一,Databricks 为用户提供了一个简化的、托管的 Spark 环境,使得数据处理、分析和机器学习变得更加高效。本文将详细解释 Spark 在 Databricks 中的使用方式,包括其架构、集群管理、数据处理和机器学习等方面。 1. Datab...
- @[TOC] Spark On Hive 详解本文基于Spark重构基于Hive的电商数据分析的项目需求,在重构的同时对Spark On Hive的全流程进行详细的讲解。所谓的Spark On X指的是从X数据源中获取数据并在Spark进行计算之后,将计算结果导入该数据库或者数仓。获取数据和导入数据的地方可以是不同的。 一、项目配置 1. 创建工程首先,创建一个空的Maven工程,在创建之后... @[TOC] Spark On Hive 详解本文基于Spark重构基于Hive的电商数据分析的项目需求,在重构的同时对Spark On Hive的全流程进行详细的讲解。所谓的Spark On X指的是从X数据源中获取数据并在Spark进行计算之后,将计算结果导入该数据库或者数仓。获取数据和导入数据的地方可以是不同的。 一、项目配置 1. 创建工程首先,创建一个空的Maven工程,在创建之后...
- 在鲲鹏920服务器上部署Spark-3.5.1的两种方法和详细过程。 在鲲鹏920服务器上部署Spark-3.5.1的两种方法和详细过程。
- 一、RDD的基本概念接下来我们来学习RDD的一些核心概念:RDD是Spark中最重要的概念之一,全称叫弹性分布式数据集,我们可以简单的把它理解为提供了很多操作接口的数据集合。但是它跟我们一般使用的数据集不同的点在哪里呢?比如平时我们用Python或java开发程序时,操作的数据集合都是存放在我们单台的计算机上的,但是RDD实际上是把数据以分布式的方式存储在一批机器的内存或磁盘当中,这个概念跟... 一、RDD的基本概念接下来我们来学习RDD的一些核心概念:RDD是Spark中最重要的概念之一,全称叫弹性分布式数据集,我们可以简单的把它理解为提供了很多操作接口的数据集合。但是它跟我们一般使用的数据集不同的点在哪里呢?比如平时我们用Python或java开发程序时,操作的数据集合都是存放在我们单台的计算机上的,但是RDD实际上是把数据以分布式的方式存储在一批机器的内存或磁盘当中,这个概念跟...
- 一、Spark开发环境配置-scala项目1. 确认已安装scala插件2. 创建一个新的scala工程(在已有的scala工程中配置也可以):3. 配置Spark开发依赖包(1) 点击菜单栏中的“File”->“Project Structure” ,选择“Libraries”。(2) 单击“+”按钮,选择“Java”选项。(3) 在弹出的界面中找到Spark安装包下的“jars”文件夹,... 一、Spark开发环境配置-scala项目1. 确认已安装scala插件2. 创建一个新的scala工程(在已有的scala工程中配置也可以):3. 配置Spark开发依赖包(1) 点击菜单栏中的“File”->“Project Structure” ,选择“Libraries”。(2) 单击“+”按钮,选择“Java”选项。(3) 在弹出的界面中找到Spark安装包下的“jars”文件夹,...
- Spark集群的安装配置1. spark安装包上传与解压1 用XShell传输工具XFtp将Spark安装包spark-3.2.1-bin-hadoop2.7.tgz导入到opt目录下面的software文件夹下2 将JDK和hadoop安装包解压到/opt/module目录下[syf@hadoop102 ~]$ tar -zxvf /opt/software/spark-3.2.1-b... Spark集群的安装配置1. spark安装包上传与解压1 用XShell传输工具XFtp将Spark安装包spark-3.2.1-bin-hadoop2.7.tgz导入到opt目录下面的software文件夹下2 将JDK和hadoop安装包解压到/opt/module目录下[syf@hadoop102 ~]$ tar -zxvf /opt/software/spark-3.2.1-b...
- 在当今数据驱动的时代,大数据处理技术如Apache Spark已经成为企业数据湖和数据分析的核心组件。然而,在处理海量数据时,数据倾斜问题成为了一个难以忽视的挑战,它不仅会显著降低数据处理效率,甚至可能导致任务失败。本文将深入探讨数据倾斜的概念、产生原因、识别方法,并通过一个现实案例分析,介绍如何在Apache Spark中有效解决数据倾斜问题,辅以代码示例,帮助读者在实践中应对这一挑战。数... 在当今数据驱动的时代,大数据处理技术如Apache Spark已经成为企业数据湖和数据分析的核心组件。然而,在处理海量数据时,数据倾斜问题成为了一个难以忽视的挑战,它不仅会显著降低数据处理效率,甚至可能导致任务失败。本文将深入探讨数据倾斜的概念、产生原因、识别方法,并通过一个现实案例分析,介绍如何在Apache Spark中有效解决数据倾斜问题,辅以代码示例,帮助读者在实践中应对这一挑战。数...
- 《吊打面试官》- 大数据工程师50道中大厂面试真题保姆级详解 《吊打面试官》- 大数据工程师50道中大厂面试真题保姆级详解
- 随着数据量的不断增长,大规模数据处理变得越来越重要。在这个领域,Hadoop和Spark是两个备受关注的技术。本文将介绍如何利用Python编程语言结合Hadoop和Spark来进行大规模数据处理,并比较它们在不同方面的优劣。 简介 HadoopHadoop是一个开源的分布式数据处理框架,它基于MapReduce编程模型,可以处理大规模数据集。Hadoop包括HDFS(分布式文件系统)和Ma... 随着数据量的不断增长,大规模数据处理变得越来越重要。在这个领域,Hadoop和Spark是两个备受关注的技术。本文将介绍如何利用Python编程语言结合Hadoop和Spark来进行大规模数据处理,并比较它们在不同方面的优劣。 简介 HadoopHadoop是一个开源的分布式数据处理框架,它基于MapReduce编程模型,可以处理大规模数据集。Hadoop包括HDFS(分布式文件系统)和Ma...
上滑加载中
推荐直播
-
探秘仓颉编程语言:华为开发者空间的创新利器
2025/02/22 周六 15:00-16:30
华为云讲师团
本期直播将与您一起探秘颉编程语言上线华为开发者空间后,显著提升开发效率,在智能化开发支持、全场景跨平台适配能力、工具链与生态完备性、语言简洁与高性能特性等方面展现出的独特优势。直播看点: 1.java转仓颉的小工具 2.仓颉动画三方库lottie 3.开发者空间介绍及如何在空间用仓颉编程语言开发
回顾中 -
大模型Prompt工程深度实践
2025/02/24 周一 16:00-17:30
盖伦 华为云学堂技术讲师
如何让大模型精准理解开发需求并生成可靠输出?本期直播聚焦大模型Prompt工程核心技术:理解大模型推理基础原理,关键采样参数定义,提示词撰写关键策略及Prompt工程技巧分享。
去报名 -
华为云 x DeepSeek:AI驱动云上应用创新
2025/02/26 周三 16:00-18:00
华为云 AI专家大咖团
在 AI 技术飞速发展之际,DeepSeek 备受关注。它凭借哪些技术与理念脱颖而出?华为云与 DeepSeek 合作,将如何重塑产品与应用模式,助力企业数字化转型?在华为开发者空间,怎样高效部署 DeepSeek,搭建专属服务器?基于华为云平台,又该如何挖掘 DeepSeek 潜力,实现智能化升级?本期直播围绕DeepSeek在云上的应用案例,与DTSE布道师们一起探讨如何利用AI 驱动云上应用创新。
去报名
热门标签