- 日志是记录系统中各种问题信息的关键,也是一种常见的海量数据。 日志平台为集团所有业务系统提供日志采集、消费、分析、存储、索引和查询的一站式日志服务。 主要为了解决日志分散不方便查看、日志搜索操作复杂且效率低、业务异常无法及时发现等等问题。 随着有赞业务的发展与增长,每天都会产生百亿级别的日志量(据统计,平均每秒产生 50 万条... 日志是记录系统中各种问题信息的关键,也是一种常见的海量数据。 日志平台为集团所有业务系统提供日志采集、消费、分析、存储、索引和查询的一站式日志服务。 主要为了解决日志分散不方便查看、日志搜索操作复杂且效率低、业务异常无法及时发现等等问题。 随着有赞业务的发展与增长,每天都会产生百亿级别的日志量(据统计,平均每秒产生 50 万条...
- 文章目录 一、准备工作 二、搭建伪分布式spark 1、下载spark-2.4.4-bin-hadoop2.7压缩包 2、将spark压缩包上传到虚拟... 文章目录 一、准备工作 二、搭建伪分布式spark 1、下载spark-2.4.4-bin-hadoop2.7压缩包 2、将spark压缩包上传到虚拟...
- 文章目录 一、Spark概述 (一)Spark来源 (二)Spark特点 (三)Spark与Hadoop差异 (四)搭建Spark单机模式... 文章目录 一、Spark概述 (一)Spark来源 (二)Spark特点 (三)Spark与Hadoop差异 (四)搭建Spark单机模式...
- 前言 在实时计算作业中,往往需要动态改变一些配置,举几个栗子: 实时日志ETL服务,需要在日志的格式、字段发生变化时保证正常解析; 实时NLP服务,需要及时识别新添加的领域词与停用词; 实时风控服务,需要根据业务情况调整触发警告的规则。  ... 前言 在实时计算作业中,往往需要动态改变一些配置,举几个栗子: 实时日志ETL服务,需要在日志的格式、字段发生变化时保证正常解析; 实时NLP服务,需要及时识别新添加的领域词与停用词; 实时风控服务,需要根据业务情况调整触发警告的规则。  ...
- 前言 Spark作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解Spark内存管理的基本原理,有助于更好地开发Spark应用程序和进行性能调优。本文将详细介绍两部分内容,第一部分介绍Spark堆内和堆外内存的规划,主要包含堆内内存、堆外内存以及内存管理接口等方面;第二部重点介绍Spark内存空间的... 前言 Spark作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解Spark内存管理的基本原理,有助于更好地开发Spark应用程序和进行性能调优。本文将详细介绍两部分内容,第一部分介绍Spark堆内和堆外内存的规划,主要包含堆内内存、堆外内存以及内存管理接口等方面;第二部重点介绍Spark内存空间的...
- 本文主要在Spark平台下实现一个机器学习应用,该应用主要涉及LDA主题模型以及K-means聚类。通过本文你可以了解到: 文本挖掘的基本流程 LDA主题模型算法 K-means算法 Spark平台下LDA主题模型实现 Spark平台下基于LDA的K-means算法实现 1.文本挖掘模块设计 1.... 本文主要在Spark平台下实现一个机器学习应用,该应用主要涉及LDA主题模型以及K-means聚类。通过本文你可以了解到: 文本挖掘的基本流程 LDA主题模型算法 K-means算法 Spark平台下LDA主题模型实现 Spark平台下基于LDA的K-means算法实现 1.文本挖掘模块设计 1....
- 批处理是把数据攒起来,一次性进行处理的方法。相对而言,流处理是不保存数据,按照到达处理服务器的顺序对数据依次进行处理。 想实时对数据做出反应时,流处理是一个很有效的处理方法。因为批处理是把数据积攒之后隔一段时间进行处理,所以从数据到达之后到处理完毕为止,会出现时间延迟。因此,流处理这种把到达的数据逐次进行处理的思路就变得很重要了。此外... 批处理是把数据攒起来,一次性进行处理的方法。相对而言,流处理是不保存数据,按照到达处理服务器的顺序对数据依次进行处理。 想实时对数据做出反应时,流处理是一个很有效的处理方法。因为批处理是把数据积攒之后隔一段时间进行处理,所以从数据到达之后到处理完毕为止,会出现时间延迟。因此,流处理这种把到达的数据逐次进行处理的思路就变得很重要了。此外...
- 目录 案例四:开窗函数 概述 介绍 聚合函数和开窗函数 开窗函数分类 聚合开窗函数 排序开窗函数 ROW_NUMBER顺序排序 RANK跳跃排序 DENSE_RANK连续排序 NTILE分组排名[了解] ... 目录 案例四:开窗函数 概述 介绍 聚合函数和开窗函数 开窗函数分类 聚合开窗函数 排序开窗函数 ROW_NUMBER顺序排序 RANK跳跃排序 DENSE_RANK连续排序 NTILE分组排名[了解] ...
- Spark 应用架构-了解 Driver 和Executors 从图中可以看到Spark Application运行到集群上时,由两部分组成:Driver Program和Executors。 第一、Driver Program 相当于AppMaster,整个应用管理者,负责应用中所有Job的调度执行;运行JVM P... Spark 应用架构-了解 Driver 和Executors 从图中可以看到Spark Application运行到集群上时,由两部分组成:Driver Program和Executors。 第一、Driver Program 相当于AppMaster,整个应用管理者,负责应用中所有Job的调度执行;运行JVM P...
- 目录 Spark 四大特点 速度快 易于使用 通用性强 运行方式 Spark 四大特点 Spark 使用Scala语言进行实现,它是一种面向对、函数式编程语言,能够像操作本地集合一样轻松的操作分布式数据集。Spark具有运行速度快、易用性好、通用性强和随处运行等特点。 ... 目录 Spark 四大特点 速度快 易于使用 通用性强 运行方式 Spark 四大特点 Spark 使用Scala语言进行实现,它是一种面向对、函数式编程语言,能够像操作本地集合一样轻松的操作分布式数据集。Spark具有运行速度快、易用性好、通用性强和随处运行等特点。 ...
- 目录 RDD、DF、DS相关操作 SparkSQL初体验 SparkSession 应用入口 获取DataFrame/DataSet 使用样例类 指定类型+列名 自定义Schema RDD、DF、DS相互转换 RDD、DF、DS相关操作 SparkSQL初体验 Spark... 目录 RDD、DF、DS相关操作 SparkSQL初体验 SparkSession 应用入口 获取DataFrame/DataSet 使用样例类 指定类型+列名 自定义Schema RDD、DF、DS相互转换 RDD、DF、DS相关操作 SparkSQL初体验 Spark...
- 1.Spark是基于内存计算的大数据计算平台,试述Spark的主要特点。 答:Spark具有如下4个主要特点: ①运行速度快;②容易使用;③通用性;④运行模式多样。  ... 1.Spark是基于内存计算的大数据计算平台,试述Spark的主要特点。 答:Spark具有如下4个主要特点: ①运行速度快;②容易使用;③通用性;④运行模式多样。  ...
- 先让我们来回顾一下Spark的内置模块。 &nb... 先让我们来回顾一下Spark的内置模块。 &nb...
- 目录 Spark内核原理 RDD 依赖 窄依赖(Narrow Dependency) Shuffle 依赖(宽依赖 Wide Dependency) 如何区分宽窄依赖 DAG和Stage 词汇表 Spark内存迭代 所以,我们说Spark比MR效率高主要就是2个原... 目录 Spark内核原理 RDD 依赖 窄依赖(Narrow Dependency) Shuffle 依赖(宽依赖 Wide Dependency) 如何区分宽窄依赖 DAG和Stage 词汇表 Spark内存迭代 所以,我们说Spark比MR效率高主要就是2个原...
- 目录 SparkStreaming实战案例二 UpdateStateByKey 需求 1.updateStateByKey 2.mapWithState 代码实现 SparkStreaming实战案例二 UpdateStateByKey 需求 对从Socket接收的数据做WordCount并要求能够和历史数据进行累加!... 目录 SparkStreaming实战案例二 UpdateStateByKey 需求 1.updateStateByKey 2.mapWithState 代码实现 SparkStreaming实战案例二 UpdateStateByKey 需求 对从Socket接收的数据做WordCount并要求能够和历史数据进行累加!...
上滑加载中
推荐直播
-
昇腾AI算法挑战赛-核心算子如何优化?专家带你深度解析2025/11/17 周一 16:00-17:00
王老师 华为算子专家
昇腾AI算法挑战赛进阶赛战鼓催征!本期直播间,我们特邀华为算子专家王老师,为你深度剖析Matmul、wholereducesum等核心算子的底层原理与优化技巧,直击赛题核心。想提升代码效率、冲击更高排名?锁定直播,带你破局!
回顾中 -
AI编码实干派,“码”力全开2026/02/26 周四 15:00-16:30
谈宗玮/于邦旭/丁俊卿/陈云亮/王一男
【中国,深圳,2026年2月26日】,以“AI编码实干派,码力全开”为主题的华为云码道(CodeArts)代码智能体新春发布会在线上成功召开。华为云码道公测版正式发布,为开发者和企业提供具备工程化能力的智能编码解决方案。
回顾中 -
华为云码道-玩转OpenClaw,开启在线养虾模式2026/03/11 周三 19:00-20:00
刘昱,华为云高级工程师/谈心,华为云技术专家/李海仑,上海圭卓智能科技有限公司CEO
OpenClaw 火爆开发者圈,华为云码道最新推出 Skill ——开发者只需输入一句口令,即可部署一个功能完整的「小龙虾」智能体。直播带你玩转华为云码道,玩转OpenClaw
回顾中
热门标签