- 1. Spark概述1.1. 什么是Spark(官网:http://spark.apache.org) Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spa... 1. Spark概述1.1. 什么是Spark(官网:http://spark.apache.org) Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spa...
- 一些常见的Spark on YARN的bug 一些常见的Spark on YARN的bug
- 本书摘自《Spark机器学习进阶实战》——书中的第1章,第1.2.2节,作者是马海平、于俊、吕昕、向海。 本书摘自《Spark机器学习进阶实战》——书中的第1章,第1.2.2节,作者是马海平、于俊、吕昕、向海。
- 在使用spark时,根据集群资源情况和任务数据量等,合理设置参数,包括但不限于以下: 参数说明masteryarn E-MapReduce 使用 Yarn 的模式yarn-client:等同于 –-master yarn —deploy-mode client, 此时不需要指定deploy-mode。 yarn-cluster:等同于 –-master... 在使用spark时,根据集群资源情况和任务数据量等,合理设置参数,包括但不限于以下: 参数说明masteryarn E-MapReduce 使用 Yarn 的模式yarn-client:等同于 –-master yarn —deploy-mode client, 此时不需要指定deploy-mode。 yarn-cluster:等同于 –-master...
- 通过分析出租车数据,然后使用KMeans对经纬度进行聚类,然后按照(类别,时间)进行分类,再统计每个类别每个时段的次数。数据格式以及意义:111,30.655325,104.072573,173749111,30.655346,104.072363,173828111,30.655377,104.120252,124057111,30.655439,104.088812,142016列一:出... 通过分析出租车数据,然后使用KMeans对经纬度进行聚类,然后按照(类别,时间)进行分类,再统计每个类别每个时段的次数。数据格式以及意义:111,30.655325,104.072573,173749111,30.655346,104.072363,173828111,30.655377,104.120252,124057111,30.655439,104.088812,142016列一:出...
- Spark shell操作Spark通过RDD算子进行的部分shell操作val mytxt1 = sc.textFile("file:///root/sp")val mytxt2 = mytxt.flatMap(item => item.split(" "))val mytxt3 = mytxt2.map(item => (item,1))val mytxt4 = mytxt3.reduc... Spark shell操作Spark通过RDD算子进行的部分shell操作val mytxt1 = sc.textFile("file:///root/sp")val mytxt2 = mytxt.flatMap(item => item.split(" "))val mytxt3 = mytxt2.map(item => (item,1))val mytxt4 = mytxt3.reduc...
- 本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第3章,第3.9节,作者是肖力涛 。 本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第3章,第3.9节,作者是肖力涛 。
- 本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第3章,第3.8节,作者是肖力涛 。 本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第3章,第3.8节,作者是肖力涛 。
- 本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第3章,第3.7.2节,作者是肖力涛 。 本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第3章,第3.7.2节,作者是肖力涛 。
- 本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第3章,第3.7.1节,作者是肖力涛 。 本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第3章,第3.7.1节,作者是肖力涛 。
- 本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第3章,第3.6节,作者是肖力涛 。 本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第3章,第3.6节,作者是肖力涛 。
- 本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第3章,第3.5节,作者是肖力涛 。 本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第3章,第3.5节,作者是肖力涛 。
- 本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第3章,第3.4.2节,作者是肖力涛 。 本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第3章,第3.4.2节,作者是肖力涛 。
- 本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第3章,第3.4.1节,作者是肖力涛 。 本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第3章,第3.4.1节,作者是肖力涛 。
- 本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第3章,第3.3.2节,作者是肖力涛 。 本节书摘来自华章计算机《Spark Streaming实时流式大数据处理实战》 —— 书中第3章,第3.3.2节,作者是肖力涛 。
上滑加载中
推荐直播
-
算子工具性能优化新特性演示——MatMulLeakyRelu性能调优实操
2025/01/10 周五 15:30-17:30
MindStudio布道师
算子工具性能优化新特性演示——MatMulLeakyRelu性能调优实操
回顾中 -
用代码全方位驱动 OBS 存储
2025/01/14 周二 16:30-18:00
阿肯 华为云生态技术讲师
如何用代码驱动OBS?常用的数据管理,对象清理,多版本对象访问等应该如何编码?本期课程一一演示解答。
即将直播 -
GaussDB数据库开发
2025/01/15 周三 16:00-17:30
Steven 华为云学堂技术讲师
本期直播将带你了解GaussDB数据库开发相关知识,并通过实验指导大家利用java基于JDBC的方式来完成GaussD数据库基础操作。
去报名
热门标签