spark_标签_开发者_华为云

博客(6.8k)
视频(2)
论坛(0)
云声(0)
代码示例(0)

Spark为什么选择Scala
Spark为什么选择Scala1. Scala特点第一眼看到luxor-core中的Scala代码时（之前没有读过Scala的任何代码）就感觉非常迷茫。独特的语法和编写方式，各种各样的语法糖（如果不去看专业书籍或者Scala手册根本不明白），代码编写灵活、随意，让人触不及防。但是不同的语言有不同的特点和各自不同优势，大部分应用程序选择语言时最关键的应该是看语言使用的类库适不适合自身；...

雪中独狼
发表于2020-07-07 09:28:52
8877 1 2

8.8k 1 2

Spark为什么选择Scala1. Scala特点第一眼看到luxor-core中的Scala代码时（之前没有读过Scala的任何代码）就感觉非常迷茫。独特的语法和编写方式，各种各样的语法糖（如果不去看专业书籍或者Scala手册根本不明白），代码编写灵活、随意，让人触不及防。但是不同的语言有不同的特点和各自不同优势，大部分应用程序选择语言时最关键的应该是看语言使用的类库适不适合自身；...
Scala spark 大数据
使用Hive union remove优化器的避坑指南
最近在测试Hive的时候，使用Hive的Union remove优化器遇到了一个奇怪的问题，记录下定位的过程和结果，避免其他同学也碰到同样的坑。复现方法使用版本：MRS_1.9.3 （Hive-2.3.3），MRS_2.1.0（Hive-3.1.0）步骤：create table test_union_all(version string, rk int);insert into test...

护城小兵
发表于2020-06-28 09:48:44
11887 0 2

11.8k 0 2

最近在测试Hive的时候，使用Hive的Union remove优化器遇到了一个奇怪的问题，记录下定位的过程和结果，避免其他同学也碰到同样的坑。复现方法使用版本：MRS_1.9.3 （Hive-2.3.3），MRS_2.1.0（Hive-3.1.0）步骤：create table test_union_all(version string, rk int);insert into test...
Hive spark
spark简介及其架构
Spark是一个通用的并行计算框架，由加州伯克利大学的AMP于2009开发，并于2010年进行开源，后续发展为大数据领域的最活跃的开源项目之一。Spark在各大场景中扮演着重要的角色，比如能够进行复杂的批数据处理，基于实时数据流的数据处理和历史数据的交互式查询。在实时大数据应用的场景下，相比于Hadoop的高吞吐，低响应的特点，spark通过内存计算能力极大提高了大数据处理速度，对实...

cwk
发表于2020-06-24 20:44:33
4848 0 1

4.8k 0 1

Spark是一个通用的并行计算框架，由加州伯克利大学的AMP于2009开发，并于2010年进行开源，后续发展为大数据领域的最活跃的开源项目之一。Spark在各大场景中扮演着重要的角色，比如能够进行复杂的批数据处理，基于实时数据流的数据处理和历史数据的交互式查询。在实时大数据应用的场景下，相比于Hadoop的高吞吐，低响应的特点，spark通过内存计算能力极大提高了大数据处理速度，对实...
spark SQL
Spark shuffle介绍：概述
在基于mapreduce思想的计算模型里，Shuffle是map和reduce的纽带。计算框架对大数据分而治之，对处理数据进行分块并行处理，当需要对分块数据做聚合处理时，多个分块的数据在map阶段转为k-v结构，然后按key分区，在reduce阶段对各自分区的数据进行计算归并。map和reduce中间对数据做分区并规整的过程，就是shuffle的过程。在spark中，对shuffle也从RD...

小玩一会
发表于2020-06-18 21:49:41
7621 1 0

7.6k 1 0

在基于mapreduce思想的计算模型里，Shuffle是map和reduce的纽带。计算框架对大数据分而治之，对处理数据进行分块并行处理，当需要对分块数据做聚合处理时，多个分块的数据在map阶段转为k-v结构，然后按key分区，在reduce阶段对各自分区的数据进行计算归并。map和reduce中间对数据做分区并规整的过程，就是shuffle的过程。在spark中，对shuffle也从RD...
spark
数据湖应用解析：Spark on Elasticsearch一致性问题
脏数据对数据计算的正确性带来了很严重的影响。因此，我们需要探索一种方法，能够实现Spark写入Elasticsearch数据的可靠性与正确性。

Wei~~~
发表于2020-06-14 19:29:22
11157 1 4

11.1k 1 4

脏数据对数据计算的正确性带来了很严重的影响。因此，我们需要探索一种方法，能够实现Spark写入Elasticsearch数据的可靠性与正确性。
spark Elasticsearch 数据湖探索 DLI
Spark SQL运行流程解析
Spark SQL是Spark系统的核心组件，为来自不同数据源、不同格式的数据提供了结构化的视角，让用户可以使用SQL轻松的从数据中获取有价值的信息。DLI服务提供了强大的Spark SQL查询分析能力，并且全面兼容Spark SQL语法。本文将介绍Spark SQL的运行流程，以及过程中的各个重要组成部分。Spark SQL是什么在Spark中，Spark SQL并不仅仅是狭隘的SQL...

wzhfy
发表于2020-06-01 10:32:00
9069 0 1

9.0k 0 1

Spark SQL是Spark系统的核心组件，为来自不同数据源、不同格式的数据提供了结构化的视角，让用户可以使用SQL轻松的从数据中获取有价值的信息。DLI服务提供了强大的Spark SQL查询分析能力，并且全面兼容Spark SQL语法。本文将介绍Spark SQL的运行流程，以及过程中的各个重要组成部分。Spark SQL是什么在Spark中，Spark SQL并不仅仅是狭隘的SQL...
spark SQL 大数据数据湖探索 DLI
使用async-profiler工具分析spark executor性能
Async-profiler可以观测运行程序中每一段代码所占用的cpu的时间和比例,从而可以分析并找到项目中占用cpu时间最长的代码片段，优化热点代码，达到优化内存的效果。它具有特定于HotSpot的API，以收集堆栈跟踪并跟踪内存分配，探查器可与基于HotSpot JVM的OpenJDK，Oracle JDK和其他Java运行时一起使用。

养猪技术专家
发表于2020-05-19 17:40:36
11199 1 2

11.1k 1 2

Async-profiler可以观测运行程序中每一段代码所占用的cpu的时间和比例,从而可以分析并找到项目中占用cpu时间最长的代码片段，优化热点代码，达到优化内存的效果。它具有特定于HotSpot的API，以收集堆栈跟踪并跟踪内存分配，探查器可与基于HotSpot JVM的OpenJDK，Oracle JDK和其他Java运行时一起使用。
async spark
spark如何与华为云云容器引擎cce集成
本文介绍了如何创建cce、安装spark，并将spark的任务提交到cce中运行。本文介绍的是将spark用allinone的方式安装到cce的node结点上。以及如何在cce上运行spark任务

zhongjun2
发表于2019-05-06 17:20:31
9647 3 3

9.6k 3 3

本文介绍了如何创建cce、安装spark，并将spark的任务提交到cce中运行。本文介绍的是将spark用allinone的方式安装到cce的node结点上。以及如何在cce上运行spark任务
spark 云容器引擎 CCE Spark cce
SparkStreaming介绍
spark streaming 是在spark core基础上的一个高吞吐、高容错的无状态的微批处理框架，其是基于批量数据的处理。本文的设定是你对spark运行机制和rdd (the resilient distributed dataset)编程有一定的了解。

米兰的小铁匠
发表于2020-06-16 10:46:38
6139 0 0

6.1k 0 0

spark streaming 是在spark core基础上的一个高吞吐、高容错的无状态的微批处理框架，其是基于批量数据的处理。本文的设定是你对spark运行机制和rdd (the resilient distributed dataset)编程有一定的了解。
MapReduce spark
一天学完spark的Scala基础语法教程十、类和对象(idea版本)
📋前言📋 💝博客主页：红目香薰_CSDN博客-大数据,计算机理论,MySQL领域博主💝 ✍本文由在下【红目香薰】原创，首发于CSDN✍ 🤗2022年最大愿望：【服务百万技术人次】🤗 💝初始环境地址：【spark环境搭建(idea版本)_红目香薰-CSDN博客】💝 环境需求环境：win...

红目香薰
发表于2022-02-01 00:09:09
2994 0 0

2.9k 0 0

📋前言📋 💝博客主页：红目香薰_CSDN博客-大数据,计算机理论,MySQL领域博主💝 ✍本文由在下【红目香薰】原创，首发于CSDN✍ 🤗2022年最大愿望：【服务百万技术人次】🤗 💝初始环境地址：【spark环境搭建(idea版本)_红目香薰-CSDN博客】💝 环境需求环境：win...
IDE Scala spark
Moonbox计算服务平台架构功能与应用场景
导读：业务系统或者日志系统产生了大量的原始数据，我们根据业务场景需求将数据保存到不同的存储中。然而，数据只有通过整合、加工、计算，才能提取出其潜在的信息，让数据变为资产，从而实现数据的价值。Moonbox就是这样一款计算服务平台，在敏捷大数据（Agile BigData）理论的指导下，围绕“计算服务化”和“数据虚拟化”两个核心概念进行设计，支持多种数据源混合计算。Moonbox的设计理念是怎...

且听风吟
发表于2019-09-05 11:00:04
4162 0 0

4.1k 0 0

导读：业务系统或者日志系统产生了大量的原始数据，我们根据业务场景需求将数据保存到不同的存储中。然而，数据只有通过整合、加工、计算，才能提取出其潜在的信息，让数据变为资产，从而实现数据的价值。Moonbox就是这样一款计算服务平台，在敏捷大数据（Agile BigData）理论的指导下，围绕“计算服务化”和“数据虚拟化”两个核心概念进行设计，支持多种数据源混合计算。Moonbox的设计理念是怎...
spark SQL
《Spark机器学习进阶实战》——3.4.2　准备数据
本书摘自《Spark机器学习进阶实战》——书中的第3章，第3.4.2节，作者是马海平、于俊、吕昕、向海。

华章计算机
发表于2019-06-01 22:32:58
5126 0 0

5.1k 0 0

本书摘自《Spark机器学习进阶实战》——书中的第3章，第3.4.2节，作者是马海平、于俊、吕昕、向海。
spark 机器学习
《Spark机器学习进阶实战》——3.4　App数据的分类实现
本书摘自《Spark机器学习进阶实战》——书中的第3章，第3.4.1节，作者是马海平、于俊、吕昕、向海。

华章计算机
发表于2019-06-01 22:30:17
6253 0 0

6.2k 0 0

本书摘自《Spark机器学习进阶实战》——书中的第3章，第3.4.1节，作者是马海平、于俊、吕昕、向海。
spark 移动APP 机器学习
《Spark机器学习进阶实战》——1.4　机器学习综合应用
本书摘自《Spark机器学习进阶实战》——书中的第1章，第1.4.1节，作者是马海平、于俊、吕昕、向海。

华章计算机
发表于2019-05-31 12:55:38
7423 0 0

7.4k 0 0

本书摘自《Spark机器学习进阶实战》——书中的第1章，第1.4.1节，作者是马海平、于俊、吕昕、向海。
机器学习 spark
如何在 Kubernetes 上部署 Spark
在 Kubernetes 集群中部署 Apache Spark，需要你具备对 Kubernetes 的工作原理、Spark 的架构以及云原生应用的理解。前期准备工作在进行 Spark 的部署之前，需要对你的 Kubernetes 环境做好充分的准备。这包括 Kubernetes 集群的搭建以及基础工具的安装，比如 kubectl 和 Helm 等。这些步骤对于成功部署 Spark 至关重要...

汪子熙
发表于2025-01-02 13:18:20
2062 0 0

2.0k 0 0

在 Kubernetes 集群中部署 Apache Spark，需要你具备对 Kubernetes 的工作原理、Spark 的架构以及云原生应用的理解。前期准备工作在进行 Spark 的部署之前，需要对你的 Kubernetes 环境做好充分的准备。这包括 Kubernetes 集群的搭建以及基础工具的安装，比如 kubectl 和 Helm 等。这些步骤对于成功部署 Spark 至关重要...
Kubernetes spark

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript