Hadoop_标签_开发者_华为云

博客(763)
视频(1)
论坛(0)
云声(0)
代码示例(0)

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路
从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

Echo_Wish
发表于2025-03-17 08:10:12
1088 0 0

1.0k 0 0

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路
Hadoop spark
从零开始搭建大数据平台：屌丝逆袭指南
从零开始搭建大数据平台：屌丝逆袭指南

Echo_Wish
发表于2025-03-16 15:54:47
1810 0 0

1.8k 0 0

从零开始搭建大数据平台：屌丝逆袭指南
Hadoop 大数据应用平台ROMA
大数据新视界 --大数据大厂之Hive与大数据融合：构建强大数据仓库实战指南
本文深入介绍 Hive 与大数据融合构建强大数据仓库的实战指南。涵盖 Hive 简介、优势、安装配置、数据处理、性能优化及安全管理等内容，并通过互联网广告和物流行业案例分析，展示其实际应用。具有专业性、可操作性和参考价值。

青云交
发表于2025-03-12 20:33:53
9267 0 0

9.2k 0 0

本文深入介绍 Hive 与大数据融合构建强大数据仓库的实战指南。涵盖 Hive 简介、优势、安装配置、数据处理、性能优化及安全管理等内容，并通过互联网广告和物流行业案例分析，展示其实际应用。具有专业性、可操作性和参考价值。
Hadoop Hive 大数据性能优化数据仓库
【详解】基于3台服务器搭建Hadoop3.x集群
基于3台服务器搭建Hadoop3.x集群概述Hadoop是一个由Apache基金会开发的分布式计算框架，它能够处理大规模数据集。Hadoop的核心组件包括HDFS（Hadoop Distributed File System）和MapReduce。本文将介绍如何在三台服务器上搭建Hadoop 3.x集群。环境准备硬件要求3台服务器，建议配置：CPU: 4核及以上内存: 8GB及以上磁盘: 1...

皮牙子抓饭
发表于2025-02-26 09:43:02
8219 0 0

8.2k 0 0

基于3台服务器搭建Hadoop3.x集群概述Hadoop是一个由Apache基金会开发的分布式计算框架，它能够处理大规模数据集。Hadoop的核心组件包括HDFS（Hadoop Distributed File System）和MapReduce。本文将介绍如何在三台服务器上搭建Hadoop 3.x集群。环境准备硬件要求3台服务器，建议配置：CPU: 4核及以上内存: 8GB及以上磁盘: 1...
Hadoop
Spark Executor 内存分配原理与调优
Spark Executor 内存分配原理与调优介绍Apache Spark 是一个用于大数据处理的集群计算框架，具备快速、通用和可扩展的特点。Executor 是 Spark Job 在工作节点上实际执行任务的进程，负责运行 Task 并存储阶段中间结果。合理配置和调优 Executor 的内存参数至关重要，以便高效利用资源并优化性能。应用使用场景大规模数据分析：Spark 被广泛应...

鱼弦
发表于2025-02-24 09:29:40
6444 0 0

6.4k 0 0

Spark Executor 内存分配原理与调优介绍Apache Spark 是一个用于大数据处理的集群计算框架，具备快速、通用和可扩展的特点。Executor 是 Spark Job 在工作节点上实际执行任务的进程，负责运行 Task 并存储阶段中间结果。合理配置和调优 Executor 的内存参数至关重要，以便高效利用资源并优化性能。应用使用场景大规模数据分析：Spark 被广泛应...
Hadoop spark 机器学习
从Excel到Hadoop：数据规模的进化之路
从Excel到Hadoop：数据规模的进化之路

Echo_Wish
发表于2025-02-23 22:10:13
4758 0 0

4.7k 0 0

从Excel到Hadoop：数据规模的进化之路
Hadoop 大数据
【详解】使用原生Python编写HadoopMapReduce程序
使用原生Python编写Hadoop MapReduce程序在大数据处理领域，Hadoop MapReduce是一个广泛使用的框架，用于处理和生成大规模数据集。它通过将任务分解成多个小任务（映射和归约），并行地运行在集群上，从而实现高效的数据处理。尽管Hadoop主要支持Java编程语言，但通过Hadoop Streaming功能，我们可以使用其他语言如Python来编写MapReduce程...

皮牙子抓饭
发表于2025-02-23 19:14:55
5068 0 0

5.0k 0 0

使用原生Python编写Hadoop MapReduce程序在大数据处理领域，Hadoop MapReduce是一个广泛使用的框架，用于处理和生成大规模数据集。它通过将任务分解成多个小任务（映射和归约），并行地运行在集群上，从而实现高效的数据处理。尽管Hadoop主要支持Java编程语言，但通过Hadoop Streaming功能，我们可以使用其他语言如Python来编写MapReduce程...
Hadoop Python
搭建单机hive环境
搭建单机hive环境本文假设搭建的路径在**/opt/sh**路径，并已经下载hive安装包及hadoop安装包https://downloads.apache.org/hive/hive-3.1.3/apache-hive-3.1.3-bin.tar.gzhttps://downloads.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3....

张俭
发表于2023-12-31 23:06:32
11663 0 0

11.6k 0 0

搭建单机hive环境本文假设搭建的路径在**/opt/sh**路径，并已经下载hive安装包及hadoop安装包https://downloads.apache.org/hive/hive-3.1.3/apache-hive-3.1.3-bin.tar.gzhttps://downloads.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3....
Hadoop Hive IoT
大数据基础学习五：Hadoop 实验——熟悉常用的 HDFS 操作
本篇文章《大数据基础学习五：Hadoop 实验——熟悉常用的 HDFS 操作》是完全针对HDFS文件系统的，目的即理解 HDFS 在 Hadoop 体系结构中的角色，熟练使用 HDFS 操作常用的 Shell 命令，熟悉 HDFS 操作常用的 Java API。大数据系列文章请移步本人大数据专栏查看。

白鹿第一帅
发表于2020-12-27 22:46:57
9602 0 0

9.6k 0 0

本篇文章《大数据基础学习五：Hadoop 实验——熟悉常用的 HDFS 操作》是完全针对HDFS文件系统的，目的即理解 HDFS 在 Hadoop 体系结构中的角色，熟练使用 HDFS 操作常用的 Shell 命令，熟悉 HDFS 操作常用的 Java API。大数据系列文章请移步本人大数据专栏查看。
Hadoop Ubuntu 分布式大数据
MapReduce工作原理
MapReduce是Hadoop平台的基础组件之一，它是一个分布式的计算框架，用于大数据的离线计算，和HDFS、YARN搭配使用。MapReduce主要分为切片File、Map 、shuffle和Reduce四个阶段，数据导入——首先是将数据上传到HDFS上进行切片（一般默认分片是64M）、存储Map阶段——然后会由YARN进行资源的协调与分配，启动job，进行分片操作，一般默认HDFS的一...

huangruie
发表于2020-02-23 17:48:09
11740 0 1

11.7k 0 1

MapReduce是Hadoop平台的基础组件之一，它是一个分布式的计算框架，用于大数据的离线计算，和HDFS、YARN搭配使用。MapReduce主要分为切片File、Map 、shuffle和Reduce四个阶段，数据导入——首先是将数据上传到HDFS上进行切片（一般默认分片是64M）、存储Map阶段——然后会由YARN进行资源的协调与分配，启动job，进行分片操作，一般默认HDFS的一...
Hadoop MapReduce
大数据——Hadoop 2.x 生态系统及技术架构图
一、负责收集数据的工具：Sqoop（关系型数据导入Hadoop）Flume（日志数据导入Hadoop，支持数据源广泛）Kafka（支持数据源有限，但吞吐大）二、负责存储数据的工具：HBaseMongoDBCassandraAccumuloMySqlOracleDB2HDFS（Hadoop Distribut File System）2.0三、底层组件Apache Common（通用模块）、A...

jimmybhb
发表于2019-10-29 09:16:40
6506 0 0

6.5k 0 0

一、负责收集数据的工具：Sqoop（关系型数据导入Hadoop）Flume（日志数据导入Hadoop，支持数据源广泛）Kafka（支持数据源有限，但吞吐大）二、负责存储数据的工具：HBaseMongoDBCassandraAccumuloMySqlOracleDB2HDFS（Hadoop Distribut File System）2.0三、底层组件Apache Common（通用模块）、A...
Hadoop 大数据
在社交媒体上追踪政治选举：应用与实践（一）
论文来自：[Tracking Political Elections on Social Media: Applications and Experience](http://xueshu.baidu.com/usercenter/paper/show?paperid=648f55b88bfb691787d23f947a77137b&site=xueshu_se)摘要近年来，社交媒体已经成为...

开源小0分舵-shan
发表于2019-09-19 17:16:28
12534 0 0

12.5k 0 0

论文来自：[Tracking Political Elections on Social Media: Applications and Experience](http://xueshu.baidu.com/usercenter/paper/show?paperid=648f55b88bfb691787d23f947a77137b&site=xueshu_se)摘要近年来，社交媒体已经成为...
Hadoop 5G媒体
Hadoop的理解
什么是Hadoop？Hadoop是一个开源的框架，可编写和运行分布式应用处理大规模数据，是专为离线和大规模数据分析而设计的，Hadoop=HDFS（文件系统，数据存储技术相关）+ Mapreduce（数据处理），Hadoop的数据来源可以是任何形式，在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能，具有更灵活的处理能力，不管任何数据形式最终会转化为key/value，key/va...

红云v587
发表于2019-06-26 21:06:36
11998 0 0

11.9k 0 0

什么是Hadoop？Hadoop是一个开源的框架，可编写和运行分布式应用处理大规模数据，是专为离线和大规模数据分析而设计的，Hadoop=HDFS（文件系统，数据存储技术相关）+ Mapreduce（数据处理），Hadoop的数据来源可以是任何形式，在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能，具有更灵活的处理能力，不管任何数据形式最终会转化为key/value，key/va...
Hadoop MapReduce
MapReduce工作流多种实现方式
学习hadoop，必不可少的就是编写 MapReduce 程序。当然，对于简单的分析程序，我们只需一个MapReduce任务就能搞定，然而对于比较复杂的分析程序，我们可能需要多个Job或者多个Map或者Reduce进行分析计算。本次主要说明的是多个 Job 或者多个 MapReduce 的编程形式。

Smy1121
发表于2019-06-22 18:25:16
5639 0 1

5.6k 0 1

学习hadoop，必不可少的就是编写 MapReduce 程序。当然，对于简单的分析程序，我们只需一个MapReduce任务就能搞定，然而对于比较复杂的分析程序，我们可能需要多个Job或者多个Map或者Reduce进行分析计算。本次主要说明的是多个 Job 或者多个 MapReduce 的编程形式。
Hadoop 大数据 MapReduce
Spark 编程模型(中)
创建RDD

Smy1121
发表于2019-06-22 14:57:39
4323 0 0

4.3k 0 0

创建RDD
spark Hadoop

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript