MapReduce_标签_开发者

博客(676)
视频(0)
论坛(0)
云声(0)
代码示例(0)

HBase快速入门系列(7) | 官方HBase-MapReduce与自定义
大家好，我是不温卜火，是一名计算机学院大数据专业大二的学生，昵称来源于成语—不温不火，本意是希望自己性情温和。作为一名互联网行业的小白，博主写博客一方面是为了记录自己的学习过程，另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限，博客中难免会有一些错误出现，有纰漏之处恳请各位大佬不吝赐教！暂时只有csdn这一个平台，博客...

不温卜火
发表于2020-12-03 00:05:24
4135 0 0

4.1k 0 0

大家好，我是不温卜火，是一名计算机学院大数据专业大二的学生，昵称来源于成语—不温不火，本意是希望自己性情温和。作为一名互联网行业的小白，博主写博客一方面是为了记录自己的学习过程，另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限，博客中难免会有一些错误出现，有纰漏之处恳请各位大佬不吝赐教！暂时只有csdn这一个平台，博客...
HBase MapReduce
MapReduce快速入门系列(16) | MapReduce开发总结
此篇文章讲述的是MapReduce的开发总结，希望能够帮助到各位小可爱呀！目录 1. 输入数据接口：InputFormat2. 逻辑处理接口：Mapper3. Partitioner分区4. Comparable排序5. Combiner合并6. Reduce端分组：GroupingComparator7. 逻辑处理接口：Reducer8. 输出数...

不温卜火
发表于2020-12-03 00:05:07
5675 0 0

5.6k 0 0

此篇文章讲述的是MapReduce的开发总结，希望能够帮助到各位小可爱呀！目录 1. 输入数据接口：InputFormat2. 逻辑处理接口：Mapper3. Partitioner分区4. Comparable排序5. Combiner合并6. Reduce端分组：GroupingComparator7. 逻辑处理接口：Reducer8. 输出数...
MapReduce
MapReduce快速入门系列(3) | jar包如何在集群上测试
上一篇博客《什么是MapReduce(入门篇) 》讲的是WordCount案例在本地的实际操作，这篇讲述的是在集群上的操作过程。目录 1. 添加打包插件依赖2. 将程序打成jar包，然后拷贝到Hadoop集群中2.1 打包过程2.2 修改不带依赖的jar包名称为wc.jar，并拷贝该jar包到Hadoop集群。 3. 执行WordCount程序...

不温卜火
发表于2020-12-02 23:57:53
5995 0 0

5.9k 0 0

上一篇博客《什么是MapReduce(入门篇) 》讲的是WordCount案例在本地的实际操作，这篇讲述的是在集群上的操作过程。目录 1. 添加打包插件依赖2. 将程序打成jar包，然后拷贝到Hadoop集群中2.1 打包过程2.2 修改不带依赖的jar包名称为wc.jar，并拷贝该jar包到Hadoop集群。 3. 执行WordCount程序...
JAR MapReduce
MapReduce快速入门系列(7) | Shuffle之排序(sort)详解及全排序
上篇博文给大家带来的是分区的介绍以及怎样自定义分区，这次博主为大家带来的是关于排序的博文，希望大家能够喜欢。目录一. Shuffle之排序(sort)1.1 排序的简单介绍1.2 排序的分类1.3 自定义排序二. WritableComparable排序案例2.1 需求2.2 需求分析2.3 编写代码1. FlowBean对象在在需求1基础...

不温卜火
发表于2020-12-02 23:44:28
7247 0 0

7.2k 0 0

上篇博文给大家带来的是分区的介绍以及怎样自定义分区，这次博主为大家带来的是关于排序的博文，希望大家能够喜欢。目录一. Shuffle之排序(sort)1.1 排序的简单介绍1.2 排序的分类1.3 自定义排序二. WritableComparable排序案例2.1 需求2.2 需求分析2.3 编写代码1. FlowBean对象在在需求1基础...
MapReduce
MapReduce快速入门系列(4) | Hadoop序列化
Hello，大家好，本次为大家带来的是Hadoop的序列化操作。目录一. 序列化的简单介绍1.1. 什么是序列化1.2. 为什么要序列化1.3. 为什么不用Java的序列化二. 自定义bean对象实现序列化接口三. 序列化的实际操作展示3.1. 需求3.2. 需求分析3.3. 编写MapReduce程序1. 编写流量统计的Bean对象2. ...

不温卜火
发表于2020-12-02 23:43:45
5778 0 0

5.7k 0 0

Hello，大家好，本次为大家带来的是Hadoop的序列化操作。目录一. 序列化的简单介绍1.1. 什么是序列化1.2. 为什么要序列化1.3. 为什么不用Java的序列化二. 自定义bean对象实现序列化接口三. 序列化的实际操作展示3.1. 需求3.2. 需求分析3.3. 编写MapReduce程序1. 编写流量统计的Bean对象2. ...
Hadoop MapReduce
MapReduce快速入门系列(11) | MapTask，ReduceTask以及MapReduce运行机制详解
前面我们讲解了MapReduce的Shuffle机制，那么这篇文章博主继续为大家讲解MapTask,ReduceTask和MapReduce运行机制。目录一. MapTask运行机制详解以及Map任务的并行度二. ReduceTask 工作机制以及reduceTask的并行度三. MapReduceshuffle过程四. MapReduce总体工...

不温卜火
发表于2020-12-02 23:37:40
6040 0 0

6.0k 0 0

前面我们讲解了MapReduce的Shuffle机制，那么这篇文章博主继续为大家讲解MapTask,ReduceTask和MapReduce运行机制。目录一. MapTask运行机制详解以及Map任务的并行度二. ReduceTask 工作机制以及reduceTask的并行度三. MapReduceshuffle过程四. MapReduce总体工...
MapReduce
MapReduce快速入门系列(12) | MapReduce之OutputFormat
前面我们讲解了MapTask,ReduceTask和MapReduce运行机制。，那么这篇文章博主继续为大家讲解OutputFormat数据输出。目录一. OutputFormat接口实现类1.1 文本输出TextOutputFormat1.2 SequenceFileOutputFormat1.3 ==自定义OutputFormat== 二...

不温卜火
发表于2020-12-02 23:20:51
6038 0 0

6.0k 0 0

前面我们讲解了MapTask,ReduceTask和MapReduce运行机制。，那么这篇文章博主继续为大家讲解OutputFormat数据输出。目录一. OutputFormat接口实现类1.1 文本输出TextOutputFormat1.2 SequenceFileOutputFormat1.3 ==自定义OutputFormat== 二...
MapReduce
MapReduce快速入门系列(2) | 统计输出给定的文本文档每一个单词出现的总次数
相信大家看了博主上一篇博客《什么是MapReduce 》后,对MapReduce的概念有了更深的认知!本篇博客,博主给大家带来的是MapReduce的一个简单的实战项目——统计输出给定的文本文档每一个单词出现的总次数。目录 1. 创建Maven工程2. 编写程序2.1 编写Mapper类2.2 编写Reducer类2.3 编写Driver驱动类2....

不温卜火
发表于2020-12-02 23:06:37
6619 0 0

6.6k 0 0

相信大家看了博主上一篇博客《什么是MapReduce 》后,对MapReduce的概念有了更深的认知!本篇博客,博主给大家带来的是MapReduce的一个简单的实战项目——统计输出给定的文本文档每一个单词出现的总次数。目录 1. 创建Maven工程2. 编写程序2.1 编写Mapper类2.2 编写Reducer类2.3 编写Driver驱动类2....
MapReduce Maven
MapReduce快速入门系列(15) | MapReduce之数据清洗进阶版本
此片博文是上篇博文的拓展进阶部分。目录 1. 需求2. 代码实现3. 运行及结果 1. 需求对Web访问日志中的各字段识别切分，去除日志中不合法的记录。根据清洗规则，输出过滤后的数据。 1. 输入数据 2. 期望输出数据都是合法的数据 2. 代码实现 1. 定义一个bean，用来记录日志数据中的各数据字段 pack...

不温卜火
发表于2020-12-02 22:55:54
4014 0 0

4.0k 0 0

此片博文是上篇博文的拓展进阶部分。目录 1. 需求2. 代码实现3. 运行及结果 1. 需求对Web访问日志中的各字段识别切分，去除日志中不合法的记录。根据清洗规则，输出过滤后的数据。 1. 输入数据 2. 期望输出数据都是合法的数据 2. 代码实现 1. 定义一个bean，用来记录日志数据中的各数据字段 pack...
MapReduce
MapReduce快速入门系列(6) | Shuffle之Partition分区
在之前的博客《MapReduce系列(5) | MapReduce任务流程和shuffle机制的简单解析》,博主为大家分享了MapReduce的整体计算任务流程以及shuffle阶段主要的作用。本篇博客博主分享的是Shuffle之Partition分区详解。目录一. Shuffle之Partition分区1.1. 默认Partition分区1.2...

不温卜火
发表于2020-12-02 22:50:30
6403 0 0

6.4k 0 0

在之前的博客《MapReduce系列(5) | MapReduce任务流程和shuffle机制的简单解析》,博主为大家分享了MapReduce的整体计算任务流程以及shuffle阶段主要的作用。本篇博客博主分享的是Shuffle之Partition分区详解。目录一. Shuffle之Partition分区1.1. 默认Partition分区1.2...
MapReduce
MapReduce快速入门系列(10) | 二次排序和辅助排序案例(GroupingComparator分组)
Hello，大家好！博主上篇讲解了合并，这篇要讲的是辅助排序。如何讲解这个章节呢？首先先对什么是合并进行解释，然后通过案例进行证明。目录一. GroupingComparator分组的简介二. 根据案例分析2.1 需求2.2 需求分析2.3 代码实现1. 定义订单信息OrderBean类2. 编写OrderSortMapper类3. 编写Orde...

不温卜火
发表于2020-12-02 22:45:26
5831 0 0

5.8k 0 0

Hello，大家好！博主上篇讲解了合并，这篇要讲的是辅助排序。如何讲解这个章节呢？首先先对什么是合并进行解释，然后通过案例进行证明。目录一. GroupingComparator分组的简介二. 根据案例分析2.1 需求2.2 需求分析2.3 代码实现1. 定义订单信息OrderBean类2. 编写OrderSortMapper类3. 编写Orde...
MapReduce
Yarn快速系列入门(3) | Yarn和MapReduce的作业提交全过程
本篇博文，博主为大家介绍Yarn和MapReduce的作业提交全过程。目录一. Yarn的作业提交过程1.1 作业提交1.2 作业初始化1.3 任务分配1.4 任务运行1.5 进度和状态更新1.6 作业完成二. MapReduce的作业提交过程(在此只图片说明) 一. Yarn的作业提交过程作业提交全过程详解 1.1 作业提交第...

不温卜火
发表于2020-12-02 22:39:35
6164 0 0

6.1k 0 0

本篇博文，博主为大家介绍Yarn和MapReduce的作业提交全过程。目录一. Yarn的作业提交过程1.1 作业提交1.2 作业初始化1.3 任务分配1.4 任务运行1.5 进度和状态更新1.6 作业完成二. MapReduce的作业提交过程(在此只图片说明) 一. Yarn的作业提交过程作业提交全过程详解 1.1 作业提交第...
MapReduce Yarn
《Hadoop权威指南：大数据的存储与分析》—5.2.3 在MapReduce中使用压缩
本节书摘来自清华大学出版社《Hadoop权威指南：大数据的存储与分析》一书中第五章，第5.2.3节，作者是Tom White ，王海华东刘喻吕粤海译。

清华大学出版社
发表于2019-10-12 18:47:22
6128 0 0

6.1k 0 0

本节书摘来自清华大学出版社《Hadoop权威指南：大数据的存储与分析》一书中第五章，第5.2.3节，作者是Tom White ，王海华东刘喻吕粤海译。
大数据 Hadoop MapReduce
《Hadoop权威指南：大数据的存储与分析》—4.2 YARN与MapReduce 1相比
本节书摘来自清华大学出版社《Hadoop权威指南：大数据的存储与分析》一书中第四章，第4.2节，作者是Tom White ，王海华东刘喻吕粤海译。

清华大学出版社
发表于2019-10-12 17:21:49
6519 0 0

6.5k 0 0

本节书摘来自清华大学出版社《Hadoop权威指南：大数据的存储与分析》一书中第四章，第4.2节，作者是Tom White ，王海华东刘喻吕粤海译。
Yarn MapReduce Hadoop
大数据采集、清洗、处理：使用MapReduce进行离线数据分析完整案例
1 大数据处理的常用方法大数据处理目前比较流行的是两种方法，一种是离线处理，一种是在线处理，基本处理架构如下：在互联网应用中，不管是哪一种处理方式，其基本的数据来源都是日志数据，例如对于web应用来说，则可能是用户的访问日志、用户的点击日志等。如果对于数据的分析结果在时间上有比较严格的要求，则可以采用在线处理的方式来对数据进行分析，如使用Spark、Storm等进行处理。比较贴切的一个例子是...

技术火炬手
发表于2018-07-04 16:22:15
8639 0 0

8.6k 0 0

1 大数据处理的常用方法大数据处理目前比较流行的是两种方法，一种是离线处理，一种是在线处理，基本处理架构如下：在互联网应用中，不管是哪一种处理方式，其基本的数据来源都是日志数据，例如对于web应用来说，则可能是用户的访问日志、用户的点击日志等。如果对于数据的分析结果在时间上有比较严格的要求，则可以采用在线处理的方式来对数据进行分析，如使用Spark、Storm等进行处理。比较贴切的一个例子是...
图像处理 MapReduce 大数据

上滑加载中

推荐直播

0.5

华为云Metastudio×DeepSeek与RAG检索优化分享
2025/03/14 周五 16:00-17:30

大海华为云学堂技术讲师 Cocl 华为云学堂技术讲师

本次直播将带来DeepSeek数字人解决方案，以及如何使用Embedding与Rerank实现检索优化实践，为开发者与企业提供参考，助力场景落地。
去报名
空中宣讲会 2025年华为软件精英挑战赛
2025/03/10 周一 18:00-19:00

宸睿华为云存储技术专家、ACM-ICPC WorldFinal经验晖哥

2025华为软挑赛空中宣讲会重磅来袭！完整赛程首曝+命题天团硬核拆题+三轮幸运抽奖赢参赛助力礼包，与全国优秀高校开发者同台竞技，直通顶尖赛事起跑线！
回顾中
华为开发者空间玩转DeepSeek
2025/03/13 周四 19:00-20:30

马欣华为开发者布道师

同学们，想知道如何利用华为开发者空间部署自己的DeepSeek模型吗？想了解如何用DeepSeek在云主机上探索好玩的应用吗？想探讨如何利用DeepSeek在自己的专有云主机上辅助编程吗？让我们来一场云和AI的盛宴。
即将直播
华为云Metastudio×DeepSeek与RAG检索优化分享
2025/03/14 周五 16:00-17:30

大海华为云学堂技术讲师 Cocl 华为云学堂技术讲师

本次直播将带来DeepSeek数字人解决方案，以及如何使用Embedding与Rerank实现检索优化实践，为开发者与企业提供参考，助力场景落地。
去报名
空中宣讲会 2025年华为软件精英挑战赛
2025/03/10 周一 18:00-19:00

宸睿华为云存储技术专家、ACM-ICPC WorldFinal经验晖哥

2025华为软挑赛空中宣讲会重磅来袭！完整赛程首曝+命题天团硬核拆题+三轮幸运抽奖赢参赛助力礼包，与全国优秀高校开发者同台竞技，直通顶尖赛事起跑线！
回顾中

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript

开发者空间

了解空间

工作台

开发工具

实战案例

空间活动

空间论坛

开发平台

软件开发生产线 CodeArts

AI平台ModelArts

数据治理中心 DataArts Studio

数字内容生产线 MetaStudio

精选服务

云数据库 GaussDB

云数据库 RDS for MySQL

MapReduce服务 MRS

数据仓库服务 DWS

分布式缓存服务Redis版

分布式消息服务 DMS

华为云实时音视频 SparkRTC

媒体处理 MPC

主机迁移服务 SMS

对象存储迁移服务 OMS

云消息服务 KooMessage

云手机服务 KooPhone

企业搜索服务 KooSearch

云地图服务 KooMap

更多开放能力

开发工具

API生态

CodeArts API

API Explorer

Terraform Explorer

KooCLI

API 中心

SDK 中心

开发服务

Codelabs

DevStar

低代码平台Astro

CodeArts IDE

Huawei Cloud Toolkit

Classroom

开发资源

开源镜像站

开源资源

开发语言

开发实践

入门精选

分发资源

企业应用中心

企业通用专区

教育专区

华为应用专区

政务云专区

硬件云服务商城

医疗健康专区

跳蚤市场

华为云开发者日

直播专区

开发者精品活动

DTSE Tech Talk

加入HCDE

加入HCDG

加入HCSD

加入HCWD

鲁班会

沃土云创计划·企业

沃土云创计划·高校

沃土云创计划·个人

沃土云创计划·开源共创

博客

论坛

专题

开发者榜单

学习路径

在线课程

动手实验

考试认证

培训服务