Hadoop_标签_开发者_华为云

博客(764)
视频(1)
论坛(0)
云声(0)
代码示例(0)

FusionInsight MRS配置机架策略最佳实践
大型集群的所有主机通常分布在多个机架上，不同机架间的主机通过交换机进行数据通信，且同一机架上的不同机器间的网络带宽要远大于不同机架机器间的网络带宽。在这种情况下网络拓扑规划应满足不同主机之间的通信能够尽量发生在同一个机架之内，分布式服务的进程或数据需要尽可能存在多个机架的不同主机上这两个要求

一枚核桃
发表于2021-09-30 09:00:36
7906 0 0

7.9k 0 0

大型集群的所有主机通常分布在多个机架上，不同机架间的主机通过交换机进行数据通信，且同一机架上的不同机器间的网络带宽要远大于不同机架机器间的网络带宽。在这种情况下网络拓扑规划应满足不同主机之间的通信能够尽量发生在同一个机架之内，分布式服务的进程或数据需要尽可能存在多个机架的不同主机上这两个要求
EI企业智能 FusionInsight Hadoop MapReduce
2021 年你必须准备的 50 大 Hadoop 面试问题
是否对面试官在 Hadoop 面试中可能会问的所有问题感到不知所措？现在是时候通过一系列涵盖 Hadoop 框架不同方面的 Hadoop 面试问题了。加强你的基础永远不会太晚。在处理实际用例的同时，向行业专家学习 Hadoop。

Donglian Lin
发表于2021-09-24 08:26:36
13572 0 0

13.5k 0 0

是否对面试官在 Hadoop 面试中可能会问的所有问题感到不知所措？现在是时候通过一系列涵盖 Hadoop 框架不同方面的 Hadoop 面试问题了。加强你的基础永远不会太晚。在处理实际用例的同时，向行业专家学习 Hadoop。
Hadoop Python
Hadoop YARN 教程 - 学习 YARN 架构的基础知识
Hadoop YARN 将 Hadoop 的存储单元，即 HDFS（Hadoop 分布式文件系统）与各种处理工具结合在一起。对于那些你们谁是全新的这个话题.

Donglian Lin
发表于2021-09-21 09:26:39
7668 0 0

7.6k 0 0

Hadoop YARN 将 Hadoop 的存储单元，即 HDFS（Hadoop 分布式文件系统）与各种处理工具结合在一起。对于那些你们谁是全新的这个话题.
Hadoop Yarn
Hadoop Streaming：用 Python 编写 Hadoop MapReduce 程序
随着数字媒体、物联网等发展的出现，每天产生的数字数据量呈指数级增长。这种情况给创建下一代工具和技术来存储和操作这些数据带来了挑战。这就是 Hadoop Streaming 的用武之地！下面给出的图表描绘了从 2013 年起全球每年产生的数据增长情况。 IDC 估计，到 2025 年，每年产生的数据量将达到 180 Zettabytes！

Donglian Lin
发表于2021-09-17 10:13:18
13826 0 1

13.8k 0 1

随着数字媒体、物联网等发展的出现，每天产生的数字数据量呈指数级增长。这种情况给创建下一代工具和技术来存储和操作这些数据带来了挑战。这就是 Hadoop Streaming 的用武之地！下面给出的图表描绘了从 2013 年起全球每年产生的数据增长情况。 IDC 估计，到 2025 年，每年产生的数据量将达到 180 Zettabytes！
Hadoop MapReduce Python
MapReduce 示例：减少 Hadoop MapReduce 中的侧连接
在排序和reducer 阶段，reduce 侧连接过程会产生巨大的网络I/O 流量，在这个阶段，相同键的值被聚集在一起。因此，如果您有大量具有数百万个值的不同数据集，您很可能会遇到 OutOfMemory 异常，即您的 RAM 已满，因此溢出。在我看来，使用reduce side join的优点是：

Donglian Lin
发表于2021-09-16 13:32:07
9061 0 0

9.0k 0 0

在排序和reducer 阶段，reduce 侧连接过程会产生巨大的网络I/O 流量，在这个阶段，相同键的值被聚集在一起。因此，如果您有大量具有数百万个值的不同数据集，您很可能会遇到 OutOfMemory 异常，即您的 RAM 已满，因此溢出。在我看来，使用reduce side join的优点是：
Hadoop MapReduce
Hive虚拟列的生成与计算【4】
本文主要解析介绍Hive虚拟列BLOCK__OFFSET__INSIDE__FILE相关源码

想要一只猫
发表于2021-09-09 23:17:24
11300 0 0

11.3k 0 0

本文主要解析介绍Hive虚拟列BLOCK__OFFSET__INSIDE__FILE相关源码
EI企业智能 Hadoop Hive 智能数据表格存储服务 CloudTable
Hive UDF源码解析【1】Create Function
文本主要解析Hive添加UDF的源码流程

想要一只猫
发表于2021-08-28 23:41:36
9333 0 0

9.3k 0 0

文本主要解析Hive添加UDF的源码流程
EI企业智能 Hadoop Hive 智能数据表格存储服务 CloudTable
如何设置具有 HDFS 高可用性的 Hadoop 集群
Hadoop 2 中引入了高可用性集群的概念。x 解决 Hadoop 1.x 中的单点故障问题。正如您从我之前的博客中了解到的，HDFS 架构遵循主/从拓扑，其中 NameNode 充当主守护进程，负责管理其他称为 DataNode 的从节点。这个单一的 Master Daemon 或 NameNode 成为一个瓶颈。虽然，Secondary NameNode 的引入确实防止了我们的数据丢失和减

Donglian Lin
发表于2021-08-14 10:42:58
7027 0 0

7.0k 0 0

Hadoop 2 中引入了高可用性集群的概念。x 解决 Hadoop 1.x 中的单点故障问题。正如您从我之前的博客中了解到的，HDFS 架构遵循主/从拓扑，其中 NameNode 充当主守护进程，负责管理其他称为 DataNode 的从节点。这个单一的 Master Daemon 或 NameNode 成为一个瓶颈。虽然，Secondary NameNode 的引入确实防止了我们的数据丢失和减
Hadoop 数据挖掘
决策树：如何创建完美的决策树？
决策树是一系列相关选择的可能结果的映射。它允许个人或组织根据成本、概率和收益权衡可能采取的行动。顾名思义，它使用树状决策模型。它们可用于推动非正式讨论或制定算法，以数学方式预测最佳选择。决策树通常以单个节点开始，该节点分支为可能的结果。这些结果中的每一个都会导致额外的节点，这些节点分支为其他可能性。这使它具有树状形状。

Donglian Lin
发表于2021-08-14 09:24:39
12697 0 0

12.6k 0 0

决策树是一系列相关选择的可能结果的映射。它允许个人或组织根据成本、概率和收益权衡可能采取的行动。顾名思义，它使用树状决策模型。它们可用于推动非正式讨论或制定算法，以数学方式预测最佳选择。决策树通常以单个节点开始，该节点分支为可能的结果。这些结果中的每一个都会导致额外的节点，这些节点分支为其他可能性。这使它具有树状形状。
Hadoop 决策树数据挖掘
在 Hadoop 2.X 中设置多节点集群
Hadoop 中的多节点集群在分布式 Hadoop 环境中包含两个或多个 DataNode。这实际上在组织中用于存储和分析其 PB 和 Exabytes 的数据。

Donglian Lin
发表于2021-08-13 13:31:31
5847 0 0

5.8k 0 0

Hadoop 中的多节点集群在分布式 Hadoop 环境中包含两个或多个 DataNode。这实际上在组织中用于存储和分析其 PB 和 Exabytes 的数据。
Hadoop ssh
HDFS 命令：管理 HDFS 的 Hadoop Shell 命令
HDFS 命令博客到此结束，我希望它能够提供信息并且您能够执行所有命令。有关更多 HDFS 命令，您可以在此处参考 Apache Hadoop 文档。

Donglian Lin
发表于2021-08-11 08:53:25
8188 0 1

8.1k 0 1

HDFS 命令博客到此结束，我希望它能够提供信息并且您能够执行所有命令。有关更多 HDFS 命令，您可以在此处参考 Apache Hadoop 文档。
Hadoop Shell
Hadoop完全分布式部署【绽放吧！数据库】
一、概述概念：是一个可靠的、可伸缩的、分布式计算的开源软件。是一个框架，允许跨越计算机集群的大数据及分布式处理，使用简单的编程模型（mapreduce）可从单台服务器扩展至几千台主机，每个节点提供了计算和存储功能。不依赖于硬件处理HA，在应用层面实现特性4V：volumn 体量大velocity 速度快variaty 样式多value 价值密度低模块：hadoop common...

kaliarch
发表于2021-08-01 11:09:08
9233 0 1

9.2k 0 1

一、概述概念：是一个可靠的、可伸缩的、分布式计算的开源软件。是一个框架，允许跨越计算机集群的大数据及分布式处理，使用简单的编程模型（mapreduce）可从单台服务器扩展至几千台主机，每个节点提供了计算和存储功能。不依赖于硬件处理HA，在应用层面实现特性4V：volumn 体量大velocity 速度快variaty 样式多value 价值密度低模块：hadoop common...
Hadoop 分布式数据库
MRS CDL架构设计与实现
MRS CDL是FusionInsight MRS推出的一种数据实时同步服务，旨在将传统OLTP数据库中的事件信息捕捉并实时推送到大数据产品中去，本文档会详细为大家介绍CDL的整体架构以及关键技术。

rujia01
发表于2021-07-26 11:48:31
14713 0 1

14.7k 0 1

MRS CDL是FusionInsight MRS推出的一种数据实时同步服务，旨在将传统OLTP数据库中的事件信息捕捉并实时推送到大数据产品中去，本文档会详细为大家介绍CDL的整体架构以及关键技术。
EI企业智能 FusionInsight Hadoop 大数据
Hadoop 入门教程
Hadoop 入门教程

ruochen
发表于2021-06-22 18:52:48
6922 0 9

6.9k 0 9

Hadoop 入门教程
Hadoop Hive Java
【云驻共创】“大鹏一日同风起”Kunpeng BoostKit 使能套件如何实现大数据场景倍级性能提升？
在数据和经济时代，业务和数据的多样性需要新的计算架构，海量的数据增长也带来了更高的计算需求。那么在这个过程中，鲲鹏计算产业也正在成为更多计算场景的新一代 IP 基座。基于华为鲲鹏处理器构建的鲲鹏全栈 IT 技术实施设施行业应用以及服务，致力于为智能世界持续提供我们的先进算力支持，使得各个行业可以实现数字化转型。应用软件的迁移与优化一直是鲲鹏软件生态的难点和关键。本次鲲鹏 BoostKit 训练营为

白鹿第一帅
发表于2021-06-07 16:28:26
19693 0 2

19.6k 0 2

在数据和经济时代，业务和数据的多样性需要新的计算架构，海量的数据增长也带来了更高的计算需求。那么在这个过程中，鲲鹏计算产业也正在成为更多计算场景的新一代 IP 基座。基于华为鲲鹏处理器构建的鲲鹏全栈 IT 技术实施设施行业应用以及服务，致力于为智能世界持续提供我们的先进算力支持，使得各个行业可以实现数字化转型。应用软件的迁移与优化一直是鲲鹏软件生态的难点和关键。本次鲲鹏 BoostKit 训练营为
Hadoop HCDE 云社区大数据鲲鹏

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript