Hadoop_标签_开发者_华为云

博客(764)
视频(1)
论坛(0)
云声(0)
代码示例(0)

华为云MapReduce服务MRS 帮助文档焕新发布，开启知识探索新篇章！
华为云MapReduce服务MRS帮助文档焕新发布，全新文档结构及内容优化，开启知识探索新篇章！

阅识风云
发表于2024-09-12 11:31:34
6027 0 1

6.0k 0 1

华为云MapReduce服务MRS帮助文档焕新发布，全新文档结构及内容优化，开启知识探索新篇章！
Hadoop MapReduce服务 MRS 大数据
Hadoop 中的分布式缓存有什么用处？为什么 HDFS 无法读取小文件？
Hadoop 是一个流行的大数据处理框架，由两个主要组件组成：Hadoop Distributed File System (HDFS) 和 MapReduce。HDFS 提供了分布式存储能力，而 MapReduce 负责大规模数据的处理。在 Hadoop 的生态系统中，分布式缓存和小文件问题是两个关键话题。本文将详细介绍 Hadoop 中的分布式缓存的用途，以及为什么 HDFS 在处理小文...

wljslmz
发表于2024-08-12 23:51:32
5472 0 0

5.4k 0 0

Hadoop 是一个流行的大数据处理框架，由两个主要组件组成：Hadoop Distributed File System (HDFS) 和 MapReduce。HDFS 提供了分布式存储能力，而 MapReduce 负责大规模数据的处理。在 Hadoop 的生态系统中，分布式缓存和小文件问题是两个关键话题。本文将详细介绍 Hadoop 中的分布式缓存的用途，以及为什么 HDFS 在处理小文...
Hadoop 分布式
Hadoop重新格式化HDFS的方案
Hadoop重新格式化HDFS的方案HDFS（Hadoop分布式文件系统）是Hadoop生态系统的核心组件之一，它负责存储和管理大规模数据集。有时候，由于某些原因，我们需要重新格式化HDFS并清除所有先前的数据。本文将介绍如何重新格式化HDFS的方案。步骤1：停止所有Hadoop服务在开始重新格式化HDFS之前，需要停止Hadoop集群上的所有服务。这包括NameNode、DataNode、...

皮牙子抓饭
发表于2024-08-11 00:50:15
5760 0 0

5.7k 0 0

Hadoop重新格式化HDFS的方案HDFS（Hadoop分布式文件系统）是Hadoop生态系统的核心组件之一，它负责存储和管理大规模数据集。有时候，由于某些原因，我们需要重新格式化HDFS并清除所有先前的数据。本文将介绍如何重新格式化HDFS的方案。步骤1：停止所有Hadoop服务在开始重新格式化HDFS之前，需要停止Hadoop集群上的所有服务。这包括NameNode、DataNode、...
Hadoop
大数据解决方案-存算分离方案类FAQ（进阶问题）
存算分离方案为什么要用OBS的并行文件桶？相比普通对象桶有什么好处？答：并行文件桶是OBS专门为大数据场景所推出的针对性方案，它的好处是提供了标准Posix文件语义，并且能够实现hdfs rename等语义的原子操作，确保大数据的计算性能。使用obs存算分离方案为什么能做到避免namenode压力的问题？答：1.首先，因为使用OBS方案之后，数据存储在OBS，元数据也保存在OBS，hdfs...

服务伙伴知识管理社区
发表于2024-06-20 11:24:24
7862 0 0

7.8k 0 0

存算分离方案为什么要用OBS的并行文件桶？相比普通对象桶有什么好处？答：并行文件桶是OBS专门为大数据场景所推出的针对性方案，它的好处是提供了标准Posix文件语义，并且能够实现hdfs rename等语义的原子操作，确保大数据的计算性能。使用obs存算分离方案为什么能做到避免namenode压力的问题？答：1.首先，因为使用OBS方案之后，数据存储在OBS，元数据也保存在OBS，hdfs...
Hadoop 大数据对象存储服务 OBS
大数据技术实践之Spark集群的安装配置
Spark集群的安装配置1. spark安装包上传与解压1　用XShell传输工具XFtp将Spark安装包spark-3.2.1-bin-hadoop2.7.tgz导入到opt目录下面的software文件夹下2　将JDK和hadoop安装包解压到/opt/module目录下[syf@hadoop102 ~]$ tar -zxvf /opt/software/spark-3.2.1-b...

人工智能-张晨光
发表于2024-06-10 17:31:10
6160 0 0

6.1k 0 0

Spark集群的安装配置1. spark安装包上传与解压1　用XShell传输工具XFtp将Spark安装包spark-3.2.1-bin-hadoop2.7.tgz导入到opt目录下面的software文件夹下2　将JDK和hadoop安装包解压到/opt/module目录下[syf@hadoop102 ~]$ tar -zxvf /opt/software/spark-3.2.1-b...
Hadoop spark
大数据解决方案-存算分离方案类FAQ（基础问题）
什么是存算分离大数据？华为云存算分离方案相对于传统本地盘方案有什么优势？存算分离能节省多少成本？用了存算分离方案是不是必须使用华为

服务伙伴知识管理社区
发表于2024-05-14 15:52:14
7460 0 0

7.4k 0 0

什么是存算分离大数据？华为云存算分离方案相对于传统本地盘方案有什么优势？存算分离能节省多少成本？用了存算分离方案是不是必须使用华为
Hadoop 大数据
Hive 优化总结
Hive优化本质：HDFS + MapReduce 问题原因：倾斜：分区：有的分区没有数据，有的分区数据堆积。(若按天分区，每一天数据差别大就叫倾斜。)group by：有的分组键在表中数据很多，有的分组键数据很少。小表 join 大表：小表数据小，大表数据多，造成倾斜。如何识别倾斜？- 若表为分区分桶表，以分区字段作为聚合条件聚合，并进行抽样。- 若有HDFS的权限，查看分区文件夹的大...

Byyyi耀
发表于2024-05-06 10:57:01
6019 0 0

6.0k 0 0

Hive优化本质：HDFS + MapReduce 问题原因：倾斜：分区：有的分区没有数据，有的分区数据堆积。(若按天分区，每一天数据差别大就叫倾斜。)group by：有的分组键在表中数据很多，有的分组键数据很少。小表 join 大表：小表数据小，大表数据多，造成倾斜。如何识别倾斜？- 若表为分区分桶表，以分区字段作为聚合条件聚合，并进行抽样。- 若有HDFS的权限，查看分区文件夹的大...
Hadoop Hive
《吊打面试官》- 大数据工程师50道中大厂面试真题保姆级详解
《吊打面试官》- 大数据工程师50道中大厂面试真题保姆级详解

Byyyi耀
发表于2024-05-06 10:52:39
6610 0 0

6.6k 0 0

《吊打面试官》- 大数据工程师50道中大厂面试真题保姆级详解
Hadoop spark 大数据
大规模数据处理指南
随着数据量的不断增长，大规模数据处理变得越来越重要。在这个领域，Hadoop和Spark是两个备受关注的技术。本文将介绍如何利用Python编程语言结合Hadoop和Spark来进行大规模数据处理，并比较它们在不同方面的优劣。简介 HadoopHadoop是一个开源的分布式数据处理框架，它基于MapReduce编程模型，可以处理大规模数据集。Hadoop包括HDFS（分布式文件系统）和Ma...

柠檬🍋
发表于2024-04-22 00:10:03
4122 0 0

4.1k 0 0

随着数据量的不断增长，大规模数据处理变得越来越重要。在这个领域，Hadoop和Spark是两个备受关注的技术。本文将介绍如何利用Python编程语言结合Hadoop和Spark来进行大规模数据处理，并比较它们在不同方面的优劣。简介 HadoopHadoop是一个开源的分布式数据处理框架，它基于MapReduce编程模型，可以处理大规模数据集。Hadoop包括HDFS（分布式文件系统）和Ma...
Hadoop spark
Hive 取两个字符串的相同部分
Hive 取两个字符串的相同部分在数据处理中，有时候我们需要比较两个字符串并找出它们之间的相同部分。在Hive中，我们可以使用一些内置函数来实现这一目的。本篇文章将介绍如何在Hive中取两个字符串的相同部分。1. 使用内置函数regexp_extract结合正则表达式实现可以通过regexp_extract函数结合正则表达式来提取两个字符串的相同部分。以下是一个示例：sqlCopy code...

皮牙子抓饭
发表于2024-03-25 09:20:36
5544 0 0

5.5k 0 0

Hive 取两个字符串的相同部分在数据处理中，有时候我们需要比较两个字符串并找出它们之间的相同部分。在Hive中，我们可以使用一些内置函数来实现这一目的。本篇文章将介绍如何在Hive中取两个字符串的相同部分。1. 使用内置函数regexp_extract结合正则表达式实现可以通过regexp_extract函数结合正则表达式来提取两个字符串的相同部分。以下是一个示例：sqlCopy code...
Hadoop Hive
k8s搭建hadoop
k8s搭建Hadoop在大数据处理领域，Hadoop是一个被广泛使用的开源分布式存储和计算框架。而Kubernetes（k8s）是一个用于自动部署、扩展和管理容器化应用程序的开源平台。本篇技术博客将介绍如何使用Kubernetes搭建Hadoop集群，实现分布式的大数据处理。步骤一：创建Kubernetes集群首先，我们需要搭建一个Kubernetes集群。可以使用Minikube来在本地快...

皮牙子抓饭
发表于2024-03-22 09:40:07
5523 0 0

5.5k 0 0

k8s搭建Hadoop在大数据处理领域，Hadoop是一个被广泛使用的开源分布式存储和计算框架。而Kubernetes（k8s）是一个用于自动部署、扩展和管理容器化应用程序的开源平台。本篇技术博客将介绍如何使用Kubernetes搭建Hadoop集群，实现分布式的大数据处理。步骤一：创建Kubernetes集群首先，我们需要搭建一个Kubernetes集群。可以使用Minikube来在本地快...
Hadoop Kubernetes
hadoop 详解 mr过程
Hadoop详解MapReduce过程介绍Hadoop是一个开源的分布式计算框架，其中的MapReduce是其核心编程模型之一。MapReduce过程是Hadoop用来处理大规模数据集的一种并行计算模型，在大数据处理中被广泛应用。本文将详细介绍Hadoop中的MapReduce过程。MapReduce过程详解MapReduce过程主要包含两个阶段：Map阶段和Reduce阶段，分别对应两个函...

皮牙子抓饭
发表于2024-03-22 09:39:47
4347 0 0

4.3k 0 0

Hadoop详解MapReduce过程介绍Hadoop是一个开源的分布式计算框架，其中的MapReduce是其核心编程模型之一。MapReduce过程是Hadoop用来处理大规模数据集的一种并行计算模型，在大数据处理中被广泛应用。本文将详细介绍Hadoop中的MapReduce过程。MapReduce过程详解MapReduce过程主要包含两个阶段：Map阶段和Reduce阶段，分别对应两个函...
Hadoop MapReduce
hadoop data目录
Hadoop Data目录在Hadoop分布式存储系统中，Data目录是非常重要的一个目录，用于存储HDFS（Hadoop Distributed File System）的数据块。在Hadoop集群中，每个数据节点都会有一个Data目录，用来存储该节点上的数据块。本篇博客将详细介绍Hadoop Data目录的相关内容。1. Data目录位置通常情况下，Hadoop Data目录的位置位于H...

皮牙子抓饭
发表于2024-03-21 11:13:35
4897 0 0

4.8k 0 0

Hadoop Data目录在Hadoop分布式存储系统中，Data目录是非常重要的一个目录，用于存储HDFS（Hadoop Distributed File System）的数据块。在Hadoop集群中，每个数据节点都会有一个Data目录，用来存储该节点上的数据块。本篇博客将详细介绍Hadoop Data目录的相关内容。1. Data目录位置通常情况下，Hadoop Data目录的位置位于H...
Hadoop 机器学习
Hadoop集群的搭建教程
1．因为之前的是master,修改主机名修改主机名是自己需要的名字。查看主机名发现还是had1,怎么办？需要reboot重启一下啊！！！重启完毕再看！！！2. 克隆主机注意，必须是完整克隆，否则就是假克隆。查看网址，发现有问题哦：因为原来老的网卡的是eth0，则默认新的是eth1,所以，需要删除旧的网卡，即删除eth0vi /etc/udev/rules.d/70-persistent-n...

人工智能-张晨光
发表于2024-02-11 08:57:26
3749 0 0

3.7k 0 0

1．因为之前的是master,修改主机名修改主机名是自己需要的名字。查看主机名发现还是had1,怎么办？需要reboot重启一下啊！！！重启完毕再看！！！2. 克隆主机注意，必须是完整克隆，否则就是假克隆。查看网址，发现有问题哦：因为原来老的网卡的是eth0，则默认新的是eth1,所以，需要删除旧的网卡，即删除eth0vi /etc/udev/rules.d/70-persistent-n...
Hadoop ssh
Flume的基础介绍
一、背景Hadoop业务的整体开发流程：　　从Hadoop的业务开发流程图中可以看出，在大数据的业务处理过程中，对于数据的采集是十分重要的一步，也是不可避免的一步.许多公司的平台每天会产生大量的日志（一般为流式数据，如，搜索引擎的pv，查询等），处理这些日志需要特定的日志系统，一般而言，这些系统需要具有以下特征：（1）构建应用系统和分析系统的桥梁，并将它们之间的关联解耦；（2）支持近实时...

SHQ1874009
发表于2023-12-06 09:41:53
4492 0 0

4.4k 0 0

一、背景Hadoop业务的整体开发流程：　　从Hadoop的业务开发流程图中可以看出，在大数据的业务处理过程中，对于数据的采集是十分重要的一步，也是不可避免的一步.许多公司的平台每天会产生大量的日志（一般为流式数据，如，搜索引擎的pv，查询等），处理这些日志需要特定的日志系统，一般而言，这些系统需要具有以下特征：（1）构建应用系统和分析系统的桥梁，并将它们之间的关联解耦；（2）支持近实时...
Apache Hadoop

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript