- 华为云MapReduce服务MRS帮助文档焕新发布,全新文档结构及内容优化,开启知识探索新篇章! 华为云MapReduce服务MRS帮助文档焕新发布,全新文档结构及内容优化,开启知识探索新篇章!
- Hadoop 是一个流行的大数据处理框架,由两个主要组件组成:Hadoop Distributed File System (HDFS) 和 MapReduce。HDFS 提供了分布式存储能力,而 MapReduce 负责大规模数据的处理。在 Hadoop 的生态系统中,分布式缓存和小文件问题是两个关键话题。本文将详细介绍 Hadoop 中的分布式缓存的用途,以及为什么 HDFS 在处理小文... Hadoop 是一个流行的大数据处理框架,由两个主要组件组成:Hadoop Distributed File System (HDFS) 和 MapReduce。HDFS 提供了分布式存储能力,而 MapReduce 负责大规模数据的处理。在 Hadoop 的生态系统中,分布式缓存和小文件问题是两个关键话题。本文将详细介绍 Hadoop 中的分布式缓存的用途,以及为什么 HDFS 在处理小文...
- Hadoop重新格式化HDFS的方案HDFS(Hadoop分布式文件系统)是Hadoop生态系统的核心组件之一,它负责存储和管理大规模数据集。有时候,由于某些原因,我们需要重新格式化HDFS并清除所有先前的数据。本文将介绍如何重新格式化HDFS的方案。步骤1:停止所有Hadoop服务在开始重新格式化HDFS之前,需要停止Hadoop集群上的所有服务。这包括NameNode、DataNode、... Hadoop重新格式化HDFS的方案HDFS(Hadoop分布式文件系统)是Hadoop生态系统的核心组件之一,它负责存储和管理大规模数据集。有时候,由于某些原因,我们需要重新格式化HDFS并清除所有先前的数据。本文将介绍如何重新格式化HDFS的方案。步骤1:停止所有Hadoop服务在开始重新格式化HDFS之前,需要停止Hadoop集群上的所有服务。这包括NameNode、DataNode、...
- 存算分离方案为什么要用OBS的并行文件桶?相比普通对象桶有什么好处?答:并行文件桶是OBS专门为大数据场景所推出的针对性方案,它的好处是提供了标准Posix文件语义,并且能够实现hdfs rename等语义的原子操作,确保大数据的计算性能。 使用obs存算分离方案为什么能做到避免namenode压力的问题?答:1.首先,因为使用OBS方案之后,数据存储在OBS,元数据也保存在OBS,hdfs... 存算分离方案为什么要用OBS的并行文件桶?相比普通对象桶有什么好处?答:并行文件桶是OBS专门为大数据场景所推出的针对性方案,它的好处是提供了标准Posix文件语义,并且能够实现hdfs rename等语义的原子操作,确保大数据的计算性能。 使用obs存算分离方案为什么能做到避免namenode压力的问题?答:1.首先,因为使用OBS方案之后,数据存储在OBS,元数据也保存在OBS,hdfs...
- Spark集群的安装配置1. spark安装包上传与解压1 用XShell传输工具XFtp将Spark安装包spark-3.2.1-bin-hadoop2.7.tgz导入到opt目录下面的software文件夹下2 将JDK和hadoop安装包解压到/opt/module目录下[syf@hadoop102 ~]$ tar -zxvf /opt/software/spark-3.2.1-b... Spark集群的安装配置1. spark安装包上传与解压1 用XShell传输工具XFtp将Spark安装包spark-3.2.1-bin-hadoop2.7.tgz导入到opt目录下面的software文件夹下2 将JDK和hadoop安装包解压到/opt/module目录下[syf@hadoop102 ~]$ tar -zxvf /opt/software/spark-3.2.1-b...
- 什么是存算分离大数据? 华为云存算分离方案相对于传统本地盘方案有什么优势? 存算分离能节省多少成本? 用了存算分离方案是不是必须使用华为 什么是存算分离大数据? 华为云存算分离方案相对于传统本地盘方案有什么优势? 存算分离能节省多少成本? 用了存算分离方案是不是必须使用华为
- Hive优化 本质:HDFS + MapReduce 问题原因:倾斜:分区:有的分区没有数据,有的分区数据堆积。(若按天分区,每一天数据差别大就叫倾斜。)group by:有的分组键在表中数据很多,有的分组键数据很少。小表 join 大表:小表数据小,大表数据多,造成倾斜。如何识别倾斜?- 若表为分区分桶表,以分区字段作为聚合条件聚合,并进行抽样。- 若有HDFS的权限,查看分区文件夹的大... Hive优化 本质:HDFS + MapReduce 问题原因:倾斜:分区:有的分区没有数据,有的分区数据堆积。(若按天分区,每一天数据差别大就叫倾斜。)group by:有的分组键在表中数据很多,有的分组键数据很少。小表 join 大表:小表数据小,大表数据多,造成倾斜。如何识别倾斜?- 若表为分区分桶表,以分区字段作为聚合条件聚合,并进行抽样。- 若有HDFS的权限,查看分区文件夹的大...
- 《吊打面试官》- 大数据工程师50道中大厂面试真题保姆级详解 《吊打面试官》- 大数据工程师50道中大厂面试真题保姆级详解
- 随着数据量的不断增长,大规模数据处理变得越来越重要。在这个领域,Hadoop和Spark是两个备受关注的技术。本文将介绍如何利用Python编程语言结合Hadoop和Spark来进行大规模数据处理,并比较它们在不同方面的优劣。 简介 HadoopHadoop是一个开源的分布式数据处理框架,它基于MapReduce编程模型,可以处理大规模数据集。Hadoop包括HDFS(分布式文件系统)和Ma... 随着数据量的不断增长,大规模数据处理变得越来越重要。在这个领域,Hadoop和Spark是两个备受关注的技术。本文将介绍如何利用Python编程语言结合Hadoop和Spark来进行大规模数据处理,并比较它们在不同方面的优劣。 简介 HadoopHadoop是一个开源的分布式数据处理框架,它基于MapReduce编程模型,可以处理大规模数据集。Hadoop包括HDFS(分布式文件系统)和Ma...
- Hive 取两个字符串的相同部分在数据处理中,有时候我们需要比较两个字符串并找出它们之间的相同部分。在Hive中,我们可以使用一些内置函数来实现这一目的。本篇文章将介绍如何在Hive中取两个字符串的相同部分。1. 使用内置函数regexp_extract结合正则表达式实现可以通过regexp_extract函数结合正则表达式来提取两个字符串的相同部分。以下是一个示例:sqlCopy code... Hive 取两个字符串的相同部分在数据处理中,有时候我们需要比较两个字符串并找出它们之间的相同部分。在Hive中,我们可以使用一些内置函数来实现这一目的。本篇文章将介绍如何在Hive中取两个字符串的相同部分。1. 使用内置函数regexp_extract结合正则表达式实现可以通过regexp_extract函数结合正则表达式来提取两个字符串的相同部分。以下是一个示例:sqlCopy code...
- k8s搭建Hadoop在大数据处理领域,Hadoop是一个被广泛使用的开源分布式存储和计算框架。而Kubernetes(k8s)是一个用于自动部署、扩展和管理容器化应用程序的开源平台。本篇技术博客将介绍如何使用Kubernetes搭建Hadoop集群,实现分布式的大数据处理。步骤一:创建Kubernetes集群首先,我们需要搭建一个Kubernetes集群。可以使用Minikube来在本地快... k8s搭建Hadoop在大数据处理领域,Hadoop是一个被广泛使用的开源分布式存储和计算框架。而Kubernetes(k8s)是一个用于自动部署、扩展和管理容器化应用程序的开源平台。本篇技术博客将介绍如何使用Kubernetes搭建Hadoop集群,实现分布式的大数据处理。步骤一:创建Kubernetes集群首先,我们需要搭建一个Kubernetes集群。可以使用Minikube来在本地快...
- Hadoop详解MapReduce过程介绍Hadoop是一个开源的分布式计算框架,其中的MapReduce是其核心编程模型之一。MapReduce过程是Hadoop用来处理大规模数据集的一种并行计算模型,在大数据处理中被广泛应用。本文将详细介绍Hadoop中的MapReduce过程。MapReduce过程详解MapReduce过程主要包含两个阶段:Map阶段和Reduce阶段,分别对应两个函... Hadoop详解MapReduce过程介绍Hadoop是一个开源的分布式计算框架,其中的MapReduce是其核心编程模型之一。MapReduce过程是Hadoop用来处理大规模数据集的一种并行计算模型,在大数据处理中被广泛应用。本文将详细介绍Hadoop中的MapReduce过程。MapReduce过程详解MapReduce过程主要包含两个阶段:Map阶段和Reduce阶段,分别对应两个函...
- Hadoop Data目录在Hadoop分布式存储系统中,Data目录是非常重要的一个目录,用于存储HDFS(Hadoop Distributed File System)的数据块。在Hadoop集群中,每个数据节点都会有一个Data目录,用来存储该节点上的数据块。本篇博客将详细介绍Hadoop Data目录的相关内容。1. Data目录位置通常情况下,Hadoop Data目录的位置位于H... Hadoop Data目录在Hadoop分布式存储系统中,Data目录是非常重要的一个目录,用于存储HDFS(Hadoop Distributed File System)的数据块。在Hadoop集群中,每个数据节点都会有一个Data目录,用来存储该节点上的数据块。本篇博客将详细介绍Hadoop Data目录的相关内容。1. Data目录位置通常情况下,Hadoop Data目录的位置位于H...
- 1. 因为之前的是master,修改主机名修改主机名是自己需要的名字。查看主机名发现还是had1,怎么办?需要reboot重启一下啊!!!重启完毕再看!!!2. 克隆主机注意,必须是完整克隆,否则就是假克隆。查看网址,发现有问题哦:因为原来老的网卡的是eth0,则默认新的是eth1,所以,需要删除旧的网卡,即删除eth0vi /etc/udev/rules.d/70-persistent-n... 1. 因为之前的是master,修改主机名修改主机名是自己需要的名字。查看主机名发现还是had1,怎么办?需要reboot重启一下啊!!!重启完毕再看!!!2. 克隆主机注意,必须是完整克隆,否则就是假克隆。查看网址,发现有问题哦:因为原来老的网卡的是eth0,则默认新的是eth1,所以,需要删除旧的网卡,即删除eth0vi /etc/udev/rules.d/70-persistent-n...
- 一、背景Hadoop业务的整体开发流程: 从Hadoop的业务开发流程图中可以看出,在大数据的业务处理过程中,对于数据的采集是十分重要的一步,也是不可避免的一步.许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征:(1) 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦;(2) 支持近实时... 一、背景Hadoop业务的整体开发流程: 从Hadoop的业务开发流程图中可以看出,在大数据的业务处理过程中,对于数据的采集是十分重要的一步,也是不可避免的一步.许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征:(1) 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦;(2) 支持近实时...
上滑加载中
推荐直播
-
Skill 构建 × 智能创作:基于华为云码道的 AI 内容生产提效方案2026/03/25 周三 19:00-20:00
余伟,华为云软件研发工程师/万邵业(万少),华为云HCDE开发者专家
本次直播带来两大实战:华为云码道 Skill-Creator 手把手搭建专属知识库 Skill;如何用码道提效 OpenClaw 小说文本,打造从大纲到成稿的 AI 原创小说全链路。技术干货 + OPC创作思路,一次讲透!
回顾中 -
码道新技能,AI 新生产力——从自动视频生成到开源项目解析2026/04/08 周三 19:00-21:00
童得力-华为云开发者生态运营总监/何文强-无人机企业AI提效负责人
本次华为云码道 Skill 实战活动,聚焦两大 AI 开发场景:通过实战教学,带你打造 AI 编程自动生成视频 Skill,并实现对 GitHub 热门开源项目的智能知识抽取,手把手掌握 Skill 开发全流程,用 AI 提升研发效率与内容生产力。
回顾中 -
华为云码道:零代码股票智能决策平台全功能实战2026/04/18 周六 10:00-12:00
秦拳德-中软国际教育卓越研究院研究员、华为云金牌讲师、云原生技术专家
利用Tushare接口获取实时行情数据,采用Transformer算法进行时序预测与涨跌分析,并集成DeepSeek API提供智能解读。同时,项目深度结合华为云CodeArts(码道)的代码智能体能力,实现代码一键推送至云端代码仓库,建立起高效、可协作的团队开发新范式。开发者可快速上手,从零打造功能完整的个股筛选、智能分析与风险管控产品。
回顾中
热门标签