Hadoop_标签_开发者_华为云

博客(12.2k)
视频(1)
论坛(0)
云声(0)
代码示例(0)

HDFS高可靠性是如何实现的
四个组件的可靠性与NN主备机制:JN(日志节点)，Zookeeper，NameNode主备部署（HA机制），数据存储三副本；修改：editlog实际上是NN节点生成上传，JN什么都不做，只做存储使用。HDFS是大容量，高吞吐量、高容错的分布式文件存储系统，采用的是流式数据访问的方式；上面的因素决定了HDFS的两个特点：适合场景：HDFS适合大容量和流式数据访问场景；不...

绯村大佬
发表于2022-03-15 11:48:32
8590 0 0

8.5k 0 0

四个组件的可靠性与NN主备机制:JN(日志节点)，Zookeeper，NameNode主备部署（HA机制），数据存储三副本；修改：editlog实际上是NN节点生成上传，JN什么都不做，只做存储使用。HDFS是大容量，高吞吐量、高容错的分布式文件存储系统，采用的是流式数据访问的方式；上面的因素决定了HDFS的两个特点：适合场景：HDFS适合大容量和流式数据访问场景；不...
Hadoop ZooKeeper
云原生时代的到来，Hive会被替代吗
Apache Hive 在 2010 年作为 Hadoop 生态系统的一个组成部分突然出现，当时 Hadoop 是进行大数据分析的新颖且创新的方式。Hive 所做的是为 Hadoop 实现了一个 SQL 接口。它的架构包括两个主要服务：查询引擎——负责 SQL 语句的执行。一个 Metastore——负责将 HDFS 中的数据集合虚拟化为表。Hadoop 背后的概念是革命性的。庞大的数据...

从大数据到人工智能
发表于2022-03-15 01:03:11
5073 0 0

5.0k 0 0

Apache Hive 在 2010 年作为 Hadoop 生态系统的一个组成部分突然出现，当时 Hadoop 是进行大数据分析的新颖且创新的方式。Hive 所做的是为 Hadoop 实现了一个 SQL 接口。它的架构包括两个主要服务：查询引擎——负责 SQL 语句的执行。一个 Metastore——负责将 HDFS 中的数据集合虚拟化为表。Hadoop 背后的概念是革命性的。庞大的数据...
Hadoop Hive 云原生
[hadoop3.x]HDFS存储策略和冷热温三阶段数据存储(六)概述
@[toc] 前言目前博客Hadoop文章大都停留在Hadoop2.x阶段，本系列将依据黑马程序员大数据Hadoop3.x全套教程，对2.x没有的新特性进行补充更新，一键三连加关注，下次不迷路！历史文章[hadoop3.x系列]HDFS REST HTTP API的使用(一)WebHDFS[hadoop3.x系列]HDFS REST HTTP API的使用(二)HttpFS[hadoop3...

Maynor学长
发表于2022-03-05 16:26:53
2191 0 0

2.1k 0 0

@[toc] 前言目前博客Hadoop文章大都停留在Hadoop2.x阶段，本系列将依据黑马程序员大数据Hadoop3.x全套教程，对2.x没有的新特性进行补充更新，一键三连加关注，下次不迷路！历史文章[hadoop3.x系列]HDFS REST HTTP API的使用(一)WebHDFS[hadoop3.x系列]HDFS REST HTTP API的使用(二)HttpFS[hadoop3...
Hadoop
[hadoop3.x系列]Hadoop常用文件存储格式及BigData File Viewer工具的使用(三)
前言目前博客Hadoop文章大都停留在Hadoop2.x阶段，本系列对2.x没有的新特性进行补充更新，一键三连加关注，下次不迷路！历史文章[hadoop3.x系列]HDFS REST HTTP API的使用(一)WebHDFS[hadoop3.x系列]HDFS REST HTTP API的使用(二)HttpFS 🍑Hadoop常用文件存储格式传统系统常见文件存储格式在Windows有...

Maynor学长
发表于2022-02-25 17:05:34
4462 0 0

4.4k 0 0

前言目前博客Hadoop文章大都停留在Hadoop2.x阶段，本系列对2.x没有的新特性进行补充更新，一键三连加关注，下次不迷路！历史文章[hadoop3.x系列]HDFS REST HTTP API的使用(一)WebHDFS[hadoop3.x系列]HDFS REST HTTP API的使用(二)HttpFS 🍑Hadoop常用文件存储格式传统系统常见文件存储格式在Windows有...
BigData Pro 大数据 Hadoop
[hadoop3.x系列]HDFS REST HTTP API的使用(二)HttpFS
目前博客Hadoop文章大都停留在Hadoop2.x阶段，本系列将对2.x没有的新特性进行补充更新，一键三连加关注，下次不迷路！

Maynor学长
发表于2022-02-25 17:03:09
2150 0 0

2.1k 0 0

目前博客Hadoop文章大都停留在Hadoop2.x阶段，本系列将对2.x没有的新特性进行补充更新，一键三连加关注，下次不迷路！
API Hadoop http
macOS下 Hive 2.x 的安装与配置
1 简介Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的[SQL]查询功能，可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是...

JavaEdge
发表于2022-01-21 21:35:21
3690 0 0

3.6k 0 0

1 简介Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的[SQL]查询功能，可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是...
Hadoop Hive
【Hadoop】关于Sqoop导出数据到postgresql时schema的设置问题
说明使用sqoop导出导入数据非常的方便，但是对于postgresql(简称PG库)时就碰到了一个问题，pg库是三层结构的database——schema——table。如果想导入到某一个模式下，那就需要指定模式才可以。但是sqoop如何指定pg库的模式？解决办法碰到问题首先要看文档才对的。文档这里已经指出如何指定pg库的schema了。官方文档地址文档已经说了，如果向指定schema需...

Copy工程师
发表于2022-01-17 20:08:52
5540 0 0

5.5k 0 0

说明使用sqoop导出导入数据非常的方便，但是对于postgresql(简称PG库)时就碰到了一个问题，pg库是三层结构的database——schema——table。如果想导入到某一个模式下，那就需要指定模式才可以。但是sqoop如何指定pg库的模式？解决办法碰到问题首先要看文档才对的。文档这里已经指出如何指定pg库的schema了。官方文档地址文档已经说了，如果向指定schema需...
EI企业智能 Hadoop PostgreSQL 可信智能计算服务 TICS 智能数据
FusionInsight MRS Hudi原理解析之Clustering
什么是Hudi的Clustering即数据布局，该服务可重新组织数据以提高查询性能，也不会影响摄取速度。Hudi的Clustering架构Hudi通过其写入客户端API提供了不同的操作，如insert/upsert/bulk_insert来将数据写入Hudi表。为了能够在文件大小和入湖速度之间进行权衡，Hudi提供了一个hoodie.parquet.small.file.limit配置来设置...

一枚核桃
发表于2021-12-28 09:50:32
7452 0 0

7.4k 0 0

什么是Hudi的Clustering即数据布局，该服务可重新组织数据以提高查询性能，也不会影响摄取速度。Hudi的Clustering架构Hudi通过其写入客户端API提供了不同的操作，如insert/upsert/bulk_insert来将数据写入Hudi表。为了能够在文件大小和入湖速度之间进行权衡，Hudi提供了一个hoodie.parquet.small.file.limit配置来设置...
EI企业智能 FusionInsight Hadoop MapReduce
FusionInsight MRS Hudi原理解析之Metadata Table
Hudi是数据湖的文件组织层，对Parquet格式文件进行管理提供数据湖能力，支持多种计算引擎，提供IUD接口，在 HDFS的数据集上提供了插入更新和增量拉取的流原语。

一枚核桃
发表于2021-12-28 09:43:30
5700 0 0

5.7k 0 0

Hudi是数据湖的文件组织层，对Parquet格式文件进行管理提供数据湖能力，支持多种计算引擎，提供IUD接口，在 HDFS的数据集上提供了插入更新和增量拉取的流原语。
EI企业智能 FusionInsight Hadoop MapReduce
Hadoop HDFS学习之HDFS客户端操作
一、HDFS客户端环境准备1．根据自己电脑的操作系统拷贝对应的编译后的hadoop jar包到非中文路径（例如：D:\Installed\hadoop-2.10.1）。2．配置HADOOP_HOME环境变量。1、添加HADOOP_HOME环境变量 HADOOP_HOME=D:\Installed\hadoop-2.10.12、PATH中添加 %HADOOP_HOME%\bin3、cmd中验...

孤星恋悦
发表于2021-12-16 16:53:23
3023 0 0

3.0k 0 0

一、HDFS客户端环境准备1．根据自己电脑的操作系统拷贝对应的编译后的hadoop jar包到非中文路径（例如：D:\Installed\hadoop-2.10.1）。2．配置HADOOP_HOME环境变量。1、添加HADOOP_HOME环境变量 HADOOP_HOME=D:\Installed\hadoop-2.10.12、PATH中添加 %HADOOP_HOME%\bin3、cmd中验...
Hadoop
Hadoop HDFS学习之HDFS的常用Shell操作
一、基本语法bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令dfs是fs的实现类。二、命令大全cd /opt/module/hadoop-2.10.1/bin/hadoop fsUsage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] ...

孤星恋悦
发表于2021-12-16 16:51:37
3209 0 0

3.2k 0 0

一、基本语法bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令dfs是fs的实现类。二、命令大全cd /opt/module/hadoop-2.10.1/bin/hadoop fsUsage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] ...
Hadoop Shell
Hadoop HDFS学习之HDFS概述
一、HDFS产生背景及定义 1、HDFS产生背景随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 2、HDFS定义HDFS（Hadoop Distributed File System），是一个文件系统，用于存储文件，通过...

孤星恋悦
发表于2021-12-16 16:50:32
2904 0 0

2.9k 0 0

一、HDFS产生背景及定义 1、HDFS产生背景随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 2、HDFS定义HDFS（Hadoop Distributed File System），是一个文件系统，用于存储文件，通过...
Hadoop
Hadoop单节点配置
系统版本：[root@db01 opt]# cat /etc/redhat-releaseCentOS Linux release 7.8.2003 (Core)软件版本：hadoop-3.3.0.tar.gz01，解压jdk软件包：[root@db01 opt]# ll /opt/jdk1.8.0_40/total 25960drwxr-xr-x 2 10 143 4096 Feb...

snowofsummer
发表于2021-12-14 11:00:47
2432 0 0

2.4k 0 0

系统版本：[root@db01 opt]# cat /etc/redhat-releaseCentOS Linux release 7.8.2003 (Core)软件版本：hadoop-3.3.0.tar.gz01，解压jdk软件包：[root@db01 opt]# ll /opt/jdk1.8.0_40/total 25960drwxr-xr-x 2 10 143 4096 Feb...
Hadoop
Hadoop 3.3.0 单机环境配置
配置环境变量首先修改当前用户的配置文件，添加 Hadoop 环境变量。修改 ~/.bashrcHadoop 解压后即可使用。通过在任意路径下，使用 hadoop version 查看 Hadoop 版本，来判断是否配置成功启动与停止启动 namenode、datanode、resourcemanagerhdfs --daemon start namenodehdfs --daemon...

福州司马懿
发表于2021-11-29 22:55:51
4446 0 0

4.4k 0 0

配置环境变量首先修改当前用户的配置文件，添加 Hadoop 环境变量。修改 ~/.bashrcHadoop 解压后即可使用。通过在任意路径下，使用 hadoop version 查看 Hadoop 版本，来判断是否配置成功启动与停止启动 namenode、datanode、resourcemanagerhdfs --daemon start namenodehdfs --daemon...
Hadoop 分布式
【对接工具】Smartbi工具对接HetuEngine
Smartbi工具对接HetuEngine1 适用版本MRS 811、MRS 812、Smartbi 9.5.64075.211752 预制条件MRS集群各组件运行正常。Smartbi工具包（Smartbi Insight V9.5.64075.21175.exe）已下载至本地，软件下载地址：https://www.smartbi.com.cn/download 下载连接...

李松
发表于2021-11-29 22:19:25
8568 0 0

8.5k 0 0

Smartbi工具对接HetuEngine1 适用版本MRS 811、MRS 812、Smartbi 9.5.64075.211752 预制条件MRS集群各组件运行正常。Smartbi工具包（Smartbi Insight V9.5.64075.21175.exe）已下载至本地，软件下载地址：https://www.smartbi.com.cn/download 下载连接...
EI企业智能 FusionInsight Hadoop

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript