Hadoop_标签_开发者_华为云

博客(764)
视频(1)
论坛(0)
云声(0)
代码示例(0)

两种列式存储格式：Parquet和ORC
背景随着大数据时代的到来，越来越多的数据流向了Hadoop生态圈，同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要，在Hadoop生态圈的快速发展过程中，涌现了一批开源的数据分析引擎，例如Hive、Spark SQL、Impala、Presto等，同时也产生了多个高性能的列式存储格式，例如RCFile、ORC、Parquet等，本...

不吃西红柿
发表于2021-07-15 00:18:18
15888 0 1

15.8k 0 1

背景随着大数据时代的到来，越来越多的数据流向了Hadoop生态圈，同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要，在Hadoop生态圈的快速发展过程中，涌现了一批开源的数据分析引擎，例如Hive、Spark SQL、Impala、Presto等，同时也产生了多个高性能的列式存储格式，例如RCFile、ORC、Parquet等，本...
Hadoop
一篇文章搞懂数据仓库：数据应用--OLAP
目录 1、OLAP和OLTP的区别 2、OLAP分类 3、OLAP基本操作 4、OLAP选型 1、olap和oltp的区别　OLTPOLAP对象业务开发人员分析决策人员功能日常事务处理面向分析决策模型关系模型多维模型数据量几条或几十条记录＞百万于万条记录操作类型增、删、查、改(CRUD)查询为主总体概括联机事务处理在线分析处理 2、OLAP分类 MOLAP，...

不吃西红柿
发表于2021-07-15 00:10:39
8294 0 0

8.2k 0 0

目录 1、OLAP和OLTP的区别 2、OLAP分类 3、OLAP基本操作 4、OLAP选型 1、olap和oltp的区别　OLTPOLAP对象业务开发人员分析决策人员功能日常事务处理面向分析决策模型关系模型多维模型数据量几条或几十条记录＞百万于万条记录操作类型增、删、查、改(CRUD)查询为主总体概括联机事务处理在线分析处理 2、OLAP分类 MOLAP，...
Hadoop 云数据仓库 GaussDB(DWS)
大数据生态圈常用组件（二）：概括介绍、功能特性、适用场景
    三更灯火五更鸡，正是男儿读书时。   小编整理了一些常用的大数据组件，使用场景及功能特性，希望对后浪有所帮助。分类名称简介功能特点使用场景大数据存储HDFSHDFS是一个分布式的文件系统，它具有高度的容错，高吞吐量，弹性伸缩等优点。是高度容错性和高吞吐量的海量数据存储解决方案。高容错性 HDFS通过多方面保证数据的可靠性，多个副本...

不吃西红柿
发表于2021-07-14 23:29:21
8142 0 0

8.1k 0 0

    三更灯火五更鸡，正是男儿读书时。   小编整理了一些常用的大数据组件，使用场景及功能特性，希望对后浪有所帮助。分类名称简介功能特点使用场景大数据存储HDFSHDFS是一个分布式的文件系统，它具有高度的容错，高吞吐量，弹性伸缩等优点。是高度容错性和高吞吐量的海量数据存储解决方案。高容错性 HDFS通过多方面保证数据的可靠性，多个副本...
Hadoop 大数据
23篇大数据系列（二）scala基础知识全集（史上最全，建议收藏）
作者简介：蓝桥签约作者、大数据&Python领域优质创作者。管理多个大数据技术群，帮助大学生就业和初级程序员解决工作难题。我的使命与愿景：持续稳定输出，赋能中国技术社区蓬勃发展！大数据系列文章，从技术能力、业务基础、分析思维三大板块来呈现，你将收获： ❖ 提升自信心，自如应对面试，顺利拿到实习岗位或offer； ❖ 掌...

不吃西红柿
发表于2021-07-14 23:21:54
6270 0 0

6.2k 0 0

作者简介：蓝桥签约作者、大数据&Python领域优质创作者。管理多个大数据技术群，帮助大学生就业和初级程序员解决工作难题。我的使命与愿景：持续稳定输出，赋能中国技术社区蓬勃发展！大数据系列文章，从技术能力、业务基础、分析思维三大板块来呈现，你将收获： ❖ 提升自信心，自如应对面试，顺利拿到实习岗位或offer； ❖ 掌...
Hadoop Scala 大数据
23篇大数据系列（三）sql基础知识（史上最全，建议收藏）
作者简介蓝桥签约作者、大数据&Python领域优质创作者。维护多个大数据技术群，帮助大学生就业和初级程序员解决工作难题。我的使命与愿景：持续稳定输出，赋能中国技术社区蓬勃发展！免费下载海量【PPT模板、简历模板、学习资料】： https://blog.csdn.net/weixin_39032019/article/details/118088462 ...

不吃西红柿
发表于2021-07-14 23:20:56
7756 0 0

7.7k 0 0

作者简介蓝桥签约作者、大数据&Python领域优质创作者。维护多个大数据技术群，帮助大学生就业和初级程序员解决工作难题。我的使命与愿景：持续稳定输出，赋能中国技术社区蓬勃发展！免费下载海量【PPT模板、简历模板、学习资料】： https://blog.csdn.net/weixin_39032019/article/details/118088462 ...
Hadoop SQL 大数据
23篇大数据系列（一）java基础知识全集（2万字干货，建议收藏）
大数据系列爽文，从技术能力、业务基础、分析思维三大板块来呈现，你将收获： ❖ 提升自信心，自如应对面试，顺利拿到实习岗位或offer； ❖ 掌握大数据的基础知识，与其他同事沟通无障碍； ❖ 具备一定的项目实战能力，对于大数据工作直接上手；   有问题的小伙伴欢迎csdn主...

不吃西红柿
发表于2021-07-14 22:55:11
5644 0 0

5.6k 0 0

大数据系列爽文，从技术能力、业务基础、分析思维三大板块来呈现，你将收获： ❖ 提升自信心，自如应对面试，顺利拿到实习岗位或offer； ❖ 掌握大数据的基础知识，与其他同事沟通无障碍； ❖ 具备一定的项目实战能力，对于大数据工作直接上手；   有问题的小伙伴欢迎csdn主...
Hadoop Java 大数据
Linux中安装配置hadoop集群
原文：http://www.cnblogs.com/lijingchn/p/5574476.html 一. 简介　　参考了网上许多教程，最终把hadoop在ubuntu14.04中安装配置成功。下面就把详细的安装步骤叙述一下。我所使用的环境：两台ubuntu 14.04 64位的台式机，hadoop选择2.7.1版本。（前边主要介绍单机版的配置，集群版是在单机版的基础...

风吹稻花香
发表于2021-06-05 00:37:39
3674 0 0

3.6k 0 0

原文：http://www.cnblogs.com/lijingchn/p/5574476.html 一. 简介　　参考了网上许多教程，最终把hadoop在ubuntu14.04中安装配置成功。下面就把详细的安装步骤叙述一下。我所使用的环境：两台ubuntu 14.04 64位的台式机，hadoop选择2.7.1版本。（前边主要介绍单机版的配置，集群版是在单机版的基础...
Hadoop Linux
初识Hadoop之概念认知篇
Hadoop作为大数据的支撑，那么我们会有一些疑问，什么是Hadoop，Hadoop能够做些什么，它的优点是什么，它是如何进行海量数据的操作的。相信这些疑问，一定在此时困扰着你，不要担心，下面我们一步一步的去认识Hadoop这个神奇的的小象！起源从1946年开始计算机的诞生，再到如今的2020年人工智能大数据时代，我们的数据一直在呈现级数似的增长，在过去的十几年...

王小王-123
发表于2021-04-20 00:23:39
3919 0 0

3.9k 0 0

Hadoop作为大数据的支撑，那么我们会有一些疑问，什么是Hadoop，Hadoop能够做些什么，它的优点是什么，它是如何进行海量数据的操作的。相信这些疑问，一定在此时困扰着你，不要担心，下面我们一步一步的去认识Hadoop这个神奇的的小象！起源从1946年开始计算机的诞生，再到如今的2020年人工智能大数据时代，我们的数据一直在呈现级数似的增长，在过去的十几年...
Hadoop 大数据
在Hadoop环境里面统计西游记文章的词组（hdfs实验）
在Hadoop的环境里面我们测试一个文件，对西游记这个书籍里面的所有词语，进行统计排序。hadoop包括两个核心组成：HDFS：分布式文件系统，存储海量的数据MapReduce：并行处理框架，实现任务分解和调度。 hadoop运行机制 MapReduce工作原理首先我们准备四个文件，在自己Windows里面已经写好的，或者是从其他地方copy过来的（涉及一些...

王小王-123
发表于2021-04-19 23:17:15
3703 0 0

3.7k 0 0

在Hadoop的环境里面我们测试一个文件，对西游记这个书籍里面的所有词语，进行统计排序。hadoop包括两个核心组成：HDFS：分布式文件系统，存储海量的数据MapReduce：并行处理框架，实现任务分解和调度。 hadoop运行机制 MapReduce工作原理首先我们准备四个文件，在自己Windows里面已经写好的，或者是从其他地方copy过来的（涉及一些...
Hadoop Python
使用docker部署hadoop集群-手把手复现
文章目录版本安装docker 创建镜像 centos镜像 hadoop和jdk镜像配置网络配置ssh免密登录配置集群配置环境变量启动测试版本 CentOs7 docker20 jdk1.8 hadoop3.2 手把手复现，有手就行。可以使用虚拟机或服务器，...

唔仄lo咚锵
发表于2021-04-13 00:57:01
5628 0 0

5.6k 0 0

文章目录版本安装docker 创建镜像 centos镜像 hadoop和jdk镜像配置网络配置ssh免密登录配置集群配置环境变量启动测试版本 CentOs7 docker20 jdk1.8 hadoop3.2 手把手复现，有手就行。可以使用虚拟机或服务器，...
Docker Hadoop
flink写入hdfs文件大小和时间间隔
sink.setBatchSize(1024 * 1024 * 400L); // this is 400 MB, sink.setBatchRolloverInterval(20 * 60 * 1000L); // this is 20 mins 注意：batchSize和BatchRolloverInterval一定要加L，虽然不加L也不会报错，但笔者遇到一个坑设置10...

bigdata张凯翔
发表于2021-04-05 23:19:27
4431 0 0

4.4k 0 0

sink.setBatchSize(1024 * 1024 * 400L); // this is 400 MB, sink.setBatchRolloverInterval(20 * 60 * 1000L); // this is 20 mins 注意：batchSize和BatchRolloverInterval一定要加L，虽然不加L也不会报错，但笔者遇到一个坑设置10...
Flink Hadoop
Checkpoint执行流程
1 简单流程 image.png 0.Flink的JobManager创建CheckpointCoordinator 1.Coordinator向所有的SourceOperator发送Barrier栅栏(理解为执行Checkpoint的信号) 2.SourceOperator接收到Barrier之后,暂停当前的操作(暂停的时间很短,因为后续的写快照是异步的),并制作...

bigdata张凯翔
发表于2021-04-01 01:56:39
3497 0 0

3.4k 0 0

1 简单流程 image.png 0.Flink的JobManager创建CheckpointCoordinator 1.Coordinator向所有的SourceOperator发送Barrier栅栏(理解为执行Checkpoint的信号) 2.SourceOperator接收到Barrier之后,暂停当前的操作(暂停的时间很短,因为后续的写快照是异步的),并制作...
Hadoop
[JiChu3]研究FsStateBackend
image.png 另一种就是在文件系统上的 FsStateBackend 构建方法是需要传一个文件路径和是否异步快照。 State 依然在 TaskManager 内存中，但不会像 MemoryStateBackend 是 5 M 的设置上限 Checkpoint 存储在外部文件系统（本地或 HDFS），打破了总大小 Jobmanager 内存的限制。推荐使用的...

bigdata张凯翔
发表于2021-03-30 02:43:40
3470 0 0

3.4k 0 0

image.png 另一种就是在文件系统上的 FsStateBackend 构建方法是需要传一个文件路径和是否异步快照。 State 依然在 TaskManager 内存中，但不会像 MemoryStateBackend 是 5 M 的设置上限 Checkpoint 存储在外部文件系统（本地或 HDFS），打破了总大小 Jobmanager 内存的限制。推荐使用的...
Hadoop
揭秘hive常见面试题(一)-20道
1）hive 的使用，内外部表的区别，分区作用， UDF 和 Hive 优化 (1)hive 使用：仓库、工具 (2)hive 内部表：加载数据到 hive 所在的 hdfs 目录，删除时，元数据和数据文件都删除外部表：不加载数据到 hive 所在的 hdfs 目录，删除时，只删除表结构。 (3)分区作用：防止数据倾斜 (4)UDF 函数：用户自定义的函数 (主要解决格式，计...

bigdata张凯翔
发表于2021-03-29 01:15:38
4546 0 0

4.5k 0 0

1）hive 的使用，内外部表的区别，分区作用， UDF 和 Hive 优化 (1)hive 使用：仓库、工具 (2)hive 内部表：加载数据到 hive 所在的 hdfs 目录，删除时，元数据和数据文件都删除外部表：不加载数据到 hive 所在的 hdfs 目录，删除时，只删除表结构。 (3)分区作用：防止数据倾斜 (4)UDF 函数：用户自定义的函数 (主要解决格式，计...
Hadoop Hive
namenode处于安全模式怎么解决？
当我们在hdfs上操作文件的时候，有时候会报错，出现namenode in safemode namenode处于安全模式的原因： 1、NameNode发现集群中DataNode丢失达到一定比例（0.01%）时会进入安全模式，此时只允许查看数据不允许对数据进行任何操作。 2、HDFS集群即使启动正常，启动只会依旧会进入安全模式一段时间，这时你不需要理会他，稍等片刻即可...

bigdata张凯翔
发表于2021-03-28 01:04:16
4756 0 0

4.7k 0 0

当我们在hdfs上操作文件的时候，有时候会报错，出现namenode in safemode namenode处于安全模式的原因： 1、NameNode发现集群中DataNode丢失达到一定比例（0.01%）时会进入安全模式，此时只允许查看数据不允许对数据进行任何操作。 2、HDFS集群即使启动正常，启动只会依旧会进入安全模式一段时间，这时你不需要理会他，稍等片刻即可...
Hadoop

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript