- 背景 随着大数据时代的到来,越来越多的数据流向了Hadoop生态圈,同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在Hadoop生态圈的快速发展过程中,涌现了一批开源的数据分析引擎,例如Hive、Spark SQL、Impala、Presto等,同时也产生了多个高性能的列式存储格式,例如RCFile、ORC、Parquet等,本... 背景 随着大数据时代的到来,越来越多的数据流向了Hadoop生态圈,同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在Hadoop生态圈的快速发展过程中,涌现了一批开源的数据分析引擎,例如Hive、Spark SQL、Impala、Presto等,同时也产生了多个高性能的列式存储格式,例如RCFile、ORC、Parquet等,本...
- 目录 1、OLAP和OLTP的区别 2、OLAP分类 3、OLAP基本操作 4、OLAP选型 1、olap和oltp的区别 OLTPOLAP对象业务开发人员分析决策人员功能日常事务处理面向分析决策模型关系模型多维模型数据量几条或几十条记录>百万于万条记录操作类型增、删、查、改(CRUD)查询为主总体概括联机事务处理在线分析处理 2、OLAP分类 MOLAP,... 目录 1、OLAP和OLTP的区别 2、OLAP分类 3、OLAP基本操作 4、OLAP选型 1、olap和oltp的区别 OLTPOLAP对象业务开发人员分析决策人员功能日常事务处理面向分析决策模型关系模型多维模型数据量几条或几十条记录>百万于万条记录操作类型增、删、查、改(CRUD)查询为主总体概括联机事务处理在线分析处理 2、OLAP分类 MOLAP,...
- 三更灯火五更鸡,正是男儿读书时。 小编整理了一些常用的大数据组件,使用场景及功能特性,希望对后浪有所帮助。 分类名称简介功能特点使用场景大数据存储HDFSHDFS是一个分布式的文件系统,它具有高度的容错,高吞吐量,弹性伸缩等优点。是高度容错性和高吞吐量的海量数据存储解决方案。高容错性 HDFS通过多方面保证数据的可靠性,多个副本... 三更灯火五更鸡,正是男儿读书时。 小编整理了一些常用的大数据组件,使用场景及功能特性,希望对后浪有所帮助。 分类名称简介功能特点使用场景大数据存储HDFSHDFS是一个分布式的文件系统,它具有高度的容错,高吞吐量,弹性伸缩等优点。是高度容错性和高吞吐量的海量数据存储解决方案。高容错性 HDFS通过多方面保证数据的可靠性,多个副本...
- 作者简介: 蓝桥签约作者、大数据&Python领域优质创作者。管理多个大数据技术群,帮助大学生就业和初级程序员解决工作难题。 我的使命与愿景:持续稳定输出,赋能中国技术社区蓬勃发展! 大数据系列文章,从技术能力、业务基础、分析思维三大板块来呈现,你将收获: ❖ 提升自信心,自如应对面试,顺利拿到实习岗位或offer; ❖ 掌... 作者简介: 蓝桥签约作者、大数据&Python领域优质创作者。管理多个大数据技术群,帮助大学生就业和初级程序员解决工作难题。 我的使命与愿景:持续稳定输出,赋能中国技术社区蓬勃发展! 大数据系列文章,从技术能力、业务基础、分析思维三大板块来呈现,你将收获: ❖ 提升自信心,自如应对面试,顺利拿到实习岗位或offer; ❖ 掌...
- 作者简介 蓝桥签约作者、大数据&Python领域优质创作者。维护多个大数据技术群,帮助大学生就业和初级程序员解决工作难题。 我的使命与愿景:持续稳定输出,赋能中国技术社区蓬勃发展! 免费下载海量【PPT模板、简历模板、学习资料】: https://blog.csdn.net/weixin_39032019/article/details/118088462 ... 作者简介 蓝桥签约作者、大数据&Python领域优质创作者。维护多个大数据技术群,帮助大学生就业和初级程序员解决工作难题。 我的使命与愿景:持续稳定输出,赋能中国技术社区蓬勃发展! 免费下载海量【PPT模板、简历模板、学习资料】: https://blog.csdn.net/weixin_39032019/article/details/118088462 ...
- 大数据系列爽文,从技术能力、业务基础、分析思维三大板块来呈现,你将收获: ❖ 提升自信心,自如应对面试,顺利拿到实习岗位或offer; ❖ 掌握大数据的基础知识,与其他同事沟通无障碍; ❖ 具备一定的项目实战能力,对于大数据工作直接上手; 有问题的小伙伴欢迎csdn主... 大数据系列爽文,从技术能力、业务基础、分析思维三大板块来呈现,你将收获: ❖ 提升自信心,自如应对面试,顺利拿到实习岗位或offer; ❖ 掌握大数据的基础知识,与其他同事沟通无障碍; ❖ 具备一定的项目实战能力,对于大数据工作直接上手; 有问题的小伙伴欢迎csdn主...
- 原文:http://www.cnblogs.com/lijingchn/p/5574476.html 一. 简介 参考了网上许多教程,最终把hadoop在ubuntu14.04中安装配置成功。下面就把详细的安装步骤叙述一下。我所使用的环境:两台ubuntu 14.04 64位的台式机,hadoop选择2.7.1版本。(前边主要介绍单机版的配置,集群版是在单机版的基础... 原文:http://www.cnblogs.com/lijingchn/p/5574476.html 一. 简介 参考了网上许多教程,最终把hadoop在ubuntu14.04中安装配置成功。下面就把详细的安装步骤叙述一下。我所使用的环境:两台ubuntu 14.04 64位的台式机,hadoop选择2.7.1版本。(前边主要介绍单机版的配置,集群版是在单机版的基础...
- Hadoop作为大数据的支撑,那么我们会有一些疑问,什么是Hadoop,Hadoop能够做些什么,它的优点是什么,它是如何进行海量数据的操作的。相信这些疑问,一定在此时困扰着你,不要担心,下面我们一步一步的去认识Hadoop这个神奇的的小象! 起源 从1946年开始计算机的诞生,再到如今的2020年人工智能大数据时代,我们的数据一直在呈现级数似的增长,在过去的十几年... Hadoop作为大数据的支撑,那么我们会有一些疑问,什么是Hadoop,Hadoop能够做些什么,它的优点是什么,它是如何进行海量数据的操作的。相信这些疑问,一定在此时困扰着你,不要担心,下面我们一步一步的去认识Hadoop这个神奇的的小象! 起源 从1946年开始计算机的诞生,再到如今的2020年人工智能大数据时代,我们的数据一直在呈现级数似的增长,在过去的十几年...
- 在Hadoop的环境里面我们测试一个文件,对西游记这个书籍里面的所有词语,进行统计排序。hadoop包括两个核心组成:HDFS:分布式文件系统,存储海量的数据MapReduce:并行处理框架,实现任务分解和调度。 hadoop运行机制 MapReduce工作原理 首先我们准备四个文件,在自己Windows里面已经写好的,或者是从其他地方copy过来的(涉及一些... 在Hadoop的环境里面我们测试一个文件,对西游记这个书籍里面的所有词语,进行统计排序。hadoop包括两个核心组成:HDFS:分布式文件系统,存储海量的数据MapReduce:并行处理框架,实现任务分解和调度。 hadoop运行机制 MapReduce工作原理 首先我们准备四个文件,在自己Windows里面已经写好的,或者是从其他地方copy过来的(涉及一些...
- 文章目录 版本 安装docker 创建镜像 centos镜像 hadoop和jdk镜像 配置网络 配置ssh免密登录 配置集群 配置环境变量 启动测试 版本 CentOs7 docker20 jdk1.8 hadoop3.2 手把手复现,有手就行。 可以使用虚拟机或服务器,... 文章目录 版本 安装docker 创建镜像 centos镜像 hadoop和jdk镜像 配置网络 配置ssh免密登录 配置集群 配置环境变量 启动测试 版本 CentOs7 docker20 jdk1.8 hadoop3.2 手把手复现,有手就行。 可以使用虚拟机或服务器,...
- sink.setBatchSize(1024 * 1024 * 400L); // this is 400 MB, sink.setBatchRolloverInterval(20 * 60 * 1000L); // this is 20 mins 注意:batchSize和BatchRolloverInterval一定要加L,虽然不加L也不会报错, 但笔者遇到一个坑设置10... sink.setBatchSize(1024 * 1024 * 400L); // this is 400 MB, sink.setBatchRolloverInterval(20 * 60 * 1000L); // this is 20 mins 注意:batchSize和BatchRolloverInterval一定要加L,虽然不加L也不会报错, 但笔者遇到一个坑设置10...
- 1 简单流程 image.png 0.Flink的JobManager创建CheckpointCoordinator 1.Coordinator向所有的SourceOperator发送Barrier栅栏(理解为执行Checkpoint的信号) 2.SourceOperator接收到Barrier之后,暂停当前的操作(暂停的时间很短,因为后续的写快照是异步的),并制作... 1 简单流程 image.png 0.Flink的JobManager创建CheckpointCoordinator 1.Coordinator向所有的SourceOperator发送Barrier栅栏(理解为执行Checkpoint的信号) 2.SourceOperator接收到Barrier之后,暂停当前的操作(暂停的时间很短,因为后续的写快照是异步的),并制作...
- image.png 另一种就是在文件系统上的 FsStateBackend 构建方法是需要传一个文件路径和是否异步快照。 State 依然在 TaskManager 内存中,但不会像 MemoryStateBackend 是 5 M 的设置上限 Checkpoint 存储在外部文件系统(本地或 HDFS),打破了总大小 Jobmanager 内存的限制。 推荐使用的... image.png 另一种就是在文件系统上的 FsStateBackend 构建方法是需要传一个文件路径和是否异步快照。 State 依然在 TaskManager 内存中,但不会像 MemoryStateBackend 是 5 M 的设置上限 Checkpoint 存储在外部文件系统(本地或 HDFS),打破了总大小 Jobmanager 内存的限制。 推荐使用的...
- 1)hive 的使用,内外部表的区别,分区作用, UDF 和 Hive 优化 (1)hive 使用:仓库、工具 (2)hive 内部表:加载数据到 hive 所在的 hdfs 目录,删除时,元数据和数据文件都删除 外部表:不加载数据到 hive 所在的 hdfs 目录,删除时,只删除表结构。 (3)分区作用:防止数据倾斜 (4)UDF 函数:用户自定义的函数 (主要解决格式,计... 1)hive 的使用,内外部表的区别,分区作用, UDF 和 Hive 优化 (1)hive 使用:仓库、工具 (2)hive 内部表:加载数据到 hive 所在的 hdfs 目录,删除时,元数据和数据文件都删除 外部表:不加载数据到 hive 所在的 hdfs 目录,删除时,只删除表结构。 (3)分区作用:防止数据倾斜 (4)UDF 函数:用户自定义的函数 (主要解决格式,计...
- 当我们在hdfs上操作文件的时候,有时候会报错 ,出现namenode in safemode namenode处于安全模式的原因: 1、NameNode发现集群中DataNode丢失达到一定比例(0.01%)时会进入安全模式,此时只允许查看数据不允许对数据进行任何操作。 2、HDFS集群即使启动正常,启动只会依旧会进入安全模式一段时间,这时你不需要理会他,稍等片刻即可... 当我们在hdfs上操作文件的时候,有时候会报错 ,出现namenode in safemode namenode处于安全模式的原因: 1、NameNode发现集群中DataNode丢失达到一定比例(0.01%)时会进入安全模式,此时只允许查看数据不允许对数据进行任何操作。 2、HDFS集群即使启动正常,启动只会依旧会进入安全模式一段时间,这时你不需要理会他,稍等片刻即可...
上滑加载中
推荐直播
-
华为云IoT开源专家实践分享:开源让物联网平台更开放、易用
2024/05/14 周二 16:30-18:00
张俭 华为云IoT DTSE技术布道师
作为开发者的你是否也想加入开源社区?本期物联网平台资深“程序猿”,开源专家张俭,为你揭秘华为云IoT如何借助开源构建可靠、开放、易用的物联网平台,并手把手教你玩转开源社区!
去报名
热门标签