Hadoop_标签_开发者_华为云

博客(764)
视频(1)
论坛(0)
云声(0)
代码示例(0)

Hadoop宕机
1）如果MR造成系统宕机。此时要控制Yarn同时运行的任务数，和每个任务申请的最大内存。调整参数： yarn.scheduler.maximum-allocation-mb（单个任务可申请的最多物理内存量，默认是8192MB） 2）如果写入文件过量造成NameNode宕机。那么调高Kafka的存储大小，控制从Kafka到HDFS的写入速度。高峰期的时候用Kafka进行缓存，高峰...

bigdata张凯翔
发表于2021-03-28 00:02:59
4170 0 0

4.1k 0 0

1）如果MR造成系统宕机。此时要控制Yarn同时运行的任务数，和每个任务申请的最大内存。调整参数： yarn.scheduler.maximum-allocation-mb（单个任务可申请的最多物理内存量，默认是8192MB） 2）如果写入文件过量造成NameNode宕机。那么调高Kafka的存储大小，控制从Kafka到HDFS的写入速度。高峰期的时候用Kafka进行缓存，高峰...
Hadoop Kafka
Hadoop参数调优
1）在hdfs-site.xml文件中配置多目录，最好提前配置好，否则更改目录需要重新启动集群 2）NameNode有一个工作线程池，用来处理不同DataNode的并发心跳以及客户端并发的元数据操作。 dfs.namenode.handler.count=20 * log2(Cluster Size)，比如集群规模为10台时，此参数设置为60 3）编辑日志存储路径dfs.nam...

bigdata张凯翔
发表于2021-03-27 23:16:19
4332 0 0

4.3k 0 0

1）在hdfs-site.xml文件中配置多目录，最好提前配置好，否则更改目录需要重新启动集群 2）NameNode有一个工作线程池，用来处理不同DataNode的并发心跳以及客户端并发的元数据操作。 dfs.namenode.handler.count=20 * log2(Cluster Size)，比如集群规模为10台时，此参数设置为60 3）编辑日志存储路径dfs.nam...
Hadoop
Hadoop 家族技能图谱——包含Hive和Mahout两个大类
导读：hadoop是开源的分布式存储和分布式计算平台.由HDFS（分布式文件存储系统,存储海量数据）Mapreduce（并行处理框架,实现任务分配和调度.）组成。可以搭建大型数据仓库,分析海量日志,存储,统计等。Zookeeper 解决分布式环境下的数据管理，统一命名，状态同步，集群管理，配置同步分布式协作服务。HIVE 数据仓库（离线分析）HQL用于运行存储在Hado...

孙叫兽
发表于2021-03-27 22:54:52
3932 0 0

3.9k 0 0

导读：hadoop是开源的分布式存储和分布式计算平台.由HDFS（分布式文件存储系统,存储海量数据）Mapreduce（并行处理框架,实现任务分配和调度.）组成。可以搭建大型数据仓库,分析海量日志,存储,统计等。Zookeeper 解决分布式环境下的数据管理，统一命名，状态同步，集群管理，配置同步分布式协作服务。HIVE 数据仓库（离线分析）HQL用于运行存储在Hado...
Hadoop Hive
Hive基础(七)-测试题
1.Hive包含哪些数据模型? image.png database:在HDFS中表现为${hive.metastore.warehouse.dir}目录下一个文件夹。 table:在HDFS中表现所属database目录下一个文件夹 external table:与table类似,不过其数据存放位置可以指定任意HDFS目录路径。 partition:在HDFS中表...

bigdata张凯翔
发表于2021-03-26 00:55:02
3864 0 0

3.8k 0 0

1.Hive包含哪些数据模型? image.png database:在HDFS中表现为${hive.metastore.warehouse.dir}目录下一个文件夹。 table:在HDFS中表现所属database目录下一个文件夹 external table:与table类似,不过其数据存放位置可以指定任意HDFS目录路径。 partition:在HDFS中表...
Hadoop Hive
sqoop 导入导出数据HDFS
sqoop 导入导出数据HDFS 1）导入数据库表数据到 HDFS 默认目录 2）导入数据库表到HDFS指定目录导入导出数据到HIVE 1）将MySQL表中的数据导入到hive中 bin/sqoop import --connect jdbc:mysql://172.16.43.67:3306/userdb --username root --password admin ...

bigdata张凯翔
发表于2021-03-26 00:39:16
4047 0 0

4.0k 0 0

sqoop 导入导出数据HDFS 1）导入数据库表数据到 HDFS 默认目录 2）导入数据库表到HDFS指定目录导入导出数据到HIVE 1）将MySQL表中的数据导入到hive中 bin/sqoop import --connect jdbc:mysql://172.16.43.67:3306/userdb --username root --password admin ...
Hadoop
hdfs文件迁移
hadoop跨集群之间迁移HDFS数据不同hadoop集群之间迁移hive数据 hadoop跨集群之间迁移hive数据 hadoop dfs -chmod -R 777 /tmp/hive/ 参考:RuntimeException: root scratch dir: /tmp/hive在HDFS上应该是可写的。当前权限为:rwx——

bigdata张凯翔
发表于2021-03-25 23:53:01
3677 0 0

3.6k 0 0

hadoop跨集群之间迁移HDFS数据不同hadoop集群之间迁移hive数据 hadoop跨集群之间迁移hive数据 hadoop dfs -chmod -R 777 /tmp/hive/ 参考:RuntimeException: root scratch dir: /tmp/hive在HDFS上应该是可写的。当前权限为:rwx——
Hadoop
01_azkaban基础介绍，使用场景
概述 azkaban官网： https://azkaban.github.io/ 为什么需要工作流调度系统一个完整的数据分析系统通常都是由大量任务单元组成： shell脚本程序，java程序，mapreduce程序、hive脚本等各任务单元之间存在时间先后及前后依赖关系为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行；例如，我们可能有这样一...

bigdata张凯翔
发表于2021-03-25 23:38:56
4119 0 0

4.1k 0 0

概述 azkaban官网： https://azkaban.github.io/ 为什么需要工作流调度系统一个完整的数据分析系统通常都是由大量任务单元组成： shell脚本程序，java程序，mapreduce程序、hive脚本等各任务单元之间存在时间先后及前后依赖关系为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行；例如，我们可能有这样一...
Hadoop
Hive优化(十八)-推测执行
推测执行在分布式集群环境下，因为程序Bug（包括Hadoop本身的bug），负载不均衡或者资源分布不均等原因，会造成同一个作业的多个任务之间运行速度不一致，有些任务的运行速度可能明显慢于其他任务（比如一个作业的某个任务进度只有50%，而其他所有任务已经运行完毕），则这些任务会拖慢作业的整体执行进度。为了避免这种情况发生，Hadoop采用了推测执行（Speculative Ex...

bigdata张凯翔
发表于2021-03-25 23:33:40
4659 0 0

4.6k 0 0

推测执行在分布式集群环境下，因为程序Bug（包括Hadoop本身的bug），负载不均衡或者资源分布不均等原因，会造成同一个作业的多个任务之间运行速度不一致，有些任务的运行速度可能明显慢于其他任务（比如一个作业的某个任务进度只有50%，而其他所有任务已经运行完毕），则这些任务会拖慢作业的整体执行进度。为了避免这种情况发生，Hadoop采用了推测执行（Speculative Ex...
Hadoop Hive
【Hive基础增强】Hive数据导入与导出
1.向表中装载数据（Load）基本语法 hive>load data local inpath '/opt/module/datas/student.txt' [overwrite] into table student [partition (partcol1=val1,…)]; （1）load data:表示加载数据（2）local:表示从本地加载数据到hive表...

bigdata张凯翔
发表于2021-03-25 23:16:51
6774 0 0

6.7k 0 0

1.向表中装载数据（Load）基本语法 hive>load data local inpath '/opt/module/datas/student.txt' [overwrite] into table student [partition (partcol1=val1,…)]; （1）load data:表示加载数据（2）local:表示从本地加载数据到hive表...
Hadoop Hive
Hadoop环境搭建测试以及MapReduce实例实现
目录 1 任务 2 过程 2.1 熟悉常用的 Hadoop 命令 2.2 Hadoop环境搭建 1.SSH登录权限设置 2.安装Java环境 3.Hadoop的安装 4.伪分布式安装配置 2.3 Wordcount实例 2.4 搭建eclipse环境编程实现Wordcount程序 1、安装eclipse 2.配置Hadoop-Eclipse-Plugi...

悲恋花丶无心之人
发表于2021-02-03 01:16:43
6786 0 0

6.7k 0 0

目录 1 任务 2 过程 2.1 熟悉常用的 Hadoop 命令 2.2 Hadoop环境搭建 1.SSH登录权限设置 2.安装Java环境 3.Hadoop的安装 4.伪分布式安装配置 2.3 Wordcount实例 2.4 搭建eclipse环境编程实现Wordcount程序 1、安装eclipse 2.配置Hadoop-Eclipse-Plugi...
Hadoop MapReduce
大数据技术与应用复习篇
内容太多了，想着就这样大眼瞪小眼的也没办法，还不如整理一份。 Tips：真要学习的就绕开吧，仅为考试所用，太难的内容没有，我也不耽误宝贵的时间，有这时间多看几篇我其他的干货不好吗？文章目录大数据概述HadoopHadoop简介Hadoop特性大规模文件系统的整体结构通信协议冗余数据保存 SparkSpark简介Scala简介Spark VS Hado...

看，未来
发表于2021-01-10 01:10:09
4336 0 0

4.3k 0 0

内容太多了，想着就这样大眼瞪小眼的也没办法，还不如整理一份。 Tips：真要学习的就绕开吧，仅为考试所用，太难的内容没有，我也不耽误宝贵的时间，有这时间多看几篇我其他的干货不好吗？文章目录大数据概述HadoopHadoop简介Hadoop特性大规模文件系统的整体结构通信协议冗余数据保存 SparkSpark简介Scala简介Spark VS Hado...
Hadoop 大数据
Spark Core快速入门系列(4) | ＜Action＞行动算子转换算子
大家好，我是不温卜火，是一名计算机学院大数据专业大二的学生，昵称来源于成语—不温不火，本意是希望自己性情温和。作为一名互联网行业的小白，博主写博客一方面是为了记录自己的学习过程，另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限，博客中难免会有一些错误出现，有纰漏之处恳请各位大佬不吝赐教！暂时只有csdn这一个平台，博客...

不温卜火
发表于2021-01-07 20:19:38
5006 0 0

5.0k 0 0

大家好，我是不温卜火，是一名计算机学院大数据专业大二的学生，昵称来源于成语—不温不火，本意是希望自己性情温和。作为一名互联网行业的小白，博主写博客一方面是为了记录自己的学习过程，另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限，博客中难免会有一些错误出现，有纰漏之处恳请各位大佬不吝赐教！暂时只有csdn这一个平台，博客...
Hadoop spark
Spark快速入门系列(6) | Spark环境搭建—standalone(3) 配置HA高可用模式
大家好，我是不温卜火，是一名计算机学院大数据专业大二的学生，昵称来源于成语—不温不火，本意是希望自己性情温和。作为一名互联网行业的小白，博主写博客一方面是为了记录自己的学习过程，另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限，博客中难免会有一些错误出现，有纰漏之处恳请各位大佬不吝赐教！暂时只有csdn这一个平台，博客...

不温卜火
发表于2021-01-07 19:35:34
4261 0 0

4.2k 0 0

大家好，我是不温卜火，是一名计算机学院大数据专业大二的学生，昵称来源于成语—不温不火，本意是希望自己性情温和。作为一名互联网行业的小白，博主写博客一方面是为了记录自己的学习过程，另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限，博客中难免会有一些错误出现，有纰漏之处恳请各位大佬不吝赐教！暂时只有csdn这一个平台，博客...
Hadoop spark
Spark快速入门系列(2) | Spark 运行模式之Local本地模式
大家好，我是不温卜火，是一名计算机学院大数据专业大二的学生，昵称来源于成语—不温不火，本意是希望自己性情温和。作为一名互联网行业的小白，博主写博客一方面是为了记录自己的学习过程，另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限，博客中难免会有一些错误出现，有纰漏之处恳请各位大佬不吝赐教！暂时只有csdn这一个平台，博客...

不温卜火
发表于2021-01-07 18:53:00
4420 0 0

4.4k 0 0

大家好，我是不温卜火，是一名计算机学院大数据专业大二的学生，昵称来源于成语—不温不火，本意是希望自己性情温和。作为一名互联网行业的小白，博主写博客一方面是为了记录自己的学习过程，另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限，博客中难免会有一些错误出现，有纰漏之处恳请各位大佬不吝赐教！暂时只有csdn这一个平台，博客...
Hadoop spark
Spark快速入门系列(4) | Spark环境搭建—standalone(1) 集群的搭建
大家好，我是不温卜火，是一名计算机学院大数据专业大二的学生，昵称来源于成语—不温不火，本意是希望自己性情温和。作为一名互联网行业的小白，博主写博客一方面是为了记录自己的学习过程，另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限，博客中难免会有一些错误出现，有纰漏之处恳请各位大佬不吝赐教！暂时只有csdn这一个平台，博客...

不温卜火
发表于2021-01-07 17:56:07
4484 0 0

4.4k 0 0

大家好，我是不温卜火，是一名计算机学院大数据专业大二的学生，昵称来源于成语—不温不火，本意是希望自己性情温和。作为一名互联网行业的小白，博主写博客一方面是为了记录自己的学习过程，另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限，博客中难免会有一些错误出现，有纰漏之处恳请各位大佬不吝赐教！暂时只有csdn这一个平台，博客...
Hadoop spark

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript