- Hadoop概述 Hadoop概述
- 经历了三个阶段大概三个月的学习,大数据全栈课程迎来了尾声,今天是大数据三阶段的最后一天,也是整个大数据课程的最后一天。这三个月的学习过程,并不是一帆风顺,而且一路荆棘。第一阶段:大数据入门篇 第一阶段的课程主要是大数据的入门知识,包括MySQL基本知识、各种概念和常用语句、JDBC的使用还有数据库事务等等,虽然是基础知识,但是非常实用,在开发中会经常用到,基本上就是对数据库的各... 经历了三个阶段大概三个月的学习,大数据全栈课程迎来了尾声,今天是大数据三阶段的最后一天,也是整个大数据课程的最后一天。这三个月的学习过程,并不是一帆风顺,而且一路荆棘。第一阶段:大数据入门篇 第一阶段的课程主要是大数据的入门知识,包括MySQL基本知识、各种概念和常用语句、JDBC的使用还有数据库事务等等,虽然是基础知识,但是非常实用,在开发中会经常用到,基本上就是对数据库的各...
- 1. Spark概述1.1. 什么是Spark(官网:http://spark.apache.org) Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spa... 1. Spark概述1.1. 什么是Spark(官网:http://spark.apache.org) Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spa...
- HBase提高写入速度参数配置-测试案例 HBase提高写入速度参数配置-测试案例
- 第二节:Hadoop优势Hadoop的优势(4高)1)高可靠性:Hadoop底层维护多个数据副本,所以即时Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度4)高容错性:能够自动将失败任务重新分配Hadoop1.x和2.x的区别Had... 第二节:Hadoop优势Hadoop的优势(4高)1)高可靠性:Hadoop底层维护多个数据副本,所以即时Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度4)高容错性:能够自动将失败任务重新分配Hadoop1.x和2.x的区别Had...
- 第一节:什么是Hadoop1)Hadoop是一个有Apache基金会所开发的分布式系统基础架构2)主要解决:海量数据的存储和海量数据的分析计算问题3)广义上来说,Hadoop通常是指一个更广泛的概念--Hadoop生态圈Hadoop发展史:1)Lucene框架是Doug Cutting开创的开源软件,用Java书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括... 第一节:什么是Hadoop1)Hadoop是一个有Apache基金会所开发的分布式系统基础架构2)主要解决:海量数据的存储和海量数据的分析计算问题3)广义上来说,Hadoop通常是指一个更广泛的概念--Hadoop生态圈Hadoop发展史:1)Lucene框架是Doug Cutting开创的开源软件,用Java书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括...
- 最近在 Win10 系统上配置了ubuntu-18.04.3,在配置集群的 ssh 无秘钥登录时,经常能碰到 ssh: connect to host master port 22: Connection timed out 的问题。 最近在 Win10 系统上配置了ubuntu-18.04.3,在配置集群的 ssh 无秘钥登录时,经常能碰到 ssh: connect to host master port 22: Connection timed out 的问题。
- 2020年8月27日,中国工商银行联合华为完成了金融行业首家规模超千台的Hadoop集群大版本滚动升级,为期两周的升级过程突破了传统的离线升级模式,真正实现了业务无感的平滑滚动升级。全程集群作业无中断、性能无影响,为全行上百个应用、上千个场景、上万个作业保障了7*24小时不间断的数据服务。本次滚动升级对金融科技领域意义重大,中国工商银行为金融同业树立了大数据服务连续性上的建设标杆。 2020年8月27日,中国工商银行联合华为完成了金融行业首家规模超千台的Hadoop集群大版本滚动升级,为期两周的升级过程突破了传统的离线升级模式,真正实现了业务无感的平滑滚动升级。全程集群作业无中断、性能无影响,为全行上百个应用、上千个场景、上万个作业保障了7*24小时不间断的数据服务。本次滚动升级对金融科技领域意义重大,中国工商银行为金融同业树立了大数据服务连续性上的建设标杆。
- 1.增加了Resourcemanager的HA,并进行测试 2.增加了Job History Serve的配置 3.增加HBase的搭建 1.增加了Resourcemanager的HA,并进行测试 2.增加了Job History Serve的配置 3.增加HBase的搭建
- 问题现象和分析过程:1、在hadoop-3.1.1-src目录中执行 mvn package -DskipTests -Pdist,native -Dtar -Dmaven.javadoc.skip=true 过 程中提示“rpc/types.h:No such file or directory”hadoop-3.1.1-src/hadoop-tools/hadoop-pipes/src/... 问题现象和分析过程:1、在hadoop-3.1.1-src目录中执行 mvn package -DskipTests -Pdist,native -Dtar -Dmaven.javadoc.skip=true 过 程中提示“rpc/types.h:No such file or directory”hadoop-3.1.1-src/hadoop-tools/hadoop-pipes/src/...
- HDFS 就是Hadoop 分布式文件系统,也是Hadoop的三大重要组件之一,它主要是处理大数据场景下数据的增、删、改、查,因此它的场景特点有:数据量非常大、一般适合存储读写大文件、对于文件数据的可靠性要求较高。HDFS主要的三大组件分别是Client、Namenode、Datanode;其中Client作为HDFS对外提供服务的一个接口,能否让用户的分布式操作和在一台主机操作一样的方便,... HDFS 就是Hadoop 分布式文件系统,也是Hadoop的三大重要组件之一,它主要是处理大数据场景下数据的增、删、改、查,因此它的场景特点有:数据量非常大、一般适合存储读写大文件、对于文件数据的可靠性要求较高。HDFS主要的三大组件分别是Client、Namenode、Datanode;其中Client作为HDFS对外提供服务的一个接口,能否让用户的分布式操作和在一台主机操作一样的方便,...
- 文件系统元数据的持久性HDFS命名空间存储在NameNode结点中。NameNode使用Editlog记录文件系统元数据的每一次变更。Editlog是一个事务型日志。例如,HDFS创建新文件时会在Editlog文件中插入一条记录。类似地,文件副本数的变更也会引起在Editlog文件中记录一条日志。NameNode结点使用本地文件系统存储Editlog文件。FsImage文件中存储了文件系统命... 文件系统元数据的持久性HDFS命名空间存储在NameNode结点中。NameNode使用Editlog记录文件系统元数据的每一次变更。Editlog是一个事务型日志。例如,HDFS创建新文件时会在Editlog文件中插入一条记录。类似地,文件副本数的变更也会引起在Editlog文件中记录一条日志。NameNode结点使用本地文件系统存储Editlog文件。FsImage文件中存储了文件系统命...
- 翻译https://hadoop.apache.org/docs/r1.2.1/hdfs_design.html-----------------------------------------------------------------------------------------------介绍HDFS,The Hadoop Distributed FIle System 是设计用... 翻译https://hadoop.apache.org/docs/r1.2.1/hdfs_design.html-----------------------------------------------------------------------------------------------介绍HDFS,The Hadoop Distributed FIle System 是设计用...
- 本节书摘来自清华大学出版社《Hadoop权威指南:大数据的存储与分析》一作者是Tom White , 王 海 华 东 刘 喻 吕粤海 译。 本节书摘来自清华大学出版社《Hadoop权威指南:大数据的存储与分析》一作者是Tom White , 王 海 华 东 刘 喻 吕粤海 译。
- 本节书摘来自华章计算机《大数据技术丛书 Flink原理、实战与性能优化》一书中的第2章,第2.1节,作者是张利兵。 本节书摘来自华章计算机《大数据技术丛书 Flink原理、实战与性能优化》一书中的第2章,第2.1节,作者是张利兵。
上滑加载中
推荐直播
-
昇腾AI算法挑战赛-核心算子如何优化?专家带你深度解析2025/11/17 周一 16:00-17:00
王老师 华为算子专家
昇腾AI算法挑战赛进阶赛战鼓催征!本期直播间,我们特邀华为算子专家王老师,为你深度剖析Matmul、wholereducesum等核心算子的底层原理与优化技巧,直击赛题核心。想提升代码效率、冲击更高排名?锁定直播,带你破局!
回顾中 -
AI编码实干派,“码”力全开2026/02/26 周四 15:00-16:30
谈宗玮/于邦旭/丁俊卿/陈云亮/王一男
【中国,深圳,2026年2月26日】,以“AI编码实干派,码力全开”为主题的华为云码道(CodeArts)代码智能体新春发布会在线上成功召开。华为云码道公测版正式发布,为开发者和企业提供具备工程化能力的智能编码解决方案。
回顾中 -
华为云码道-玩转OpenClaw,开启在线养虾模式2026/03/11 周三 19:00-20:00
刘昱,华为云高级工程师/谈心,华为云技术专家/李海仑,上海圭卓智能科技有限公司CEO
OpenClaw 火爆开发者圈,华为云码道最新推出 Skill ——开发者只需输入一句口令,即可部署一个功能完整的「小龙虾」智能体。直播带你玩转华为云码道,玩转OpenClaw
回顾中
热门标签