- 在数据和经济时代,业务和数据的多样性需要新的计算架构,海量的数据增长也带来了更高的计算需求。那么在这个过程中,鲲鹏计算产业也正在成为更多计算场景的新一代 IP 基座。基于华为鲲鹏处理器构建的鲲鹏全栈 IT 技术实施设施行业应用以及服务,致力于为智能世界持续提供我们的先进算力支持,使得各个行业可以实现数字化转型。应用软件的迁移与优化一直是鲲鹏软件生态的难点和关键。本次鲲鹏 BoostKit 训练营为 在数据和经济时代,业务和数据的多样性需要新的计算架构,海量的数据增长也带来了更高的计算需求。那么在这个过程中,鲲鹏计算产业也正在成为更多计算场景的新一代 IP 基座。基于华为鲲鹏处理器构建的鲲鹏全栈 IT 技术实施设施行业应用以及服务,致力于为智能世界持续提供我们的先进算力支持,使得各个行业可以实现数字化转型。应用软件的迁移与优化一直是鲲鹏软件生态的难点和关键。本次鲲鹏 BoostKit 训练营为
- hive数据迁移到clickhouse—使用Waterdrop工具参考链接基于荣耀客户的需求,测试Waterdrop从云EI的hive-spark集群上迁移数据到clickhouse集群 hive数据迁移到clickhouse—使用Waterdrop工具 Waterdrop hive-spark集群 clickhouse集群 batch.conf 数据迁移 迁移结果 waterdrop性能... hive数据迁移到clickhouse—使用Waterdrop工具参考链接基于荣耀客户的需求,测试Waterdrop从云EI的hive-spark集群上迁移数据到clickhouse集群 hive数据迁移到clickhouse—使用Waterdrop工具 Waterdrop hive-spark集群 clickhouse集群 batch.conf 数据迁移 迁移结果 waterdrop性能...
- 介绍了HDFS是什么、HDFS的优缺点,NameNode节点、DataNode节点、SecondaryNameNode节点的 定义 及 功能 介绍。 介绍了HDFS是什么、HDFS的优缺点,NameNode节点、DataNode节点、SecondaryNameNode节点的 定义 及 功能 介绍。
- 各位进阶中的开发者们,大数据全栈成长计划第三阶段所有学习任务都已经结束大家心心念念的最终积分排行榜也已经出炉我们设置学习任务的目的就是想让大家在听课之余,用作业和心得来检验自己的学习成果最终积分排名会按照活动帖中符合条件的1-50名有实体奖品当排名节点处出现同分时,我们的评判标准为:阶段考核>问答官>分享转发>每周学习笔记>每章随堂测验;根据每个项目打卡时间的先后顺序排名积分统计依据:序号阶... 各位进阶中的开发者们,大数据全栈成长计划第三阶段所有学习任务都已经结束大家心心念念的最终积分排行榜也已经出炉我们设置学习任务的目的就是想让大家在听课之余,用作业和心得来检验自己的学习成果最终积分排名会按照活动帖中符合条件的1-50名有实体奖品当排名节点处出现同分时,我们的评判标准为:阶段考核>问答官>分享转发>每周学习笔记>每章随堂测验;根据每个项目打卡时间的先后顺序排名积分统计依据:序号阶...
- 1、在软件包所在目录解压Hbase压缩包[root@win1 soft]# tar -zxvf hbase-1.3.2-bin.tar.gz[root@win1 soft]# lshadoop-2.7.7 hbase-1.3.2 jdk1.8.0_161 zookeeper-3.4.12hadoop-2.7.7.tar.gz hbase-... 1、在软件包所在目录解压Hbase压缩包[root@win1 soft]# tar -zxvf hbase-1.3.2-bin.tar.gz[root@win1 soft]# lshadoop-2.7.7 hbase-1.3.2 jdk1.8.0_161 zookeeper-3.4.12hadoop-2.7.7.tar.gz hbase-...
- 大数据基础学习四:伪分布式 Hadoop 在 Ubuntu 上的安装流程完整步骤、易错点分析及需要注意的问题(以 ubuntu-18.04.3、hadoop-3.2.1-tar.gz 为例),本系列的其他文章可以移步本人大数据专栏进行查看。对于本篇文章,我个人是很有自信的,一篇文章掌握一门课程核心技术点。 大数据基础学习四:伪分布式 Hadoop 在 Ubuntu 上的安装流程完整步骤、易错点分析及需要注意的问题(以 ubuntu-18.04.3、hadoop-3.2.1-tar.gz 为例),本系列的其他文章可以移步本人大数据专栏进行查看。对于本篇文章,我个人是很有自信的,一篇文章掌握一门课程核心技术点。
- 解决 Apache Hadoop 启动时 DataNode 没有启动的问题(注意这会删除 HDFS 中原有的所有数据,如果原有的数据很重要请不要这样做)。 解决 Apache Hadoop 启动时 DataNode 没有启动的问题(注意这会删除 HDFS 中原有的所有数据,如果原有的数据很重要请不要这样做)。
- 1. HDFS操作常用Shell命令 1.1 查看命令使用方法 启动Hadoop start-dfs.sh 1 查看各种命令 hdfs dfs -help 1 1.2 HDFS目录操作 ... 1. HDFS操作常用Shell命令 1.1 查看命令使用方法 启动Hadoop start-dfs.sh 1 查看各种命令 hdfs dfs -help 1 1.2 HDFS目录操作 ...
- 01什么是小文件?生产上,我们往往将Spark SQL作为Hive的替代方案,来获得SQL on Hadoop更出色的性能。因此,本文所讲的是指存储于HDFS中小文件,即指文件的大小远小于HDFS上块(dfs.block.size)大小的文件。02小文件问题的影响一方面,大量的小文件会给Hadoop集群的扩展性和性能带来严重的影响。NameNode在内存中维护整个文件系统的元数据镜像,用户... 01什么是小文件?生产上,我们往往将Spark SQL作为Hive的替代方案,来获得SQL on Hadoop更出色的性能。因此,本文所讲的是指存储于HDFS中小文件,即指文件的大小远小于HDFS上块(dfs.block.size)大小的文件。02小文件问题的影响一方面,大量的小文件会给Hadoop集群的扩展性和性能带来严重的影响。NameNode在内存中维护整个文件系统的元数据镜像,用户...
- 什么是存算分离大数据? 华为云存算分离方案相对于传统本地盘方案有什么优势? 存算分离能节省多少成本? 用了存算分离方案是不是必须使用华为 什么是存算分离大数据? 华为云存算分离方案相对于传统本地盘方案有什么优势? 存算分离能节省多少成本? 用了存算分离方案是不是必须使用华为
- Hive优化 本质:HDFS + MapReduce 问题原因:倾斜:分区:有的分区没有数据,有的分区数据堆积。(若按天分区,每一天数据差别大就叫倾斜。)group by:有的分组键在表中数据很多,有的分组键数据很少。小表 join 大表:小表数据小,大表数据多,造成倾斜。如何识别倾斜?- 若表为分区分桶表,以分区字段作为聚合条件聚合,并进行抽样。- 若有HDFS的权限,查看分区文件夹的大... Hive优化 本质:HDFS + MapReduce 问题原因:倾斜:分区:有的分区没有数据,有的分区数据堆积。(若按天分区,每一天数据差别大就叫倾斜。)group by:有的分组键在表中数据很多,有的分组键数据很少。小表 join 大表:小表数据小,大表数据多,造成倾斜。如何识别倾斜?- 若表为分区分桶表,以分区字段作为聚合条件聚合,并进行抽样。- 若有HDFS的权限,查看分区文件夹的大...
- 《吊打面试官》- 大数据工程师50道中大厂面试真题保姆级详解 《吊打面试官》- 大数据工程师50道中大厂面试真题保姆级详解
- 随着数据量的不断增长,大规模数据处理变得越来越重要。在这个领域,Hadoop和Spark是两个备受关注的技术。本文将介绍如何利用Python编程语言结合Hadoop和Spark来进行大规模数据处理,并比较它们在不同方面的优劣。 简介 HadoopHadoop是一个开源的分布式数据处理框架,它基于MapReduce编程模型,可以处理大规模数据集。Hadoop包括HDFS(分布式文件系统)和Ma... 随着数据量的不断增长,大规模数据处理变得越来越重要。在这个领域,Hadoop和Spark是两个备受关注的技术。本文将介绍如何利用Python编程语言结合Hadoop和Spark来进行大规模数据处理,并比较它们在不同方面的优劣。 简介 HadoopHadoop是一个开源的分布式数据处理框架,它基于MapReduce编程模型,可以处理大规模数据集。Hadoop包括HDFS(分布式文件系统)和Ma...
- Hive 取两个字符串的相同部分在数据处理中,有时候我们需要比较两个字符串并找出它们之间的相同部分。在Hive中,我们可以使用一些内置函数来实现这一目的。本篇文章将介绍如何在Hive中取两个字符串的相同部分。1. 使用内置函数regexp_extract结合正则表达式实现可以通过regexp_extract函数结合正则表达式来提取两个字符串的相同部分。以下是一个示例:sqlCopy code... Hive 取两个字符串的相同部分在数据处理中,有时候我们需要比较两个字符串并找出它们之间的相同部分。在Hive中,我们可以使用一些内置函数来实现这一目的。本篇文章将介绍如何在Hive中取两个字符串的相同部分。1. 使用内置函数regexp_extract结合正则表达式实现可以通过regexp_extract函数结合正则表达式来提取两个字符串的相同部分。以下是一个示例:sqlCopy code...
- k8s搭建Hadoop在大数据处理领域,Hadoop是一个被广泛使用的开源分布式存储和计算框架。而Kubernetes(k8s)是一个用于自动部署、扩展和管理容器化应用程序的开源平台。本篇技术博客将介绍如何使用Kubernetes搭建Hadoop集群,实现分布式的大数据处理。步骤一:创建Kubernetes集群首先,我们需要搭建一个Kubernetes集群。可以使用Minikube来在本地快... k8s搭建Hadoop在大数据处理领域,Hadoop是一个被广泛使用的开源分布式存储和计算框架。而Kubernetes(k8s)是一个用于自动部署、扩展和管理容器化应用程序的开源平台。本篇技术博客将介绍如何使用Kubernetes搭建Hadoop集群,实现分布式的大数据处理。步骤一:创建Kubernetes集群首先,我们需要搭建一个Kubernetes集群。可以使用Minikube来在本地快...
上滑加载中
推荐直播
-
华为云IoT开源专家实践分享:开源让物联网平台更开放、易用
2024/05/22 周三 16:30-18:00
张俭 华为云IoT DTSE技术布道师
开源,意味着开放、共享、互助、共赢。作为万物上云及各行业数字化的物联网底座,华为云IoT积极拥抱开源,借助行业开源的最佳实践,构建可靠、易用的物联网平台,并通过开放南北向SDK,助力开发者快速构建物联网应用。本期直播,华为云IoT开源专家、物联网平台资深“程序猿”张俭,带你了解华为云IoT的开源生态,并手把手教你玩转开源社区!
去报名 -
数字技术创新与商业愿景--数字化转型战略解读
2024/05/22 周三 19:00-20:30
王纪奎老师 华为科学家咨询委员会CTO
数字化转型浪潮下,你是否缺乏对前沿科技的战略洞察、难以将企业转型与国家战略相融合、缺少系统性规划的数字化思维…… 我们特别邀请了华为科学家咨询委员会CTO、战略研究院数字经济与数字化转型首席专家、《数字化转型战略》一书的作者——王纪奎老师。 在5月22日(周三)19点,为我们带来一场主题为“数字技术创新与商业愿景--数字化转型战略解决”的精彩直播。
去报名 -
华为云开发者日·广州站
2024/05/23 周四 14:30-17:30
华为云专家团
华为云开发者日HDC.Cloud Day是面向全球开发者的旗舰活动,汇聚来自千行百业、高校及科研院所的开发人员。致力于打造开发者专属的技术盛宴,全方位服务与赋能开发者围绕华为云生态“知、学、用、创、商”的成长路径。通过前沿的技术分享、场景化的动手体验、优秀的应用创新推介,为开发者提供沉浸式学习与交流平台。开放创新,与开发者共创、共享、共赢未来。
去报名
热门标签