- 1. 问题描述使用Spark SQL进行ETL任务,在读取某张表的时候报错:“IOException: totalValueCount == 0”,但该表在写入时,并没有什么异常。2. 初步分析该表的结果是由两表join后生成。经分析,join的结果产生了数据倾斜,且倾斜key为null。Join后每个task写一个文件,所以partition key为null的那个task将大量的null... 1. 问题描述使用Spark SQL进行ETL任务,在读取某张表的时候报错:“IOException: totalValueCount == 0”,但该表在写入时,并没有什么异常。2. 初步分析该表的结果是由两表join后生成。经分析,join的结果产生了数据倾斜,且倾斜key为null。Join后每个task写一个文件,所以partition key为null的那个task将大量的null...
- 当一个关系中的所有分类都是不可再分的数据项时,该关系是规范化的。不可再分的数据项,即不存在组合数据项和多项数据项。一个低一级的关系模式,通过模式分解可以转换为若干高一级范式的关系模式的集合,这个过程就叫规范化。 当一个关系中的所有分类都是不可再分的数据项时,该关系是规范化的。不可再分的数据项,即不存在组合数据项和多项数据项。一个低一级的关系模式,通过模式分解可以转换为若干高一级范式的关系模式的集合,这个过程就叫规范化。
- 华为开发者大会2021(Cloud)期间,华为云FusionInsight MRS云原生数据湖HetuEngine架构师武文博,分享了“跨湖跨仓场景下如何实现海量数据分钟级分析”主题。助力政企客户打通多数据源间数据墙,实现高性能跨湖跨仓跨云数据融合分析,同时,HetuEngine提供统一访问入口,屏蔽了传统复杂的访问接口,并统一使用 SQL 接口,降低大数据使用门槛,简化用数! 华为开发者大会2021(Cloud)期间,华为云FusionInsight MRS云原生数据湖HetuEngine架构师武文博,分享了“跨湖跨仓场景下如何实现海量数据分钟级分析”主题。助力政企客户打通多数据源间数据墙,实现高性能跨湖跨仓跨云数据融合分析,同时,HetuEngine提供统一访问入口,屏蔽了传统复杂的访问接口,并统一使用 SQL 接口,降低大数据使用门槛,简化用数!
- HDC.Cloud2021期间,华为云FusionInsight解决方案架构师许田立,分享了“千级节点的大数据集群如何无业务中断升级”主题,解决传统大数据平台操作繁琐、业务停机、升级成本高等问题,实现一个架构的平滑演进,业务无中断。 HDC.Cloud2021期间,华为云FusionInsight解决方案架构师许田立,分享了“千级节点的大数据集群如何无业务中断升级”主题,解决传统大数据平台操作繁琐、业务停机、升级成本高等问题,实现一个架构的平滑演进,业务无中断。
- 4月24日-26日,HDC.Cloud2021在深圳大学城成功举办,华为云FusionInsight MRS云原生数据湖带来最懂行的大数据解决方案,为政企客户提供湖仓一体、云原生的大数据解决方案,一个架构可构建3种数据湖:离线数据湖、实时数据湖、逻辑数据湖,更有现场沙箱实验和名师大讲堂,一起来细品。 4月24日-26日,HDC.Cloud2021在深圳大学城成功举办,华为云FusionInsight MRS云原生数据湖带来最懂行的大数据解决方案,为政企客户提供湖仓一体、云原生的大数据解决方案,一个架构可构建3种数据湖:离线数据湖、实时数据湖、逻辑数据湖,更有现场沙箱实验和名师大讲堂,一起来细品。
- 如何将各种大数据技术栈整合在一起,发挥出大数据技术的最大价值成为业界都在关注的问题。 如何将各种大数据技术栈整合在一起,发挥出大数据技术的最大价值成为业界都在关注的问题。
- 使用Spark SQL进行ETL任务,在读取某张表的时候报错:“IOException: totalValueCount == 0”,但该表在写入时,并没有什么异常。 使用Spark SQL进行ETL任务,在读取某张表的时候报错:“IOException: totalValueCount == 0”,但该表在写入时,并没有什么异常。
- 系列文章目录《考取HCIA证书,看我就够了》1.华为职业认证体系及HCIA介绍2.HCIA-IoT篇(上)物联网起源与发展3.待创作如果你是第一次观看本系列文章,建议先阅读下第一篇华为职业认证体系及HCIA介绍本文目录前言一、什么是物联网? 1.1物联网定义 1.2物联网的结构二、物联网怎么来的?三、物联网是怎么发展的? 3.1物联网发展的三大类型 3.2物联网发展的三件大事 3.... 系列文章目录《考取HCIA证书,看我就够了》1.华为职业认证体系及HCIA介绍2.HCIA-IoT篇(上)物联网起源与发展3.待创作如果你是第一次观看本系列文章,建议先阅读下第一篇华为职业认证体系及HCIA介绍本文目录前言一、什么是物联网? 1.1物联网定义 1.2物联网的结构二、物联网怎么来的?三、物联网是怎么发展的? 3.1物联网发展的三大类型 3.2物联网发展的三件大事 3....
- 1、在软件包所在目录解压Hbase压缩包[root@win1 soft]# tar -zxvf hbase-1.3.2-bin.tar.gz[root@win1 soft]# lshadoop-2.7.7 hbase-1.3.2 jdk1.8.0_161 zookeeper-3.4.12hadoop-2.7.7.tar.gz hbase-... 1、在软件包所在目录解压Hbase压缩包[root@win1 soft]# tar -zxvf hbase-1.3.2-bin.tar.gz[root@win1 soft]# lshadoop-2.7.7 hbase-1.3.2 jdk1.8.0_161 zookeeper-3.4.12hadoop-2.7.7.tar.gz hbase-...
- 假设有两个集群A,B,均开启了Kerberos,本文将说明如何配置使用集群B上的Presto查询集群A1. 配置集群互信,参见 配置跨集群互信2. 将集群A上的/opt/Bigdata/MRS_1.9.2/1_XX_Coordinator/etc/core-site.xml和/opt/Bigdata/MRS_1.9.2/1_XX_Coordinator/etc/hdfs-site.xml拷贝... 假设有两个集群A,B,均开启了Kerberos,本文将说明如何配置使用集群B上的Presto查询集群A1. 配置集群互信,参见 配置跨集群互信2. 将集群A上的/opt/Bigdata/MRS_1.9.2/1_XX_Coordinator/etc/core-site.xml和/opt/Bigdata/MRS_1.9.2/1_XX_Coordinator/etc/hdfs-site.xml拷贝...
- 学习大数据,就必须要有一台 Unix 或者 Linux 系统的电脑,苹果电脑首选就是最佳的选择,如果条件不支持,在 Windows 电脑上安装虚拟机 VMWare,再在 VMWare 里面安装 Linux 系统也是一种不错的选择,下面白鹿为大家奉上在 Windows 上安装 VMware 虚拟机安装教程及在 VMware 虚拟机上安装 Ubuntu18.04.3 优麒麟版完整步骤。 学习大数据,就必须要有一台 Unix 或者 Linux 系统的电脑,苹果电脑首选就是最佳的选择,如果条件不支持,在 Windows 电脑上安装虚拟机 VMWare,再在 VMWare 里面安装 Linux 系统也是一种不错的选择,下面白鹿为大家奉上在 Windows 上安装 VMware 虚拟机安装教程及在 VMware 虚拟机上安装 Ubuntu18.04.3 优麒麟版完整步骤。
- openLooKeng可以使用可用的连接器,用于访问不同数据源的数据。 1. 配置HBase连接器连接(1)使用openLooKeng元存储来存储HBase元数据,原本想使用HDFS作为元数据存储的实例,设置hetu.metastore.hetufilesystem.profile-name=hdfs-metastore时,运行报错如下图所示。不知道是不是版本的问题,注销掉he... openLooKeng可以使用可用的连接器,用于访问不同数据源的数据。 1. 配置HBase连接器连接(1)使用openLooKeng元存储来存储HBase元数据,原本想使用HDFS作为元数据存储的实例,设置hetu.metastore.hetufilesystem.profile-name=hdfs-metastore时,运行报错如下图所示。不知道是不是版本的问题,注销掉he...
- 前几天看了《华为云FusionInsight MRS数享会:用HetuEngine打破数据壁垒》的直播,了解到华为自研HetuEngine是高性能分布式SQL查询&数据虚拟化引擎,与大数据生态无缝融合,实现海量数据秒级查询,支持多样异构协同,跨域,跨数据中心,实现数据湖内一站式SQL能融合分析。为了学习HetuEngine,找到它的开源版本为openHetu,在2020年7月1号改名... 前几天看了《华为云FusionInsight MRS数享会:用HetuEngine打破数据壁垒》的直播,了解到华为自研HetuEngine是高性能分布式SQL查询&数据虚拟化引擎,与大数据生态无缝融合,实现海量数据秒级查询,支持多样异构协同,跨域,跨数据中心,实现数据湖内一站式SQL能融合分析。为了学习HetuEngine,找到它的开源版本为openHetu,在2020年7月1号改名...
- 大数据基础学习四:伪分布式 Hadoop 在 Ubuntu 上的安装流程完整步骤、易错点分析及需要注意的问题(以 ubuntu-18.04.3、hadoop-3.2.1-tar.gz 为例),本系列的其他文章可以移步本人大数据专栏进行查看。对于本篇文章,我个人是很有自信的,一篇文章掌握一门课程核心技术点。 大数据基础学习四:伪分布式 Hadoop 在 Ubuntu 上的安装流程完整步骤、易错点分析及需要注意的问题(以 ubuntu-18.04.3、hadoop-3.2.1-tar.gz 为例),本系列的其他文章可以移步本人大数据专栏进行查看。对于本篇文章,我个人是很有自信的,一篇文章掌握一门课程核心技术点。
- 之前在大数据群里有人讨论过关于Click House,没怎么关注。前天看到华为云MRS2.0升级到MRS3.0,增加了ClickHouse。突然我就对ClickHouse感兴趣,它是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。采用Local attached storage作为存储,这样整个IO可能就没有Hadoop那一套的局限。它的系统在生产环境中可以应用到比较... 之前在大数据群里有人讨论过关于Click House,没怎么关注。前天看到华为云MRS2.0升级到MRS3.0,增加了ClickHouse。突然我就对ClickHouse感兴趣,它是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。采用Local attached storage作为存储,这样整个IO可能就没有Hadoop那一套的局限。它的系统在生产环境中可以应用到比较...
上滑加载中
推荐直播
-
空中宣讲会 2025年华为软件精英挑战赛
2025/03/10 周一 18:00-19:00
宸睿 华为云存储技术专家、ACM-ICPC WorldFinal经验 晖哥
2025华为软挑赛空中宣讲会重磅来袭!完整赛程首曝+命题天团硬核拆题+三轮幸运抽奖赢参赛助力礼包,与全国优秀高校开发者同台竞技,直通顶尖赛事起跑线!
即将直播
热门标签