- Apache Hive 是一个基于 Hadoop 的数据仓库工具,它提供了一个类似于 SQL 的查询语言,用于大规模数据处理。Hive Metastore(HMS)是 Hive 架构中的关键组件,负责存储和管理表的元数据。了解 Hive Metastore 的功能和区分托管 Metastore 与外部 Metastore 的概念,对于高效管理和优化 Hive 环境至关重要。本文将详细介绍 H... Apache Hive 是一个基于 Hadoop 的数据仓库工具,它提供了一个类似于 SQL 的查询语言,用于大规模数据处理。Hive Metastore(HMS)是 Hive 架构中的关键组件,负责存储和管理表的元数据。了解 Hive Metastore 的功能和区分托管 Metastore 与外部 Metastore 的概念,对于高效管理和优化 Hive 环境至关重要。本文将详细介绍 H...
- @[TOC] Spark On Hive 详解本文基于Spark重构基于Hive的电商数据分析的项目需求,在重构的同时对Spark On Hive的全流程进行详细的讲解。所谓的Spark On X指的是从X数据源中获取数据并在Spark进行计算之后,将计算结果导入该数据库或者数仓。获取数据和导入数据的地方可以是不同的。 一、项目配置 1. 创建工程首先,创建一个空的Maven工程,在创建之后... @[TOC] Spark On Hive 详解本文基于Spark重构基于Hive的电商数据分析的项目需求,在重构的同时对Spark On Hive的全流程进行详细的讲解。所谓的Spark On X指的是从X数据源中获取数据并在Spark进行计算之后,将计算结果导入该数据库或者数仓。获取数据和导入数据的地方可以是不同的。 一、项目配置 1. 创建工程首先,创建一个空的Maven工程,在创建之后...
- Hive笔记02–查询、数据加载和交换、聚合、排序、优化 Hive的数据查询 基础查询1.基本结构SELECT 字段列表|表达式|子查询FROM 表|子查询|视图|临时表WHERE NOT 条件A AND | OR 条件B – 先 面向原始行进行筛选GROUP BY 字段A[,字段B,…] – 不能用 DISTINCTHAVING 聚合条件(非原始字段) – 后... Hive笔记02–查询、数据加载和交换、聚合、排序、优化 Hive的数据查询 基础查询1.基本结构SELECT 字段列表|表达式|子查询FROM 表|子查询|视图|临时表WHERE NOT 条件A AND | OR 条件B – 先 面向原始行进行筛选GROUP BY 字段A[,字段B,…] – 不能用 DISTINCTHAVING 聚合条件(非原始字段) – 后...
- 拉链表版本迭代:hive 0.14 slowly changing dimension => hive 2.6.0 merge 事务管理原来采用分区表,用户分区存储历史增量数据,缺点是重复数据太多定义:数仓用于解决持续增长且存在一定时间时间范围内重复的数据存储:创建拉链表时使用列式存储ORC:不能使用load加载数据压缩比高 效率高场景:【数据规模庞大】,新数据【在有限的时间】内存在多种状... 拉链表版本迭代:hive 0.14 slowly changing dimension => hive 2.6.0 merge 事务管理原来采用分区表,用户分区存储历史增量数据,缺点是重复数据太多定义:数仓用于解决持续增长且存在一定时间时间范围内重复的数据存储:创建拉链表时使用列式存储ORC:不能使用load加载数据压缩比高 效率高场景:【数据规模庞大】,新数据【在有限的时间】内存在多种状...
- Hive优化 本质:HDFS + MapReduce 问题原因:倾斜:分区:有的分区没有数据,有的分区数据堆积。(若按天分区,每一天数据差别大就叫倾斜。)group by:有的分组键在表中数据很多,有的分组键数据很少。小表 join 大表:小表数据小,大表数据多,造成倾斜。如何识别倾斜?- 若表为分区分桶表,以分区字段作为聚合条件聚合,并进行抽样。- 若有HDFS的权限,查看分区文件夹的大... Hive优化 本质:HDFS + MapReduce 问题原因:倾斜:分区:有的分区没有数据,有的分区数据堆积。(若按天分区,每一天数据差别大就叫倾斜。)group by:有的分组键在表中数据很多,有的分组键数据很少。小表 join 大表:小表数据小,大表数据多,造成倾斜。如何识别倾斜?- 若表为分区分桶表,以分区字段作为聚合条件聚合,并进行抽样。- 若有HDFS的权限,查看分区文件夹的大...
- Hive 取两个字符串的相同部分在数据处理中,有时候我们需要比较两个字符串并找出它们之间的相同部分。在Hive中,我们可以使用一些内置函数来实现这一目的。本篇文章将介绍如何在Hive中取两个字符串的相同部分。1. 使用内置函数regexp_extract结合正则表达式实现可以通过regexp_extract函数结合正则表达式来提取两个字符串的相同部分。以下是一个示例:sqlCopy code... Hive 取两个字符串的相同部分在数据处理中,有时候我们需要比较两个字符串并找出它们之间的相同部分。在Hive中,我们可以使用一些内置函数来实现这一目的。本篇文章将介绍如何在Hive中取两个字符串的相同部分。1. 使用内置函数regexp_extract结合正则表达式实现可以通过regexp_extract函数结合正则表达式来提取两个字符串的相同部分。以下是一个示例:sqlCopy code...
- 官网下载 官网地址:http://hive.apache.org/由于我们的Hadoop版本是2.9.2,所以在这里我们选择2.3.7版本进行下载文件准备将下载下来的Hive 的配置文件进行解压在linux上输入: tar -xvf apache-hive-2.3.7-bin.tar.gz是否移动无所谓,自己安装到最熟悉的目录即可。然后移动到/opt/hive 里面,将文件夹重命名为 hi... 官网下载 官网地址:http://hive.apache.org/由于我们的Hadoop版本是2.9.2,所以在这里我们选择2.3.7版本进行下载文件准备将下载下来的Hive 的配置文件进行解压在linux上输入: tar -xvf apache-hive-2.3.7-bin.tar.gz是否移动无所谓,自己安装到最熟悉的目录即可。然后移动到/opt/hive 里面,将文件夹重命名为 hi...
- 数据仓库 基本概念 场景案例 主要特征 主流开发语言-SQL 数仓开发语言概述 SQL语言介绍 结构化数据 SQL语法分类 Apache Hive入门 Apache Hive 安装部署 元数据 Hive SQL语言 数据仓库 基本概念数据仓库(Data Warehouse,简称数仓、DW),是一个用于存储,分析,报告的数据系统数据仓库的目的是构建面向分析的集成化数据环境,分析结构为企业提供... 数据仓库 基本概念 场景案例 主要特征 主流开发语言-SQL 数仓开发语言概述 SQL语言介绍 结构化数据 SQL语法分类 Apache Hive入门 Apache Hive 安装部署 元数据 Hive SQL语言 数据仓库 基本概念数据仓库(Data Warehouse,简称数仓、DW),是一个用于存储,分析,报告的数据系统数据仓库的目的是构建面向分析的集成化数据环境,分析结构为企业提供...
- sql学习的语法。 万事皆备于我,我心即使宇宙。 不定时补充笔记。 sql学习的语法。 万事皆备于我,我心即使宇宙。 不定时补充笔记。
- Quicktype 应用提供了一种将JSON转换成漂亮、类型安全的代码的方式,支持多种编程语言。该站点的要功能包括:JSON 转代码: 通过 quicktype 的 web 应用程序,用户可以将示例 JSON 数据转换为各种编程语言中的类型定义和序列化代码。用户只需提供样本 JSON、URL、JSON 模式或 GraphQL 查询,quicktype 就能生成相应的代码。 Quicktype 应用提供了一种将JSON转换成漂亮、类型安全的代码的方式,支持多种编程语言。该站点的要功能包括:JSON 转代码: 通过 quicktype 的 web 应用程序,用户可以将示例 JSON 数据转换为各种编程语言中的类型定义和序列化代码。用户只需提供样本 JSON、URL、JSON 模式或 GraphQL 查询,quicktype 就能生成相应的代码。
- Hive安装超详细教程 Hive安装超详细教程
- 将关系型数据库ORACLE的数据导入到HDFS中,可以通过Sqoop、OGG来实现,相比较ORACLE GOLDENGATE,Sqoop不仅不需要复杂的安装配置,而且传输效率很高,同时也能实现增量数据同步。 说明:本测试hadoop是单节点伪分布式环境,是基于之前写的两篇文章对应的环境操作. 本文档将在以上两个文章的基础上操作,是对第二篇文章环境的一个简单使用测试,使用过程中出现的错误亦可以验证暴 将关系型数据库ORACLE的数据导入到HDFS中,可以通过Sqoop、OGG来实现,相比较ORACLE GOLDENGATE,Sqoop不仅不需要复杂的安装配置,而且传输效率很高,同时也能实现增量数据同步。 说明:本测试hadoop是单节点伪分布式环境,是基于之前写的两篇文章对应的环境操作. 本文档将在以上两个文章的基础上操作,是对第二篇文章环境的一个简单使用测试,使用过程中出现的错误亦可以验证暴
- 接下来本篇文章详细介绍一下使用sqoop全量同步oracle/mysql数据到hive,这里实验采用oracle数据库为例, 后面一篇文章将详细介绍: 1、sqoop --incremental append 附加模式增量同步数据到hive 2、sqoop --incremental --merge-key合并模式增量同步到hive 接下来本篇文章详细介绍一下使用sqoop全量同步oracle/mysql数据到hive,这里实验采用oracle数据库为例, 后面一篇文章将详细介绍: 1、sqoop --incremental append 附加模式增量同步数据到hive 2、sqoop --incremental --merge-key合并模式增量同步到hive
- 在生产环境中,系统可能会定期从与业务相关的关系型数据库向Hadoop导入数据,导入数仓后进行后续离线分析。故我们此时不可能再将所有数据重新导一遍,此时我们就需要增量数据导入这一模式了。 增量数据导入分两种,一是基于递增列的增量数据导入(Append方式)。二是基于时间列的增量数据导入(LastModified方式),增量导入使用到的核心参数主要是: –check-column 在生产环境中,系统可能会定期从与业务相关的关系型数据库向Hadoop导入数据,导入数仓后进行后续离线分析。故我们此时不可能再将所有数据重新导一遍,此时我们就需要增量数据导入这一模式了。 增量数据导入分两种,一是基于递增列的增量数据导入(Append方式)。二是基于时间列的增量数据导入(LastModified方式),增量导入使用到的核心参数主要是: –check-column
- 最近因为单位换了新版本华为HD集群,有一些业务数据存在于hive数据库中。而有一些Smartbi的报表数据源是连接的华为HD Hive,因为变更了集群,需要将SmartBi的数据源改为新集群的。我将Kerberos认证凭据和新版本Hive jdbc驱动以及新的jdbc连接串给了同事,也将实施文档给了同事,但是同事在操作完成后,Smarbi节点无法正常起来(后台日志卡在:The server st 最近因为单位换了新版本华为HD集群,有一些业务数据存在于hive数据库中。而有一些Smartbi的报表数据源是连接的华为HD Hive,因为变更了集群,需要将SmartBi的数据源改为新集群的。我将Kerberos认证凭据和新版本Hive jdbc驱动以及新的jdbc连接串给了同事,也将实施文档给了同事,但是同事在操作完成后,Smarbi节点无法正常起来(后台日志卡在:The server st
上滑加载中
推荐直播
-
昇腾AI算法挑战赛-核心算子如何优化?专家带你深度解析2025/11/17 周一 16:00-17:00
王老师 华为算子专家
昇腾AI算法挑战赛进阶赛战鼓催征!本期直播间,我们特邀华为算子专家王老师,为你深度剖析Matmul、wholereducesum等核心算子的底层原理与优化技巧,直击赛题核心。想提升代码效率、冲击更高排名?锁定直播,带你破局!
回顾中 -
AI编码实干派,“码”力全开2026/02/26 周四 15:00-16:30
谈宗玮/于邦旭/丁俊卿/陈云亮/王一男
【中国,深圳,2026年2月26日】,以“AI编码实干派,码力全开”为主题的华为云码道(CodeArts)代码智能体新春发布会在线上成功召开。华为云码道公测版正式发布,为开发者和企业提供具备工程化能力的智能编码解决方案。
回顾中 -
华为云码道-玩转OpenClaw,开启在线养虾模式2026/03/11 周三 19:00-20:00
刘昱,华为云高级工程师/谈心,华为云技术专家/李海仑,上海圭卓智能科技有限公司CEO
OpenClaw 火爆开发者圈,华为云码道最新推出 Skill ——开发者只需输入一句口令,即可部署一个功能完整的「小龙虾」智能体。直播带你玩转华为云码道,玩转OpenClaw
回顾中
热门标签