- Apache Hive 是一个基于 Hadoop 的数据仓库工具,它提供了一个类似于 SQL 的查询语言,用于大规模数据处理。Hive Metastore(HMS)是 Hive 架构中的关键组件,负责存储和管理表的元数据。了解 Hive Metastore 的功能和区分托管 Metastore 与外部 Metastore 的概念,对于高效管理和优化 Hive 环境至关重要。本文将详细介绍 H... Apache Hive 是一个基于 Hadoop 的数据仓库工具,它提供了一个类似于 SQL 的查询语言,用于大规模数据处理。Hive Metastore(HMS)是 Hive 架构中的关键组件,负责存储和管理表的元数据。了解 Hive Metastore 的功能和区分托管 Metastore 与外部 Metastore 的概念,对于高效管理和优化 Hive 环境至关重要。本文将详细介绍 H...
- @[TOC] Spark On Hive 详解本文基于Spark重构基于Hive的电商数据分析的项目需求,在重构的同时对Spark On Hive的全流程进行详细的讲解。所谓的Spark On X指的是从X数据源中获取数据并在Spark进行计算之后,将计算结果导入该数据库或者数仓。获取数据和导入数据的地方可以是不同的。 一、项目配置 1. 创建工程首先,创建一个空的Maven工程,在创建之后... @[TOC] Spark On Hive 详解本文基于Spark重构基于Hive的电商数据分析的项目需求,在重构的同时对Spark On Hive的全流程进行详细的讲解。所谓的Spark On X指的是从X数据源中获取数据并在Spark进行计算之后,将计算结果导入该数据库或者数仓。获取数据和导入数据的地方可以是不同的。 一、项目配置 1. 创建工程首先,创建一个空的Maven工程,在创建之后...
- Hive笔记02–查询、数据加载和交换、聚合、排序、优化 Hive的数据查询 基础查询1.基本结构SELECT 字段列表|表达式|子查询FROM 表|子查询|视图|临时表WHERE NOT 条件A AND | OR 条件B – 先 面向原始行进行筛选GROUP BY 字段A[,字段B,…] – 不能用 DISTINCTHAVING 聚合条件(非原始字段) – 后... Hive笔记02–查询、数据加载和交换、聚合、排序、优化 Hive的数据查询 基础查询1.基本结构SELECT 字段列表|表达式|子查询FROM 表|子查询|视图|临时表WHERE NOT 条件A AND | OR 条件B – 先 面向原始行进行筛选GROUP BY 字段A[,字段B,…] – 不能用 DISTINCTHAVING 聚合条件(非原始字段) – 后...
- 拉链表版本迭代:hive 0.14 slowly changing dimension => hive 2.6.0 merge 事务管理原来采用分区表,用户分区存储历史增量数据,缺点是重复数据太多定义:数仓用于解决持续增长且存在一定时间时间范围内重复的数据存储:创建拉链表时使用列式存储ORC:不能使用load加载数据压缩比高 效率高场景:【数据规模庞大】,新数据【在有限的时间】内存在多种状... 拉链表版本迭代:hive 0.14 slowly changing dimension => hive 2.6.0 merge 事务管理原来采用分区表,用户分区存储历史增量数据,缺点是重复数据太多定义:数仓用于解决持续增长且存在一定时间时间范围内重复的数据存储:创建拉链表时使用列式存储ORC:不能使用load加载数据压缩比高 效率高场景:【数据规模庞大】,新数据【在有限的时间】内存在多种状...
- Hive优化 本质:HDFS + MapReduce 问题原因:倾斜:分区:有的分区没有数据,有的分区数据堆积。(若按天分区,每一天数据差别大就叫倾斜。)group by:有的分组键在表中数据很多,有的分组键数据很少。小表 join 大表:小表数据小,大表数据多,造成倾斜。如何识别倾斜?- 若表为分区分桶表,以分区字段作为聚合条件聚合,并进行抽样。- 若有HDFS的权限,查看分区文件夹的大... Hive优化 本质:HDFS + MapReduce 问题原因:倾斜:分区:有的分区没有数据,有的分区数据堆积。(若按天分区,每一天数据差别大就叫倾斜。)group by:有的分组键在表中数据很多,有的分组键数据很少。小表 join 大表:小表数据小,大表数据多,造成倾斜。如何识别倾斜?- 若表为分区分桶表,以分区字段作为聚合条件聚合,并进行抽样。- 若有HDFS的权限,查看分区文件夹的大...
- Hive 取两个字符串的相同部分在数据处理中,有时候我们需要比较两个字符串并找出它们之间的相同部分。在Hive中,我们可以使用一些内置函数来实现这一目的。本篇文章将介绍如何在Hive中取两个字符串的相同部分。1. 使用内置函数regexp_extract结合正则表达式实现可以通过regexp_extract函数结合正则表达式来提取两个字符串的相同部分。以下是一个示例:sqlCopy code... Hive 取两个字符串的相同部分在数据处理中,有时候我们需要比较两个字符串并找出它们之间的相同部分。在Hive中,我们可以使用一些内置函数来实现这一目的。本篇文章将介绍如何在Hive中取两个字符串的相同部分。1. 使用内置函数regexp_extract结合正则表达式实现可以通过regexp_extract函数结合正则表达式来提取两个字符串的相同部分。以下是一个示例:sqlCopy code...
- 官网下载 官网地址:http://hive.apache.org/由于我们的Hadoop版本是2.9.2,所以在这里我们选择2.3.7版本进行下载文件准备将下载下来的Hive 的配置文件进行解压在linux上输入: tar -xvf apache-hive-2.3.7-bin.tar.gz是否移动无所谓,自己安装到最熟悉的目录即可。然后移动到/opt/hive 里面,将文件夹重命名为 hi... 官网下载 官网地址:http://hive.apache.org/由于我们的Hadoop版本是2.9.2,所以在这里我们选择2.3.7版本进行下载文件准备将下载下来的Hive 的配置文件进行解压在linux上输入: tar -xvf apache-hive-2.3.7-bin.tar.gz是否移动无所谓,自己安装到最熟悉的目录即可。然后移动到/opt/hive 里面,将文件夹重命名为 hi...
- 数据仓库 基本概念 场景案例 主要特征 主流开发语言-SQL 数仓开发语言概述 SQL语言介绍 结构化数据 SQL语法分类 Apache Hive入门 Apache Hive 安装部署 元数据 Hive SQL语言 数据仓库 基本概念数据仓库(Data Warehouse,简称数仓、DW),是一个用于存储,分析,报告的数据系统数据仓库的目的是构建面向分析的集成化数据环境,分析结构为企业提供... 数据仓库 基本概念 场景案例 主要特征 主流开发语言-SQL 数仓开发语言概述 SQL语言介绍 结构化数据 SQL语法分类 Apache Hive入门 Apache Hive 安装部署 元数据 Hive SQL语言 数据仓库 基本概念数据仓库(Data Warehouse,简称数仓、DW),是一个用于存储,分析,报告的数据系统数据仓库的目的是构建面向分析的集成化数据环境,分析结构为企业提供...
- sql学习的语法。 万事皆备于我,我心即使宇宙。 不定时补充笔记。 sql学习的语法。 万事皆备于我,我心即使宇宙。 不定时补充笔记。
- Quicktype 应用提供了一种将JSON转换成漂亮、类型安全的代码的方式,支持多种编程语言。该站点的要功能包括:JSON 转代码: 通过 quicktype 的 web 应用程序,用户可以将示例 JSON 数据转换为各种编程语言中的类型定义和序列化代码。用户只需提供样本 JSON、URL、JSON 模式或 GraphQL 查询,quicktype 就能生成相应的代码。 Quicktype 应用提供了一种将JSON转换成漂亮、类型安全的代码的方式,支持多种编程语言。该站点的要功能包括:JSON 转代码: 通过 quicktype 的 web 应用程序,用户可以将示例 JSON 数据转换为各种编程语言中的类型定义和序列化代码。用户只需提供样本 JSON、URL、JSON 模式或 GraphQL 查询,quicktype 就能生成相应的代码。
- Hive安装超详细教程 Hive安装超详细教程
- 将关系型数据库ORACLE的数据导入到HDFS中,可以通过Sqoop、OGG来实现,相比较ORACLE GOLDENGATE,Sqoop不仅不需要复杂的安装配置,而且传输效率很高,同时也能实现增量数据同步。 说明:本测试hadoop是单节点伪分布式环境,是基于之前写的两篇文章对应的环境操作. 本文档将在以上两个文章的基础上操作,是对第二篇文章环境的一个简单使用测试,使用过程中出现的错误亦可以验证暴 将关系型数据库ORACLE的数据导入到HDFS中,可以通过Sqoop、OGG来实现,相比较ORACLE GOLDENGATE,Sqoop不仅不需要复杂的安装配置,而且传输效率很高,同时也能实现增量数据同步。 说明:本测试hadoop是单节点伪分布式环境,是基于之前写的两篇文章对应的环境操作. 本文档将在以上两个文章的基础上操作,是对第二篇文章环境的一个简单使用测试,使用过程中出现的错误亦可以验证暴
- 接下来本篇文章详细介绍一下使用sqoop全量同步oracle/mysql数据到hive,这里实验采用oracle数据库为例, 后面一篇文章将详细介绍: 1、sqoop --incremental append 附加模式增量同步数据到hive 2、sqoop --incremental --merge-key合并模式增量同步到hive 接下来本篇文章详细介绍一下使用sqoop全量同步oracle/mysql数据到hive,这里实验采用oracle数据库为例, 后面一篇文章将详细介绍: 1、sqoop --incremental append 附加模式增量同步数据到hive 2、sqoop --incremental --merge-key合并模式增量同步到hive
- 在生产环境中,系统可能会定期从与业务相关的关系型数据库向Hadoop导入数据,导入数仓后进行后续离线分析。故我们此时不可能再将所有数据重新导一遍,此时我们就需要增量数据导入这一模式了。 增量数据导入分两种,一是基于递增列的增量数据导入(Append方式)。二是基于时间列的增量数据导入(LastModified方式),增量导入使用到的核心参数主要是: –check-column 在生产环境中,系统可能会定期从与业务相关的关系型数据库向Hadoop导入数据,导入数仓后进行后续离线分析。故我们此时不可能再将所有数据重新导一遍,此时我们就需要增量数据导入这一模式了。 增量数据导入分两种,一是基于递增列的增量数据导入(Append方式)。二是基于时间列的增量数据导入(LastModified方式),增量导入使用到的核心参数主要是: –check-column
- 最近因为单位换了新版本华为HD集群,有一些业务数据存在于hive数据库中。而有一些Smartbi的报表数据源是连接的华为HD Hive,因为变更了集群,需要将SmartBi的数据源改为新集群的。我将Kerberos认证凭据和新版本Hive jdbc驱动以及新的jdbc连接串给了同事,也将实施文档给了同事,但是同事在操作完成后,Smarbi节点无法正常起来(后台日志卡在:The server st 最近因为单位换了新版本华为HD集群,有一些业务数据存在于hive数据库中。而有一些Smartbi的报表数据源是连接的华为HD Hive,因为变更了集群,需要将SmartBi的数据源改为新集群的。我将Kerberos认证凭据和新版本Hive jdbc驱动以及新的jdbc连接串给了同事,也将实施文档给了同事,但是同事在操作完成后,Smarbi节点无法正常起来(后台日志卡在:The server st
上滑加载中
推荐直播
-
Skill 构建 × 智能创作:基于华为云码道的 AI 内容生产提效方案2026/03/25 周三 19:00-20:00
余伟,华为云软件研发工程师/万邵业(万少),华为云HCDE开发者专家
本次直播带来两大实战:华为云码道 Skill-Creator 手把手搭建专属知识库 Skill;如何用码道提效 OpenClaw 小说文本,打造从大纲到成稿的 AI 原创小说全链路。技术干货 + OPC创作思路,一次讲透!
回顾中 -
码道新技能,AI 新生产力——从自动视频生成到开源项目解析2026/04/08 周三 19:00-21:00
童得力-华为云开发者生态运营总监/何文强-无人机企业AI提效负责人
本次华为云码道 Skill 实战活动,聚焦两大 AI 开发场景:通过实战教学,带你打造 AI 编程自动生成视频 Skill,并实现对 GitHub 热门开源项目的智能知识抽取,手把手掌握 Skill 开发全流程,用 AI 提升研发效率与内容生产力。
回顾中 -
华为云码道:零代码股票智能决策平台全功能实战2026/04/18 周六 10:00-12:00
秦拳德-中软国际教育卓越研究院研究员、华为云金牌讲师、云原生技术专家
利用Tushare接口获取实时行情数据,采用Transformer算法进行时序预测与涨跌分析,并集成DeepSeek API提供智能解读。同时,项目深度结合华为云CodeArts(码道)的代码智能体能力,实现代码一键推送至云端代码仓库,建立起高效、可协作的团队开发新范式。开发者可快速上手,从零打造功能完整的个股筛选、智能分析与风险管控产品。
回顾中
热门标签