Hive_标签_开发者_华为云

博客(8.3k)
视频(0)
论坛(0)
云声(0)
代码示例(0)

hive函数大全：11大类、109个函数
磨刀不误砍柴工，学完函数再sql 目录一、关系运算  1. 等值比较: = 2. 不等值比较: <> 3.小于比较: < 4. 小于等于比较: <= 5. 大于比较: > 6. 大于等于比较: >= 7. 空值判断: IS NULL 8. 非空判断: IS NOTNULL 9. LIKE比较: LIKE ...

不吃西红柿
发表于2021-07-15 02:08:32
4731 0 0

4.7k 0 0

磨刀不误砍柴工，学完函数再sql 目录一、关系运算  1. 等值比较: = 2. 不等值比较: <> 3.小于比较: < 4. 小于等于比较: <= 5. 大于比较: > 6. 大于等于比较: >= 7. 空值判断: IS NULL 8. 非空判断: IS NOTNULL 9. LIKE比较: LIKE ...
Hive Python
Hive小文件问题：如何产生、造成影响、解放办法
一、小文件是如何产生的 1.动态分区插入数据，产生大量的小文件，从而导致map数量剧增。 2.reduce数量越多，小文件也越多(reduce的个数和输出文件是对应的)。 3.数据源本身就包含大量的小文件。   二、小文件问题的影响 1.从Hive的角度看，小文件会开很多map，一个map开一个JVM去执行，所以这些任务的初始化，启动，执行会浪费大量的资...

不吃西红柿
发表于2021-07-15 02:02:19
5843 0 0

5.8k 0 0

一、小文件是如何产生的 1.动态分区插入数据，产生大量的小文件，从而导致map数量剧增。 2.reduce数量越多，小文件也越多(reduce的个数和输出文件是对应的)。 3.数据源本身就包含大量的小文件。   二、小文件问题的影响 1.从Hive的角度看，小文件会开很多map，一个map开一个JVM去执行，所以这些任务的初始化，启动，执行会浪费大量的资...
Hive
Hive的查询、数据加载和交换、聚合、排序、优化
Hive笔记02–查询、数据加载和交换、聚合、排序、优化 Hive的数据查询基础查询1.基本结构SELECT 字段列表|表达式|子查询FROM 表|子查询|视图|临时表WHERE NOT 条件A AND | OR 条件B – 先面向原始行进行筛选GROUP BY 字段A[,字段B,…] – 不能用 DISTINCTHAVING 聚合条件(非原始字段) – 后...

Byyyi耀
发表于2024-05-06 11:05:21
88 0 0

88 0 0

Hive笔记02–查询、数据加载和交换、聚合、排序、优化 Hive的数据查询基础查询1.基本结构SELECT 字段列表|表达式|子查询FROM 表|子查询|视图|临时表WHERE NOT 条件A AND | OR 条件B – 先面向原始行进行筛选GROUP BY 字段A[,字段B,…] – 不能用 DISTINCTHAVING 聚合条件(非原始字段) – 后...
Hive
Hive 拉链表详解及实例
拉链表版本迭代：hive 0.14 slowly changing dimension => hive 2.6.0 merge 事务管理原来采用分区表，用户分区存储历史增量数据，缺点是重复数据太多定义：数仓用于解决持续增长且存在一定时间时间范围内重复的数据存储：创建拉链表时使用列式存储ORC：不能使用load加载数据压缩比高效率高场景：【数据规模庞大】，新数据【在有限的时间】内存在多种状...

Byyyi耀
发表于2024-05-06 10:57:48
91 0 0

91 0 0

拉链表版本迭代：hive 0.14 slowly changing dimension => hive 2.6.0 merge 事务管理原来采用分区表，用户分区存储历史增量数据，缺点是重复数据太多定义：数仓用于解决持续增长且存在一定时间时间范围内重复的数据存储：创建拉链表时使用列式存储ORC：不能使用load加载数据压缩比高效率高场景：【数据规模庞大】，新数据【在有限的时间】内存在多种状...
Hive 数据结构
Hive 优化总结
Hive优化本质：HDFS + MapReduce 问题原因：倾斜：分区：有的分区没有数据，有的分区数据堆积。(若按天分区，每一天数据差别大就叫倾斜。)group by：有的分组键在表中数据很多，有的分组键数据很少。小表 join 大表：小表数据小，大表数据多，造成倾斜。如何识别倾斜？- 若表为分区分桶表，以分区字段作为聚合条件聚合，并进行抽样。- 若有HDFS的权限，查看分区文件夹的大...

Byyyi耀
发表于2024-05-06 10:57:01
693 0 0

693 0 0

Hive优化本质：HDFS + MapReduce 问题原因：倾斜：分区：有的分区没有数据，有的分区数据堆积。(若按天分区，每一天数据差别大就叫倾斜。)group by：有的分组键在表中数据很多，有的分组键数据很少。小表 join 大表：小表数据小，大表数据多，造成倾斜。如何识别倾斜？- 若表为分区分桶表，以分区字段作为聚合条件聚合，并进行抽样。- 若有HDFS的权限，查看分区文件夹的大...
Hadoop Hive
Hive 取两个字符串的相同部分
Hive 取两个字符串的相同部分在数据处理中，有时候我们需要比较两个字符串并找出它们之间的相同部分。在Hive中，我们可以使用一些内置函数来实现这一目的。本篇文章将介绍如何在Hive中取两个字符串的相同部分。1. 使用内置函数regexp_extract结合正则表达式实现可以通过regexp_extract函数结合正则表达式来提取两个字符串的相同部分。以下是一个示例：sqlCopy code...

皮牙子抓饭
发表于2024-03-25 09:20:36
1852 0 0

1.8k 0 0

Hive 取两个字符串的相同部分在数据处理中，有时候我们需要比较两个字符串并找出它们之间的相同部分。在Hive中，我们可以使用一些内置函数来实现这一目的。本篇文章将介绍如何在Hive中取两个字符串的相同部分。1. 使用内置函数regexp_extract结合正则表达式实现可以通过regexp_extract函数结合正则表达式来提取两个字符串的相同部分。以下是一个示例：sqlCopy code...
Hadoop Hive
大数据技术实践之hive安装和配置
官网下载官网地址：http://hive.apache.org/由于我们的Hadoop版本是2.9.2，所以在这里我们选择2.3.7版本进行下载文件准备将下载下来的Hive 的配置文件进行解压在linux上输入: tar -xvf apache-hive-2.3.7-bin.tar.gz是否移动无所谓，自己安装到最熟悉的目录即可。然后移动到/opt/hive 里面，将文件夹重命名为 hi...

tea_year
发表于2024-02-07 09:48:50
255 0 0

255 0 0

官网下载官网地址：http://hive.apache.org/由于我们的Hadoop版本是2.9.2，所以在这里我们选择2.3.7版本进行下载文件准备将下载下来的Hive 的配置文件进行解压在linux上输入: tar -xvf apache-hive-2.3.7-bin.tar.gz是否移动无所谓，自己安装到最熟悉的目录即可。然后移动到/opt/hive 里面，将文件夹重命名为 hi...
Hive 大数据
数据仓库技术与Hive入门
数据仓库基本概念场景案例主要特征主流开发语言-SQL 数仓开发语言概述 SQL语言介绍结构化数据 SQL语法分类 Apache Hive入门 Apache Hive 安装部署元数据 Hive SQL语言数据仓库基本概念数据仓库(Data Warehouse,简称数仓、DW)，是一个用于存储，分析，报告的数据系统数据仓库的目的是构建面向分析的集成化数据环境，分析结构为企业提供...

北山啦
发表于2023-12-07 16:23:04
4305 0 0

4.3k 0 0

数据仓库基本概念场景案例主要特征主流开发语言-SQL 数仓开发语言概述 SQL语言介绍结构化数据 SQL语法分类 Apache Hive入门 Apache Hive 安装部署元数据 Hive SQL语言数据仓库基本概念数据仓库(Data Warehouse,简称数仓、DW)，是一个用于存储，分析，报告的数据系统数据仓库的目的是构建面向分析的集成化数据环境，分析结构为企业提供...
Hive SQL
sql语法（mysql,sqlserver,hivesql）
sql学习的语法。万事皆备于我，我心即使宇宙。不定时补充笔记。

yd_240468416
发表于2023-11-22 11:41:42
591 0 0

591 0 0

sql学习的语法。万事皆备于我，我心即使宇宙。不定时补充笔记。
Hive MySQL SQL SQL Server
Dart笔记：一些代码生成工具站点的介绍
Quicktype 应用提供了一种将JSON转换成漂亮、类型安全的代码的方式，支持多种编程语言。该站点的要功能包括：JSON 转代码：通过 quicktype 的 web 应用程序，用户可以将示例 JSON 数据转换为各种编程语言中的类型定义和序列化代码。用户只需提供样本 JSON、URL、JSON 模式或 GraphQL 查询，quicktype 就能生成相应的代码。

jcLee95
发表于2023-11-13 20:51:36
1465 0 0

1.4k 0 0

Quicktype 应用提供了一种将JSON转换成漂亮、类型安全的代码的方式，支持多种编程语言。该站点的要功能包括：JSON 转代码：通过 quicktype 的 web 应用程序，用户可以将示例 JSON 数据转换为各种编程语言中的类型定义和序列化代码。用户只需提供样本 JSON、URL、JSON 模式或 GraphQL 查询，quicktype 就能生成相应的代码。
Android Flutter Hive iOS JSON
Hive安装超详细教程
Hive安装超详细教程

笑看风云路
发表于2023-06-16 16:05:14
4204 0 0

4.2k 0 0

Hive安装超详细教程
Hive
sqoop避免输入密码自动增量job脚本介绍
将关系型数据库ORACLE的数据导入到HDFS中，可以通过Sqoop、OGG来实现，相比较ORACLE GOLDENGATE，Sqoop不仅不需要复杂的安装配置，而且传输效率很高，同时也能实现增量数据同步。说明：本测试hadoop是单节点伪分布式环境,是基于之前写的两篇文章对应的环境操作. 本文档将在以上两个文章的基础上操作，是对第二篇文章环境的一个简单使用测试，使用过程中出现的错误亦可以验证暴

赵延东的一亩三分地
发表于2023-03-25 12:09:05
1283 0 0

1.2k 0 0

将关系型数据库ORACLE的数据导入到HDFS中，可以通过Sqoop、OGG来实现，相比较ORACLE GOLDENGATE，Sqoop不仅不需要复杂的安装配置，而且传输效率很高，同时也能实现增量数据同步。说明：本测试hadoop是单节点伪分布式环境,是基于之前写的两篇文章对应的环境操作. 本文档将在以上两个文章的基础上操作，是对第二篇文章环境的一个简单使用测试，使用过程中出现的错误亦可以验证暴
Hive Oracle
Sqoop全量同步mysql/Oracle数据到hive
接下来本篇文章详细介绍一下使用sqoop全量同步oracle/mysql数据到hive，这里实验采用oracle数据库为例，后面一篇文章将详细介绍： 1、sqoop --incremental append 附加模式增量同步数据到hive 2、sqoop --incremental --merge-key合并模式增量同步到hive

赵延东的一亩三分地
发表于2023-03-25 12:06:12
3376 0 0

3.3k 0 0

接下来本篇文章详细介绍一下使用sqoop全量同步oracle/mysql数据到hive，这里实验采用oracle数据库为例，后面一篇文章将详细介绍： 1、sqoop --incremental append 附加模式增量同步数据到hive 2、sqoop --incremental --merge-key合并模式增量同步到hive
Hive MySQL Oracle
Sqoop增量同步mysql/oracle数据到hive(merge-key/append）测试文档
在生产环境中，系统可能会定期从与业务相关的关系型数据库向Hadoop导入数据，导入数仓后进行后续离线分析。故我们此时不可能再将所有数据重新导一遍，此时我们就需要增量数据导入这一模式了。增量数据导入分两种，一是基于递增列的增量数据导入（Append方式）。二是基于时间列的增量数据导入（LastModified方式），增量导入使用到的核心参数主要是： –check-column

赵延东的一亩三分地
发表于2023-03-25 12:02:02
1462 0 0

1.4k 0 0

在生产环境中，系统可能会定期从与业务相关的关系型数据库向Hadoop导入数据，导入数仓后进行后续离线分析。故我们此时不可能再将所有数据重新导一遍，此时我们就需要增量数据导入这一模式了。增量数据导入分两种，一是基于递增列的增量数据导入（Append方式）。二是基于时间列的增量数据导入（LastModified方式），增量导入使用到的核心参数主要是： –check-column
Hive MySQL Oracle
记一次同事不慎用root起动weblogic以及启动日志卡在The server started in RUNNING mode
最近因为单位换了新版本华为HD集群，有一些业务数据存在于hive数据库中。而有一些Smartbi的报表数据源是连接的华为HD Hive,因为变更了集群，需要将SmartBi的数据源改为新集群的。我将Kerberos认证凭据和新版本Hive jdbc驱动以及新的jdbc连接串给了同事，也将实施文档给了同事，但是同事在操作完成后，Smarbi节点无法正常起来(后台日志卡在：The server st

赵延东的一亩三分地
发表于2023-03-25 00:07:46
1419 0 0

1.4k 0 0

最近因为单位换了新版本华为HD集群，有一些业务数据存在于hive数据库中。而有一些Smartbi的报表数据源是连接的华为HD Hive,因为变更了集群，需要将SmartBi的数据源改为新集群的。我将Kerberos认证凭据和新版本Hive jdbc驱动以及新的jdbc连接串给了同事，也将实施文档给了同事，但是同事在操作完成后，Smarbi节点无法正常起来(后台日志卡在：The server st
Hive

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript