Hive_标签_开发者

通过WebChat访问Hive元数据

WebHcat样例代码Hive提供了WebHcat接口。该文档利用java把该接口进行了封装，可以使用java代码访问Hive。代码中只封装了一些常用接口，对于没有其他的接口，可以参考封装好的代码自行进行封装。1.1 主要难点：因hive的webHcat接口未提供认证接口，我们这边只能借助spnego的方式来进行kerberos认证。首先，先进行kerberos认证。认证完成后，获...

南派三叔

发表于2021-08-26 18:56:42

8019 0 0

8.0k 0 0

WebHcat样例代码Hive提供了WebHcat接口。该文档利用java把该接口进行了封装，可以使用java代码访问Hive。代码中只封装了一些常用接口，对于没有其他的接口，可以参考封装好的代码自行进行封装。1.1 主要难点：因hive的webHcat接口未提供认证接口，我们这边只能借助spnego的方式来进行kerberos认证。首先，先进行kerberos认证。认证完成后，获...

EI企业智能 FusionInsight Hive 数据库

上新！MRS集成Hudi

Hudi是数据湖的文件组织层，对Parquet格式文件进行管理提供数据湖能力，支持多种计算引擎，提供IUD接口，在 HDFS/OBS的数据集上提供了插入更新和增量拉取的流原语。图1 Hudi基本架构Hudi特性 ACID事务能力，支持实时入湖和批量入湖。多种视图能力（读优化视图/增量视图/实时视图），支持快速数据分析。 MVCC设计，支持数据版本回溯。自动管理文件大小和布局，以优化查询性...

数据湖爱好者

发表于2021-07-29 11:52:28

10959 0 0

10.9k 0 0

Hudi是数据湖的文件组织层，对Parquet格式文件进行管理提供数据湖能力，支持多种计算引擎，提供IUD接口，在 HDFS/OBS的数据集上提供了插入更新和增量拉取的流原语。图1 Hudi基本架构Hudi特性 ACID事务能力，支持实时入湖和批量入湖。多种视图能力（读优化视图/增量视图/实时视图），支持快速数据分析。 MVCC设计，支持数据版本回溯。自动管理文件大小和布局，以优化查询性...

EI企业智能 Hive MapReduce MapReduce服务 MRS 智能数据

hive server客户端连接泄漏导致hs重启

1 问题描述从某个时间点开始，Manager页面hiveserver状态在良好和恢复中频繁变化，后台检查hiveserver频繁重启。2 问题分析1. 从hive.log日志可见健康检查多次失败，NodeAgent因健康检查多次失败认为服务已经异常，重启HiveServer进程，Manager页面状态显示正在恢复。2. 健康检查为NodeAgent调用HiveServer的j...

Nature_L

发表于2021-07-13 11:05:54

8846 0 0

8.8k 0 0

1 问题描述从某个时间点开始，Manager页面hiveserver状态在良好和恢复中频繁变化，后台检查hiveserver频繁重启。2 问题分析1. 从hive.log日志可见健康检查多次失败，NodeAgent因健康检查多次失败认为服务已经异常，重启HiveServer进程，Manager页面状态显示正在恢复。2. 健康检查为NodeAgent调用HiveServer的j...

EI企业智能 FusionInsight Hive

【MRS】【FusionInsight】Hive并发MSCK Repair实践

【摘要】对Hive所有的表逐个进行MSCK Repair，修复效率将会很慢，例如修复1000+个表，30+万个分区，修复时长需要5~6个小时左右，耗时非常长，大大占用了变更时间窗。因此，优化改进MSCK Repair，有效提升修复效率，将变得尤为急迫和重要。优化后，10并发执行MSCK Repair修复1000+个表，30+万个分区，修复操作只需0.5小时左右，效率提升10~12倍。

小源源

发表于2021-07-06 20:42:21

8595 0 1

8.5k 0 1

【摘要】对Hive所有的表逐个进行MSCK Repair，修复效率将会很慢，例如修复1000+个表，30+万个分区，修复时长需要5~6个小时左右，耗时非常长，大大占用了变更时间窗。因此，优化改进MSCK Repair，有效提升修复效率，将变得尤为急迫和重要。优化后，10并发执行MSCK Repair修复1000+个表，30+万个分区，修复操作只需0.5小时左右，效率提升10~12倍。

EI企业智能 FusionInsight Hive MapReduce

【技术干货】Hive分区分桶样例

1 Hive分区分桶1.1 分区分区概念在逻辑上分区表与未分区表没有区别，在物理上分区表会将数据按照分区键的列值存储在表目录的子目录中，目录名=“分区键=键值”。其中需要注意的是分区键的值不一定要基于表的某一列（字段），它可以指定任意值，只要查询的时候指定相应的分区键来查询即可。我们可以对分区进行添加、删除、重命名、清空等操作。分为静态分区和动态分区两种，静态分区与动态分区的主要区别在于静...

南派三叔

发表于2021-06-26 18:27:10

9014 0 0

9.0k 0 0

1 Hive分区分桶1.1 分区分区概念在逻辑上分区表与未分区表没有区别，在物理上分区表会将数据按照分区键的列值存储在表目录的子目录中，目录名=“分区键=键值”。其中需要注意的是分区键的值不一定要基于表的某一列（字段），它可以指定任意值，只要查询的时候指定相应的分区键来查询即可。我们可以对分区进行添加、删除、重命名、清空等操作。分为静态分区和动态分区两种，静态分区与动态分区的主要区别在于静...

EI企业智能 FusionInsight Hive

【云小课】EI第26课 MRS基础入门之Hive组件介绍

Hive是建立在Hadoop上的数据仓库框架，提供大数据平台批处理计算能力，能够对结构化/半结构化数据进行批量分析汇总完成数据计算。提供类似SQL的Hive Query Language语言操作结构化数据，其基本原理是将HQL语言自动转换成MapReduce任务，从而完成对Hadoop集群中存储的海量数据进行查询和分析。

Hi,EI

发表于2021-06-23 21:05:23

9257 0 0

9.2k 0 0

Hive是建立在Hadoop上的数据仓库框架，提供大数据平台批处理计算能力，能够对结构化/半结构化数据进行批量分析汇总完成数据计算。提供类似SQL的Hive Query Language语言操作结构化数据，其基本原理是将HQL语言自动转换成MapReduce任务，从而完成对Hadoop集群中存储的海量数据进行查询和分析。

Hive MapReduce 云小课

【使用分享】Hive分区表那些事

一、静态分区1.创建静态分区格式:create table employees ( name string, salary float, subordinated array<string>, deductions map<string,float>, address struct<street:string,city:string,state:string,zip:int> ) ...

蓝极光

发表于2021-05-28 14:48:03

7395 0 0

7.3k 0 0

一、静态分区1.创建静态分区格式:create table employees ( name string, salary float, subordinated array<string>, deductions map<string,float>, address struct<street:string,city:string,state:string,zip:int> ) ...

EI企业智能 FusionInsight Hive

【算法分析】Hive GroupingId计算算法分析

对于grouping sets的操作获取的Grouping__id的值在hive-1.2.1前和hive-3.0后版本不同；Hive-1.2.1计算时根据group by指定的列的序列进行分组，凡是出现在grouping sets中的列，以二进制1标识，没有出现在grouping sets中的列以二级制0标识，按照锁得到的二进制数的反码计算grouping__id的值。Hive-3.1....

蓝极光

发表于2021-05-28 14:32:52

4954 0 0

4.9k 0 0

对于grouping sets的操作获取的Grouping__id的值在hive-1.2.1前和hive-3.0后版本不同；Hive-1.2.1计算时根据group by指定的列的序列进行分组，凡是出现在grouping sets中的列，以二进制1标识，没有出现在grouping sets中的列以二级制0标识，按照锁得到的二进制数的反码计算grouping__id的值。Hive-3.1....

EI企业智能 FusionInsight Hive

Hive on Spark和Spark sql on Hive有啥区别？

结构上Hive On Spark和SparkSQL都是一个翻译层，把一个SQL翻译成分布式可执行的Spark程序。Hive和SparkSQL都不负责计算。Hive的默认执行引擎是mr，还可以运行在Spark和Tez。Spark可以连接多种数据源，然后使用SparkSQL来执行分布式计算。Hive On Spark 配置（1）首先安装包要选择对，否则就没有开始了。Hive版本:apache-h...

dayu_dls

发表于2021-05-21 10:29:04

10970 0 0

10.9k 0 0

结构上Hive On Spark和SparkSQL都是一个翻译层，把一个SQL翻译成分布式可执行的Spark程序。Hive和SparkSQL都不负责计算。Hive的默认执行引擎是mr，还可以运行在Spark和Tez。Spark可以连接多种数据源，然后使用SparkSQL来执行分布式计算。Hive On Spark 配置（1）首先安装包要选择对，否则就没有开始了。Hive版本:apache-h...

EI企业智能 Hive spark 可信智能计算服务 TICS 智能数据

集成Ranger后，MRS的Hive组件使用set role admin的方法

背景FusionInsight MRS集群默认安装Ranger服务并启用了Ranger鉴权模型，管理员可以通过组件权限插件对组件资源的访问设置细粒度的安全访问策略。目前安全模式集群中支持Ranger的组件包括：HDFS、Yarn、HBase、Hive、Spark2x、Kafka、Storm、Elasticsearch、HetuEngine。使用场景MRS3.0.2以前的版本中只需要在Fu...

一枚核桃

发表于2021-04-26 11:51:01

6936 0 0

6.9k 0 0

背景FusionInsight MRS集群默认安装Ranger服务并启用了Ranger鉴权模型，管理员可以通过组件权限插件对组件资源的访问设置细粒度的安全访问策略。目前安全模式集群中支持Ranger的组件包括：HDFS、Yarn、HBase、Hive、Spark2x、Kafka、Storm、Elasticsearch、HetuEngine。使用场景MRS3.0.2以前的版本中只需要在Fu...

EI企业智能 FusionInsight Hive MapReduce

Windows10配置运行Hive on tez

背景前面博客已经介绍了如何配置Hadoop和Hive运行环境。即本文开始前，本地已经顺利运行Hive，并可以提交hive on mr任务。在hive领域中，tez是其中一款比较常用的执行引擎。其支持DAG作业模式，可以将多个有依赖的作业转换为一个作业从而大幅提升DAG作业的性能。Hive也有一部分优化特性基于tez实现。本文介绍如何让hive能够启动执行tez任务。下面内容有一部分依赖WS...

BUG开发工程师

发表于2021-04-13 20:44:06

9688 0 0

9.6k 0 0

背景前面博客已经介绍了如何配置Hadoop和Hive运行环境。即本文开始前，本地已经顺利运行Hive，并可以提交hive on mr任务。在hive领域中，tez是其中一款比较常用的执行引擎。其支持DAG作业模式，可以将多个有依赖的作业转换为一个作业从而大幅提升DAG作业的性能。Hive也有一部分优化特性基于tez实现。本文介绍如何让hive能够启动执行tez任务。下面内容有一部分依赖WS...

EI企业智能 Hive Windows 智能数据表格存储服务 CloudTable

windows通过eip访问集群hdfs，hive，kafka

通过eip访问集群主要是对需要的访问的集群组件的IP修改成hostname，和端口开放。像类似spark和flink这种这种分析组件因为是在本地运行，所以不需要做额外的端口和ip的修改。安全集群相对于普通集群多了个kerboers认证，只要修改kerboers的conf文件和开发对应的端口就可以了。

王伟康

发表于2021-04-02 15:28:13

10298 0 0

10.2k 0 0

通过eip访问集群主要是对需要的访问的集群组件的IP修改成hostname，和端口开放。像类似spark和flink这种这种分析组件因为是在本地运行，所以不需要做额外的端口和ip的修改。安全集群相对于普通集群多了个kerboers认证，只要修改kerboers的conf文件和开发对应的端口就可以了。

Hadoop Hive Kafka Windows 弹性公网IP EIP

Hive高级特性-ACID特性

一、概述1、事务（transaction）事务是一组单元化操作，这些操作要么都执行成功，要么都不执行，是一个不可分割的工作单位。例，在人员管理系统中，你删除一个人员，你既需要删除人员的基本资料，也要删除和该人员相关的信息，如信箱，文章等等，这样，这些数据库操作语句就构成一个事务！ 2、事务的基本特性-ACID事务（transaction）的四个基本特性通常称为ACID特性，分别为：原子性（A...

living

发表于2021-01-21 22:18:33

9627 0 0

9.6k 0 0

一、概述1、事务（transaction）事务是一组单元化操作，这些操作要么都执行成功，要么都不执行，是一个不可分割的工作单位。例，在人员管理系统中，你删除一个人员，你既需要删除人员的基本资料，也要删除和该人员相关的信息，如信箱，文章等等，这样，这些数据库操作语句就构成一个事务！ 2、事务的基本特性-ACID事务（transaction）的四个基本特性通常称为ACID特性，分别为：原子性（A...

Hive

【Hadoop源码解析】Hadoop WritableUtils解析

本章讲解了Hadoop WritableUtils的主要代码实现

想要一只猫

发表于2021-01-12 17:50:36

8608 0 0

8.6k 0 0

本章讲解了Hadoop WritableUtils的主要代码实现

EI企业智能 Hadoop Hive 智能数据表格存储服务 CloudTable

【TPCDS】记一个Hive testbench运行报错statu 139的问题

hive testbench 运行时遇到failed with status code 139.

想要一只猫

发表于2021-01-01 19:41:01

10518 3 0

10.5k 3 0

hive testbench 运行时遇到failed with status code 139.

EI企业智能 Hadoop Hive 智能数据表格存储服务 CloudTable