Hive_标签_开发者

博客(8.3k)
视频(0)
论坛(0)
云声(0)
代码示例(0)

Hive如何让MapReduce实现SQL操作
Hive如何让MapReduce实现SQL操作MapReduce简化了大数据编程的难度，使得大数据计算不再是高不可攀的技术圣殿，普通工程师也能使用MapReduce开发大数据程序。但是对于经常需要进行大数据计算的人，比如从事研究商业智能（BI）的数据分析师来说，他们通常使用SQL进行大数据分析和统计，MapReduce编程还是有一定的门槛。而且如果每次统计和分析都开发相应的MapReduce...

JavaEdge
发表于2022-04-15 22:48:24
4225 0 1

4.2k 0 1

Hive如何让MapReduce实现SQL操作MapReduce简化了大数据编程的难度，使得大数据计算不再是高不可攀的技术圣殿，普通工程师也能使用MapReduce开发大数据程序。但是对于经常需要进行大数据计算的人，比如从事研究商业智能（BI）的数据分析师来说，他们通常使用SQL进行大数据分析和统计，MapReduce编程还是有一定的门槛。而且如果每次统计和分析都开发相应的MapReduce...
Hive MapReduce SQL
【最全的大数据面试系列】Hive面试题大全
1.Hive 表关联查询，如何解决数据倾斜的问题？1.倾斜原因：map 输出数据按 key Hash 的分配到 reduce 中，由于 key 分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的 reduce 上的数据量差异过大。1）key 分布不均匀;2）业务数据本身的特性;3）建表时考虑不周;4）某些 SQL 语句本身就有数据倾斜;如何避免：对于 key 为空产生的数据倾斜，可...

大数据小禅
发表于2021-12-25 20:32:18
2505 0 0

2.5k 0 0

1.Hive 表关联查询，如何解决数据倾斜的问题？1.倾斜原因：map 输出数据按 key Hash 的分配到 reduce 中，由于 key 分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的 reduce 上的数据量差异过大。1）key 分布不均匀;2）业务数据本身的特性;3）建表时考虑不周;4）某些 SQL 语句本身就有数据倾斜;如何避免：对于 key 为空产生的数据倾斜，可...
Hive 大数据
Hive虚拟列的生成与计算【4】
本文主要解析介绍Hive虚拟列BLOCK__OFFSET__INSIDE__FILE相关源码

想要一只猫
发表于2021-09-09 23:17:24
6680 0 0

6.6k 0 0

本文主要解析介绍Hive虚拟列BLOCK__OFFSET__INSIDE__FILE相关源码
EI企业智能 Hadoop Hive 智能数据表格存储服务 CloudTable
Hive UDF源码解析【1】Create Function
文本主要解析Hive添加UDF的源码流程

想要一只猫
发表于2021-08-28 23:41:36
4248 0 0

4.2k 0 0

文本主要解析Hive添加UDF的源码流程
EI企业智能 Hadoop Hive 智能数据表格存储服务 CloudTable
Hive SQL编译原理（下）
三、过渡1 Driver.compile()2 SemanticAnalyzerFactory是Hive做语义解析的工厂类，用于根据SQL的类型，构建对应的语义解析器。比如：explain走ExplainSemanticAnalyzer，DDL走DDLSemanticAnalyzer，load走LoadSemanticAnalyzer等等，工厂模式可以使这些不同的功能隔离开，在一定程度上解耦...

living
发表于2021-07-30 17:32:44
6842 0 0

6.8k 0 0

三、过渡1 Driver.compile()2 SemanticAnalyzerFactory是Hive做语义解析的工厂类，用于根据SQL的类型，构建对应的语义解析器。比如：explain走ExplainSemanticAnalyzer，DDL走DDLSemanticAnalyzer，load走LoadSemanticAnalyzer等等，工厂模式可以使这些不同的功能隔离开，在一定程度上解耦...
Hive
Hive SQL编译原理（上）
一、编译模块整体介绍1 Hive执行过程回顾client:用户通过客户端提交查询操作Driver:提供执行接口，负责接收查询请求并建立session，创建一系列环境参数等Compiler:Hive的编译器，负责将sql转化为平台可执行的执行计划MetaStore:Hive的元数据服务器Execution Engine:执行引擎，负责提交Compiler 编译好的执行计划到不同的平台上用户通过...

living
发表于2021-07-30 17:07:00
4490 0 1

4.4k 0 1

一、编译模块整体介绍1 Hive执行过程回顾client:用户通过客户端提交查询操作Driver:提供执行接口，负责接收查询请求并建立session，创建一系列环境参数等Compiler:Hive的编译器，负责将sql转化为平台可执行的执行计划MetaStore:Hive的元数据服务器Execution Engine:执行引擎，负责提交Compiler 编译好的执行计划到不同的平台上用户通过...
Hive SQL
Hadoop 入门教程
Hadoop 入门教程

ruochen
发表于2021-06-22 18:52:48
4333 0 9

4.3k 0 9

Hadoop 入门教程
Hadoop Hive Java
hive数据迁移到clickhouse—使用Waterdrop工具
hive数据迁移到clickhouse—使用Waterdrop工具参考链接基于荣耀客户的需求，测试Waterdrop从云EI的hive-spark集群上迁移数据到clickhouse集群 hive数据迁移到clickhouse—使用Waterdrop工具 Waterdrop hive-spark集群 clickhouse集群 batch.conf 数据迁移迁移结果 waterdrop性能...

陈方业
发表于2021-05-25 14:33:36
7231 0 0

7.2k 0 0

hive数据迁移到clickhouse—使用Waterdrop工具参考链接基于荣耀客户的需求，测试Waterdrop从云EI的hive-spark集群上迁移数据到clickhouse集群 hive数据迁移到clickhouse—使用Waterdrop工具 Waterdrop hive-spark集群 clickhouse集群 batch.conf 数据迁移迁移结果 waterdrop性能...
ClickHouse Hadoop Hive 数据迁移
Hive之路-生成tpcds数据
背景前面的文章，基本实现了从0搭建Hive的运行环境。包括Hadoop、Hive，也包括HiveServer2、Tez。距离在Hive上调试开发，还欠缺一套开发环境，待后续补充。而环境有了后，测试什么、用什么表示这个系统可用？大多时候，我们想额外学习一个软件或者开源项目时候，就容易陷入"安装-部署-安装-部署"的循环中。没有实际使用的场景，或者自己构造的场景不足以触发特性（考虑不周），我们...

BUG开发工程师
发表于2021-04-22 16:58:20
9875 0 0

9.8k 0 0

背景前面的文章，基本实现了从0搭建Hive的运行环境。包括Hadoop、Hive，也包括HiveServer2、Tez。距离在Hive上调试开发，还欠缺一套开发环境，待后续补充。而环境有了后，测试什么、用什么表示这个系统可用？大多时候，我们想额外学习一个软件或者开源项目时候，就容易陷入"安装-部署-安装-部署"的循环中。没有实际使用的场景，或者自己构造的场景不足以触发特性（考虑不周），我们...
EI企业智能 Hive Windows 智能数据表格存储服务 CloudTable
HIVE及MySQL安装
安装HIVE编辑hive-env.sh 在HDFS创建数据存储仓库[root@master conf]# hadoop fs -mkdir -p /user/hive/warehouse 启动hive报错如下：原因：jar包冲突，删除低版本jar包即可解决方法：删除/usr/local/src/hadoop/soft/hadoop-2.6.0/share/hadoop/yarn/lib中的...

菜鸟级攻城狮
发表于2021-02-28 08:12:27
3384 0 1

3.3k 0 1

安装HIVE编辑hive-env.sh 在HDFS创建数据存储仓库[root@master conf]# hadoop fs -mkdir -p /user/hive/warehouse 启动hive报错如下：原因：jar包冲突，删除低版本jar包即可解决方法：删除/usr/local/src/hadoop/soft/hadoop-2.6.0/share/hadoop/yarn/lib中的...
Hive MySQL
MRS 1.9.x版本安全集群Presto跨集群查询Hive数据配置指南
假设有两个集群A，B，均开启了Kerberos，本文将说明如何配置使用集群B上的Presto查询集群A1. 配置集群互信，参见配置跨集群互信2. 将集群A上的/opt/Bigdata/MRS_1.9.2/1_XX_Coordinator/etc/core-site.xml和/opt/Bigdata/MRS_1.9.2/1_XX_Coordinator/etc/hdfs-site.xml拷贝...

Lothar
发表于2021-02-24 16:54:49
10099 0 0

10.0k 0 0

假设有两个集群A，B，均开启了Kerberos，本文将说明如何配置使用集群B上的Presto查询集群A1. 配置集群互信，参见配置跨集群互信2. 将集群A上的/opt/Bigdata/MRS_1.9.2/1_XX_Coordinator/etc/core-site.xml和/opt/Bigdata/MRS_1.9.2/1_XX_Coordinator/etc/hdfs-site.xml拷贝...
Hive MapReduce 大数据
浅谈Hive on Spark 与 Spark SQL的区别
Hive On Spark大体与Spark SQL结构类似，只是SQL引擎不同，但是计算引擎都是Spark。将Spark作为计算引擎，性能会比传统的MapReduce快很多。华为云DLI服务全面兼容Spark能力，DLI SQL在封装Spark SQL的同时，集成了carbon和carbondata的全部功能，同时兼容传统的DataSource和hive语法建表，支持跨源访问多个服务的数据，增强了

霞光
发表于2020-06-22 23:33:48
16629 0 1

16.6k 0 1

Hive On Spark大体与Spark SQL结构类似，只是SQL引擎不同，但是计算引擎都是Spark。将Spark作为计算引擎，性能会比传统的MapReduce快很多。华为云DLI服务全面兼容Spark能力，DLI SQL在封装Spark SQL的同时，集成了carbon和carbondata的全部功能，同时兼容传统的DataSource和hive语法建表，支持跨源访问多个服务的数据，增强了
spark Hive SQL
如何整合hive和hbase
Hive和Hbase在大数据架构中处在不同位置，Hive是一个构建在Hadoop基础之上的数据仓库，Hbase是一种NoSQL数据库，非常适用于海量明细数据的随机实时查询, 在大数据架构中，Hive和HBase是协作关系如果两者结合，可以利用MapReduce的优势针对HBase存储的大量内容进行离线的计算和分析。

tengyun
发表于2019-03-31 23:50:57
7313 2 1

7.3k 2 1

Hive和Hbase在大数据架构中处在不同位置，Hive是一个构建在Hadoop基础之上的数据仓库，Hbase是一种NoSQL数据库，非常适用于海量明细数据的随机实时查询, 在大数据架构中，Hive和HBase是协作关系如果两者结合，可以利用MapReduce的优势针对HBase存储的大量内容进行离线的计算和分析。
HBase Hive
kettle如何连接hive
文章目录配置测试配置 kettle版本：kettle-6.1.0.1_07270 修改kettle-6.1.0.1_07270\plugins\pentaho-big-data-...

小小明-代码实体
发表于2021-10-12 22:49:44
5084 0 0

5.0k 0 0

文章目录配置测试配置 kettle版本：kettle-6.1.0.1_07270 修改kettle-6.1.0.1_07270\plugins\pentaho-big-data-...
Hive
Hive和Pandas实现wordcount
本文Pandas版本必须为0.25以上才能使用explode，可以通过以下命令看Pandas版本： pip show pandas 可以通过以下命令升级Pandas到最新版： pip install pandas --upgrade 也可以通过以下命令安装指定版本的Pandas： pip install ...

小小明-代码实体
发表于2021-10-11 23:53:21
3762 0 0

3.7k 0 0

本文Pandas版本必须为0.25以上才能使用explode，可以通过以下命令看Pandas版本： pip show pandas 可以通过以下命令升级Pandas到最新版： pip install pandas --upgrade 也可以通过以下命令安装指定版本的Pandas： pip install ...
Hive Python

上滑加载中

推荐直播

华为云IoT开源专家实践分享：开源让物联网平台更开放、易用
2024/05/22 周三 16:30-18:00

张俭华为云IoT DTSE技术布道师

开源，意味着开放、共享、互助、共赢。作为万物上云及各行业数字化的物联网底座，华为云IoT积极拥抱开源，借助行业开源的最佳实践，构建可靠、易用的物联网平台，并通过开放南北向SDK，助力开发者快速构建物联网应用。本期直播，华为云IoT开源专家、物联网平台资深“程序猿”张俭，带你了解华为云IoT的开源生态，并手把手教你玩转开源社区！
去报名
数字技术创新与商业愿景--数字化转型战略解读
2024/05/22 周三 19:00-20:30

王纪奎老师华为科学家咨询委员会CTO

数字化转型浪潮下，你是否缺乏对前沿科技的战略洞察、难以将企业转型与国家战略相融合、缺少系统性规划的数字化思维…… 我们特别邀请了华为科学家咨询委员会CTO、战略研究院数字经济与数字化转型首席专家、《数字化转型战略》一书的作者——王纪奎老师。在5月22日（周三）19点，为我们带来一场主题为“数字技术创新与商业愿景--数字化转型战略解决”的精彩直播。
去报名
华为云开发者日·广州站
2024/05/23 周四 14:30-17:30

华为云专家团

华为云开发者日HDC.Cloud Day是面向全球开发者的旗舰活动，汇聚来自千行百业、高校及科研院所的开发人员。致力于打造开发者专属的技术盛宴，全方位服务与赋能开发者围绕华为云生态“知、学、用、创、商”的成长路径。通过前沿的技术分享、场景化的动手体验、优秀的应用创新推介，为开发者提供沉浸式学习与交流平台。开放创新，与开发者共创、共享、共赢未来。
去报名

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript