Hive_标签_开发者

博客(359)
视频(0)
论坛(0)
云声(0)
代码示例(0)

【hive基础增强】Hive参数配置及数据类型
1．查看当前所有的配置信息 hive>set; 2．参数的配置三种方式（1）配置文件方式默认配置文件：hive-default.xml 用户自定义配置文件：hive-site.xml 注意：用户自定义配置会覆盖默认配置。另外，Hive也会读入Hadoop的配置，因为Hive是作为Hadoop的客户端启动的，Hive的配置会覆盖Hadoop的配置。配置文件的设定对本机启...

bigdata张凯翔
发表于2021-03-28 00:05:07
3645 0 0

3.6k 0 0

1．查看当前所有的配置信息 hive>set; 2．参数的配置三种方式（1）配置文件方式默认配置文件：hive-default.xml 用户自定义配置文件：hive-site.xml 注意：用户自定义配置会覆盖默认配置。另外，Hive也会读入Hadoop的配置，因为Hive是作为Hadoop的客户端启动的，Hive的配置会覆盖Hadoop的配置。配置文件的设定对本机启...
Hive 数据结构
Hive基础增强-（窗口函数）
一.原始数据 jack,2017-01-01,10 tony,2017-01-02,15 jack,2017-02-03,23 tony,2017-01-04,29 jack,2017-01-05,46 jack,2017-04-06,42 - tony,2017-01-07,50 jack,2017-01-08,55 mart,2017-04-08,62 - mart,...

bigdata张凯翔
发表于2021-03-27 23:46:25
3156 0 0

3.1k 0 0

一.原始数据 jack,2017-01-01,10 tony,2017-01-02,15 jack,2017-02-03,23 tony,2017-01-04,29 jack,2017-01-05,46 jack,2017-04-06,42 - tony,2017-01-07,50 jack,2017-01-08,55 mart,2017-04-08,62 - mart,...
Hive
Hive 自定义函数 UDF
Hive 自定义函数 UDF UDF：用户定义（普通）函数，只对单行数值产生作用； UDF只能实现一进一出的操作。定义udf 计算两个数最小值 public class Min extends UDF { public Double evaluate(Double a, Double b) { if (a == null) a = 0.0; if (b == null) ...

bigdata张凯翔
发表于2021-03-27 23:40:27
2797 0 0

2.7k 0 0

Hive 自定义函数 UDF UDF：用户定义（普通）函数，只对单行数值产生作用； UDF只能实现一进一出的操作。定义udf 计算两个数最小值 public class Min extends UDF { public Double evaluate(Double a, Double b) { if (a == null) a = 0.0; if (b == null) ...
Hive
HIVE中的from_unixtime函数
hive中的from_unixtime()函数，可以把时间戳格式的时间，转化为年月日时分秒格式的时间。 from_unixtime的参数要求为整数，且单位为秒。如果从业务系统拿到的时间戳格式的时间单位为毫秒，则需要先将它转化为秒，方法如下 from_unixtime( int (timestamp_in_millisecond / 1000)) 示例： hive (defau...

bigdata张凯翔
发表于2021-03-27 23:18:33
3329 0 0

3.3k 0 0

hive中的from_unixtime()函数，可以把时间戳格式的时间，转化为年月日时分秒格式的时间。 from_unixtime的参数要求为整数，且单位为秒。如果从业务系统拿到的时间戳格式的时间单位为毫秒，则需要先将它转化为秒，方法如下 from_unixtime( int (timestamp_in_millisecond / 1000)) 示例： hive (defau...
Hive
Hadoop 家族技能图谱——包含Hive和Mahout两个大类
导读：hadoop是开源的分布式存储和分布式计算平台.由HDFS（分布式文件存储系统,存储海量数据）Mapreduce（并行处理框架,实现任务分配和调度.）组成。可以搭建大型数据仓库,分析海量日志,存储,统计等。Zookeeper 解决分布式环境下的数据管理，统一命名，状态同步，集群管理，配置同步分布式协作服务。HIVE 数据仓库（离线分析）HQL用于运行存储在Hado...

孙叫兽
发表于2021-03-27 22:54:52
2655 0 0

2.6k 0 0

导读：hadoop是开源的分布式存储和分布式计算平台.由HDFS（分布式文件存储系统,存储海量数据）Mapreduce（并行处理框架,实现任务分配和调度.）组成。可以搭建大型数据仓库,分析海量日志,存储,统计等。Zookeeper 解决分布式环境下的数据管理，统一命名，状态同步，集群管理，配置同步分布式协作服务。HIVE 数据仓库（离线分析）HQL用于运行存储在Hado...
Hadoop Hive
BigData之Hive：Hive数据管理的简介、下载、案例应用之详细攻略
BigData之Hive：Hive数据管理的简介、下载、案例应用之详细攻略         目录 Hive数据管理的简介 1、Hive的适用场景——不适合那些需要高实性的应用(不能够在大规模数据集上实现低延迟快速的查询)、不适合用联机(online)事务处理、不提供实时查询 2、Hive 的设计特点 3、Hive数据存...

一个处女座的程序猿
发表于2021-03-27 00:51:04
4753 0 0

4.7k 0 0

BigData之Hive：Hive数据管理的简介、下载、案例应用之详细攻略         目录 Hive数据管理的简介 1、Hive的适用场景——不适合那些需要高实性的应用(不能够在大规模数据集上实现低延迟快速的查询)、不适合用联机(online)事务处理、不提供实时查询 2、Hive 的设计特点 3、Hive数据存...
BigData Pro 大数据 Hive 数据管理服务 DAS
BigData之Hive beeline：beeline的简介、使用方法之详细攻略
BigData之Hive beeline：beeline的简介、使用方法之详细攻略     目录 beeline的简介 beeline的使用方法 1、命令行参数解释 2、beeline的输出格式 2.1、table

一个处女座的程序猿
发表于2021-03-27 00:39:40
5819 0 1

5.8k 0 1

BigData之Hive beeline：beeline的简介、使用方法之详细攻略     目录 beeline的简介 beeline的使用方法 1、命令行参数解释 2、beeline的输出格式 2.1、table
BigData Pro 大数据 Hive
Hive优化(十一)-常用参数
常用参数 // 输出合并小文件 SET hive.merge.mapfiles = true; -- 默认true，在map-only任务结束时合并小文件 SET hive.merge.mapredfiles = true; -- 默认false，在map-reduce任务结束时合并小文件 SET hive.merge.size.per.task = 268435456; ...

bigdata张凯翔
发表于2021-03-26 01:55:12
2555 0 0

2.5k 0 0

常用参数 // 输出合并小文件 SET hive.merge.mapfiles = true; -- 默认true，在map-only任务结束时合并小文件 SET hive.merge.mapredfiles = true; -- 默认false，在map-reduce任务结束时合并小文件 SET hive.merge.size.per.task = 268435456; ...
Hive
Hive基础(五)-hive参数的调优
8.hive参数的调优 1.fetch抓取 2.本地模式开启 3.表的优化 1）小表join大表对于我们来说，尽量把小表放前面；再进一步，可以使用group by将比较小的表放在map端进行数据加载和处理。 select count(distinct s_id) from score; select count(s_id...

bigdata张凯翔
发表于2021-03-26 01:53:15
2766 0 0

2.7k 0 0

8.hive参数的调优 1.fetch抓取 2.本地模式开启 3.表的优化 1）小表join大表对于我们来说，尽量把小表放前面；再进一步，可以使用group by将比较小的表放在map端进行数据加载和处理。 select count(distinct s_id) from score; select count(s_id...
Hive
hive中分区表和分桶表的区别
Hive将表划分为分区(partition)表和分桶(bucket)表。分区可以让数据的部分查询变得更快，也就是说，在加载数据的时候可以指定加载某一部分数据，并不是全量的数据。分桶表通常是在原始数据中加入一些额外的结构，这些结构可以用于高效的查询，例如，基于ID的分桶可以使得用户的查询非常的块。分区在HDFS上的表现形式是一个目录，分桶是一个单独的文件分区: 细化数...

bigdata张凯翔
发表于2021-03-26 01:47:13
3062 0 0

3.0k 0 0

Hive将表划分为分区(partition)表和分桶(bucket)表。分区可以让数据的部分查询变得更快，也就是说，在加载数据的时候可以指定加载某一部分数据，并不是全量的数据。分桶表通常是在原始数据中加入一些额外的结构，这些结构可以用于高效的查询，例如，基于ID的分桶可以使得用户的查询非常的块。分区在HDFS上的表现形式是一个目录，分桶是一个单独的文件分区: 细化数...
Hive
Hive优化(十三)-小文件进行合并
小文件进行合并在Map执行前合并小文件，减少Map数： CombineHiveInputFormat具有对小文件进行合并的功能（系统默认的格式）。 HiveInputFormat没有对小文件合并功能。 1）参数设置 set mapred.max.split.size=112345600; set mapred.min.split.size.per.node=112345...

bigdata张凯翔
发表于2021-03-26 01:38:18
2962 0 0

2.9k 0 0

小文件进行合并在Map执行前合并小文件，减少Map数： CombineHiveInputFormat具有对小文件进行合并的功能（系统默认的格式）。 HiveInputFormat没有对小文件合并功能。 1）参数设置 set mapred.max.split.size=112345600; set mapred.min.split.size.per.node=112345...
Hive
揭秘hive常见面试题(六)-20道
为什么创建类 DataWritable？【揭秘hive常见面试题(一)-13】如何实现统计手机流量？【揭秘hive常见面试题(一)-13】对比 hive 与 mapreduce 统计手机流量的区别？【揭秘hive常见面试题(一)-13】如今有 10 个文件夹,每个文件夹都有 1000000 个 url.如今让你找出top1000000url 不思考歪斜，功能，运用 ...

bigdata张凯翔
发表于2021-03-26 01:19:18
2907 0 0

2.9k 0 0

为什么创建类 DataWritable？【揭秘hive常见面试题(一)-13】如何实现统计手机流量？【揭秘hive常见面试题(一)-13】对比 hive 与 mapreduce 统计手机流量的区别？【揭秘hive常见面试题(一)-13】如今有 10 个文件夹,每个文件夹都有 1000000 个 url.如今让你找出top1000000url 不思考歪斜，功能，运用 ...
HBase Hive
Hive中yyyymmdd和yyyy-mm-dd日期之间的切换
方法1: from_unixtime+ unix_timestamp --20171205转成2017-12-05 select from_unixtime(unix_timestamp('20171205','yyyymmdd'),'yyyy-mm-dd') from dual; --2017-12-05转成20171205 select from_unixtime(un...

bigdata张凯翔
发表于2021-03-26 01:18:08
3012 0 0

3.0k 0 0

方法1: from_unixtime+ unix_timestamp --20171205转成2017-12-05 select from_unixtime(unix_timestamp('20171205','yyyymmdd'),'yyyy-mm-dd') from dual; --2017-12-05转成20171205 select from_unixtime(un...
Hive
Hive优化(九)-表优化
Join原则： 1）小表Join大表， 2）大表Join大表 3)MapJoin 4)Group by 5)Count(Disthinct)去重统计 6)笛卡尔积 7)行列过滤 8)动态分区调整 9)分桶 10)分区 1）小表Join大表，将key相对分散，并且数据量小的表放在join的左边，这样可以有效减少内存溢出错误发生的几率；再进一步，可以使用Group让小的维度...

bigdata张凯翔
发表于2021-03-26 01:16:43
3105 0 0

3.1k 0 0

Join原则： 1）小表Join大表， 2）大表Join大表 3)MapJoin 4)Group by 5)Count(Disthinct)去重统计 6)笛卡尔积 7)行列过滤 8)动态分区调整 9)分桶 10)分区 1）小表Join大表，将key相对分散，并且数据量小的表放在join的左边，这样可以有效减少内存溢出错误发生的几率；再进一步，可以使用Group让小的维度...
Hive
sqoop是否能将oracle下某个用户的表一次性抽取迁移到hive
请问下sqoop是否能将oracle下某个用户的表一次性抽取迁移到hive？如果不行，使用什么样的工具或者方法可以实现？【表很多，如何导】 1、建个临时变，先把某个用户的数据抽出来在倒出去。 2、这个要啥资料，要么select查出来存成文件，本地文件导到hive 3、 sqoop不是可以 --query指定sql吗 <meta charset="utf-8"> ...

bigdata张凯翔
发表于2021-03-26 01:16:29
2821 0 0

2.8k 0 0

请问下sqoop是否能将oracle下某个用户的表一次性抽取迁移到hive？如果不行，使用什么样的工具或者方法可以实现？【表很多，如何导】 1、建个临时变，先把某个用户的数据抽出来在倒出去。 2、这个要啥资料，要么select查出来存成文件，本地文件导到hive 3、 sqoop不是可以 --query指定sql吗 <meta charset="utf-8"> ...
Hive Oracle

上滑加载中

推荐直播

0.5

基于开源鸿蒙+海思星闪开发板：嵌入式系统开发实战（Day1）
2025/03/29 周六 09:00-18:00

华为开发者布道师

本次为期两天的课程将深入讲解OpenHarmony操作系统及其与星闪技术的结合应用，涵盖WS63E星闪开发板的详细介绍、“OpenHarmony+星闪”的创新实践、实验环境搭建以及编写首个“Hello World”程序等内容，旨在帮助学员全面掌握相关技术并进行实际操作
回顾中
华为云软件开发生产线（CodeArts）1月&2月新特性解读
2025/03/18 周二 19:00-20:00

阿星华为云高级产品经理

不知道产品的最新特性？没法和产品团队建立直接的沟通？本期直播产品经理将为您解读华为云软件开发生产线1月&2月发布的新特性，并在直播过程中为您答疑解惑。
回顾中
基于能力图谱的openGauss项目闯关
2025/03/20 周四 19:00-20:30

华为开发者布道师

想成为顶级数据库开发者吗？本次直播将从银行业务系统的数据库设计出发，带你逐步掌握openGauss的建库表、数据封装、密态技术、性能调优及AI应用。通过实战案例，全面展示openGauss的强大功能，助你提升技能，为未来的职业发展打下坚实基础。立即报名，开启你的数据库进阶之旅！
回顾中
基于开源鸿蒙+海思星闪开发板：嵌入式系统开发实战（Day1）
2025/03/29 周六 09:00-18:00

华为开发者布道师

本次为期两天的课程将深入讲解OpenHarmony操作系统及其与星闪技术的结合应用，涵盖WS63E星闪开发板的详细介绍、“OpenHarmony+星闪”的创新实践、实验环境搭建以及编写首个“Hello World”程序等内容，旨在帮助学员全面掌握相关技术并进行实际操作
回顾中
华为云软件开发生产线（CodeArts）1月&2月新特性解读
2025/03/18 周二 19:00-20:00

阿星华为云高级产品经理

不知道产品的最新特性？没法和产品团队建立直接的沟通？本期直播产品经理将为您解读华为云软件开发生产线1月&2月发布的新特性，并在直播过程中为您答疑解惑。
回顾中

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript

开发者空间

了解空间

工作台

开发工具

实战案例

空间活动

空间论坛

开发平台

软件开发生产线 CodeArts

AI平台ModelArts

数据治理中心 DataArts Studio

数字内容生产线 MetaStudio

精选服务

云数据库 GaussDB

云数据库 RDS for MySQL

MapReduce服务 MRS

数据仓库服务 DWS

分布式缓存服务Redis版

分布式消息服务 DMS

华为云实时音视频 SparkRTC

媒体处理 MPC

主机迁移服务 SMS

对象存储迁移服务 OMS

云消息服务 KooMessage

云手机服务 KooPhone

企业搜索服务 KooSearch

云地图服务 KooMap

更多开放能力

开发工具

API生态

CodeArts API

API Explorer

Terraform Explorer

KooCLI

API 中心

SDK 中心

开发服务

Codelabs

DevStar

低代码平台Astro

CodeArts IDE

Huawei Cloud Toolkit

Classroom

开发资源

开源镜像站

开源资源

开发语言

开发实践

入门精选

分发资源

企业应用中心

企业通用专区

教育专区

华为应用专区

政务云专区

硬件云服务商城

医疗健康专区

跳蚤市场

华为云开发者日

直播专区

开发者精品活动

DTSE Tech Talk

加入HCDE

加入HCDG

加入HCSD

加入HCWD

鲁班会

沃土云创计划·企业

沃土云创计划·高校

沃土云创计划·个人

沃土云创计划·开源共创

博客

论坛

专题

开发者榜单

学习路径

在线课程

动手实验

考试认证

培训服务