- 6 模块开发——ETL 该项目的数据分析过程在hadoop集群上实现,主要应用hive数据仓库工具,因此,采集并经过预处理后的数据,需要加载到hive数据仓库中,以进行后续的挖掘分析。 6.1创建原始数据表 --在hive仓库中建贴源数据表 drop table if exists ods_weblog_origin;create table... 6 模块开发——ETL 该项目的数据分析过程在hadoop集群上实现,主要应用hive数据仓库工具,因此,采集并经过预处理后的数据,需要加载到hive数据仓库中,以进行后续的挖掘分析。 6.1创建原始数据表 --在hive仓库中建贴源数据表 drop table if exists ods_weblog_origin;create table...
- 经过前面的学习之后,我们总算是来到了Hive阶段。本篇博客博主将为大家带来Hadoop组件之——Hive的介绍! 首先在开始之前,再让我们通过一张熟悉的图片来回顾一下Hadoop生态系统的组成部分。 目录 基本概念1.1 什么是Hive1.2 为什么使用Hive1.3 Hive的优缺点1. 优点2. 缺点 1.4 Hive架构1.5 执行过程1.6 ... 经过前面的学习之后,我们总算是来到了Hive阶段。本篇博客博主将为大家带来Hadoop组件之——Hive的介绍! 首先在开始之前,再让我们通过一张熟悉的图片来回顾一下Hadoop生态系统的组成部分。 目录 基本概念1.1 什么是Hive1.2 为什么使用Hive1.3 Hive的优缺点1. 优点2. 缺点 1.4 Hive架构1.5 执行过程1.6 ...
- 此次博主为大家带来的是Hive性能调优中的表的优化。 目录 一. 小表、大表Join二. 大表Join大表2.1 空KEY过滤2.2 空key转换1. 不随机分布空null值:2. 随机分布空null值 三. MapJoin(小表join大表)3.1 开启MapJoin参数设置3.1 MapJoin工作机制 四. Group By五. Cou... 此次博主为大家带来的是Hive性能调优中的表的优化。 目录 一. 小表、大表Join二. 大表Join大表2.1 空KEY过滤2.2 空key转换1. 不随机分布空null值:2. 随机分布空null值 三. MapJoin(小表join大表)3.1 开启MapJoin参数设置3.1 MapJoin工作机制 四. Group By五. Cou...
- 大家好,我是不温卜火,是一名计算机学院大数据专业大二的学生,昵称来源于成语—不温不火,本意是希望自己性情温和。作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限,博客中难免会有一些错误出现,有纰漏之处恳请各位大佬不吝赐教!暂时只有csdn这一个平台,博客... 大家好,我是不温卜火,是一名计算机学院大数据专业大二的学生,昵称来源于成语—不温不火,本意是希望自己性情温和。作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限,博客中难免会有一些错误出现,有纰漏之处恳请各位大佬不吝赐教!暂时只有csdn这一个平台,博客...
- 大家好,我是不温卜火,是一名计算机学院大数据专业大二的学生,昵称来源于成语—不温不火,本意是希望自己性情温和。作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限,博客中难免会有一些错误出现,有纰漏之处恳请各位大佬不吝赐教!暂时只有csdn这一个平台,博客... 大家好,我是不温卜火,是一名计算机学院大数据专业大二的学生,昵称来源于成语—不温不火,本意是希望自己性情温和。作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限,博客中难免会有一些错误出现,有纰漏之处恳请各位大佬不吝赐教!暂时只有csdn这一个平台,博客...
- 此次博主为大家带来的是Hive项目实战系列。 目录 一. 项目需求二. 项目2.1 数据结构2.2 上传数据2.3 ETL原始数据 一. 项目需求 统计谷粒影音视频网站的常规指标,各种TopN指标: 1–统计视频观看数Top102–统计视频类别热度Top103–统计视频观看数Top20所属类别4–统计视频观看数Top50所关联视频的所属类... 此次博主为大家带来的是Hive项目实战系列。 目录 一. 项目需求二. 项目2.1 数据结构2.2 上传数据2.3 ETL原始数据 一. 项目需求 统计谷粒影音视频网站的常规指标,各种TopN指标: 1–统计视频观看数Top102–统计视频类别热度Top103–统计视频观看数Top20所属类别4–统计视频观看数Top50所关联视频的所属类...
- 此次博主为大家带来的是Hive项目实战系列的第二部分。 目录 一 启动hive二. 创建表2.1 拿到原始数据(日志数据| ori表 )2.2 把数据导入到hive中进行处理(创建两张orc表)2.3 向ORC表插入数据 一 启动hive .1 启动hiveserver2服务 [bigdata@hadoop002 hive]$ bin/... 此次博主为大家带来的是Hive项目实战系列的第二部分。 目录 一 启动hive二. 创建表2.1 拿到原始数据(日志数据| ori表 )2.2 把数据导入到hive中进行处理(创建两张orc表)2.3 向ORC表插入数据 一 启动hive .1 启动hiveserver2服务 [bigdata@hadoop002 hive]$ bin/...
- 本次博主为大家带来的是Hive的基本操作。 目录 一. 创建数据库与创建数据库表1.1 创建数据库 二. Hive建表时候的字段类型三. 数据库表的基本操作3.1 内部表3.2 创建外部数据表1. 外部表说明2. 管理表和外部表的使用场景3. 操作实例 3.3 创建分区表3.4 创建分桶表3.5 修改表1. 表重命名2. 增加/修改列信息3. 删除表 ... 本次博主为大家带来的是Hive的基本操作。 目录 一. 创建数据库与创建数据库表1.1 创建数据库 二. Hive建表时候的字段类型三. 数据库表的基本操作3.1 内部表3.2 创建外部数据表1. 外部表说明2. 管理表和外部表的使用场景3. 操作实例 3.3 创建分区表3.4 创建分桶表3.5 修改表1. 表重命名2. 增加/修改列信息3. 删除表 ...
- 本次博主为大家带来的是Hive表中数据的加载与导出。希望能够帮助到大家。 目录 一. Hive表中加载数据1.1 直接向分区表中插入数据1.2 通过查询插入数据1.3 多插入模式1.4 查询语句中创建表并加载数据(as select)1.5 创建表时通过location指定加载数据路径 二. Hive表中的数据导出(了解就行)2.1 insert导出2... 本次博主为大家带来的是Hive表中数据的加载与导出。希望能够帮助到大家。 目录 一. Hive表中加载数据1.1 直接向分区表中插入数据1.2 通过查询插入数据1.3 多插入模式1.4 查询语句中创建表并加载数据(as select)1.5 创建表时通过location指定加载数据路径 二. Hive表中的数据导出(了解就行)2.1 insert导出2...
- 本次博主为大家带来的是Hive的自定义函数。 目录 一. 系统内置函数二. 自定义函数三. 自定义UDF函数四. 通过reflect调用java方法 一. 系统内置函数 查看系统自带的函数 hive> show functions; 1 我们可以看到hive自带的函数就有两百多个,但我们平时经常用到的可能就那么几个,并且自带的函数功... 本次博主为大家带来的是Hive的自定义函数。 目录 一. 系统内置函数二. 自定义函数三. 自定义UDF函数四. 通过reflect调用java方法 一. 系统内置函数 查看系统自带的函数 hive> show functions; 1 我们可以看到hive自带的函数就有两百多个,但我们平时经常用到的可能就那么几个,并且自带的函数功...
- 此次博主为大家带来的是Hive性能调优中的数据倾斜。 目录 一. 合理设置Map及Reduce数二. 复杂文件增加Map数三. 小文件进行合并四. 合理设置Reduce数4.1 调整reduce个数方法一4.2 调整reduce个数方法二4.3 reduce个数并不是越多越好 一. 合理设置Map及Reduce数 1.通常情况下,作业会... 此次博主为大家带来的是Hive性能调优中的数据倾斜。 目录 一. 合理设置Map及Reduce数二. 复杂文件增加Map数三. 小文件进行合并四. 合理设置Reduce数4.1 调整reduce个数方法一4.2 调整reduce个数方法二4.3 reduce个数并不是越多越好 一. 合理设置Map及Reduce数 1.通常情况下,作业会...
- 此次博主为大家带来的是Hive的数据压缩介绍及使用。 目录 一. Hadoop源码编译支持Snappy压缩1.1 资源准备1.2 jar包安装1.3 编译源码 二. Hadoop压缩配置2.1 MR支持的压缩编码2.2 压缩参数配置 三. 开启Map输出阶段压缩四. 开启Reduce输出阶段压缩 一. Hadoop源码编译支持Snappy... 此次博主为大家带来的是Hive的数据压缩介绍及使用。 目录 一. Hadoop源码编译支持Snappy压缩1.1 资源准备1.2 jar包安装1.3 编译源码 二. Hadoop压缩配置2.1 MR支持的压缩编码2.2 压缩参数配置 三. 开启Map输出阶段压缩四. 开启Reduce输出阶段压缩 一. Hadoop源码编译支持Snappy...
- 此次博主为大家带来的是Hive性能调优中的并行执行。 Hive会将一个查询转化成一个或者多个阶段。这样的阶段可以是MapReduce阶段、抽样阶段、合并阶段、limit阶段。或者Hive执行过程中可能需要的其他阶段。默认情况下,Hive一次只会执行一个阶段。不过,某个特定的job可能包含众多的阶段,而这些阶段可能并非完全互相依赖的,也就是说有些阶段是可以并... 此次博主为大家带来的是Hive性能调优中的并行执行。 Hive会将一个查询转化成一个或者多个阶段。这样的阶段可以是MapReduce阶段、抽样阶段、合并阶段、limit阶段。或者Hive执行过程中可能需要的其他阶段。默认情况下,Hive一次只会执行一个阶段。不过,某个特定的job可能包含众多的阶段,而这些阶段可能并非完全互相依赖的,也就是说有些阶段是可以并...
- 此次博主为大家带来的是Hive的数据存储格式。 目录 1. 列式存储和行式存储2. TextFile格式3. Orc格式4. Parquet格式5. 主流文件存储格式对比实验5.1 存储文件的压缩比测试5.2 存储文件的查询速度测试 H i v e 支 持 的 存 储 数 据 的 格 式 主 要 有 : T E X T F I L E 、 ... 此次博主为大家带来的是Hive的数据存储格式。 目录 1. 列式存储和行式存储2. TextFile格式3. Orc格式4. Parquet格式5. 主流文件存储格式对比实验5.1 存储文件的压缩比测试5.2 存储文件的查询速度测试 H i v e 支 持 的 存 储 数 据 的 格 式 主 要 有 : T E X T F I L E 、 ...
- 我们光知道Hive,不会其语法怎么办呢?此篇博文专门为大家带来操作实例。 目录 一. SELECT二. 常用函数三. LIMIT语句四. WHERE语句五. 比较运算符(BETWEEN/IN/ IS NULL)5.1 表格显示5.2 举例操作 六. LIKE和RLIKE七. 分组7.1 GROUP BY语句7.2 HAVING语句 八. JOIN语... 我们光知道Hive,不会其语法怎么办呢?此篇博文专门为大家带来操作实例。 目录 一. SELECT二. 常用函数三. LIMIT语句四. WHERE语句五. 比较运算符(BETWEEN/IN/ IS NULL)5.1 表格显示5.2 举例操作 六. LIKE和RLIKE七. 分组7.1 GROUP BY语句7.2 HAVING语句 八. JOIN语...
上滑加载中
推荐直播
-
华为云 x DeepSeek:AI驱动云上应用创新
2025/02/26 周三 16:00-18:00
华为云 AI专家大咖团
在 AI 技术飞速发展之际,DeepSeek 备受关注。它凭借哪些技术与理念脱颖而出?华为云与 DeepSeek 合作,将如何重塑产品与应用模式,助力企业数字化转型?在华为开发者空间,怎样高效部署 DeepSeek,搭建专属服务器?基于华为云平台,又该如何挖掘 DeepSeek 潜力,实现智能化升级?本期直播围绕DeepSeek在云上的应用案例,与DTSE布道师们一起探讨如何利用AI 驱动云上应用创新。
回顾中
热门标签