- 1.1 业务场景模拟使用Loader工具将客户移动电话系统产生的历史数据从原始数据库Mysql导入到Hive中,进行离线分析。1.2 操作步骤1.2.1 创建用户1. 进入FunsionInsight Manager界面,进去系统,创建本次测试用户,给予最大权限即可。1.2.2 Loader准备工作1. 获取关系型数据库对应的驱... 1.1 业务场景模拟使用Loader工具将客户移动电话系统产生的历史数据从原始数据库Mysql导入到Hive中,进行离线分析。1.2 操作步骤1.2.1 创建用户1. 进入FunsionInsight Manager界面,进去系统,创建本次测试用户,给予最大权限即可。1.2.2 Loader准备工作1. 获取关系型数据库对应的驱...
- 前言Hive 作为大数据领域常用的数据仓库组件,在平时设计和查询的时候要特别注意效率 。影响 Hive 效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、Job或I/O过多、MapReduce 分配不合理等等。 对Hive 的调优既包含 Hive 的建表设计方面,对 HiveHQL 语句本身的优化,也包含 Hive 配置参数 和 底层引擎 MapReduce 方面的调整 。为了不盲目地学习... 前言Hive 作为大数据领域常用的数据仓库组件,在平时设计和查询的时候要特别注意效率 。影响 Hive 效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、Job或I/O过多、MapReduce 分配不合理等等。 对Hive 的调优既包含 Hive 的建表设计方面,对 HiveHQL 语句本身的优化,也包含 Hive 配置参数 和 底层引擎 MapReduce 方面的调整 。为了不盲目地学习...
- 关于hive中Map join 时大表left join小表的问题 在hive中,(启用Map join时) 大表left join小表,加载从右向左,所以小表会加载进内存,存储成map键值对,通过大表... 关于hive中Map join 时大表left join小表的问题 在hive中,(启用Map join时) 大表left join小表,加载从右向左,所以小表会加载进内存,存储成map键值对,通过大表...
- 文章目录 一、准备工作 1、启动Hadoop 2、启动Hive 二、数据库操作 1、创建数据库 2、查询数据库... 文章目录 一、准备工作 1、启动Hadoop 2、启动Hive 二、数据库操作 1、创建数据库 2、查询数据库...
- Apache Doris 2.1.3 版本正式发布!该版本在功能特性上对数据湖、物化视图、负载管理等方面进行了多项更新,进一步简化湖仓一体架构、加速了查询性能。 Apache Doris 2.1.3 版本正式发布!该版本在功能特性上对数据湖、物化视图、负载管理等方面进行了多项更新,进一步简化湖仓一体架构、加速了查询性能。
- 记录一个hive时区问题,夏令时,CST时区 记录一个hive时区问题,夏令时,CST时区
- 随着版本迭代,Apache Doris 一直在拓展应用场景边界,从典型的实时报表、交互式 Ad-hoc 分析等 OLAP 场景到湖仓一体、高并发数据服务、日志检索分析及批量数据处理,越来越多用户与企业开始将 Apache Doris 作为统一的数据分析产品,以解决多组件带来的数据冗余、架构复杂、分析时效性低、运维难度大等问题。然而在架构统一和升级的过程中,由于部分大数据分析系统有自己的 SQ... 随着版本迭代,Apache Doris 一直在拓展应用场景边界,从典型的实时报表、交互式 Ad-hoc 分析等 OLAP 场景到湖仓一体、高并发数据服务、日志检索分析及批量数据处理,越来越多用户与企业开始将 Apache Doris 作为统一的数据分析产品,以解决多组件带来的数据冗余、架构复杂、分析时效性低、运维难度大等问题。然而在架构统一和升级的过程中,由于部分大数据分析系统有自己的 SQ...
- 1、Spark On Hive的配置1)、在Spark客户端配置Hive On Spark在Spark客户端安装包下spark-2.3.1/conf中创建文件hive-site.xml:配置hive的metastore路径<configuration> <property> <name>hive.metastore.uris</name> <value>t... 1、Spark On Hive的配置1)、在Spark客户端配置Hive On Spark在Spark客户端安装包下spark-2.3.1/conf中创建文件hive-site.xml:配置hive的metastore路径<configuration> <property> <name>hive.metastore.uris</name> <value>t...
- 一、SparkSQL介绍1、SharkShark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎,由于底层的计算采用了Spark,性能比MapReduce的Hive普遍快2倍以上,当数据全部load在内存的话,将快10倍以上,因此Shark可以作为交互式查询应用服务来使用。除了基于Spark的特性外,Shark是完全兼容Hive的语法,表结构以及UDF函数等,已有的Hive... 一、SparkSQL介绍1、SharkShark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎,由于底层的计算采用了Spark,性能比MapReduce的Hive普遍快2倍以上,当数据全部load在内存的话,将快10倍以上,因此Shark可以作为交互式查询应用服务来使用。除了基于Spark的特性外,Shark是完全兼容Hive的语法,表结构以及UDF函数等,已有的Hive...
- Hive / ClickHouse 行转列函数 collect_set() / groupUniqArray() 入门在数据处理和分析中,我们经常会遇到需要将一行数据转换为多列的情况。在 Hive 和 ClickHouse 中,可以使用 collect_set() 和 groupUniqArray() 函数来实现行转列操作。collect_set()1. 功能说明 col... Hive / ClickHouse 行转列函数 collect_set() / groupUniqArray() 入门在数据处理和分析中,我们经常会遇到需要将一行数据转换为多列的情况。在 Hive 和 ClickHouse 中,可以使用 collect_set() 和 groupUniqArray() 函数来实现行转列操作。collect_set()1. 功能说明 col...
- 数据湖(datalake)通常指的是一个巨大的HDFS或类似的分布式对象存储系统,在数据被转储到这些存储系统时,并没有特别考虑接下来应如何访问它们。Presto可以使它们成为有用的数据仓库。实际上,Facebook开发的目的就是对一个非常大的Hadoop数据仓库进行更快和更强大的查询,提供Hive和其他工具无法提供的能力。这也是Hive连接器的起源。Facebook于2008年开源了Hive... 数据湖(datalake)通常指的是一个巨大的HDFS或类似的分布式对象存储系统,在数据被转储到这些存储系统时,并没有特别考虑接下来应如何访问它们。Presto可以使它们成为有用的数据仓库。实际上,Facebook开发的目的就是对一个非常大的Hadoop数据仓库进行更快和更强大的查询,提供Hive和其他工具无法提供的能力。这也是Hive连接器的起源。Facebook于2008年开源了Hive...
- Google公司2003年开始陆续发表的关于GFS、MapReduce和BigTable的三篇技术论文,成为大数据发展的重要基石。大数据、数据仓库、数据湖。这是三个不同的概念。若不使用数据仓库,就无法使用查询合并来自不同系统的数据。大数据的特性,是4V+1O。Volume, Variety, Value, Velocity, OnlineApache Hadoop 允许用户在不了解分布式系统... Google公司2003年开始陆续发表的关于GFS、MapReduce和BigTable的三篇技术论文,成为大数据发展的重要基石。大数据、数据仓库、数据湖。这是三个不同的概念。若不使用数据仓库,就无法使用查询合并来自不同系统的数据。大数据的特性,是4V+1O。Volume, Variety, Value, Velocity, OnlineApache Hadoop 允许用户在不了解分布式系统...
- 普通集群hive&yarn用户权限控制环境准备首先确保集群的obs委托以及用户同步已经完成:前往manager界面创建用户,如客户界面已经创建用户,则略过此步:此处之所以加入Manager_operator角色,是为了能够在后续DGC使用此用户能够创建用户成功。此处参考DGC 管理中心接口人提供的文档说明:Wiki:https://clouddevops.huawei.com/domains... 普通集群hive&yarn用户权限控制环境准备首先确保集群的obs委托以及用户同步已经完成:前往manager界面创建用户,如客户界面已经创建用户,则略过此步:此处之所以加入Manager_operator角色,是为了能够在后续DGC使用此用户能够创建用户成功。此处参考DGC 管理中心接口人提供的文档说明:Wiki:https://clouddevops.huawei.com/domains...
- 执行HQL直接被退出:Remote side unexpectedly closed network connection 执行HQL直接被退出:Remote side unexpectedly closed network connection
- DataGrip连接Hive执行DDL操作报错:「FAILED: ParseException line 1:5 cannot recognize input near 'show' 'indexes' 'on' in ddl statement」 DataGrip连接Hive执行DDL操作报错:「FAILED: ParseException line 1:5 cannot recognize input near 'show' 'indexes' 'on' in ddl statement」
上滑加载中
推荐直播
-
大模型Prompt工程深度实践
2025/02/24 周一 16:00-17:30
盖伦 华为云学堂技术讲师
如何让大模型精准理解开发需求并生成可靠输出?本期直播聚焦大模型Prompt工程核心技术:理解大模型推理基础原理,关键采样参数定义,提示词撰写关键策略及Prompt工程技巧分享。
回顾中 -
华为云 x DeepSeek:AI驱动云上应用创新
2025/02/26 周三 16:00-18:00
华为云 AI专家大咖团
在 AI 技术飞速发展之际,DeepSeek 备受关注。它凭借哪些技术与理念脱颖而出?华为云与 DeepSeek 合作,将如何重塑产品与应用模式,助力企业数字化转型?在华为开发者空间,怎样高效部署 DeepSeek,搭建专属服务器?基于华为云平台,又该如何挖掘 DeepSeek 潜力,实现智能化升级?本期直播围绕DeepSeek在云上的应用案例,与DTSE布道师们一起探讨如何利用AI 驱动云上应用创新。
去报名
热门标签