• [问题求助] FusionInsight_HD_8.2.0.3 通过kerberos链接hive,走的zk。报错提示keeperErrorCode = Session closed because client failed to authent
    第一次接触,求助各位大佬
  • [问题求助] hive-sql和spark-sql语句问题
    1.同样的表,使用hive-sql和spark-sql查询出的数据不一样?2.spark-sq,用union all 的时候,也没有起到作用。但是同样的sql,用hive执行就可以?
  • [问题求助] SQL报错,返回code1和code2
    各位大佬们,DataArts跑复杂SQL时,比如表连接,开窗函数是会出现报错,主要是这样。有没有解决办法。--  Error while processing statement: FAILED: Execution Error, return code 2  --  Error while processing statement: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.tez.TezTask
  • [问题求助] 如何配置MRS-HIVE的SSL加密传输
    如何配置MRS-HIVE的SSL加密传输?
  • [大数据类] profile的sqoop地址对的,但是一直显示-bash: sqoop: command not found
    profile    这是sqoop 路径这是测试sqoop是否安装成功所返回的
  • [生态对接] spark --jars提交依赖冲突,有没有办法忽略集群中的依赖。只使用fat-jar和--jar提供的
         我最近开发了一个maven项目,想使用spark读取/写入greenplum的数据,但是由于jdbc的传输速度限制。所以想采用greenplum-spark connect这个连接器。当我使用--jars将项目和这个依赖包一起提交上去的时候出现了jar包冲突 报错:classnotfound。  同时自己搭建了一套开源集群,相同的步骤 spark读取/写入greenplum 并且也使用这个连接器--jars提供第三方依赖包,正常读取数据。    所以我想有没有办法忽略集群中的依赖。只使用fat-jar和--jar提供的      
  • [问题求助] FusionInsight HD的管理平台上的role 所拥有的权限如何在后台/接口查询?权限粒度到表/视图/topic/目录等。
    需求:       想后台方式批量查找FusionInsight HD的管理平台Manager 上的role 角色,都授权了哪些服务,哪些权限。例, 查询A 角色授权了哪些服务和权限,A权限拥有哪些组件权限,Hive组件,有哪些库权限,哪些表/视图权限;HDFS组件,哪些目录有读写权限等。
  • [赋能学习] Pyhive连接MRS集群HIVE
    1 安装Python环境1.1 安装Miniconda conda是一个开源的包、环境管理器,可以用于在同一个机器上安装不同Python版本的软件包及其依赖,并能够在不同的Python环境之间切换,Anaconda包括Conda、Python以及一大堆安装好的工具包,比如:numpy、pandas等,Miniconda包括Conda、Python。 此处,我们不需要如此多的工具包,故选择MiniConda。1)下载Miniconda(Python3版本)下载地址:cid:link_0 2)安装Miniconda (1)执行以下命令进行安装,并按照提示操作,直到安装完成。bash Miniconda3-py38_23.1.0-1-Linux-x86_64.sh在安装过程中,出现以下提示时,可以指定安装路径 出现以下字样,即为安装完成 3)加载环境变量配置文件,使之生效source ~/.bashrc4)取消激活base环境Miniconda安装完成后,每次打开终端都会激活其默认的base环境,我们可通过以下命令,禁止激活默认base环境。 conda config --set auto_activate_base false1.2 创建Python3.6以上环境conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main conda config --set show_channel_urls yes2)创建Python环境conda create --name superset python=3.8 说明:conda环境管理常用命令创建环境:conda create -n env_name查看所有环境:conda info --envs删除一个环境:conda remove -n env_name --all1.3 适配环境下载相关依赖进入Miniconda3所在目录下bin执行 ./pip3 install pyhive==0.6.1 --force-reinstall ./pip3 install thrift==0.16.0 --force-reninstall ./pip3 install thrift-sasl==0.4.3 ./pip3 install pure-sasl==0.6.2 ./pip3 install sasl==0.3.修改源代码,将域名写死 vim /opt/miniconda3/lib/python3.8/site-packages/pyhive/hive.py添加kerberos_service_host参数 1.4 通过python代码连接hive./python3import os from pyhive import hive host='x.x.x.x' port=21066 auth='KERBEROS' kerberos_service_name='hive' kerberos_service_host='hadoop.hadoop.com' os.system('source /opt/140client/bigdata_env') os.system('echo password | kinit user') with hive.connect(host=host, port=port, auth=auth, kerberos_service_host=kerberos_service_host, kerberos_service_name=kerberos_service_name) as conn: with conn.cursor() as cur: cur.execute("show tables") for i in cur.fetchall(): print(i)注:host是hive对应实例节点,需提前在页面查看然后填写查看Hive数据库中表
  • [问题求助] hive客户端中执行add jar提示没有权限
    使用的是hive用户组下的用户,在manager网页中把能给的权限都给了,还是提示 Permissin denied
  • [问题求助] hive udf复用问题
    在hive里创建udf后,如何复用?例如使用用户usr_a在数据库database_a创建udf1后,如何授权给usr_b用户使用。是否有grant select on function database_a.udf1 to user usr_b;类似的授权语句。请专家予以解答,多谢。
  • [问题求助] 写spark代码进行二次开发的时候,还需要往SparkConf里set相关的配置项目吗
    我看了官方的demo代码,在hive to hbase项目代码里,只设置了appName,其余的全部没有设置,是可以自动读取hive-site.xml等配置文件吗?huaweicloud-mrs-example/SparkHivetoHbase.java at mrs-3.0.2 · huaweicloud/huaweicloud-mrs-example (github.com)这是我举例的代码连接这个是代码中读取hive表数据的代码片段 SparkConf conf = new SparkConf().setAppName("SparkHivetoHbase"); JavaSparkContext jsc = new JavaSparkContext(conf); HiveContext sqlContext = new org.apache.spark.sql.hive.HiveContext(jsc); Dataset dataFrame = sqlContext.sql("select name, account from person");如果在代码中需要设置的话我有一个问题,hive默认的元数据服务是DBService,那hive.metastore.uris这一项应该怎么配置
  • [最佳实践] 如何减少hive的beeline -f 中的info日志
    使用hive执行sql文件beeline -f $file时候,会产生大量的info级别的日志。如何设置日志级别,减少这种日志呢?已经测试了--hiveconf hive.server2.logging.operation.level=NONE但是只对beeline生效,不对beeline -f生效
  • [技术干货] [1142]hive中如何新增字段-转载
    新增字段1、方法1alter table 表名 add columns (列名 string COMMENT '新添加的列') CASCADE; alter table 表名 add columns (列名 string COMMENT '新添加的列');  hive表中指定位置增加一个字段 分两步,先添加字段到最后(add columns),然后再移动到指定位置(change) alter table 表名 add columns (列名 string comment '当前时间'); -- 正确,添加在最后alter table 表名 change 列名 string after 指定位置的列名; -- 正确,移动到指定位置,address字段的后面1234567891011添加之后字段由于hive底层是文件和系列化的设计,因此查数据会发现新增的列在所有已有列的后面CASCADE会刷历史分区字段cascade知识cascade的中文翻译为“级联”,也就是不仅变更新分区的表结构(metadata),同时也变更旧分区的表结构。对于删除操作也是,级联删除表中的信息,当表A中的字段引用了表B中的字段时,一旦删除B中该字段的信息,表A的信息也自动删除。(当父表的信息删除,子表的信息也自动删除)标准语法如下:2、方法2 (适用于外部表)当分区过多的情况下,直接使用alter就行增加字段会报错第一步:删除分区 ,当分区过多可以写个for循环alter table table_name drop if exists partition(par_col=col_name)1第二步:使用alter操作就行添加字段,这时候就不会因为分区过多报错第三步:进行修复分区msck repair table 表名;13、方法3(下下策)创建新表修改表名,进行存储原表数据将原表进行drop,再对新表进行改名操作ALTER TABLE old_name RENAME TO new_name;1修改字段alter table table_name change column 已有列 修改名称 类型 comment '';1删除列Hive不能直接删除列,不然底层系列化就乱了,我们可以通过replace语句来替换整张表的字段,达到同样的效果alter table table_name replace columns(column_1 string);1语句中只写想要保留的字段就可以参考:https://blog.csdn.net/qq_42456324/article/details/120202236https://blog.csdn.net/weixin_51613454/article/details/123400693https://wenku.baidu.com/view/b9c6c8d9f405cc1755270722192e453610665b6c.htmlhttps://blog.csdn.net/hell_oword/article/details/123600004https://blog.csdn.net/m0_48283915/article/details/113318482————————————————版权声明:本文为CSDN博主「周小董」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。原文链接:https://blog.csdn.net/xc_zhou/article/details/124872614
  • [问题求助] 【MRS产品】【hetu配置数据源功能】hetu是否能配置hive的内置元数据库数据源
    【功能模块】hetu需要配置内置的hive元数据作为数据源,请问是否支持?是添加为gaussdb数据源吗?或者hive内置元数据库怎么连接呢【操作步骤&问题现象】1、2、【截图信息】【日志信息】(可选,上传日志内容或者附件)
  • [二次开发] hive元数据库连接
    (1)在hive配置中查到元数据密码,但是是加密状态的,请问怎么获取或者解密密码?(2)元数据库显示的连接地址是浮动IP,想在本地用客户端的方式连接数据库可不可行?(3)如果找不到解密的方法,能不能通过授权的方式创建新的连接账号连接数据库?