• [互动交流] 华为的mrs产品 界面安装DBservice报错 DBservice报错
    华为的mrs产品 界面安装DBservice报错
  • [问题求助] spark连接dws报The authentication type 5 is not support
    业务需求从hive以及dws分别读取数据,进行关联查询分析,最后将结果写入到dws中源代码使用SparkHiveToHbaseJavaExample修改,代码中用户、密码、表名等信息已经隐去public static void main(String[] args) throws Exception { Configuration hadoopConf = new Configuration(); if ("kerberos".equalsIgnoreCase(hadoopConf.get("hadoop.security.authentication"))) { //security mode final String userPrincipal = "username"; final String USER_KEYTAB_FILE = "user.keytab"; String filePath = System.getProperty("user.dir") + File.separator; String krbFile = "/opt/Bigdata/FusionInsight_BASE/KerberosClient/etc/krb5.conf"; String userKeyTableFile = filePath + USER_KEYTAB_FILE; LoginUtil.login(userPrincipal, userKeyTableFile, krbFile, hadoopConf); } // Obtain the data in the table through the Spark interface. SparkConf conf = new SparkConf().setAppName("SparkHivetoHbase"); conf.set("spark.yarn.user.classpath.first", "true"); conf.set("spark.driver.userClassPathFirst", "true"); conf.set("spark.executor.userClassPathFirst", "true"); String sql = "select id, pap_r, rap_r from table where ds = date_format(current_date(), 'YYYYMMDD')"; SparkSession session = SparkSession.builder().config(conf).getOrCreate(); Dataset dataFrame = session.sql(sql).alias("r"); Properties pg = new Properties(); pg.setProperty("user", "username"); pg.setProperty("password", "password"); pg.setProperty("driver", "org.postgresql.Driver"); Dataset gauss = session.read() .jdbc("jdbc:postgresql://host:port/db", "dws.table1", pg) .select("id") .union(session.read() .jdbc("jdbc:postgresql://host:port/db", "dws.table2", pg) .select("id") ).alias("a"); dataFrame.join(gauss, new Column("r.id").equalTo(new Column("a.id"))) .select("r.id", "r.pap_r", "r.rap_r") .limit(10) .toJavaRDD().foreachPartition(new VoidFunction>() { public void call(Iterator iterator) throws Exception { printRow(iterator); } }); // .write() // .mode(SaveMode.Overwrite) // .jdbc("jdbc:postgresql://host:port/db", "dws.table3", pg); session.close(); }存在问题执行时报错2022-08-19 10:09:21,316 [main] INFO org.apache.spark.deploy.yarn.Client - client token: Token { kind: YARN_CLIENT_TOKEN, service: } diagnostics: User class threw exception: org.postgresql.util.PSQLException: The authentication type 5 is not supported. Check that you have configured the pg_hba.conf file to include the client's IP address or subnet, and that it is using an authentication scheme supported by the driver. at org.postgresql.core.v3.ConnectionFactoryImpl.doAuthentication(ConnectionFactoryImpl.java:556) at org.postgresql.core.v3.ConnectionFactoryImpl.openConnectionImpl(ConnectionFactoryImpl.java:195) at org.postgresql.core.ConnectionFactory.openConnection(ConnectionFactory.java:65) at org.postgresql.jdbc2.AbstractJdbc2Connection.(AbstractJdbc2Connection.java:124) at org.postgresql.jdbc3.AbstractJdbc3Connection.(AbstractJdbc3Connection.java:29) at org.postgresql.jdbc3g.AbstractJdbc3gConnection.(AbstractJdbc3gConnection.java:21) at org.postgresql.jdbc4.AbstractJdbc4Connection.(AbstractJdbc4Connection.java:31) at org.postgresql.jdbc4.Jdbc4Connection.(Jdbc4Connection.java:23) at org.postgresql.Driver.makeConnection(Driver.java:394) at org.postgresql.Driver.connect(Driver.java:267) at org.apache.spark.sql.execution.datasources.jdbc.JdbcUtils$$anonfun$createConnectionFactory$1.apply(JdbcUtils.scala:63) at org.apache.spark.sql.execution.datasources.jdbc.JdbcUtils$$anonfun$createConnectionFactory$1.apply(JdbcUtils.scala:54) at org.apache.spark.sql.execution.datasources.jdbc.JDBCRDD$.resolveTable(JDBCRDD.scala:56) at org.apache.spark.sql.execution.datasources.jdbc.JDBCRelation$.getSchema(JDBCRelation.scala:213) at org.apache.spark.sql.execution.datasources.jdbc.JdbcRelationProvider.createRelation(JdbcRelationProvider.scala:40) at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:335) at org.apache.spark.sql.DataFrameReader.loadV1Source(DataFrameReader.scala:242) at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:230) at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:186) at org.apache.spark.sql.DataFrameReader.jdbc(DataFrameReader.scala:257) at com.huawei.bigdata.spark.examples.SparkHivetoHbase.main(SparkHivetoHbase.java:79) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:498) at org.apache.spark.deploy.yarn.ApplicationMaster$$anon$2.run(ApplicationMaster.scala:694)参考了【业务连接】spark连接dws报The authentication type 5 is not support怀疑是驱动问题,尝试了文中提到的几种方法,在代码中增加配置参数 conf.set("spark.yarn.user.classpath.first", "true"); conf.set("spark.driver.userClassPathFirst", "true"); conf.set("spark.executor.userClassPathFirst", "true");将gsjdbc4.jar中的class打包到jar包中但仍然报相同的错误,由于打包时没有携带gsjdbc4.jar时,报的错误相同,现在我很怀疑程序运行时加载的org.postgresql.Driver驱动包仍然来自于环境变量中的jar包,而不是我打包到jar中的org.postgresql.Driver.class请问各位有没有什么解决办法或者思路,不胜感激
  • [互动交流] 如何使用loader命令行工具,从GaussDB中迁移数据到Hive里面
    如何使用loader命令行工具,从GaussDB中迁移数据到Hive里面?版本:HD6.5.1 Loader1.99.3官方文档里面只源端只有sftp、rdb,目的端只有hdfs、hbase。现在需求:需要重gaussdb里面迁移数据到hive。如果通过loader的命令行实现呢?
  • [维护宝典] 华为云FusionInsight MRS运维系列课程
    推荐学习顺序:请知:编号顺序相同的可并行学习;知识图谱:课程链接:组件名称组件介绍链接Manager华为FusionInsight HD是一个分布式数据处理系统,对外提供大容量的数据存储、查询和分析能力基础知识安装教程运维知识HBaseHBase是一个开源的非关系型分布式数据库(NoSQL),它参考了谷歌的BigTable建模,实现的编程语言为 Java。它是Apache软件基金会的Hadoop项目的一部分,运行于HDFS文件系统之上,为 Hadoop 提供类似于BigTable 规模的服务。基础串讲+运维知识最佳实践KafkaKafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。 该项目的目标是为处理实时数据提供一个统一、高吞吐、低延迟的平台。基础串讲+运维知识最佳实践HiveHive 是一个架构在 Hadoop 之上的数据仓库基础工具,它可以处理结构化和半结构化数据,它使得查询和分析存储在 Hadoop 上的数据变得非常方便基础串讲+运维知识最佳实践SparkApache Spark 是一种用于大数据工作负载的分布式开源处理系统。它使用内存中缓存和优化的查询执行方式,可针对任何规模的数据进行快速分析查询。基础串讲+运维知识最佳实践FlinkApache Flink 是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。基础串讲+运维知识最佳实践
  • [认证交流] 论微认证《大数据板块》大满贯
    什么是微认证?          华为云微认证是基于线上学习与在线实践,快速获得场景化技能提升的认证。微认证清单 - 大数据1、基于Spark实现车主驾驶行为分析未来城市交通是智能交通融合的场景,车与周围环境是一个紧密联系的实体,通过Spark数据分析,会让您加快了解智能汽车领域。基于Spark实现车主驾驶行为分析_华为云培训中心-华为云 (huaweicloud.com)2、球星薪酬决定性因素分析随着大数据、云计算的发展,数据规模也随之扩大,也更加关注数据的存放、处理以及分析。利用数据仓库服务,带您探索球星薪酬影响的决定性因素。薪酬数据大数据分析技术学习认证_球星薪酬决定性因素分析微认证_华为云学院-华为云 (huaweicloud.com)3、基于流计算的双十一大屏开发案例面对每天大量的实时数据,及时、高效的处理这些数据显得十分必要。本课程主要介绍如何搭建一个可视化大屏,为企业提供精准、高效的支持。可视化大屏大数据分析技术学习认证_基于流计算的双十一大屏开发案例微认证_华为云学院-华为云 (huaweicloud.com)4、使用DLI Flink SQL进行电商实时业务数据分析开发电商通常有web,小程序等多种接入方式,为掌握其实时变化,需统计各平台的实时访问量、订单数等,从而针对性地调整营销策略。使用DLI Flink SQL进行电商实时业务数据分析开发_华为云培训中心-华为云 (huaweicloud.com)5、逃杀游戏数据分析随着电竞行业的火热发展,用户数据分析成为急需解决的问题。借助大数据平台服务进行数据分析,能妥善处理海量的用户数据,帮助游戏厂商和俱乐部进行更好的战略决策。大数据分析游戏电竞行业技术学习认证_逃杀游戏数据分析微认证_华为云学院-华为云 (huaweicloud.com)6、黑色星期五消费者行为研究大数据时代消费者行为复杂多样,通过对消费者行为进行数据分析,找寻其中的变化规律,对用户进行定位进而优化销售方式。用户消费行为分析技术学习认证_黑色星期五消费者行为研究微认证_华为云学院-华为云 (huaweicloud.com)7、网站消费者行为分析大数据时代背景下,用户消费数据暗藏许多商机。通过网站用户消费行为分析实践,了解华为云大数据产品的使用方法,帮助商户发掘潜在客户。消费行为大数据分析技术学习认证_网站消费者行为分析微认证_华为云学院-华为云 (huaweicloud.com)8、外卖红包推送策略及菜品推荐随着外卖业务快速增长,如何实现客户、商家的共赢?本课程借助华为大数据方案进行客户画像,实现外卖红包推送策略及菜品推荐。大数据分析智能推荐技术学习认证_外卖红包推送策略及菜品推荐微认证_华为云学院-华为云 (huaweicloud.com)9、车联网大数据驾驶行为分析作为智能交通的基础,车联网的应用预示着工业技术,交通效率,出行方式的重大改变。微认证为您揭秘车联网大数据背后的密码,实现科学高效的车队管理。无人驾驶数据分析技术学习认证_车联网大数据驾驶行为分析微认证_华为云学院-华为云 (huaweicloud.com)
  • [认证交流] 微认证 - 大数据板块 -《基于Spark实现车主驾驶行为分析》 - 学习分享
    什么是微认证?          华为云微认证是基于线上学习与在线实践,快速获得场景化技能提升的认证。微认证清单 - 大数据          前景概述:该课程的考试内容部分来自于 微认证课程《车联网大数据驾驶行为分析》,因为这是该课程的早期前身版本,车联网的概述介绍等基于Spark实现车主驾驶行为分析     课程简介:未来城市交通是智能交通融合的场景,车与周围环境是一个紧密联系的实体,基于此背景,我们使用华为云MRS服务中的Spark组件来分析统计指定时间内,车主急加速、急刹车、空挡滑行、超速、疲劳驾驶等违法行为的次数。结合实际的案例,能够让我们更好的掌握Spark及MRS的使用。     课程结构:车联网的背景及案例4了解车联网的背景及应用场景华为车联网常用EI服务介绍31了解华为车联网EI服务,包括OBS和MRSSpark车主驾驶行为分析实验介绍18掌握MRS服务的使用,学习Spark程序的执行过程1、车联网的背景及案例      汽车技术重大变革的历程     技术革命引爆出行方式变革,智能、网联成就智慧出行    未来场景驱动汽车行业数字化转型            典型应用1 - 车辆监控及历史信息的统计分析     典型应用2 - 站点、班线、任务、区域管理2、华为车联网常用EI服务介绍     对象存储服务 OBS(基础服务)          一个基于对象的存储服务,为客户提供海量、安全、高可靠、低成本的数据存储能力,使用时无需考虑容量限制,并且提供多种存储类型供选择,满足客户各类业务场景诉求        业务模型           每个租户在OBS只能创建100给桶(所以区域桶个数之和不超过100),桶的名字在OBS系统内唯一,如果租户准备使用的桶名已经被其他租户使用需要更换桶名使用。         可靠性        数据可靠性保证机制           冗余分片分别放在不同服务器中,小于冗余个数的服务器故障业务完全不受影响; EC算法替代3副本,存储利用率从33%提升到80%+; 一个对象会被拆分为2048~4096个条带,单对象理论峰值带宽:2400 MB/s ~ 4800 MB/s。           多AZ冗余算法使磁盘利用率达到55%,同时支持1个AZ完全故障 为了减少AZ间恢复流量,每个AZ有2份AZ内冗余数据,AZ内故障两给服务器,数据恢复能在AZ内完成。           服务器或者硬盘故障时,后台会以2 TB/s的速度触发重构,确保数据在最短时间内恢复到正常状态。         存算分离方案      MapReduce服务 MRS           为客户提供Hudi、ClickHouse、Spark、Flink、Kafka、HBase等Hadoop生态的高性能大数据组件,支持数据湖、数据仓库、BI、AI融合等能力。          MRS同时支持混合云和公有云两种形态:            混合云版本,一个架构实现离线、实时、逻辑三种数据湖,以云原生架构助力客户智能升级;            公有云版本,协助客户快速构建低成本、灵活开放、安全可靠的一站式大数据平台。        架构图        产品优势     Spark        Spark简介          2009年诞生于美国加州大学伯克利分校AMP实验室。          Apache Spark是一种基于内存的快速、通用、可扩展的大数据计算引擎。          Spark 是一站式解决方案,集批处理(Spark Core )、实时流处理(Spark Streaming )、交互式查询(Spark SQL )、图计算(GraphX )与机器学习(MLLib )于一体。         Spark应用场景           批处理可用于ETL (抽取、转换、加载)。          机器学习可用于自动判断淘宝的买家评论是好评还是差评。          交互式分析可用于查询Hive数据仓库。          流处理可用于页面点击流分析,推荐系统,舆情分析等实时业务。         Spark架构        Spark特点        SparkSQL          Spark SQL是Spark中用于结构化数据处理的模块。          在Spark应用中,可以无缝的使用SQL语句亦或是DataFrame API对结构化数据进行查询。         SparkStreaming          Spark Streaming的基本原理是将实时输入数据流以时间片(秒级)为单位进行拆分,然后经Spark引擎以类似批处理的方式处理每个时间片数据。动手实验:实验避坑分享:论 《基于Spark实现车主驾驶行为分析》 实验避坑,100%完成_华为云开发者学堂_华为云论坛 (huaweicloud.com)下一期预告:使用DLI Flink SQL进行电商实时业务数据分析开发
  • [云实验室] 论 《基于Spark实现车主驾驶行为分析》 实验避坑,100%完成
                                                                                                       已完成1. 实验链接:沙箱实验室_在线实验_上云实践_云计算实验_AI实验_华为云官方实验平台-华为云 (huaweicloud.com)1. 问题处理1实验要求关闭高可用,且节点为1个,实际购买为高可用,加最低2个,MRS创建部署成功后不会自动删除,不影响实验2.问题处理2注意OBS的压缩包上传,批量文件是上传到input文件中,而压缩包是直接上传到桶的目录下,否则作业运行的时候会失败3.问题处理2实验界面是S3的抬头路径,实际上选择OBS即可,并且不要忽略了AK SK后面的这个  1输出路径请手动输入一个不存在的目录,例如obs://obs-demo-analysis-hwt4/output/最佳实践链接:  使用Spark2x实现车联网车主驾驶行为分析_MapReduce服务 MRS_最佳实践_数据分析_华为云 (huaweicloud.com)
  • [互动交流] 【MapReduce服务】【HTTP REST API】创建目录
    【HTTP REST API】curl创建目录【操作步骤&问题现象】在客户端执行:curl -i -X PUT --negotiate -u: "http://host56:25002/webhdfs/v1/huawei?user.name=pocuser&op=MKDIRS"【截图信息】【日志信息】(可选,上传日志内容或者附件)
  • [其他问题] 问题求助 Identifier doesn't match expected value 906
    下载最新的认证文件后依旧认证失败,修过过服务器时间后提示时钟未同步,求解决方案。
  • [基础服务] MapReduce服务 MRS > 组件操作指南> 使用Ranger> 使用Ranger(MRS 3.x)> 添加HDFS的R
    关于ranger在hdfs上权限控制,我设置了一个策略允许一个用户读写,但是其他用户也可以读写,但是我把Deny All Other Accesses: 设置成true之后就生效了但是这样只有一条策略生效目前就这样一个策略,不在条件满足里的用户也同样可以访问,我看aduit log里显示test01用户应用上了这条策略,按照原理应该是没有权限才对
  • [赋能学习] MRS3.0.2版本 二次开发(1/27): 环境准备
    # 视频在本帖二楼 ## 一、MRS是什么? MRS是一种基于云计算平台的大数据服务 两种部署形式: | 集群类型| 集群部署形式 | |---|----- | | 弹性伸缩集群 | 1、安装云底座后导入MRS镜像;2、通过云底座上的MRS Console发放FusionInsight集群,集群节点为虚拟机 | | 物理机集群 | 1、分别安装云底座、FusionInsight物理机集群;2、通过MRS Console纳管FusionInsight集群 | 因此本系列课程实际讲解的是 FusionInsight 集群的服务调用案例 ## 二、课程说明 本次课程共27节,课程目录列表如下,所有样例都是基于Java语言的maven项目,其他非maven项目,我们后续会在FusionInsight论坛上传使用指导 ### 1.1 课程列表 | 序号 | 组件 | | ---- | ---- | | 1 | 环境准备 | | 2 | HDFS调用样例 | | 3 | MapReduce任务提交样例 | | 4 | MapReduce多组件调用样例 | | 5 | Hive的HCatalog接口调用样例 | | 6 | Hive的JDBC接口调用样例 | | 7 | Hetu的JDBC接口调用样例 | | 8 | HBase通用API使用样例 | | 9 | HBase Rest接口调用样例 | | 10 | HBase thrift接口调用样例 | | 11 | Redis调用样例 | | 12 | Kafka接口调用样例 | | 13 | ES的Rest接口样例 | | 14 | ES的Transport接口样例 | | 15 | Flink构造DataStream样例 | | 16 | Flink异步Checkpoint样例 | | 17 | Flink实现配置表与实时流join的样例 | | 18 | Flink读写Kafka样例 | | 19 | Flink实现pipline样例 | | 20 | Flink TableAPI使用样例 | | 21 | 使用java命令提交spark任务样例 | | 22 | Spark读写HBase样例 | | 23 | Spark读取Hive写入HBase样例 | | 24 | Spark读写ElasticSearch样例 | | 25 | Spark-submit提交SparkSQL样例 | | 26 | 通过JDBC接口访问SparkSQL样例 | | 27 | SparkStreaming读取Kafka写入HBase样例 | ## 三、环境准备 ### 3.1 集群环境 本系列课程使用的是FusionInsight集群为安全模式,支持Kerberos认证 已经安装了客户端,客户端目录为/opt/client,该目录可根据实际情况自定义 ### 3.2 开发环境 | 工具 | 说明 | | ------------------- | --------------------------------- | | 系统 | windows10 64bit | | JDK | Oracle JDK 1.8 | | maven | 3.6.3 | | git | 2.18 for windows 样例代码下载工具 | | scala | 2.11.12(部分组件使用) | | xshell或者Mobaxterm | ssh客户端工具 | | WinSCP | sftp传输工具 | ### 3.3 样例代码获取 获取地址:[https://github.com/huaweicloud/huaweicloud-mrs-example/tree/mrs-3.0.2](https://github.com/huaweicloud/huaweicloud-mrs-example/tree/mrs-3.0.2) 注意是 mrs-3.0.2 分支 git下载样例代码命令参考: ``` git clone -b mrs-3.0.2 https://github.com/huaweicloud/huaweicloud-mrs-example.git ``` 如果访问github比较慢的同学,也可以通过 FusionInsight 论坛获取,获取方式为论坛内搜索 二次开发,找到环境准备这节课,从帖子的附件中下载即可 ### 3.4 配置maven仓库 样例代码需要从maven仓下载依赖,因此需要开发环境连通互联网环境。 maven仓库配置可以参考华为公有云网站MRS服务的指导,链接为: https://support.huaweicloud.com/devg-mrs/mrs_06_0002.html 也可参考如下方式配置: 1. 创建settings.xml文件内容参考如下 ![image.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202011/18/201216w7jj3d1udkiiyrxh.png) 2. 在IDEA项目中修改Settings中的Maven仓配置,如图所示位置 ![image.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202011/18/201302idolzynfwoeiiq92.png) ## 四、环境检查 ### 4.1 开发环境与集群网络检查 网络检查可以通过windows环境下的cmd命令行进行ping检查,也可以参考使用MobaXterm中的NetworkScanner来扫描网络 ![image.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202011/18/203048oxp7khzztdnbwlvf.png) ### 4.2 开发环境与集群时间差检查 Windows开发环境的时间与集群时间误差不能超过5分钟 ### 4.3 开发环境JDK配置检查 如图所有需配置为1.8 ![image.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202011/18/201604lyr5c8g06nqbtit5.png) ![image.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202011/18/2022423uhvcbkf2dozmzxz.png) ### 4.4 端口检查 所有组件的端口占用信息可通过版本配套的通信矩阵来获取具体端口信息,其中注意Kerberos认证需要开放UDP端口21732 本版本用到的通信矩阵将以附件形式附上,或通过如下链接获取 https://support.huawei.com/enterprise/zh/doc/EDOC1100161650?idPath=22658044%7C22662728%7C22666212%7C22396131 ## 五、互动渠道:FusionInsight论坛 请在该论坛发表“问题求助”类型帖子
  • [其他] 【活动周知】11·11狂欢继续!!!MapReduce服务5折钜惠
    【11.11上云嘉年华,MapReduce服务5折钜惠】MapReduce服务  5折火热抢购中!热门应用场景     IoT数据处理全栈式、高性能、低成本的大数据分析平台火热抢购中→点此直达
  • [公告] 华为云MapReduce服务于2020年9月11日 00:00-06:00(北京时间)升级通知
    尊敬的华为云客户:为了进一步提高MapReduce服务的稳定性和可靠性,华为云计划于2020/09/11 00:00-06:00(北京时间)对MapReduce服务进行升级,升级详情如下:升级内容:华东-上海一区域MapReduce服务DB流量切换。升级影响:升级期间,访问华东-上海一区域时MRS管理控制台将会出现1-2次中断,每次中断小于30秒。如您有创建、扩容、缩容MRS集群、提交MR、Spark等作业操作需求,请避开以上升级时间进行。给您带来的不便,敬请谅解。感谢您对华为云的支持! 
  • [赋能学习] 【MRS系列培训 17/17】FusionInsight MRS巡检升级补丁
    视频:文档见附件
  • [赋能学习] 【MRS系列培训 16/17】FusionInsight MRS规划部署实施
    视频:文档见附件
总条数:140 到第
上滑加载中