MapReduce_标签_开发者

博客(445)
视频(0)
论坛(0)
云声(0)
代码示例(0)

[生态对接] BI工具使用用户名和密码对接MRS3.0.2的Hetu8.0.2.1

【功能模块】根据https://bbs.huaweicloud.com/forum/home.php?mod=space&uid=328374&do=thread中的方式测试SmartBI、DBeaver、永洪BI、Fine BI都失败，所有错误都是一样然后通过自己写java程序测试，同样的结果。【操作步骤&问题现象】1、填写一个IP和一个端口时报如下错误：java.sql.SQLException: Unrecognized connection property 'serviceDiscoveryMode'2、填写2个IP和2个端口时报如下错误：java.sql.SQLException: No host specified: jdbc:presto://XXXX:29860,XXXX:29860/hive/default?serviceDiscoveryMode=hsbroker

为伊尘心 发表于2021-05-20 15:12:08 2021-05-20 15:12:08 最后回复 m_xinxin 2021-05-20 16:45:39
4908 3

MapReduce
[赋能学习] MRS负载均衡实现HA 技术文档

MRS使用负载均衡实现HA适配说明书：https://fusioninsight.github.io/ecosystem/zh-hans/Other/MRS%E4%BD%BF%E7%94%A8%E8%B4%9F%E8%BD%BD%E5%9D%87%E8%A1%A1%E5%AE%9E%E7%8E%B0HA%E9%80%82%E9%85%8D%E8%AF%B4%E6%98%8E%E4%B9%A6/MRS使用负载均衡实现HA：基于微软云的适配代码与安装说明书: https://fusioninsight.github.io/ecosystem/zh-hans/Other/MRS%E4%BD%BF%E7%94%A8%E8%B4%9F%E8%BD%BD%E5%9D%87%E8%A1%A1%E5%AE%9E%E7%8E%B0HA%EF%BC%9A%E5%9F%BA%E4%BA%8E%E5%BE%AE%E8%BD%AF%E4%BA%91%E7%9A%84%E9%80%82%E9%85%8D%E4%BB%A3%E7%A0%81%E4%B8%8E%E5%AE%89%E8%A3%85%E8%AF%B4%E6%98%8E%E4%B9%A6/

晋红轻 发表于2021-04-29 17:07:53 2021-04-29 17:07:53 最后回复晋红轻 2021-04-29 17:07:53
1884 0

负载均衡 MapReduce
[分享驿站] 【云小课】大数据融合分析：GaussDB(DWS)轻松导入MRS-Hive数据源

大数据融合分析时代，GaussDB(DWS)如需访问MRS数据源，该如何实现？本期云小课带您开启MRS数据源之门，通过远程读取MRS集群Hive上的ORC数据表完成数据导入DWS。准备环境需确保MRS和DWS集群在同一个区域、可用区、同一VPC子网内，确保集群网络互通。基本流程1、创建MRS分析集群（选择Hive组件）。2、通过将本地txt数据文件上传至OBS桶，再通过OBS桶导入Hive，并由txt存储表导入ORC存储表。3、创建MRS数据源连接。4、创建外部服务器。5、创建外表。6、通过外表导入DWS本地表。创建MRS分析集群登录华为云控制台，选择“EI企业智能 > MapReduce服务”，单击“购买集群”，选择“自定义购买”，填写软件配置参数，单击“下一步”。表1 软件配置参数项取值区域华北-北京四集群名称MRS01集群版本MRS 3.0.5集群类型分析集群填写硬件配置参数，单击“下一步”。表1 硬件配置参数项取值计费模式按需计费可用区可用区2虚拟私有云vpc-01子网subnet-01安全组自动创建弹性公网IP10.x.x.x企业项目defaultMaster节点打开“集群高可用”分析Core节点3分析Task节点0填写高级配置参数，单击“立即购买”，等待约15分钟，集群创建成功。表1 高级配置参数项取值标签test01委托保持默认即可告警保持默认即可规则名称保持默认即可主题名称保持默认即可Kerberos认证默认打开用户名admin密码设置密码，例如：Huawei@12345。该密码用于登录集群管理页面。确认密码再次输入设置admin用户密码登录方式密码用户名root密码设置密码，例如：Huawei_12345。该密码用于远程登录ECS机器。确认密码再次输入设置的root用户密码通信安全授权勾选“确认授权”准备MRS的ORC表数据源本地PC新建一个product_info.txt，并拷贝以下数据，保存到本地。100,XHDK-A-1293-#fJ3,2017-09-01,A,2017 Autumn New Shirt Women,red,M,328,2017-09-04,715,good 205,KDKE-B-9947-#kL5,2017-09-01,A,2017 Autumn New Knitwear Women,pink,L,584,2017-09-05,406,very good! 300,JODL-X-1937-#pV7,2017-09-01,A,2017 autumn new T-shirt men,red,XL,1245,2017-09-03,502,Bad. 310,QQPX-R-3956-#aD8,2017-09-02,B,2017 autumn new jacket women,red,L,411,2017-09-05,436,It's really super nice 150,ABEF-C-1820-#mC6,2017-09-03,B,2017 Autumn New Jeans Women,blue,M,1223,2017-09-06,1200,The seller's packaging is exquisite 200,BCQP-E-2365-#qE4,2017-09-04,B,2017 autumn new casual pants men,black,L,997,2017-09-10,301,The clothes are of good quality. 250,EABE-D-1476-#oB1,2017-09-10,A,2017 autumn new dress women,black,S,841,2017-09-15,299,Follow the store for a long time. 108,CDXK-F-1527-#pL2,2017-09-11,A,2017 autumn new dress women,red,M,85,2017-09-14,22,It's really amazing to buy 450,MMCE-H-4728-#nP9,2017-09-11,A,2017 autumn new jacket women,white,M,114,2017-09-14,22,Open the package and the clothes have no odor 260,OCDA-G-2817-#bD3,2017-09-12,B,2017 autumn new woolen coat women,red,L,2004,2017-09-15,826,Very favorite clothes 980,ZKDS-J-5490-#cW4,2017-09-13,B,2017 Autumn New Women's Cotton Clothing,red,M,112,2017-09-16,219,The clothes are small 98,FKQB-I-2564-#dA5,2017-09-15,B,2017 autumn new shoes men,green,M,4345,2017-09-18,5473,The clothes are thick and it's better this winter. 150,DMQY-K-6579-#eS6,2017-09-21,A,2017 autumn new underwear men,yellow,37,2840,2017-09-25,5831,This price is very cost effective 200,GKLW-l-2897-#wQ7,2017-09-22,A,2017 Autumn New Jeans Men,blue,39,5879,2017-09-25,7200,The clothes are very comfortable to wear 300,HWEC-L-2531-#xP8,2017-09-23,A,2017 autumn new shoes women,brown,M,403,2017-09-26,607,good 100,IQPD-M-3214-#yQ1,2017-09-24,B,2017 Autumn New Wide Leg Pants Women,black,M,3045,2017-09-27,5021,very good. 350,LPEC-N-4572-#zX2,2017-09-25,B,2017 Autumn New Underwear Women,red,M,239,2017-09-28,407,The seller's service is very good 110,NQAB-O-3768-#sM3,2017-09-26,B,2017 autumn new underwear women,red,S,6089,2017-09-29,7021,The color is very good 210,HWNB-P-7879-#tN4,2017-09-27,B,2017 autumn new underwear women,red,L,3201,2017-09-30,4059,I like it very much and the quality is good. 230,JKHU-Q-8865-#uO5,2017-09-29,C,2017 Autumn New Clothes with Chiffon Shirt,black,M,2056,2017-10-02,3842,very good 登录OBS控制台，单击“创建桶”，填写以下参数，单击“立即创建”。表1 桶参数参数项取值区域华北-北京四数据冗余存储策略单AZ存储桶mrs-datasource存储类别标准存储桶策略私有默认加密关闭归档数据直读关闭企业项目default标签-等待桶创建好，单击桶名称，选择“对象 > 上传对象”，将product_info.txt上传至OBS桶。切换回MRS控制台，单击创建好的MRS集群名称，进入“概览”，单击“IAM用户同步”所在行的“单击同步”，等待约5分钟同步完成。回到MRS集群页面，单击“节点管理”，单击任意一台master节点，进入该节点页面，切换到“弹性公网IP”，单击“绑定弹性公网IP”，勾选已有弹性IP并单击“确定”，如果没有，请创建。记录此公网IP。确认主master节点。使用SSH工具以root用户登录以上节点，root密码为Huawei_12345，切换到omm用户。su - omm执行以下命令查询主master节点，回显信息中“HAActive”参数值为“active”的节点为主master节点。sh ${BIGDATA_HOME}/om-0.0.1/sbin/status-oms.sh使用root用户登录主master节点，切换到omm用户，并进入Hive客户端所在目录。su - ommcd /opt/client在Hive上创建存储类型为TEXTFILE的表product_info。在/opt/client路径下，导入环境变量。source bigdata_env登录Hive客户端。beeline依次执行以下SQL语句创建demo数据库及表product_info。CREATE DATABASE demo; USE demo; DROP TABLE product_info; CREATE TABLE product_info ( product_price int not null, product_id char(30) not null, product_time date , product_level char(10) , product_name varchar(200) , product_type1 varchar(20) , product_type2 char(10) , product_monthly_sales_cnt int , product_comment_time date , product_comment_num int , product_comment_content varchar(200) ) row format delimited fields terminated by ',' stored as TEXTFILE 将product_info.txt数据文件导入Hive。切回到MRS集群，单击“文件管理”，单击“导入数据”。OBS路径：选择上面创建好的OBS桶名，找到product_info.txt文件，单击“是”。HDFS路径：选择/user/hive/warehouse/demo.db/product_info/，单击“是”。单击“确定”，等待导入成功，此时product_info的表数据已导入成功。创建ORC表，并将数据导入ORC表。执行以下SQL语句创建ORC表。DROP TABLE product_info_orc; CREATE TABLE product_info_orc ( product_price int not null, product_id char(30) not null, product_time date , product_level char(10) , product_name varchar(200) , product_type1 varchar(20) , product_type2 char(10) , product_monthly_sales_cnt int , product_comment_time date , product_comment_num int , product_comment_content varchar(200) ) row format delimited fields terminated by ',' stored as orc; 将product_info表的数据插入到Hive ORC表product_info_orc中。insert into product_info_orc select * from product_info; 查询ORC表数据导入成功。select * from product_info_orc; 创建MRS数据源连接登录DWS管理控制台，单击已创建好的DWS集群，确保DWS集群与MRS在同一个区域、可用分区，并且在同一VPC子网下。切换到“MRS数据源”，单击“创建MRS数据源连接”。选择前序步骤创建名为的“MRS01”数据源，用户名：admin，密码：Huawei@12345，单击“确定”，创建成功。创建外部服务器使用Data Studio连接已创建好的DWS集群。新建一个具有创建数据库权限的用户dbuser：CREATE USER dbuser WITH CREATEDB PASSWORD "Bigdata@123"; 切换为新建的dbuser用户：SET ROLE dbuser PASSWORD "Bigdata@123"; 创建新的mydatabase数据库：CREATE DATABASE mydatabase; 执行以下步骤切换为连接新建的mydatabase数据库。在Data Studio客户端的“对象浏览器”窗口，右键单击数据库连接名称，在弹出菜单中单击“刷新”，刷新后就可以看到新建的数据库。右键单击“mydatabase”数据库名称，在弹出菜单中单击“打开连接”。右键单击“mydatabase”数据库名称，在弹出菜单中单击“打开新的终端”，即可打开连接到指定数据库的SQL命令窗口，后面的步骤，请全部在该命令窗口中执行。为dbuser用户授予创建外部服务器的权限：GRANT ALL ON FOREIGN DATA WRAPPER hdfs_fdw TO dbuser; 其中FOREIGN DATA WRAPPER的名字只能是hdfs_fdw，dbuser为创建SERVER的用户名。执行以下命令赋予用户使用外表的权限。ALTER USER dbuser USEFT; 切换回Postgres系统数据库，查询创建MRS数据源后系统自动创建的外部服务器。SELECT * FROM pg_foreign_server; 返回结果如： srvname | srvowner | srvfdw | srvtype | srvversion | srvacl | srvoptions --------------------------------------------------+----------+--------+---------+------------+--------+--------------------------------------------------------------------------------------------------------------------- gsmpp_server | 10 | 13673 | | | | gsmpp_errorinfo_server | 10 | 13678 | | | | hdfs_server_8f79ada0_d998_4026_9020_80d6de2692ca | 16476 | 13685 | | | | {"address=192.168.1.245:9820,192.168.1.218:9820",hdfscfgpath=/MRS/8f79ada0-d998-4026-9020-80d6de2692ca,type=hdfs} (3 rows) 切换到mydatabase数据库，并切换到dbuser用户。SET ROLE dbuser PASSWORD "Bigdata@123"; 创建外部服务器。SERVER名字、地址、配置路径保持与8一致即可。CREATE SERVER hdfs_server_8f79ada0_d998_4026_9020_80d6de2692ca FOREIGN DATA WRAPPER HDFS_FDW OPTIONS ( address '192.168.1.245:9820,192.168.1.218:9820', //MRS管理面的Master主备节点的内网IP，可与DWS通讯。 hdfscfgpath '/MRS/8f79ada0-d998-4026-9020-80d6de2692ca', type 'hdfs' ); 查看外部服务器。SELECT * FROM pg_foreign_server WHERE srvname='hdfs_server_8f79ada0_d998_4026_9020_80d6de2692ca'; 返回结果如下所示，表示已经创建成功： srvname | srvowner | srvfdw | srvtype | srvversion | srvacl | srvoptions --------------------------------------------------+----------+--------+---------+------------+--------+--------------------------------------------------------------------------------------------------------------------- hdfs_server_8f79ada0_d998_4026_9020_80d6de2692ca | 16476 | 13685 | | | | {"address=192.168.1.245:9820,192.168.1.218:29820",hdfscfgpath=/MRS/8f79ada0-d998-4026-9020-80d6de2692ca,type=hdfs} (1 row) 创建外表获取Hive的product_info_orc的文件路径。登录MRS管理控制台。选择“集群列表 > 现有集群”，单击要查看的集群名称，进入集群基本信息页面。单击“文件管理”，选择“HDFS文件列表”。进入您要导入到GaussDB(DWS)集群的数据的存储目录，并记录其路径。创建外表。 SERVER名字填写10创建的外部服务器名称，foldername填写1查到的路径。DROP FOREIGN TABLE IF EXISTS foreign_product_info; CREATE FOREIGN TABLE foreign_product_info ( product_price integer not null, product_id char(30) not null, product_time date , product_level char(10) , product_name varchar(200) , product_type1 varchar(20) , product_type2 char(10) , product_monthly_sales_cnt integer , product_comment_time date , product_comment_num integer , product_comment_content varchar(200) ) SERVER hdfs_server_8f79ada0_d998_4026_9020_80d6de2692ca OPTIONS ( format 'orc', encoding 'utf8', foldername '/user/hive/warehouse/demo.db/product_info_orc/' ) DISTRIBUTE BY ROUNDROBIN; 执行数据导入创建本地目标表。DROP TABLE IF EXISTS product_info; CREATE TABLE product_info ( product_price integer not null, product_id char(30) not null, product_time date , product_level char(10) , product_name varchar(200) , product_type1 varchar(20) , product_type2 char(10) , product_monthly_sales_cnt integer , product_comment_time date , product_comment_num integer , product_comment_content varchar(200) ) with ( orientation = column, compression=middle ) DISTRIBUTE BY HASH (product_id); 从外表导入目标表。INSERT INTO product_info SELECT * FROM foreign_product_info; 查询导入结果。SELECT * FROM product_info; 想了解更多GaussDB(DWS)，请猛戳

数仓云云 发表于2021-04-29 16:56:05 2021-04-29 16:56:05 最后回复瘸子那条好腿 2021-05-18 15:30:37
4078 4

云数据仓库 GaussDB(DWS) Hive MapReduce
[其他] 【MRS产品】【MapReduce访问多组件功能】导入YARN_USER_CLASSPATH程序不能正常执行

【功能模块】MapReduce访问多组件功能【操作步骤&问题现象】1、使用idea的bulid,把依赖和代码一起打包提交代码运行正常。2、使用install生成的不带依赖的jar包再导入环境变量export YARN_USER_CLASSPATH=/opt/hadoopclient/conf:/opt/hadoopclient/HBase/hbase/lib/*:/opt/hadoopclient/Hive/Beeline/lib/*:/opt/hadoopclient/Hive/HCatalog/lib/*然后提交代码yarn jar MRTest-8.0.0-SNAPSHOT.jar com.huawei.bigdata.mapreduce.examples.rcfile2hfile /user/hive/warehouse/testa /testl/b8提示失败【截图信息】【日志信息】（可选，上传日志内容或者附件）代码见附件

海王之王 发表于2021-04-28 11:39:27 2021-04-28 11:39:27 最后回复海王之王 2021-05-10 09:45:20
5201 4

Yarn MapReduce
[行业动态] 华为云FusionInsight MRS跨湖跨仓场景下如何实现海量数据分钟级分析

华为开发者大会2021（Cloud）于2021年4月24日-26日在深圳成功举行。本届大会以#每一个开发者都了不起#为主题，为众多开发者带来一场ICT方面的技术盛宴。大会期间，由华为技术专家天团打造的《名师大讲堂》系列专题演讲，围绕云原生、大数据、人工智能等话题，探讨技术创新带来的价值，分享创新实践。其中，华为云FusionInsight MRS云原生数据湖HetuEngine架构师武文博，分享了“跨湖跨仓场景下如何实现海量数据分钟级分析”主题。华为云FusionInsight MRS云原生数据湖HetuEngine架构师武文博演讲传统大数据平台融合分析存在数据墙、数据难打通、数据协同慢三大问题随着大数据技术的应用和发展，数据种类越来越多，分布越来越广，查询场景也越来越复杂，尤其在新兴业务中，需要在一个平台上使用离线分析、实时分析、图分析、文本分析、交互式查询等多种引擎，多元异构的数据融合才能盘活数据，通过数据挖掘开发数据价值，发挥数据作为生产要素的作用。而传统大数据平台在应对数据融合分析时逐渐显露疲态，存在如下问题：多数据源间存在数据墙：Hive、HBase、MPPDB、Oracle….数据组件众多，组件间形成“数据墙”；为了应对不同场景的需求，数据重复存储到多个数据组件：Hive（历史数据），HBase（原始数据），MPPDB（专题数据），管理复杂，耗费存储空间；多中心数据难以打通：各类分析应用只能基于本地数据；用外中心数据做碰撞分析需要先搬迁到本地，操作复杂，效率低；异地数据加工需要在当地部署和维护加工平台，架构复杂；多数据中心难以形成合力：数据集中在主中心，造成主中心负载畸高，分中心却空闲严重；紧急任务需要迅速处理，却因为分中心数据还未同步，无法分析；多数据中心和多集群的计算和扩展能力远远强于单个中心，但由于跨数据中心访问技术基本处于空白状态，业务只能依靠单中心支撑。简化用数，HetuEngine统一接口，跨湖跨仓跨云协同分析从数天降至分钟级为了让数据使用更简单，跨湖协同更容易，解决上述三大问题，华为推出了“HetuEngine”，于2019年11月发布，2020年6月正式开源（开源名称openLooKeng）。HetuEngine是统一高效的数据虚拟化引擎，与大数据生态无缝融合，实现海量数据秒级查询；业界首创多源异构协同，实现一站式SQL融合分析。HetuEngine具备如下特性：高性能交互式查询：传统大数据通过Hive引擎构建即席查询任务，查询时间长， HetuEngine通过启发式索引和执行计划Cache，实现秒级查询响应；跨湖跨仓跨云融合：传统数据分析需先统一数据格式，HetuEngine可实现不同数据格式间的join，减少数据搬迁，较传统方案提效30%；传统DC分析要建手工摆渡数据，HetuEngine可通过DC Connector进行连接，数据全局可视，协同耗时从数天缩短至分钟级；多引擎融合：传统大数据在进行多引擎组件开发时，需涉及多组件定制开发，HetuEngine可统一SQL接口访问大数据，降低用数门槛，开发提效2-10倍。目前，华为云FusionInsight MRS云原生数据湖为政企提供湖仓一体的解决方案，一个架构可构建三种数据湖：离线数据湖、实时数据湖、逻辑数据湖。其中逻辑数据湖通过HetuEngine提供跨湖、跨仓、跨云统一访问，减少数据搬迁，数据高效流动，全域数据分钟级协同分析，业务上线效率提升10倍，由周级缩短至天级。 HetuEngine已在各行各业大规模使用，下面一起来看HetuEngine在金融领域的典型场景实践。工商银行基于HetuEngine实现即时BI，加速金融数据湖的灵活数据探索工行金融数据湖承载总行及分行全量原始数据，供全行数据分析师进行数据探索分析。目前日查询量5000条，查询数据平均10亿行，最大可达百亿行，伴随数字化转型进入深水区，多样性业务诉求对数据融合分析提出了更高的要求。在某些场景中，金融业务需要在数据湖内先使用批处理技术对原始数据加工成专题数据，然后跨集群搬移数据集市，再从数据集市上做BI分析。传统大数据平台中，SAS等工具通过Hive SQL访问数据湖数据性能差，平均响应时间5分钟~2小时，并发能力不足10，且湖仓数据割裂，将数据加工后加载到OLAP集市，数据链路长，分析效率和开发效率都很低。该行通过华为云FusionInsight MRS云原生数据湖提供的HetuEngine，解决了数据湖与数仓间的数据协同分析问题，避免了不必要的ETL。通过HetuEngine数据虚拟化实现湖仓互联互通协同分析；避免不必要的ETL流程，减少数据搬迁。通过引入HetuEngine数据虚拟化引擎，在数据湖查询分析方面该行提升了并发能力，仅1/5的资源即可支持45并发，峰值并发最大达200QPS，平均时延优化到8秒；在湖仓协同分析方面，通过HetuEngine打通数据湖与数仓间的数据壁垒，湖仓协同分析性能从分钟级提升至秒级，同时减少80%的系统间数据搬迁同步，大大提升数据治理效率。结语 HetuEngine作为统一高效的数据虚拟化引擎，打通了多数据源间的数据墙，实现高性能跨湖跨仓跨云数据融合分析，同时，HetuEngine提供统一访问入口，屏蔽了传统复杂的访问接口，并统一使用 SQL 接口，降低大数据使用门槛，简化用数！华为云FusionInsight MRS云原生数据湖还将持续创新，做大数字世界黑土地，携手800+ISV为客户提供持续演进的湖仓一体解决方案，可以在一个架构上实现离线数据湖、实时数据湖、逻辑数据湖，在千行百业构筑“一企一湖，一城一湖”。原文链接：https://bbs.huaweicloud.com/blogs/262885更多精彩文章：https://bbs.huaweicloud.com/forum/thread-66105-1-1.html

沙漏 发表于2021-04-26 18:24:53 2021-04-26 18:24:53 最后回复沙漏 2021-04-26 18:24:53
1872 0

FusionInsight MapReduce
[行业动态] 华为云FusionInsight MRS如何实现千余节点滚动升级无业务中断升级

华为开发者大会2021（Cloud）于2021年4月24日-26日在深圳成功举行。本届大会以#每一个开发者都了不起#为主题，为众多开发者带来一场ICT方面的技术盛宴。大会期间，由华为技术专家天团打造的《名师大讲堂》系列专题演讲，围绕云原生、大数据、人工智能等话题，探讨技术创新带来的价值，分享创新实践。其中，华为云FusionInsight解决方案架构师许田立，分享了“千级节点的大数据集群如何无业务中断升级”主题。华为云FusionInsight解决方案架构师许田立演讲照片数据量激增，可持续发展的数据底座尤为重要随着5G、IoT技术的飞速发展，数据已成为重要的战略资源。据预测未来4年数据量将激增4倍+，达180ZB，到35年呈50倍增长。同时，数据作为继土地、资本、技术、劳动力的第5种生产要素，已是数字经济发展的重要要素。但相关调查结果显示，企业运营中仅56%的数据被存储，仅32%的数据被利用。为应对呈指数级增长的数据资产，挖掘海量数据价值，政企客户采用大规模数据底座的需求越来越迫切。众所周知，企业早期业务较小，各业务从数据集成到数据应用，系统自建，烟囱林立，伴随业务飞速发展，数据不统一、数据融合分析难、开发维护成本高等问题日益凸显，烟囱式的数据体系演进达到瓶颈。为突破以上瓶颈，挖掘数据价值，驱动业务增长，传统烟囱式数据体系向统一数据湖架构演进，实现一致的数据清洁，做到同名同义，统一数据标准；通过一套技术架构减少维护成本；采用乐高积木式的指标体系，提升开发效率；拉通数据实现跨域融合分析，带来更多的业务创新。立足于长远，大集群的数据湖架构不仅需满足当下，更应具备可持续演进的能力。从技术角度来看，大数据开源、开放技术仍在蓬勃发展，以前，驾驭大数据“三驾马车”可转遍大数据的池塘，现如今，大数据技术已发展成一片海洋，社区已具有100+开源项目，大数据技术创新进入深水区。现在大数据不仅限于Hadoop生态，已是多种主流数据处理技术的集合，在不同场景有着丰富的组件进行支撑。华为云大数据技术与世界同步，积极拥抱开源，汲取全球顶尖大数据实践经验。从业务角度来看，大数据平台承载了海量数据各业务分析场景，其中更涉及多个关键业务，如运营商的对内收入稽核、对外广告精准投放，金融领域的反欺诈、精准营销等场景，服务连续性要求高，7*24小时不中断；如何让大数据平台软件保持最新保本，实现最优的平台参数，达到最快的问题解决速度？这些都对平台运维部门提出了极高的要求。为了保持业务的连续性和技术引领，一个超大规模、高效率、可持续发展的数据底座显得尤为重要，而不中断业务的滚动升级能力则成为其中的必备能力。滚动升级实现架构平滑演进，业务无中断华为云FusionInsight MRS云原生数据湖提供超大规模集群，支持单集群2万+节点规模，并可联邦无限扩容，同时，从500+节点集群的标配开始，华为云FusionInsight MRS云原生数据湖已提供滚动升级能力，截止目前升级成功率为100%。当然，滚动升级的成功并不是一蹴而就的，在其升级过程中也将面临如下挑战：无处不在的兼容性：HDFS作为一个分布式架构组件，涉及的跨进程的接口众多，在中间状态，涉及到新老版本交互的场景众多，每一种组合都存在兼容性问题；可靠性：集群规模达到一定数量后，集群升级历时需数天，升级过程中需要应对各种突发事件，例如硬件的磁盘故障、网络拥塞等各种异常场景，面临这些挑战需要确保升级进度不受影响；业务无中断：大数据平台承载企业多场景应用，升级过程中，关键业务不允许中断。为了保障大集群升级过程的平滑，华为云FusionInsight MRS云原生数据湖团队提供了升级管理可视化服务工具，可以端到端分步骤的完成滚动升级，实现升级过程中的可视化控制和管理，并应对上述挑战，主要做了如下处理：在接口中增加版本号，新版本客户端带上版本号标识；服务端提供两种RPC实现入口，在入口处进行消息格式不兼容的预处理，解决接口兼容性问题；面对社区大版本变更导致的不兼容问题，通过多版本并存的方式，解决滚动升级对业务的影响；为快速处理升级过程中出现的硬件故障，提供了故障节点隔离能力，在故障发生时，可以跳过该节点的升级动作，使得故障处理和升级可以有序进行；为降低在升级过程中对关键任务SLA的影响，提供了滚动升级暂停的能力，关键作业或者作业高峰时段，无论是同一批次内还是多批次间，都可暂停升级动作，保障关键任务平稳执行。滚动升级不仅是一个升级动作，更是一个系统工程，华为云FusionInsight MRS云原生数据湖从兼容性、可靠性、工具自动化、保障团队等多方面入手，注重细节，通过滚动升级助力政企客户平台架构平滑演进。工商银行实现首个金融行业1000+大集群滚动升级成功工行大数据平台的Hadoop批量集群已超过1000节点，日均处理作业10万+，数据存储数十PB，承载了全行重点批量作业，其中包括反欺诈、精准营销等多个重要业务场景，服务连续性需求较高。而大数据技术迭代快，传统升级方式需断电、重启等操作，升级操作复杂，影响现网业务运行，且大集群升级耗时长，突发故障易中断升级动作。大数据技术快速发展，为满足业务变化发展需求，工行采用了华为云FusionInsight MRS 滚动升级方案，借助于大数据核心组件的高可用机制， MRS按照依赖层次，多层次并行，在不影响集群整体业务的情况下，一次升级/重启少量节点，依据组件和实例的依赖关系，自动编排升级批次。升级过程中，隔离故障节点，待升级完成后，再进行故障处理。循环滚动，直至集群所有节点升级到新版本。通过华为云FusionInsight滚动升级能力，实现大集群分批次滚动升级，业务0中断；故障节点隔离功能确保升级动作的稳定运行，实现7*24小时不间断服务；1000+精细化运维指标及可视化操作简化运维，实现一个架构持续演进。结语滚动升级作为大集群数据底座的必备能力，完美解决了传统大数据平台操作繁琐、业务停机、升级成本高等问题，实现一个架构的持续演进，业务无中断。同时，华为云FusionInsight MRS云原生数据湖还将持续创新，做大数字世界黑土地，携手800+ISV为客户提供持续演进的湖仓一体解决方案，可以在一个架构上实现离线数据湖、实时数据湖、逻辑数据湖，在千行百业构筑“一企一湖，一城一湖”。原文链接：https://bbs.huaweicloud.com/blogs/262883更多精彩文章：https://bbs.huaweicloud.com/forum/thread-66105-1-1.html

沙漏 发表于2021-04-26 18:23:26 2021-04-26 18:23:26 最后回复沙漏 2021-04-26 18:23:26
1700 0

FusionInsight MapReduce
[生态对接] HD651升级到MRS问题

您好大佬们有个问题想请教，就是目前集群已经从HD651升级成mr8.0了，里面的Jersey包，由原来的1.x升级到了2.15.x。用weblogic12c部署的时候，会跟weblogic库自带的2个包冲突，我们这边要想部署成功，需要对库里面自带的2个包做重命名或删除处理，请大佬们帮忙看下这边有其他的解决方案吗？

100M 发表于2021-04-25 15:26:17 2021-04-25 15:26:17 最后回复一枚核桃 2021-04-26 09:32:40
4216 2

MapReduce
[其他] HD651升级到MRS问题

您好大佬们有个问题想请教，就是目前集群已经从HD651升级成mr8.0了，里面的Jersey包，由原来的1.x升级到了2.15.x。用weblogic12c部署的时候，会跟weblogic库自带的2个包冲突，我们这边要想部署成功，需要对库里面自带的2个包做重命名或删除处理，请大佬们帮忙看下这边有其他的解决方案吗？

100M 发表于2021-04-25 15:20:17 2021-04-25 15:20:17 最后回复海王之王 2021-04-28 13:47:32
4097 2

MapReduce
[其他] 有什么图形界面工具可以连接MRS Hive 执行HSQL吗？

有什么图形界面工具可以连接MRS Hive 执行HSQL吗？

Mr.Tian 发表于2021-04-21 16:25:21 2021-04-21 16:25:21 最后回复 HWCloudAI 2021-04-22 20:50:05
4108 2

Hive MapReduce
[数据集成] 使用Kettle 8.3对接开启Kerberos认证的MRS集群的HDFS组件

## 背景 Kettel是一款比较最容易上手的开源ETL工具，在很多数据集成的项目中都有使用， Kettel商业化以后改名为Pentaho，Pentaho推出了商业化的付费产品套件，在商用版本中增强了很多企业级的能力，当前Kettle支持Kerberos认证Hadoop集群的能力是放在其商用版本中的，开源版本不支持Kerberos认证的Hadoop集群本文通过简单的插件改造，使得Kettle 8.3能够连接开启Kerberos认证的MRS集群的HDFS组件 ## 对接方法参考博文原文 [**链接**](https://bbs.huaweicloud.com/blogs/255354)

一枚核桃 发表于2021-04-12 14:45:09 2021-04-12 14:45:09 最后回复一枚核桃 2021-04-12 14:45:09
5293 0

Kerberos Hadoop MapReduce
[运维宝典] MRS3.X Hive查询ORC文件报错案例

1. 问题现象Hive查询ORC文件报错：Error: java.io.IOException: java.io.EOFException: Read past end of RLE integer from compressed stream Stream for column 2 kind LENGTH position: 6 length: 6 range: 0 offset: 16 limit: 16 range 0 = 0 to 6 uncompressed: 3 to 3。2. 问题定位（1）查看HiveServer日志/var/log/Bigdata/hive/hiveserver/hive.log：（2）默认值supports.orc.different.field.names=true会按表字段数量匹配ORC文件数据，当表字段数量与ORC文件数据一致时能支持显示不同字段名的数据，但是当表字段比orc文件多时，字段类型不匹配会报错。3. 解决方案（1）重新建表匹配ORC文件。（2）set hive.supports.orc.different.field.names=false，关闭支持不同字段名，表字段名在ORC文件中不存在显示null。

IisAf1sh 发表于2021-04-12 14:09:45 2021-04-12 14:09:45 最后回复 IisAf1sh 2021-04-12 14:09:45
4315 0

Hive MapReduce
[互动交流] 【dayu产品】【MRS SPARK功能】Kerberos认证错误

【功能模块】先前问题链接【操作步骤&问题现象】1、修改后的配置【截图信息】【日志信息】（可选，上传日志内容或者附件）

俊采 发表于2021-04-01 10:33:07 2021-04-01 10:33:07 最后回复俊采 2021-04-01 10:38:02
3203 2

spark MapReduce
[对接系列] 使用DWS访问存算分离的MRS集群的数据

【摘要】通过GaussDB(DWS)访问OBS桶获取数据的配置步骤详情请点击博文链接：https://bbs.huaweicloud.com/blogs/228048

谈笑鸿儒 发表于2021-04-01 10:11:55 2021-04-01 10:11:55 最后回复匿名用户群体 2021-04-21 20:14:11
2817 1

云数据仓库 GaussDB(DWS) MapReduce
[互动交流] 【DAYU产品】【MRS SPARK功能】kerberos认证后续

【功能模块】【DAYU产品】【MRS SPARK功能】【操作步骤&问题现象】1、将从obs上下载到本地，进行认证2、前面有UserGroupInformation以及LoginUtil类报的Login success !!! 的认证成功标志3、连接hbase数据库报Failed to find any Kerberos4、按专家意见新增config设置后。【截图信息】之前问题：修改的设置：【日志信息】修改设置后：报错信息

俊采 发表于2021-03-30 18:08:29 2021-03-30 18:08:29 最后回复用户 2021-03-30 18:48:47
2658 2

spark MapReduce
[问题求助] 【abc产品】【批处理功能】批处理鉴权信息删除后，无法添加租户：ncec1234

【功能模块】批处理batchfile BO租户：ncec1234【操作步骤&问题现象】1、进入BatchFile-租户鉴权配置，里面为空2、新建，提示已经配置了鉴权信息无需重复添加，实际页面没有显示；2、【截图信息】【日志信息】（可选，上传日志内容或者附件）

fengshen 发表于2021-03-27 15:21:44 2021-03-27 15:21:44 最后回复 CodingQueen 2021-03-30 17:54:09
842 11

MapReduce

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript