MapReduce服务 MRS_标签_开发者

博客(110)
视频(13)
论坛(141)
云声(84)
代码示例(6)

[教程指导] 【MapReduce服务】从零开始使用Spark SQL

Spark提供类似SQL的Spark SQL语言操作结构化数据，本章节提供从零开始使用Spark SQL，创建一个名称为src_data的表，然后在src_data表中每行写入一条数据，最后将数据存储在“mrs_20160907”集群中。再使用SQL语句查询src_data表中的数据，最后可将src_data表删除。前提条件将OBS数据源中的数据写入Spark SQL表中时，需要先获取AK/SK。获取方法如下：登录管理控制台。单击用户名，在下拉列表中单击“我的凭证”。单击“访问密钥”。单击“新增访问密钥”，进入“新增访问密钥”页面。输入登录密码和短信验证码Email验证码，单击“确定”，下载密钥，请妥善保。操作步骤准备使用Spark SQL分析的数据源。样例txt文件如下：abcd3ghjiefgh658ko1234jjyu97h8kodfg1kk99icxz3上传数据至OBS。登录OBS控制台。单击“创建桶”，创建一个名称为sparksql的桶。sparksql仅为示例，桶名称必须全局唯一，否则会创建桶失败。单击sparksql桶名称，并选择“对象”。单击“新建文件夹”，创建input文件夹。进入input文件夹，单击“上传对象 > 添加文件”，选择本地的txt文件，然后单击“上传”。上传完成后如图上传文件所示。图1 上传文件登录MRS控制台，在左侧导航栏选择“集群列表 > 现有集群”，单击集群名称。将OBS中的txt文件导入至HDFS中。选择“文件管理”。在“HDFS文件列表”页签中单击“新建”，创建一个名称为userinput的文件夹。进入userinput文件夹，单击“导入数据”。选择OBS和HDFS路径，单击“确定”。OBS路径：obs://sparksql/input/sparksql-test.txtHDFS路径：/user/userinput提交Spark SQL语句。方式一：创建一个src_data表，将数据源中的数据一行一行写入src_data表中。方式二：创建一个表src_data1，将数据源中的数据批量load到src_data1表中。create table src_data1 (line string) row format delimited fields terminated by ',' ;load data inpath '/user/omm/userinput/sparksql-test.txt' into table src_data1;数据源存储在HDFS的“/user/userinput”“/user/omm/userinput”文件夹下：create external table src_data(line string) row format delimited fields terminated by '\\n' stored as textfile location '/user/omm/userinput';数据源存储在OBS的“/sparksql/input”文件夹下：create external table src_data(line string) row format delimited fields terminated by '\\n' stored as textfile location 'obs://AK:SK@sparksql/input';AK/SK获取方法，请参见前提条件。在MRS控制台选择“作业管理”，具体请参见运行“用户指南 > 管理现有集群 > 作业管理 > 运行Spark作业”章节。只有“mrs_20160907”集群处于“运行中”状态时才能提交Spark SQL语句。输入创建表的Spark SQL语句。输入Spark SQL语句时，总字符数应当小于或等于10000字符，否则会提交语句失败。语法格式：CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] [CLUSTERED BY (col_name, col_name, ...) [SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] [ROW FORMAT row_format] [STORED AS file_format] [LOCATION hdfs_path];创建表样例存在以下两种方式。采用方式二时，只能将HDFS上的数据load到新建的表中，OBS上的数据不支持直接load到新建的表中。输入查询表的Spark SQL语句。语法格式：SELECT col_name FROM table_name;查询表样例，查询src_data表中的所有数据：select * from src_data;输入删除表的Spark SQL语句。语法格式：DROP TABLE [IF EXISTS] table_name;删除表样例：drop table src_data;单击“检查”，检查输入语句的语法是否正确。单击“确定”。Spark SQL语句提交后，是否执行成功会在“执行结果”列中展示。删除集群。

Godisplmz 发表于2020-06-02 11:20:55 2020-06-02 11:20:55 最后回复 AI之旅 2020-06-04 09:00:19
4358 1

MapReduce服务 MRS spark SQL
[教程指导] 【MapReduce服务】从零开始使用Spark

本章节提供从零开始使用Spark提交sparkPi作业的操作指导，sparkPi是最经典的Spark作业，它用来计算Pi（π）值。操作步骤准备sparkPi程序。开源的Spark的样例程序包含多个例子，其中包含sparkPi。可以从https://d3kbcqa49mib13.cloudfront.net/spark-2.1.0-bin-hadoop2.7.tgz中下载Spark的样例程序。解压后在“spark-2.1.0-bin-hadoop2.7/examples/jars”路径下获取“spark-examples_2.11-2.1.0.jar”，即为Spark的样例程序。spark-examples_2.11-2.1.0.jar样例程序包含sparkPi程序。上传数据至OBS。登录OBS控制台。单击“创建桶”，创建一个名称为sparkpi的桶。sparkpi仅为示例，桶名称必须全局唯一，否则会创建桶失败。存储类别和桶策略分别保持默认值，“高级配置”选择“不配置”。单击sparksql桶名称，并选择“对象”。单击“新建文件夹”，分别创建program、output文件夹，创建完成后如图文件夹列表所示。图1 文件夹列表进入program文件夹，单击上传文件，从本地选择1中下载的程序包，“存储类别”选择“标准存储”。登录MRS控制台，在左侧导航栏选择“集群列表 > 现有集群”，单击集群名称。提交sparkPi作业。在MRS控制台选择“作业管理”，单击“添加”，进入“添加作业”页面，具体请参见运行“用户指南 > 管理现有集群 > 作业管理 > 运行Spark作业”章节。只有集群处于“运行中”状态时才能提交作业。作业提交成功后默认为“已接受”状态，不需要用户手动执行作业。查看作业执行结果。进入“作业管理”页面，在“作业”页签查看作业是否执行完成。作业运行需要时间，作业运行结束后，刷新作业列表。作业执行成功或失败后都不能再次执行，只能新增或者复制作业，配置作业参数后重新提交作业。进入OBS路径，查看作业输出信息。可以到OBS中的“sparkpi > output”文件夹中查看相关的output文件，需要下载到本地以文本方式打开进行查看。删除集群。

Godisplmz 发表于2020-06-02 11:19:34 2020-06-02 11:19:34 最后回复找虫虫 2020-06-14 20:11:23
4133 2

MapReduce服务 MRS spark MapReduce
[产品体验官] 使用大礼包购买MapReduce服务

本次活动采用线下扫码购买，如果现场活动说明，用户可以选择福利四领取大礼包，如果没有说明有多项优惠用户会有一定困惑，因为活动页面没有醒目的MapReduce文字，只在福利四多项礼包中列出。假如用户先尝试用手机领取或者购买，因为国情问题在移动端涉及到繁琐的用户注册，所以如果新用户没有强烈需求可能暂时放弃领取行为。对于老用户，登录后领取优惠卷顺利，但是也面临着一个笔者早想吐槽的华为云产品分类问题。用户在移动端发现或者找到MapReduce产品很难，很难，很难！！！，首先尝试点击“产品”菜单，笔者很有耐心的在“EI企业智能”/”大数据应用“/”大数据治理与开发“中均无发现，最后在解决方案-》大数据-〉大数据计算中总算找到了MapReduce服务。。。为什么一个产品，不在产品入口中找到，在产品之外的入口找到呢，因为它不是产品而高于产品么笔者五星评价：1. 在移动端领取优惠卷要注册麻烦，真的很麻烦，建议对接第三方登录方式，比如微信，先领取优惠卷，要使用了后期绑定华为云账户和进行实名认证也不错。2. 华为云产品分类真的不能再混乱了，即使笔者浸淫在华为云两年之久也很迷惑，急需在快速发展后规范产品命名，另外，中英文混用，英文全拼和英文缩写混用，真的不能再乱了，有强迫症的人格分裂了要～就举例MapReduce服务，在产品页面一起正常，进入购买界面，一个MRS图标出现了，不熟悉以为走错地方了……建议MRS图标下面还是保持MapReduce服务字样吧，至少保持一致性。肺腑之言，移动端太不适合购买产品了。如果要购买，菜单模式改成列表平铺模式吧，参考电商移动端，他们目前保持一定先进性的。顺便瞅了一眼APP端，稍微安慰了一些，首屏列出了一些常见产品，但是貌似只能看到介绍文字和视频，不能购买。不过话说回来，移动端购买不是强需求，等以后你们有闲了锦上添花吧。

BitM 发表于2019-06-24 00:50:20 2019-06-24 00:50:20 最后回复 BitM 2019-06-24 00:50:20
3302 0

MapReduce服务 MRS MapReduce
[产品体验官] MapReduce服务 MRS体验

受邀 MapReduce服务体验官，感到非常荣幸，也非常忐忑。对 MapReduce服务不了解，非常想借这个机会了解学习大数据。这次体验的是使用Spark实现车联网车主驾驶行为分析-最佳实践1、创建集群（略，感谢代金券）2、准备Spark样例数据2.1创建一个名称为obs-demo-data-hwt-richblue88的桶2.2在IAM创建DIS委托2.3申请DIS通道2.4下载并安装DIS Agent2.5下载并获取Spark样例数据2.6配置DIS Agent采集数据agent.yml配置2.7启动Agent2.8查看数据上传情况3、准备Spark样例程序3.1创建桶，创建一个名称为obs-demo-analysis-hwt-richblue883.2分别新建program、output和log文件夹3.3创建作业3.4查看作业结果1.操作体验:是否能够顺畅的创建集群，提交作业，跑组件的样例程序创建集群OK。但是缺乏集群的说明，不知道选哪种集群比较适合场景。按照最佳实践重新建了集群才把后面的做下来。2.性能:您在体验过程中使用了哪些组件，跟自己搭建CDH，或者用过友商的对标组件相比，性能如何？主要使用spark。对标腾讯云，最大的感受还是更方便一些。腾讯云的操作，几乎是要命令行操作。性能上，因为是测的最佳实践案例，数据量小，感觉性能还可以。不知道真实业务跑起来咋样。缺点是作业没有进度条。要点进去看日志才知道跑到哪一步了。3.功能特性:对比体验官用过的其他大数据平台，是否有哪些功能需要补齐或加强？感受到的是界面的图形化做的不错。但是从大数据来讲，不仅仅是这个一个套间。与其他功能（数据湖、实时流、数据接入、数据仓库、云搜索等）怎么混搭使用？或者弄一个最佳组合套间出来比较好。个人感觉产品多，但是缺整体的框架。建议是整理通用的框架出来，或者从场景推荐最佳的大数据产品组合。4.满意度及推荐度：当自己的项目或是公司有大数据应用的需求时，是否愿意自己使用或推荐身边的同事朋友使用华为云MRS服务？什么原因促使你做出这个结论？华为云一直是国产的标杆。一直是努力进步的云。我相信华为云的EI、大数据产品越做越好。但是希望更深入客户的应用和痛点。比如MRS的输出，能不能展示得更好一点。而不是让用户从obs里去下载。然后从费用来说，成本确实比较高。如果输出的内容对企业有价值还可以考虑，如果只是测试体验，收费就不好说了。

richblue88 发表于2019-03-25 23:18:45 2019-03-25 23:18:45 最后回复 richblue88 2019-03-25 23:18:45
7422 0

MapReduce服务 MRS 大数据 MapReduce 机器学习
[教程指导] 【MapReduce服务】从零开始使用Hadoop

莉花 发表于2018-09-07 18:28:49 2018-09-07 18:28:49 最后回复 Joey啊 2019-09-04 09:53:56
10859 3

MapReduce服务 MRS Hadoop MapReduce
[互动交流] 怎么传数据和jor程序jar包到mapreduce服务的HDFS上？

本帖最后由 bigdata11 于 2017-12-13 11:28 编辑怎么传数据和jor程序jar包到mapreduce服务的HDFS上？在快速入门里http://support.huaweicloud.com/mrs_ksrm/index.html，只有怎么上传program和input数据到OBS，没有介绍如何上传到HDFS上。

人工智能123 发表于2017-12-13 11:11:31 2017-12-13 11:11:31 最后回复用户 2017-12-18 16:36:36
7825 1

MapReduce服务 MRS JAR Hadoop

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript