-
本帖最后由 雨化微尘 于 2018-6-14 15:22 编辑本文指导用户在集群之间进行数据迁移,假设是要将旧集群中的数据迁移到新安装的新集群中。支持迁移的数据有hdfs、hbase、hive数据,hive的元数据等,其他数据的迁移不在本指导范围内。1 限制条件新集群必须与旧集群在同一VPC当中以保证集群网络通信正常。旧集群需为非Kerberors认证集群。本文档不支持将MRS1.6版本以后的HBase数据迁移到1.6版本之前的集群。2 创建集群并配置网络2.1 创建MRS 1.5集群 1) 在华为云上点击创建集群的按钮进入集群创建页面。7301 2) 配置虚拟私有云与旧集群的虚拟私有云一致。72762.2 申请并配置集群弹性IP申请弹性IP使用户可通过弹性IP节点进入集群后台进行操作,例如使用客户端命令。申请操作如下:1) 在MRS管理页面中点击页面上方的服务列表,然后点击虚拟私有云。72772) 点击弹性IP地址到弹性IP界面。72783) 点击申请弹性IP创建弹性IP。4) 待集群创建完成后,在集群管理界面点击新创建的集群,进入到集群管理界面。72795) 进入到Master2节点中。72806) 选择弹性IP界面并点击绑定弹性IP。72817) 选择之前创建的弹性IP进行绑定。72828) 如果旧集群未绑定弹性IP,可根据上述步骤进行操作。2.3 配置安全组 1) 安全组的设置可建立集群与集群、集群与本地之前的通信。一个集群默认有两个安全组,可通过集群页面进行查看。72832) 在绑定弹性IP的后在界面上点击安全组,并下拉安全组信息,点击安全组ID进入设置界面。72843) 在设置界面对已存在的Master安全组添加规则。72854) 协议可根据需求进行选择,方向为入方向,源地址选择IP地址则是配置节点与集群的通信, IP地址填写需要与集群通信的IP地址,端口填32。72865) 源地址选择安全组,则是配置集群与集群的通信,下拉框内选择原集群的安全组,并且需要将Master和Slave安全组全都加上。728772886) 配置完Master节点的安全信息后,需要再配置Core节点的安全组信息,在集群的管理界面中点击任意一个Core节点进入到节点配置页面,完成步骤2-4操作。72897) 然后到旧集群中重复上述绑定安全组的操作,将新集群的安全组添加旧集群的规则中,使两个集群的网络可以互通。2.4 添加hosts信息通过弹性IP登录到新集群的每个节点上,将旧集群的hosts信息写入新集群的/etc/hosts文件当中。7290同理,将新集群的hosts信息写到旧集群中。在配置完后两个集群的通信已经完成。3 备份Hive元数据 1) 进入旧集群的集群管理界面。72912) 使用集群中的备份功能。72923) 点击创建备份任务72934) 备份模式为手动备份,备份服务选择DBService,路径类型选择LocalHDFS,目的端路径为 /tmp目录(可备份到其他目录),最大备份数设置为1,其余选项使用默认选项。72945) 创建完成后在界面上点击启动,开始备份元数据。72956) 在任务执行完成后,查看任务备份的目录地址。729672974 迁移用户数据4.1 第一轮Distcp拷贝数据在新集群中执行,将hbase、Hive数据从旧集群拷贝到新集群中:1) Distcp Hbase数据hadoop distcp -i hdfs://node-master1-rbufh:25000/hbase/data hdfs://hacluster/hbase2) Discp Hive数据hadoop distcp -i hdfs://node-master1-rbufh:25000/user/hive hdfs://hacluster/user3) Discp Hive元数据的备份数据hadoop distcp -i hdfs://node-master1-rbufh:25000/tmp/test_DBService_20170914054022 hdfs://hacluster/tmp备注:1.命令中标红的是旧集群的主namenode节点名称,需以实际名称为准。2.在MRS版本1.6.x及之前的版本,端口为25000。在MRS1.7.0版本后端口为9820。请根据安装的版本进行命令调整。4.2 手动flush之后停止旧集群的hbase和Hive1) 为了保证HBASE表的数据都能刷到磁盘上,可以在旧集群里面的hbase客户端中对每个表执行flush:flush ´tableName´2) 然后停止HBase和Hive服务。4.3 第二轮Distcp增量数据在新集群中执行,将HBase、Hive数据从旧集群拷贝到新集群中:1) Distcp HBase数据hadoop distcp –update –append –delete hdfs://node-master1-rbufh:25000/hbase/ hdfs://hacluster/hbase/2) Discp Hive数据hadoop distcp –update –append –delete hdfs://node-master1-rbufh:25000/user/hive hdfs://hacluster/user/hive4.4 还原Hive元数据 1) 在新集群中的创建恢复任务。72982) 恢复服务选择DBService,路径类型选择LocalHDFS,恢复路径填写通过distcp传输到新集群的备份数据的相对路径(例如/tmp/test_DBService_20170914054022/V100R002C60U20_DBSERVICE_20170914054047.tar.gz),原实例名称选择hacluster,然后点击执行恢复操作,完成Hive元数据恢复操作。72994.5 重启HBase为了使数据迁移生效,需要重启新集群的HBase服务,在启动过程中,HBase会加载当前HDFS上的数据。启动完成后,数据迁移成功。说明:如果从MRS1.6版本以前的集群数据迁移到MRS1.6版本以后的集群,在重启hbase之前需要执行以下命令。[code]hbase zkcli delete /hbase/table/hbase:hindex delete /hbase/table-lock/hbase:hindex[/code] 5 确认数据完整性(可选)5.1 HDFS使用HDFS命令查看旧集群的数据目录和新集群的数据目录大小是否相同,例如:hdfs dfs –du –s –h /user/hive/hdfs dfs –du –s –h /hbase5.2 Hive在beeline客户端使用select count(*) from ´tablename´命令查看所有表的数据量是否一致。5.3 HBase在HBase Shell中使用count ´tableName´ 命令查看所有HBase表中数据量是否和旧集群中表中数据量一致。
上滑加载中
推荐直播
-
全面解析华为云EI-API服务:理论基础与实践应用指南
2024/11/29 周五 18:20-20:20
Alex 华为云学堂技术讲师
本期直播给大家带来的是理论与实践结合的华为云EI-API的服务介绍。从“主要功能,应用场景,实践案例,调用流程”四个维度来深入解析“语音交互API,文字识别API,自然语言处理API,图像识别API及图像搜索API”五大场景下API服务,同时结合实验,来加深开发者对API服务理解。
回顾中 -
企业员工、应届毕业生、在读研究生共探项目实践
2024/12/02 周一 19:00-21:00
姚圣伟 在职软件工程师 昇腾社区优秀开发者 华为云云享专家 HCDG天津地区发起人
大神带你一键了解和掌握LeakyReLU自定义算子在ONNX网络中应用和优化技巧,在线分享如何入门,以及在工作中如何结合实际项目进行学习
即将直播 -
昇腾云服务ModelArts深度解析:理论基础与实践应用指南
2024/12/03 周二 14:30-16:30
Alex 华为云学堂技术讲师
如何快速创建和部署模型,管理全周期AI工作流呢?本期直播聚焦华为昇腾云服务ModelArts一站式AI开发平台功能介绍,同时结合基于ModelArts 的实践性实验,帮助开发者从理论到实验更好地理解和使用ModelArts。
去报名
热门标签