• 如何使用LogStash将数据迁移到Elasticsearch
    摘要:结合华为云,介绍如何使用Logstash将数据迁往Elasticsearch(ES),为后续提供指导。 一、背景首先介绍下ES常用的数据导入工具,以及华为云上ES的应用场景:1)常用数据导入方法:将数据导入到ES的方法较多,常用的工具与方法包括:Elasticsearch-dump,通过Snapshot,Beats以及LogStash等等;其中Elasticsearch-dump主要用于ES集群间导入导出数据,Snapshot主要用于ES集群间数据的备份与恢复,Beats与LogStash作为独立的ETL工具,其应用场景较广泛。 2)华为云ES应用场景:华为云上的ES服务运行在独立的VPC中,通过外网无法直接访问,因此其主要使用场景是在ES集群所在VPC下申请一台ECS并绑定弹性IP地址(用于部署业务应用),然后客户通过EIP访问业务应用,业务应用程序再调用ES集群。具体如下图: 二、具体使用场景【conf文件组成】使用Logstash将数据导入到ES集群,其关键在于如何配置其conf文件。一般而言,Logstash的配置文件包括3个部分,分别是input,filter,以及output;其中input用于配置数据源,filter用于对数据进行ETL预处理,output用于配置目的端。 【运行Logstash】当配置好conf文件后(假设其名称为logstash-simple.conf),接下来在logstash目录下,通过如下命令可启动数据导入:./bin/logstash -f logstash-simple.conf; 【具体使用场景】接下来我们结合几个具体需求来介绍如何配置conf文件:1)如何指定导入的index与type名称? 使用Logstash导入数据的过程中,如果没有指定index以及type,默认使用logstash-%{+YYYY.MM.dd}以及logs;如果想指定index以及type,可以在output中增加如下内容,使得index以myindex开头,type为mytype:output { elasticsearch { hosts => "192.168.0.65:9200" index => "myindex-%{+YYYY.MM.dd}" document_type => "mytype" } } 2)如何删除导入过程中产生的新字段?使用Logstash在进行数据导入的过程中,默认会添加两个字段@version,@timestamp;如果在应用中不想要这两这个字段,可以在filter中增加如下内容:filter { mutate { remove_field => ["@version"," @timestamp"] } } 3)如何使得索引名称与当前时区一致?使用Logstash在进行数据导入的过程中,index名称后缀默认为@timestamp字段所对应的UTC时间,该设计的初衷是为了统一不同时区的查询(不同时区的查询经过Kibana首先会转化为UTC时间,然后Kibana再向ES发送查询请求,这样不同时区查询过去一段时间的数据时,获得的结果是一样的),但这种情况下如果要查询本地时间某天的数据,则需要遍历Day-1,Day以及Day+1 3天的index;为了兼顾统一查询以及查询效率,可以在filter中增加如下内容,这里假设源数据中存在一个时间字段timestamp,并且其格式为dd/MMM/yyyy:HH:mm:ss +0800(其他格式类似),那么通过如下命令可以将timestamp字段向前滚动8个小时,然后赋值给@timestamp,从而使得index名称的后缀为东八区的时间,同时通过使用timestamp进行统计分析,仍然可以统一查询。filter { date { match => ["timestamp", "dd/MMM/yyyy:HH:mm:ss +0800"] locale => "en" timezone => "UTC" } } 4)如何将外网数据导入到华为云ES,并控制数据导入速率? 如前所述,将外网数据导入到华为云ES,需要一台带有EIP的ECS作为中转,此时根据Logstash部署的位置,可分为两种场景:一种是Logstash部署在外网,一种是Logstash部署在ECS上。 a) 当Logstash部署在外网时,首先需要申请一台与ES集群在同一VPC下的ECS,并开放其安全组的9200外网访问权限;然后为该ECS绑定一个EIP,并限制该EIP的网络带宽;接下来在ECS上做一个端口映射,具体命令如下,然后输入root用户密码完成端口转发(其中9200为EIP接入端口,192.168.0.66:9200为ES集群接入点,192.168.0.200为ECS本机的内网ip地址):ssh -g -L 9200:192.168.0.66:9200 -N -f [email]root@192.168.0.200[/email]最后配置Logstash的conf文件output部分如下,然后运行Logstash开始数据导入过程: output { elasticsearch { hosts => "EIP:9200" } } b) 当Logstash部署在ECS上时,首先需要确保ES集群与ECS在同一VPC下,并且已开放安全组的9200外网访问权限;然后为该ECS绑定一个EIP,并限制该EIP的网络带宽;最后按常规方式配置conf文件,并运行Logstash开始数据导入过程(不再需要在ECS上做端口映射)。 三、拓展思考上面给大家介绍了如何使用Logstash将数据导入到ES集群,此外Logstash还可以用于ES集群内部index的变换处理,包括index合并、过滤某些字段等等。另外如果是在两个ES集群间互导数据,可通过指定document_id防止重复导入数据。
  • Redis缓存数据迁移之迁移准备
    申请一台弹性云服务器。以下以Linux操作系统举例。要求如下: [*]弹性云服务器与缓存实例处于相同虚拟私有云以及子网。 [*]弹性云服务器具有外网访问权限,配备弹性IP。用于下载Redis相关客户端以及转储备份数据。 [*]导出数据存放目录所属分区的可用磁盘空间,须大于缓存实例已使用内存空间。例如:导出数据存放在/home目录下,需保证/home所在分区可用磁盘空间大于缓存实例已使用内存空间。 [*]客户端运行环境下已经安装好Python环境,在命令行输入python有类似如下Python版本信息说明已经安装好。[code][root@test-server01 ~]$ python Python 2.7.5 (default, Apr 22 2017, 08:04:09) [GCC 4.8.3 20140911 (EulerOS 4.8.3-10)] on linux2 Type "help", "copyright", "credits" or "license" for more information. >>> [/code]如果没有安装,请先下载Python并安装。
  • Redis缓存数据迁移之迁移背景
    将基于Redis的缓存数据在DCS缓存实例、华为云上用户自建的Redis缓存服务、用户在非华为云上搭建的Redis服务之间进行数据导入导出。Redis缓存数据迁移适用于以下场景:[*]用户将华为云DCS缓存实例的数据导出,然后导入其他新建缓存实例。 [*]用户将华为云上自建的Redis服务数据导出,然后导入到DCS缓存实例。 [*]用户将非华为云上的Redis服务数据导出,导入到DCS缓存实例。 [*]用户自行备份和保存DCS缓存实例数据。
  • [技术干货] Mongodb 3.2 云上数据迁移之纯手工版
    好些用户购买华为云dds(mongodb)时都会告知我们他在某某友商云上有mongdb数据库,想把友商上的数据库迁移过来,但在官网上没有发现mongodb数据迁移的工具,问怎么办?此时我们尴尬的说,目前数据迁移工具正在规划中,很快就能在官网上线mongodb数据迁移工具,到时手指动一动就能迁移数据了。但目前呢?目前怎么办?考虑到用户有这个云服务商之间迁移数据的需求,虽然华为云还没出mongodb自动迁移工具,但为解客户燃眉之急,我写些自己平时关于mongodb数据迁移的方法:那就是目前还是有办法的!当然只能利用开源工具进行纯手工操作了,虽然麻烦但也是一种手段,也能将友商数据迁移过来。好,下面我就详细和大家聊聊纯手工迁移mongodb的方案.(目前华为云dd只支持mongodb 3.2.7,因此我们讨论的方案都是围绕3.2.7版本进行的。)任何方案都是有业务场景的,不同的业务场景对应的方案的操作和复杂度是不一样的,我们按照业务场景的复杂度讲解。1. 业务数据不重要,允许业务长时间中断。(1). 停掉友商的mongodb服务,中断业务,不允许任何数据的变更。(2). 使用mongoexport导出数据mongoexport --host --port --ssl --sslAllowInvalidCertificates --type json--authenticationDatabase --username --password --db --collection --out (3).使用mongoimport将数据导入到华为云dds mongoimport--host --port --ssl--sslAllowInvalidCertificates --type json --authenticationDatabase --username --password --db --collection --file 注意:如果购买的华为云数据库有公网ip,可以在任何一台能连上公网ip的服务器上导入导出数据。如果没有购买公网ip,则先购买一台华为云的ecs,这台ecs和数据库在同一个网段和安全组,然后在这台ECS上导入数据。 (4). 将业务数据库ip切换至华为云mongodb,启动业务,数据迁移成功。2. 业务数据不重要,允许丢失数据但不能中断业务 这种业务场景一般是客户数据为临时,但业务不能中断必须保证在迁移的时间段业务是可用的。第二个业务场景和第一个很相似,因此迁移数据的方案也很相似,在数据迁移阶段不停掉友商数据库,数据迁移完成直接切换数据库ip到华为云dds,当然迁移这段时间的数据库就会丢失,因为没有从友商同步数据到华为云dds。3. 业务数据重要不允许丢失,业务不允许中断.这种业务场景中我们选取最具代表性也是最复杂的场景进行分析:我们选取用户存量数据大(上T的数据),ops高,一个小时就新增上百G的数据。因为存量数据大,数据迁移至少都在数小时以上,而ops高,那么在迁移的时间段会积累上百G的数据没有迁移到华为dds。Mongodb社区版没有提供增量导出,增量备份数据的方案,这些都是企业版mongodb才提供的。那么我们能用纯手工的方式(使用mongodb开源社区提供的生态工具)做到增量迁移数据吗?答案是利用开源工具是无法完美做到纯手工增量迁移的。原因如下:1. mongoexport/mongoimport : 首先说下mongoexport的工作原理,看上图是一边mongoexport导出数据一边往数据库里面**数据,显然最后导出的数据大于开始执行mongexport时数据库的数据。看了下mongoexport的源码,工作流程大概如下:首先获取开始执行mongoexport导出数据库的记录数量。得出这个记录数量后,mongoexport 开启一个cursor,利用这个cursor迭代读取数据,cursor每次读取的时候都是批量读取,最后一次迭代读取的数据量是在此时数据库总量和每次批量读取数据量中取最大值,如果此时数据库一直在变更数据那么很难确定最后总共读取的数量。因此客户在导出数据过程中一直在变更数据那么使用mongoexport导出的总数据量是无法确定的。那么迁移过程中新增数据怎么增量迁移呢?mongoexport本身并没有提供增量迁移的功能,但可以通过回放oplog的方法将迁移过程中增量的数据的oplog在目标机器上进行重做。不过Oplog记录的是所有的数据当然也包括不是这次迁移需要的数据的oplog,需要对oplog进行过滤重放,这块手工处理比较麻烦也容易出错,需要写程序进行自动处理。2. mongodump/mongorestore: mongodump可以备份所有数据然后利mongrestore进行恢复。对于备份过程中的增量数据,可以使用开源工具mongooplog处理增量oplog以达到增量备份数据的目的。但由于不同云服务商对shard的命名各不相同,因此恢复完成后必须登录数据库手动修改数据库里面shard的名字,这一步手动处理比较麻烦也容易出错。上述两种方法都需要注意oplog的大小,防止在备份过程中新增数据量过大,oplog数据被轮转覆盖,一旦覆盖就无法增量备份数据了。总结:目前纯手工操作的迁移数据的方式只能适应一些比较简单的业务场景,对于复杂场景,手工迁移存在操作复杂容易出错的缺点,程序化自动化的mongodb迁移工具不久就会出现在华为云官网上,那才是用户最贴心的解决方案。
  • [技术干货] Mongodb 3.2 云上数据迁移之纯手工版
    好些用户购买华为云dds(mongodb)时都会告知我们他在某某友商云上有mongdb数据库,想把友商上的数据库迁移过来,但在官网上没有发现mongodb数据迁移的工具,问怎么办?此时我们尴尬的说,目前数据迁移工具正在规划中,很快就能在官网上线mongodb数据迁移工具,到时手指动一动就能迁移数据了。但目前呢?目前怎么办?考虑到用户有这个云服务商之间迁移数据的需求,虽然华为云还没出mongodb自动迁移工具,但为解客户燃眉之急,我写些自己平时关于mongodb数据迁移的方法:那就是目前还是有办法的!当然只能利用开源工具进行纯手工操作了,虽然麻烦但也是一种手段,也能将友商数据迁移过来。好,下面我就详细和大家聊聊纯手工迁移mongodb的方案.(目前华为云dd只支持mongodb 3.2.7,因此我们讨论的方案都是围绕3.2.7版本进行的。)任何方案都是有业务场景的,不同的业务场景对应的方案的操作和复杂度是不一样的,我们按照业务场景的复杂度讲解。1. 业务数据不重要,允许业务长时间中断。(1). 停掉友商的mongodb服务,中断业务,不允许任何数据的变更。(2). 使用mongoexport导出数据mongoexport --host --port --ssl --sslAllowInvalidCertificates --type json--authenticationDatabase --username --password --db --collection --out (3).使用mongoimport将数据导入到华为云dds mongoimport--host --port --ssl--sslAllowInvalidCertificates --type json --authenticationDatabase --username --password --db --collection --file 注意:如果购买的华为云数据库有公网ip,可以在任何一台能连上公网ip的服务器上导入导出数据。如果没有购买公网ip,则先购买一台华为云的ecs,这台ecs和数据库在同一个网段和安全组,然后在这台ECS上导入数据。 (4). 将业务数据库ip切换至华为云mongodb,启动业务,数据迁移成功。2. 业务数据不重要,允许丢失数据但不能中断业务 这种业务场景一般是客户数据为临时,但业务不能中断必须保证在迁移的时间段业务是可用的。第二个业务场景和第一个很相似,因此迁移数据的方案也很相似,在数据迁移阶段不停掉友商数据库,数据迁移完成直接切换数据库ip到华为云dds,当然迁移这段时间的数据库就会丢失,因为没有从友商同步数据到华为云dds。3. 业务数据重要不允许丢失,业务不允许中断.这种业务场景中我们选取最具代表性也是最复杂的场景进行分析:我们选取用户存量数据大(上T的数据),ops高,一个小时就新增上百G的数据。因为存量数据大,数据迁移至少都在数小时以上,而ops高,那么在迁移的时间段会积累上百G的数据没有迁移到华为dds。Mongodb社区版没有提供增量导出,增量备份数据的方案,这些都是企业版mongodb才提供的。那么我们能用纯手工的方式(使用mongodb开源社区提供的生态工具)做到增量迁移数据吗?答案是利用开源工具是无法完美做到纯手工增量迁移的。原因如下:1. mongoexport/mongoimport : 首先说下mongoexport的工作原理,看上图是一边mongoexport导出数据一边往数据库里面**数据,显然最后导出的数据大于开始执行mongexport时数据库的数据。看了下mongoexport的源码,工作流程大概如下:首先获取开始执行mongoexport导出数据库的记录数量。得出这个记录数量后,mongoexport 开启一个cursor,利用这个cursor迭代读取数据,cursor每次读取的时候都是批量读取,最后一次迭代读取的数据量是在此时数据库总量和每次批量读取数据量中取最大值,如果此时数据库一直在变更数据那么很难确定最后总共读取的数量。因此客户在导出数据过程中一直在变更数据那么使用mongoexport导出的总数据量是无法确定的。那么迁移过程中新增数据怎么增量迁移呢?mongoexport本身并没有提供增量迁移的功能,但可以通过回放oplog的方法将迁移过程中增量的数据的oplog在目标机器上进行重做。不过Oplog记录的是所有的数据当然也包括不是这次迁移需要的数据的oplog,需要对oplog进行过滤重放,这块手工处理比较麻烦也容易出错,需要写程序进行自动处理。2. mongodump/mongorestore: mongodump可以备份所有数据然后利mongrestore进行恢复。对于备份过程中的增量数据,可以使用开源工具mongooplog处理增量oplog以达到增量备份数据的目的。但由于不同云服务商对shard的命名各不相同,因此恢复完成后必须登录数据库手动修改数据库里面shard的名字,这一步手动处理比较麻烦也容易出错。上述两种方法都需要注意oplog的大小,防止在备份过程中新增数据量过大,oplog数据被轮转覆盖,一旦覆盖就无法增量备份数据了。总结:目前纯手工操作的迁移数据的方式只能适应一些比较简单的业务场景,对于复杂场景,手工迁移存在操作复杂容易出错的缺点,程序化自动化的mongodb迁移工具不久就会出现在华为云官网上,那才是用户最贴心的解决方案。
  • [其他] MRS集群间数据迁移手册
    本帖最后由 雨化微尘 于 2018-6-14 15:22 编辑本文指导用户在集群之间进行数据迁移,假设是要将旧集群中的数据迁移到新安装的新集群中。支持迁移的数据有hdfs、hbase、hive数据,hive的元数据等,其他数据的迁移不在本指导范围内。1 限制条件新集群必须与旧集群在同一VPC当中以保证集群网络通信正常。旧集群需为非Kerberors认证集群。本文档不支持将MRS1.6版本以后的HBase数据迁移到1.6版本之前的集群。2 创建集群并配置网络2.1 创建MRS 1.5集群 1) 在华为云上点击创建集群的按钮进入集群创建页面。7301 2) 配置虚拟私有云与旧集群的虚拟私有云一致。72762.2 申请并配置集群弹性IP申请弹性IP使用户可通过弹性IP节点进入集群后台进行操作,例如使用客户端命令。申请操作如下:1) 在MRS管理页面中点击页面上方的服务列表,然后点击虚拟私有云。72772) 点击弹性IP地址到弹性IP界面。72783) 点击申请弹性IP创建弹性IP。4) 待集群创建完成后,在集群管理界面点击新创建的集群,进入到集群管理界面。72795) 进入到Master2节点中。72806) 选择弹性IP界面并点击绑定弹性IP。72817) 选择之前创建的弹性IP进行绑定。72828) 如果旧集群未绑定弹性IP,可根据上述步骤进行操作。2.3 配置安全组 1) 安全组的设置可建立集群与集群、集群与本地之前的通信。一个集群默认有两个安全组,可通过集群页面进行查看。72832) 在绑定弹性IP的后在界面上点击安全组,并下拉安全组信息,点击安全组ID进入设置界面。72843) 在设置界面对已存在的Master安全组添加规则。72854) 协议可根据需求进行选择,方向为入方向,源地址选择IP地址则是配置节点与集群的通信, IP地址填写需要与集群通信的IP地址,端口填32。72865) 源地址选择安全组,则是配置集群与集群的通信,下拉框内选择原集群的安全组,并且需要将Master和Slave安全组全都加上。728772886) 配置完Master节点的安全信息后,需要再配置Core节点的安全组信息,在集群的管理界面中点击任意一个Core节点进入到节点配置页面,完成步骤2-4操作。72897) 然后到旧集群中重复上述绑定安全组的操作,将新集群的安全组添加旧集群的规则中,使两个集群的网络可以互通。2.4 添加hosts信息通过弹性IP登录到新集群的每个节点上,将旧集群的hosts信息写入新集群的/etc/hosts文件当中。7290同理,将新集群的hosts信息写到旧集群中。在配置完后两个集群的通信已经完成。3 备份Hive元数据 1) 进入旧集群的集群管理界面。72912) 使用集群中的备份功能。72923) 点击创建备份任务72934) 备份模式为手动备份,备份服务选择DBService,路径类型选择LocalHDFS,目的端路径为 /tmp目录(可备份到其他目录),最大备份数设置为1,其余选项使用默认选项。72945) 创建完成后在界面上点击启动,开始备份元数据。72956) 在任务执行完成后,查看任务备份的目录地址。729672974 迁移用户数据4.1 第一轮Distcp拷贝数据在新集群中执行,将hbase、Hive数据从旧集群拷贝到新集群中:1) Distcp Hbase数据hadoop distcp -i hdfs://node-master1-rbufh:25000/hbase/data hdfs://hacluster/hbase2) Discp Hive数据hadoop distcp -i hdfs://node-master1-rbufh:25000/user/hive hdfs://hacluster/user3) Discp Hive元数据的备份数据hadoop distcp -i hdfs://node-master1-rbufh:25000/tmp/test_DBService_20170914054022 hdfs://hacluster/tmp备注:1.命令中标红的是旧集群的主namenode节点名称,需以实际名称为准。2.在MRS版本1.6.x及之前的版本,端口为25000。在MRS1.7.0版本后端口为9820。请根据安装的版本进行命令调整。4.2 手动flush之后停止旧集群的hbase和Hive1) 为了保证HBASE表的数据都能刷到磁盘上,可以在旧集群里面的hbase客户端中对每个表执行flush:flush ´tableName´2) 然后停止HBase和Hive服务。4.3 第二轮Distcp增量数据在新集群中执行,将HBase、Hive数据从旧集群拷贝到新集群中:1) Distcp HBase数据hadoop distcp –update –append –delete hdfs://node-master1-rbufh:25000/hbase/ hdfs://hacluster/hbase/2) Discp Hive数据hadoop distcp –update –append –delete hdfs://node-master1-rbufh:25000/user/hive hdfs://hacluster/user/hive4.4 还原Hive元数据 1) 在新集群中的创建恢复任务。72982) 恢复服务选择DBService,路径类型选择LocalHDFS,恢复路径填写通过distcp传输到新集群的备份数据的相对路径(例如/tmp/test_DBService_20170914054022/V100R002C60U20_DBSERVICE_20170914054047.tar.gz),原实例名称选择hacluster,然后点击执行恢复操作,完成Hive元数据恢复操作。72994.5 重启HBase为了使数据迁移生效,需要重启新集群的HBase服务,在启动过程中,HBase会加载当前HDFS上的数据。启动完成后,数据迁移成功。说明:如果从MRS1.6版本以前的集群数据迁移到MRS1.6版本以后的集群,在重启hbase之前需要执行以下命令。[code]hbase zkcli delete /hbase/table/hbase:hindex delete /hbase/table-lock/hbase:hindex[/code] 5 确认数据完整性(可选)5.1 HDFS使用HDFS命令查看旧集群的数据目录和新集群的数据目录大小是否相同,例如:hdfs dfs –du –s –h /user/hive/hdfs dfs –du –s –h /hbase5.2 Hive在beeline客户端使用select count(*) from ´tablename´命令查看所有表的数据量是否一致。5.3 HBase在HBase Shell中使用count ´tableName´ 命令查看所有HBase表中数据量是否和旧集群中表中数据量一致。
总条数:66 到第
上滑加载中