-
迁移前准备主要对当前现有大数据平台做一个信息统计,以便更好地进行迁移决策。 离线大数据迁移范围说明:针对离线大数据平台迁移,涉及到数据部分主要有HDFS文件数据迁移、 Hive 数据(表数据、元数据)迁移、HBase 数据迁移。当前以这三个组件的数据做重点介绍详情请点击博文链接:https://bbs.huaweicloud.com/blogs/160949
-
看了这个,也能自己动手做大数据集群的数据迁移了,so easy~参考博文:离线大数据迁移到MRS(一)迁移到MRS前准备 https://bbs.huaweicloud.com/blogs/160949离线大数据迁移到MRS(二)数据迁移到MRS集群网络连通说明 https://bbs.huaweicloud.com/blogs/161141离线大数据迁移到MRS(三)通过CDM迁移HDFS数据到华为云MRS服务 https://bbs.huaweicloud.com/blogs/161144离线大数据迁移到MRS(四)Hive数据迁移到华为云MRS服务 https://bbs.huaweicloud.com/blogs/163269离线大数据迁移到MRS(五)HBase数据迁移到华为云MRS服务 https://bbs.huaweicloud.com/blogs/163312后续博客快马加鞭更新中~
-
1CODIS简介Codis是一个分布式Redis解决方案,对于上层的应用来说,连接到Codis Proxy和连接原生的RedisServer没有明显的区别,有部分命令不支持。Codis底层会处理请求的转发,不停机的数据迁移等工作,所有后边的一切事情,对于前面的客户端来说是透明的,可以简单的认为后边连接的是一个内存无限大的Redis服务。Codis由四部分组成:· Codis-proxy:实现redis协议,由于本身是无状态的,因此可以部署很多个节点· Codis-config :是codis的管理工具,包括添加/删除redis节点添加删除proxy节点,发起数据迁移等操作,自带httpserver,支持管理后台方式管理配置· Codis-server :是codis维护的redis分支,基于2.8.21分支,加入了slot的支持和原子的数据迁移指令; codis-proxy和codis-config只能和这个版本的redis交互才能正常运行· Zookeeper,用于codis集群元数据的存储,维护codis集群节点2环境信息2.1 环境信息类别子项版本获取地址OSCentOS7.5 Aarch64https://www.centos.org/download/服务器配置16U16GB50GB软件CODIS3.2.2https://codeload.github.com/CodisLabs/codis/tar.gz/3.2.2软件GO1.9.2https://dl.google.com/go/go1.9.2.linux-arm64.tar.gz软件Zookeeper3.4.14http://apache.fayea.com/zookeeper/zookeeper-3.4.14/zookeeper-3.4.14.tar.gz3 软件移植3.1 环境准备:OS安装类型:CentOS-7.5-aarch64-1804。 注:操作系统安装使用最小简化版安装(如上图),其余步骤安装一般安装操作系统步骤即可。3.1.1 相关软件下载上传:1. 上传codis、go、zookeeper源码包至服务器目录下2. 上传CentOS-7.5-aarch64-Everything-1804.iso文件至服务器3.2 部署zookeeper3.2.1 安装java(三台机器)1. 配置本地yum源2. 安装java:yum install java-1.8.0-openjdk java-1.8.0-openjdk-devel –y,修改/etc/profile,添加javahome和path,如:· vi /etc/profileexport JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.161-2.b14.el7.aarch64export PATH=$JAVA_HOME/bin:$PATH修改后执行:source /etc/profile3.2.2 配置hosts(三台机器)vi /etc/hosts#########zookeeper#########172.31.96.86 192.168.0.159 zk01172.31.96.204 192.168.0.211 zk02172.31.96.226 192.168.0.117 zk033.2.3 关闭防火墙(三台机器)· systemctl stop firewalld· sed -i "s#SELINUX=enforcing#SELINUX=disabled#g" /etc/selinux/config3.2.4 获取安装软件(zk01)· cd /opt (zookeeper安装包所在目录)· tar -xf zookeeper-3.4.14.tar.gz· mv zookeeper-3.4.14 zookeeper3.2.5 创建dataDir和dataLogDir(zk01)· cd /opt/zookeeper· mkdir {data,logs}3.2.6 集群环境配置文件(zk01)· cd /opt/zookeeper/conf· cp -rp zoo_sample.cfg zoo.cfg· vi zoo.cfgtickTime=2000# tickTime : 服务器与客户端之间交互的基本时间单元(ms)initLimit=10# initLimit : 此配置表示允许follower连接并同步到leader的初始化时间,它以tickTime的倍数来表示。当超过设置倍数的tickTime时间,则连接失败。syncLimit=5# syncLimit : Leader服务器与follower服务器之间信息同步允许的最大时间间隔,如果超过次间隔,默认follower服务器与leader服务器之间断开链接。dataDir=/usr/local/zookeeper/data# dataDir : 保存zookeeper数据路径dataLogDir=/usr/local/zookeeper/logs# dataLogDir : 保存zookeeper日志路径,当此配置不存在时默认路径与dataDir一致,事务日志,会产生version2目录clientPort=2181# clientPort : 客户端访问zookeeper时经过服务器端时的端口号maxClientCnxns=60# maxClientCnxns : 限制连接到zookeeper服务器客户端的数量。server.1=zk01:2888:3888server.2=zk02:2888:3888server.3=zk03:2888:3888# server.id=host:port:port : 表示了不同的zookeeper服务器的自身标识,作为集群的一部分,每一台服务器应该知道其他服务器的信息。用户可以从“server.id=host:port:port” 中读取到相关信息。在服务器的data(dataDir参数所指定的目录)下创建一个文件名为myid的文件,这个文件的内容只有一行,指定的是自身的id值。比如,服务器“1”应该在myid文件中写入“1”。这个id必须在集群环境中服务器标识中是唯一的,且大小在1~255之间。这一样配置中,zoo1代表第一台服务器的IP地址。第一个端口号(port)是从follower连接到leader机器的端口,第二个端口是用来进行leader选举时所用的端口。所以,在集群配置过程中有三个非常重要的端口:clientPort:2181、port:2888、port:3888。3.2.7 分发zookeeper到其他节点· scp –r /opt/zookeeper root@zk02:/opt· scp –r /opt/zookeeper root@zk03:/opt3.2.8 配置id到文件· ssh zk01 "echo '1' > /opt/zookeeper/data/myid"· ssh zk02 "echo '2' > /opt/zookeeper/data/myid"· ssh zk03 "echo '3' > /opt/zookeeper/data/myid"注意:此步骤极为重要,请务必保证myid中配置的值与zoo.cfg中server.id中的id对应。3.2.9 启动zookeeper(三台机器)启动zookeeper/opt/zookeeper/bin/zkServer.sh start检查是否正常启动Jps 出现QuorumPeerMain则证明java进程成功启动。/opt/zookeeper/bin/zkServer.sh status 出现此问题是由于我们部署的zookeeper为3个节点,只有当半数以上启动的时候,zookeeper才能正常运行,继续启动另外两台上的zookeeper,启动后,稍等片刻,再次查看:Zookeeper节点全部启动后,仍提示Error contacting,则需要查看zookeeper.out文件,针对具体问题进行具体解决。 3.3 安装go(三台机器)3.3.1 上传文件并解压· cd /usr/local/· tar -xf /opt/go1.9.2.linux-arm64.tar.gz3.3.2 配置环境变量vi /etc/profile,添加:export GOROOT=/usr/local/goexport GOPATH=/usr/local/go/goworkexport PATH=$PATH:$GOROOT/bin:$GOPATH/bin执行:source /etc/profile3.3.3 查看版本go version 3.4 安装codis3.4.1 编译codis(三台机器)创建$GOPATH/src/github.com/CodisLabs目录:· mkdir -p $GOPATH/src/github.com/CodisLabs· cd $GOPATH/src/github.com/CodisLabs解压codis文件:· tar -xf /opt/codis-3.2.2.tar.gz编译codis:· mv codis-3.2.2/ codis· cd codis/· make3.4.2 提取有用程序(三台机器)· cd $GOPATH/src/github.com/CodisLabs/codis· mkdir /usr/local/codis· cp -rp bin admin config /usr/local/codis/3.4.3 部署codis-dashboard(zk01)1.修改配置文件· vi /usr/local/codis/config/dashboard.toml#coordinator_name = "filesystem"#coordinator_addr = "/tmp/codis"coordinator_name = "zookeeper"coordinator_addr = "zk01:2181,zk02:2181,zk03:2181"2.启动dashboard· cd /usr/local/codis· ./admin/codis-dashboard-admin.sh start· ss -tpnl |grep 18080# 可以查看log确认状态 /usr/local/codis/log/codis-dashboard.log.3.dashboard地址admin_addr = "0.0.0.0:18080"3.4.4 部署codis-fe管理后台(zk01)1.修改启动文件· vi /usr/local/codis/admin/codis-fe-admin.sh#COORDINATOR_NAME="filesystem"#COORDINATOR_ADDR="/tmp/codis"COORDINATOR_NAME="zookeeper"COORDINATOR_ADDR=" zk01:2181,zk02:2181,zk03:2181"2.启动fe· cd /usr/local/codis· ./admin/codis-fe-admin.sh start· ss -tpnl|grep 9090# 可以查看log确认状态 /usr/local/codis/log/codis-fe.log.3.后台管理地址CODIS_FE_ADDR="0.0.0.0:9090"3.4.5 部署codis-server加入集群(三台机器)部署3个节点的server zk01/zk02/zk031.配置bindvi /usr/local/codis/config/redis.conf将 bind 127.0.0.1 改为 bind 本地ip注意:此步骤必须使用本地ip,若使用127.0.0.1将导致codis-server无法添加 到集群,若使用浮动ip则无法正常启动codis-server2.所有server机器启动codis-server/usr/local/codis/admin/codis-server-admin.sh start3.fe管理后台添加1个group,group分配3个机器输入:group_id为1,点击new group: 输入:Codis Server Address 为zk01:6379 Gourp 为 1,点击Add Server。 重复上述添加步骤,完成后结果如下: 3.4.6 部署codis-proxy代理服务(三台机器)部署3个节点的server zk01/02/031.修改配置文件proxy.toml,zookeeper地址vi /usr/local/codis/config/proxy.toml#jodis_name = ""#jodis_addr = ""jodis_name = "zookeeper"jodis_addr = " zk01:2181,zk02:2181,zk03:2181"2.修改启动文件并启动,指向dashboard IP:PORTvi /usr/local/codis/admin/codis-proxy-admin.sh#CODIS_DASHBOARD_ADDR="127.0.0.1:18080"CODIS_DASHBOARD_ADDR="zk01:18080"/usr/local/codis/admin/codis-proxy-admin.sh startss -tpnl |grep 190003.proxy启动默认会自动注册到dashboard中,也可以在fe中手动添加 4 参考信息 5 FAQ5.1 java.net.BindException: 无法指定被请求的地址 (Bind failed) 原因:出现此问题是由于进程无法指定被请求的地址。解决:修改每个zoo.cfg文件中对应的server.x=0.0.0.0:2888:3888,如: 修改后重启zookeeper,则报错消失。5.2 java.net.ConnectException: 拒绝连接 (Connection refused) 原因:对应节点的zookeeper未启动解决:启动对应节点的zookeeper,zookeeper的启动需要时间,稍等片刻,此报错消失。5.3 "Cause": "dial tcp 172.31.96.86:6379: getsockopt: connection refused" 现象:在fe管理界面添加codis-server节点时出现如上报错。在zk01服务器上查看codis-server进程,结果如下 解决:修改redis.conf文件,将 bind 127.0.0.1 改为 bind 本地ip。此步骤必须使用本地ip,若使用127.0.0.1将导致codis-server无法添加到集群,若使用浮动ip则无法正常启动codis-server。
-
从前,人们靠烽火传军情、鸿雁传书、鱼传尺素、飞鸽传书等通讯方式作为行走社交江湖的必备技能。如今,人们足不出户,满天飞的讯息通过手机、电脑的传递充斥在我们生活方方面面。社会进步的背后是科技的迅猛发展,我们也许无法看见这波澜壮阔的时代细节,但仍可透过一滴水窥见其发展脉络。作为一家提供语音数据平台及物联网设备的科技公司—赛云数据,一直致力于在万物智联领域提供移动设备智能连接的系统解决方案和运营管理服务。随着业务的发展,赛云数据原先主要服务全球虚拟运营商的MVNE平台已不能满足日益增长的业务需求。在经过多方查找和考量评估,赛云数据最终选择了牵手华为云。在2019年把MVNE平台全部数据迁移部署到华为云上,其中包括业务系统和云数据库。而华为云数据库结合华为云服务的优势,为其量身打造了一套高安全、高可用、高性能的整体解决方案。“左右手”联合把控细节 让数据无处可逃从传统Oracle数据库切换到华为云数据库,要求数据不丢失、不影响业务、工作量最小。据此华为云数据库多番思量给出的解决方案是:左手PostgreSQL增强版(简称PG增强版),右手数据复制服务DRS,左右手共同发力,把控每一个细节,真正做到让数据无处可逃。• 一方面,PG增强版90%兼容Oracle,且搭配华为评估工具,可自主对Oracle生产库进行评估,分析迁移对象,给出改造建议,省心省力;• 另一方面,使用DRS数据迁移服务,将Oracle数据迁移至华为云PG增强版,安全又可靠。这样一来,既为企业客户上云降低了成本,也保障了客户数据的安全,一举两得。多重部署监控 让数据高枕无忧整个迁移过程需要保证数据库服务具备之前的可靠性、安全和高性能,且整个系统要求能够随着业务量的增加而实现快速弹性扩展,并支持分布式部署,结合SD-WAN专线,实现全球客户的高效、便捷接入。面对如此多诉求,华为云一点也不在怕的。一套部署监控看清所有问题套路,还你一个健康数据华为云在PG增强版上部署实际应用,进行大量系统测试,测试中不断发现问题,解决问题,最终保证全部业务正常运行,最后正式部署业务,迁移上线。重重部署,层层把控,确保业务零中断。下面让我们听听客户怎么说据赛云数据相关负责人表示: 此次上云大大简化了系统的扩展和维护,通过分布式部署可以方便接入全球客户,且极大减少了人力、物力成本,很大程度上降低了企业成本。华为云PG增强版Oracle兼容度高,改造工作量小,同时具备可靠性、安全性、高性能和可扩展性,极大保障了数据的管理与安全。华为云PG增强版内核团队专业能干,反应迅速,为我们数据顺利迁移保驾护航。工欲善其事必先利其器,我们的生活和工作正在呈几何式增长,选择好的平台和工具能起到事半功倍的作用。华为云数据库精耕细作多年,凭借着深厚的技术积淀和优质的产品服务成功助力赛云数据数字化转型,实现业务的新一轮升级。专业的事交给专业的人,您只需聚焦业务的研究和创新即可,华为云数据库在背后为您保驾护航。
-
1 背景介绍传统的Hadoop和Spark大数据生态,主要是以本地硬盘或云硬盘承载HDFS文件系统进行数据存储,但是存在成本高,扩容难等问题。当前华为云对象存储服务OBS可以与Hadoop和Spark大数据生态进行对接,为用户提供计算存储分离的大数据解决方案。为了实现用户数据平滑上云,可以采用华为云CDM服务进行HDFS到OBS的数据迁移。2 迁移背景和目标已存在集群一采用EVS存储HDFS格式数据,新建集群二采用OBS存储数据,需要将数据从集群一的HDFS迁移至集群二的OBS。3 迁移方法1、已搭建集群一(北京一)和集群二(华东),集群一采用EVS存储数据,集群二采用OBS存储数据2、在集群一构造Spark或者Hive的数据,例如,构造Hive表数据如下(1)创建DATABASECREATE DATABASE top_ods;(2)创建TABLECREATE TABLE `top_ods.claim_6yue_pt`( `user_id` varchar(300), `ese_id` int, `task_id` varchar(100))partitioned by (tagdate int)ROW FORMAT DELIMITED FIELDS TERMINATED BY "|"STORED AS parquetfileTBLPROPERTIES ("orc.compression"="Snappy");insert into table top_ods.claim_6yue_pt partition(tagdate=1) values( '10' ,10,'10');insert into table top_ods.claim_6yue_pt partition(tagdate=1) values( '11' ,11,'11');insert into table top_ods.claim_6yue_pt partition(tagdate=1) values( '12' ,12,'12');insert into table top_ods.claim_6yue_pt partition(tagdate=1) values( '13' ,13,'13');insert into table top_ods.claim_6yue_pt partition(tagdate=1) values( '14' ,14,'14');insert into table top_ods.claim_6yue_pt partition(tagdate=1) values( '15' ,15,'15');insert into table top_ods.claim_6yue_pt partition(tagdate=2) values( '20' ,20,'20');insert into table top_ods.claim_6yue_pt partition(tagdate=2) values( '21' ,21,'21');insert into table top_ods.claim_6yue_pt partition(tagdate=2) values( '22' ,22,'22');insert into table top_ods.claim_6yue_pt partition(tagdate=2) values( '23' ,23,'23');insert into table top_ods.claim_6yue_pt partition(tagdate=2) values( '24' ,24,'24');insert into table top_ods.claim_6yue_pt partition(tagdate=2) values( '25' ,25,'25');select * from top_ods.claim_6yue_pt;3、在集群二创建Spark或者Hive的新表,新表格式与源表的存储格式等属性要一致(1)创建DATABASECREATE DATABASE top_odstest location 'obs://obs-bigdata-hd-003/user/hive/warehouse/top_ods.db';(2)创建TABLE,新表格式与源表的存储格式等属性要一致CREATE TABLE `top_odstest.claim_6yue_pt`( `user_id` varchar(300), `ese_id` int, `task_id` varchar(100))partitioned by (tagdate int)ROW FORMAT DELIMITED FIELDS TERMINATED BY "|"STORED AS parquetfileTBLPROPERTIES ("orc.compression"="Snappy");4、创建CDM任务,将集群一的HDFS数据迁移至集群二的OBS(1)创建CDM集群(华东),跨Region需要绑定公网弹性IP(2)配置连接管理,一个连接使用Apache HDFS,另一个连接使用对象存储服务(OBS)备注:集群一的所有节点需配置公网弹性IP,并且Apache HDFS连接中的IP与主机名映射要填写所有集群一的主机XX.XX.XX.XX ecs-bigdata-hdtest-0000.novalocalXX.XX.XX.XX ecs-bigdata-hdtest-0001.novalocalXX.XX.XX.XX ecs-bigdata-hdtest-0002.novalocalXX.XX.XX.XX ecs-bigdata-hdtest-0003.novalocal(3)配置作业管理,源连接使用HDFS连接,目标连接使用OBS连接,文件格式使用二进制格式(4)配置完成后,运行作业进行数据迁移5、迁移完成后,在集群二恢复Hive表数据,即可查询数据成功。恢复Hive表数据:MSCK REPAIR TABLE top_odstest.claim_6yue_pt;查询Hive表数据:select * from top_odstest.claim_6yue_pt;
-
企业上云成为近年来的热门话题,很多企业甚至把企业上云看成是企业数字化转型的必经之路。然而企业上云从何处入手? 如何在业务不中断或者计划的时间窗口内成功迁云?如何降低数据迁移过程中的复杂性?究其根本企业上云最大的难题之一是数据库的数据迁移。为客户解决的这个难题,是华为云数据库服务团队持续不断地在数据迁移领域进行技术研究和创新的重要驱动力。数据复制服务DRS 的定位我们都知道,华为在云数据库领域的产品已形成了系列,包括SQL、NoSQL的等等。但是很多人不知道的是,华为云还有一款重量级的产品:华为云数据复制服务DRS(Data Replication Service,简称为 DRS)。什么是DRS?从概念来看,数据复制服务DRS是一种易用、稳定、高效,用于数据库在线迁移和数据库实时同步的云服务。DRS围绕云数据库,降低了数据库之间数据流通的复杂性,有效地帮助用户减少数据传输成本。简单理解,DRS是企业数据上云的“绿色管道”,能确保企业的关键数据一键迁云。具体而言,DRS有两个重要使命。第一,帮助企业DBA或者是CTO,以快速、简单的方式把数据库安全地迁移到云上。企业上云的第一个门槛就是数据迁移,在传统云下做数据库迁移会面临很多风险与挑战,例如业务中断、数据丢失、迁移失败等。虽然传统意义上来看数据库迁移通常很难,在云上有了很大的变化,借助华为云DRS,用户可有效避免云迁移带来的各种复杂问题,为客户成功迁云建立信心。用户只需要轻松几步,分钟级就可以创建好迁移任务;第二个使命,DRS可以解决数据孤岛、数据流、灾备保护等问题,让数据库之间的关键数据按照用户业务的需要驱动,实时流动起来,也就是服务于数据库的同步、灾备等场景下客户的各类需求,是云数据库整体方案成功落地的得力助手。 五大技术亮点降低数据流通的复杂性对于金融行业、政府机构以及自然灾害频发的沿海地区来说,对于异地灾备需求非常强烈。用户要进行两地三中心的容灾部署,最关心的问题就是会不会丢数据、异地传输多长时间能达到百里之外。围绕这些问题,DRS通过以下五个核心能力来更好地满足用户期望。智能压缩:长距离的异地传输或者备份时网络带宽不稳定是主要的问题,DRS采用智能压缩的思路,在传输数据量大小决定压缩与否,面对带宽不足时,有效保障数据可送达异地。批量发送:高频率的数据库操作,在局域网内性能可能不是问题。但远距离传输需要“多层握手”,网络延时从毫秒级变成几十毫秒级,这种时延差异在高频率操作的放大下,延时可能会由原来的几秒变成了几十秒,导致数据传输到异地实时性大幅下降,DRS可以通过批量发送功能减少反复握手的问题,有效提升异地数据传输的实时性。日志回放:DRS收到数据库的日志是有序串行的,按照原顺序回放将会形成瓶颈,使得异地数据远远落后于源数据,并行回放这些日志是提升数据传输实时性的关键技术。当然随意地并行会出现数据错乱问题。DRS采用并行判断模块,可以高效梳理哪些行级数据能并行执行,较大程度上提升了数据实时性。并行抓取:DRS并行地抓取变化的数据,最大程度保护数据在灾难发生时的损失。热点合并:在短时间之内频繁的对同一数据进行反复操作,DRS可以合并这些操作,这个过程可以简化为最终一致数据发送至异地数据,使得满足该类场景下的数据传输性得到提升。通过上述技术组合创新,华为云DRS给用户带来了综合的服务体验提升。 预检查功能确保企业迁云成功华为云DRS有许多具体的技术措施,其中关键的一个技术是预检查,华为云把所有成功项目的经验和要点积累固化到程序的检查项中,成熟完善的预检查系统,DRS可以明确提示客户哪一项环境设置会影响迁移,应该如何调整。成功通过一系列的精准检查后,可以确定迁云成功。值得一提的是,华为云DRS采用统一自动的逻辑,从整体上使得每个用户使用DRS迁移效果一致。例如:大量数据传输时,由网络异常造成的频繁地传输中断,DRS能为用户自动重连,快速定位识别到具体的断点,使得数据能够准确地续传。为了避免人为导致的误操作,华为云DRS在选择目标端的时候,会建议目标数据库只能读、不可写,这样能有效避免人为因素导致的数据不一致性、数据错乱、数据丢失等问题。为了使用户放心切换业务至云数据库,用户希望校验数据是否丢失,直观的方式是做对比,华为云DRS可以做对象级别的对比,包括有多少个表、多少个索引等,所有的对象都一致性一目了然。同时DRS还有两种数据对比能力:行级别和内容对比,行对比将对行总数进行两边一致性的校对,可以帮助用户清楚的看到数据行数是否一致; 内容对比是完整地将表与表全部的值校对一遍。 华为DRS将会持续的优化算法提升对比的效率。正是华为云DRS这一系列的措施,确保了企业成功迁云。企业上云,或者说在选择云平台的时候,可以从云平台三方面考量入手:数据库的技术与安全性、云平台的中立性和稳定性以及云平台的企业级业务成熟度。● 数据库技术和安全方面:华为在数据库领域有多年技术的沉淀,并一脉传承到云平台,国际化和企业级的安全合规设计上已践行多年,在专业的数据安全领域,华为云提供的数据库安全云服务,为云上数据库保驾护航。● 云平台的中立性和稳定性:华为云恪守“黑土地”思维,服务企业的基因驱动着云平台的长期发展。● 云平台的企业级业务成熟度:华为具有丰富的企业级服务经验积累。当然,对于广大CTO/DA/DBA等用户来说,成功走向云端有很多路径,无论通过非核心的外围业务系统来做一些尝试,还是先从没有历史负担的新业务开始,在这个过程中,DRS都能帮助用户更安心,更放心走向云端。
-
云开年采购季火热进行中!免费抽奖,人人有礼,消费满额送mate20,爆款数据库低至5.8 折 火热抢购,了解详情,请点击下面链接。https://activity.huaweicloud.com/2019Feb-promotion/index.html?utm_source=wechat&utm_medium=officialaccount&utm_campaign=2019feb_promotion_0322&utm_content=sjk_xcp
-
摘要:结合华为云,介绍如何使用Logstash将数据迁往Elasticsearch(ES),为后续提供指导。一、背景首先介绍下ES常用的数据导入工具,以及华为云上ES的应用场景:1)常用数据导入方法:将数据导入到ES的方法较多,常用的工具与方法包括:Elasticsearch-dump,通过Snapshot,Beats以及LogStash等等;其中Elasticsearch-dump主要用于ES集群间导入导出数据,Snapshot主要用于ES集群间数据的备份与恢复,Beats与LogStash作为独立的ETL工具,其应用场景较广泛。2)华为云ES应用场景:华为云上的ES服务运行在独立的VPC中,通过外网无法直接访问,因此其主要使用场景是在ES集群所在VPC下申请一台ECS并绑定弹性IP地址(用于部署业务应用),然后客户通过EIP访问业务应用,业务应用程序再调用ES集群。具体如下图:二、具体使用场景【conf文件组成】使用Logstash将数据导入到ES集群,其关键在于如何配置其conf文件。一般而言,Logstash的配置文件包括3个部分,分别是input,filter,以及output;其中input用于配置数据源,filter用于对数据进行ETL预处理,output用于配置目的端。【运行Logstash】当配置好conf文件后(假设其名称为logstash-simple.conf),接下来在logstash目录下,通过如下命令可启动数据导入:./bin/logstash -f logstash-simple.conf;【具体使用场景】接下来我们结合几个具体需求来介绍如何配置conf文件:1)如何指定导入的index与type名称?使用Logstash导入数据的过程中,如果没有指定index以及type,默认使用logstash-%{+YYYY.MM.dd}以及logs;如果想指定index以及type,可以在output中增加如下内容,使得index以myindex开头,type为mytype:output { elasticsearch { hosts => "192.168.0.65:9200" index => "myindex-%{+YYYY.MM.dd}" document_type => "mytype" }}2)如何删除导入过程中产生的新字段?使用Logstash在进行数据导入的过程中,默认会添加两个字段@version,@timestamp;如果在应用中不想要这两这个字段,可以在filter中增加如下内容:filter { mutate { remove_field => ["@version"," @timestamp"] }}3)如何使得索引名称与当前时区一致?使用Logstash在进行数据导入的过程中,index名称后缀默认为@timestamp字段所对应的UTC时间,该设计的初衷是为了统一不同时区的查询(不同时区的查询经过Kibana首先会转化为UTC时间,然后Kibana再向ES发送查询请求,这样不同时区查询过去一段时间的数据时,获得的结果是一样的),但这种情况下如果要查询本地时间某天的数据,则需要遍历Day-1,Day以及Day+1 3天的index;为了兼顾统一查询以及查询效率,可以在filter中增加如下内容,这里假设源数据中存在一个时间字段timestamp,并且其格式为dd/MMM/yyyy:HH:mm:ss +0800(其他格式类似),那么通过如下命令可以将timestamp字段向前滚动8个小时,然后赋值给@timestamp,从而使得index名称的后缀为东八区的时间,同时通过使用timestamp进行统计分析,仍然可以统一查询。filter { date { match => ["timestamp", "dd/MMM/yyyy:HH:mm:ss +0800"] locale => "en" timezone => "UTC" }}4)如何将外网数据导入到华为云ES,并控制数据导入速率?如前所述,将外网数据导入到华为云ES,需要一台带有EIP的ECS作为中转,此时根据Logstash部署的位置,可分为两种场景:一种是Logstash部署在外网,一种是Logstash部署在ECS上。a) 当Logstash部署在外网时,首先需要申请一台与ES集群在同一VPC下的ECS,并开放其安全组的9200外网访问权限;然后为该ECS绑定一个EIP,并限制该EIP的网络带宽;接下来在ECS上做一个端口映射,具体命令如下,然后输入root用户密码完成端口转发(其中9200为EIP接入端口,192.168.0.66:9200为ES集群接入点,192.168.0.200为ECS本机的内网ip地址):ssh -g -L 9200:192.168.0.66:9200 -N -f [email]root@192.168.0.200[/email]最后配置Logstash的conf文件output部分如下,然后运行Logstash开始数据导入过程:output { elasticsearch { hosts => "EIP:9200" }}b) 当Logstash部署在ECS上时,首先需要确保ES集群与ECS在同一VPC下,并且已开放安全组的9200外网访问权限;然后为该ECS绑定一个EIP,并限制该EIP的网络带宽;最后按常规方式配置conf文件,并运行Logstash开始数据导入过程(不再需要在ECS上做端口映射)。三、拓展思考上面给大家介绍了如何使用Logstash将数据导入到ES集群,此外Logstash还可以用于ES集群内部index的变换处理,包括index合并、过滤某些字段等等。另外如果是在两个ES集群间互导数据,可通过指定document_id防止重复导入数据。
-
想了解更多内容,请扫码关注【HW云数据库】
-
听说商场如战场:思深以致远,谋定而后动。 30 出头的林沫长相斯文,坐在一众表情严肃的老专家中,只算得上是个新人。论资排辈,他半分讨不到好处。 不少竞选者看到他后,明显放松了几分。就连招商方,在得知他发言代表的身份后,也暗暗摇头。 在数据库领域,那必须是越有经验越吃香。尤其是涉及数据迁移方面,不但项目周期长成本大,而且技术门槛高、风险也相当大,一般项目组轻易根本不敢接。 这场招商会从放出消息,到紧锣密鼓层层筛选;一路过关斩将走到现在的,都绝非泛泛之辈。 今天这一场,基本直接决定项目花落谁家。这么重要的场合,怎么就派了个小年轻来? 几轮代表发言后,招商方也基本明了简单情况。各家方案虽然各有千秋,但始终有个共性:数据要迁移,业务连续性和数据准确性,只能是鱼与熊掌的问题。 原因是运行中的业务,会持续产生和修改数据,无法得到一个数据是否一致的静态结论;而数据校对,往往需要高强度运算,从而占用大量资源、进而影响数据库性能。因此,如果要保障性能,就需停下业务进行校对。除此之外,还有一个风险:专家们确实才高八斗,但毕竟肉眼凡胎。靠人力手工校对,效率和出错率有待商榷。眼看大会接近尾声,招商方几个领导的眉头,也越皱越深。当轮到林沫发言的时候,整个会场的气氛,已经近乎压抑。 林沫整理了理袖口,并没有打开自己的胶片,而是先向招商方和在场各位微笑致意:“感谢招商方给大家这个机会,各位前辈的方案都很精彩。” 他环顾下四周,然后面向几位眉头深锁的领导,温和开口:“我先简单说一下我对这个项目的理解。首先,数据作为企业核心资产,肯定是不能丢的;其次,业务是公司命脉,也是不能断的。“ 几位领导的眼睛亮了亮,台上的年轻人不疾不徐的继续说道:“数据库要迁移,我们需要解决包括数据迁移前准备、数据迁移实施、数据迁移后校验的一系列准备。而且在整个过程中,每一个环节都要周全考虑、谨慎对待,否则稍有不甚,就会出现线上故障,影响公司业务及应用正常运行。不但可能承担经济损失的风险,甚至还会面临法律问题。“ 场上一片安静。没人见过项目投标,上来先说风险的。林沫的声音不大不小,刚好够在场的所有人听清:“我们都知道,数据库迁移一直以来都是业内的一大难题,所以没什么项目组敢接。抛开技术层面来说,只三点,就很让大家头痛: 迁移前的准备是否充分,没个标准,所以失败风险大;迁移进度不可查,特殊情况发生时,不能及时应对,影响业务运行;数据正确性人肉验证,效率和可靠性没保障不说,还存在数据丢失风险。 所以,我司今天带来的方案,会提供以上问题的解决方案。“ 林沫熟练打开胶片,将话题引回主题。而台下投资方的几位领导,也不约而同的看向荧幕。 数据库迁移“零”中断 事前预检查,智能分析数据库,迁移成功有保障 创建迁移任务后,在任务开始前启动预检查,提前自动识别迁移是否满足成功条件,并对可能影响迁移任务成功的因素及条件进行检查。 针对可能造成迁移失败的指标项,我们提供专业预检查分析报告,对失败原因、失败详情、处理建议等详细介绍,根据失败信息和处理建议的指导,调整环境,以确保迁移成功。 事中监控,实时刷新迁移进度,迁移情况尽在掌握之中 我们提供任务耗时评估、剩余时间等迁移进度随时查看,做好布置规划,避开业务高峰期;面临突发状况时也能做到心中有数、心中有底。我们还提供迁移监控,同步时延监控,方便宏观把握数据同步的实时性。 事后对比,确保数据零丢失 我们的方案会对数据进行迁移对比,通过多维度、多层次对比,清晰反馈迁移前后是否存在差异,确保迁移后的数据零丢失。 “最后说一下,我司的方案主要交由工具执行,从风险评估、到任务启动、再到数据校对,均智能化和自动化完成。以上,谢谢大家。“林沫鞠了个躬,台下掌声雷动。 项目启动会上,老搭档拍了拍林沫的肩:”小伙子可以啊,年纪轻轻,就能拿下这么个大项目。这数据库的事搞定了,投资方的另外几个云服务也一起给了我们呢。“ 林沫一边收拾东西一边回头笑道,这还多亏了华为云推出的数据复制服务DRS。我这方案里,全都是他们新上线的功能。你要是用了它,也能秒变迁移专家。了解 DRS 最新活动。https://activity.huaweicloud.com/dbmove/index.html?utm_source=wechat&utm_medium=officialaccount&utm_content=sjk_qy_1120扫码关注我们的公众号
-
日前,华为云数据复制服务 DRS 正式商用,支持更大数据量(TB级别)、更长时间(超过一周以上)等多种复杂迁移场景;支持数据库上云和云上业务数据实时回传至云外的混合云架构,数据可灵活流动。此外,DRS 升级预检查、迁移监控及对比两大迁移助手,首家提供任务耗时评估、时间维度的迁移进度实时查看,迁移实时同步性能提升 5 倍以上,将迁移时业务不中断和高性能需求的冲突降到最低。 我们知道,在传统数据库迁移场景下,用户需要解决包括数据迁移前准备、数据迁移实施、数据迁移后校验的一系列准备。而且在整个过程中,每一个环节都要周全考虑、谨慎对待,否则稍有不甚,就会出现线上故障,影响公司业务及应用正常运行,不但要承担经济损失的风险,甚至还会面临法律问题。 因此,数据库迁移一直以来都是企业上云、灾备的一大难题,面临的挑战也五花八门。例如: 迁移准备是否充分不可知,迁移失败风险大;迁移进度不可查,特殊情况下不能及时应对,影响公司运行;数据正确性全靠人肉验证,效率和可靠性没保障,存在数据丢失风险。 此次华为云 DRS 升级的预检查和迁移监控及对比功能,正是为了解决以上问题。 事前预检查,智能分析数据库,迁移成功有保障 用户创建迁移任务后,需要在任务开始前启动预检查功能。该功能可以提前自动识别迁移是否满足成功条件,并对可能影响迁移任务成功的因素及条件进行检查。 目前,华为云 DRS 提供的预检查高达 60 余项。包括源数据库、目标数据库的网络、版本、内存、日志、端口、兼容性、参数、安全性等一系列指数。 针对可能造成迁移失败的指标项,DRS 将提供专业预检查分析报告,对失败原因、失败详情、处理建议等详细介绍,用户可以根据失败信息和处理建议的指导,调整环境,以确保迁移成功。 事中监控,实时刷新迁移进度,增量同步近实时 值得一提的是,本次华为云 DRS 首家提供了任务耗时评估、时间维度的迁移进度实时查看。耗时评估可以帮助用户做好布置规划,避开业务高峰期;迁移进度的剩余时间实时查看,则可让用户随时掌握任务情况,面临突发状况时也能做到心中有数、心中有底。 DRS 的迁移监控功能,还提供了同步时延监控,方便用户宏观把握数据同步的实时性。当时延为 0 ,表示源数据库和目标数据库的数据处于实时同步,可为用户数据交割提供参考。 事后对比,确保数据零丢失 华为云 DRS 本次升级的迁移对比功能,为用户提供多维度、多层次的数据对比,清晰反馈出源数据库和目标数据库的数据是否存在差异,确保迁移后的数据零丢失。 DRS 的迁移对比,包括对象级对比,宏观对比数据对象是否缺失,例如数据库、表、视图、存储过程、触发器等;数据级对比,详细校对不同细度数据,例如行数对比、内容对比等。 需要强调的是,传统数据库迁移对企业而言,业务连续性和数据准确性,往往是是鱼与熊掌的问题。因为传统迁移场景的手工数据校对效率低、出错率高,而且数据校对往往需要高强度运算,从而占用大量资源、影响数据库性能。要保障性能,则需停下业务进行校对。 DRS 也很好的解决了这个问题,通过引导式校对流程,让用户秒变迁移专家。DRS 提供数据库对象检查、全局检查、割接复查等满足不同阶段需求的数据校对,并通过对比和报表分析,对用户进行由浅入深的分层引导。因此不但在效率和准确性上取得很大突破,而且性能也得到大幅提升。当前,DRS 已正式商用,但秉承生态开放的理念,用户依然可以免费使用 DRS;且配套的数据库引擎:MySQL、SQL Server、PostgreSQL、DDS,也可免费试用。免费试用配套数据库引擎链接:https://activity.huaweicloud.com/free_test/index.html
-
企业要发展,离不开上云;上云要保障,离不开灾备。无论上云还是灾备,数据迁移都是必经之路。但作为企业云化的一大拦路虎,数据迁移不知难倒了多少英雄好汉。没有专家,迁移任务太难;有了专家,迁移成本太高。二者都不惧,又得掂量业务中断或者数据丢失的风险。业务是命,数据是钱,但发展才是硬道理,怎么办? 近期,华为云数据复制服务 DRS 推出新功能,在支持 MySQL 、SQL Server 的基础上,新支持 DDS、Postgresql 两款主流数据库,帮助用户低成本、低风险的进行数据迁移。 华为云数据复制服务 DRS支持引擎华为云数据复制服务(Data Replication Service,简称为 DRS),是一种易用、稳定、高效,用于数据库在线迁移和数据库实时同步的云服务。DRS 围绕云数据库,降低了数据库之间数据流通的复杂性,有效帮助用户减少数据传输的成本。 传统数据库迁移场景下,企业往往面临诸多难题:迁移步骤复杂,操作人员需要专业技术背景,门槛高。人工部署耗时多,往往需要数周甚至上月,周期长。企业需承担DBA 专家人力成本,迁移硬件成本,成本高。迁移可能面临任务失败、业务中断、数据丢失,风险大。 因此,一款安全易用的专业数据迁移工具,对用户而言相当重要。 了解到用户的这一痛点后,华为云数据库于今年3月的华为生态大会上发布了 DRS,提供多场景、多网络、多类型引擎支持的数据迁移服务,并配套迁移监控、数据一致性对比等多种迁移辅助工具,上线便得到广大用户一致好评。 在云迁移、云灾备等应用场景下,用户均可使用 DRS 进行异地灾备、跨云灾备、近实时灾备,为核心业务提供容灾保护,帮助用户轻松完成迁移任务,让客户数据在数据库间自由流动。 DRS 操作简单便捷,迁移任务仅 10分钟就准备就绪,而且使用了增量迁移技术,最大限度允许迁移过程中业务继续对外提供使用,有效将业务系统中断时间和业务影响最小化,保障业务零中断和数据零丢失,使数据库平滑迁移上云得以实现。 DRS的推出,帮助用户实现了跨云、跨网、跨线上线下的数据迁移。无论是在本地机房、其他云、还是华为云自建的数据库,都可不受限制的进行数据库迁移。 此外,DRS 还支持多种网络方式下的迁移,包括:公网网络华为 VPN 网络专线网络华为VPC 网络环境 DRS 与各云服务关系示意图 值得一提的是,新支持的 DDS 引擎,华为云刚推出的社区增强版,提升 3倍读写性能、100倍弹性伸缩、10倍故障重构、10倍备份恢复,几个关键服务能力在业界都处于领先地位。 当前,DRS 配套的四款数据库华为云均推出了免费试用套餐,体验可移步官网。了解 DRS 更多详情:https://www.huaweicloud.com/product/drs.html HUAWEI CONNECT 2018作为华为自办的面向ICT产业的全球性年度旗舰大会,将于2018年10月10日-12日在上海隆重举行。本届大会以“+智能,见未来”为主题,旨在搭建一个开放、合作、共享的平台,与客户伙伴一起共同探讨如何把握新机遇创造智能未来。欲了解更多详情,请参阅:https://www.huawei.com/cn/press-events/events/huaweiconnect2018
-
引言:在瞬息万变的信息化时代,企业的成败在于能否创新;当距离消失,要么创新,要么消亡。 万物互联时代的到来,让数据受到前所未有的关注;随之而来的数据上云、数据安全、数据库升级等问题也被企业提上讨论日程。在新硬件、新架构层出不穷的今天,企业如何抓住机遇踏浪前行? 8月31日,最新一期华为云技术私享会在北京落幕。云领创新,数绘未来;本次会议围绕创新展开,分享了业界领先热点技术、华为云最新产品服务和应用方案、以及新时代企业上云的机遇与挑战。华为云数据库高级技术专家的主题分享:《云时代数据库迁移的新挑战与新玩法》,或许能给我们一些启示。现场照片 传统数据迁移的“罪与罚” 数据库在企业应用和业务中的重要性,决定了其迁移必将面临诸多挑战和艰辛。尤其是传统迁移必受的“五宗罪”,成为企业上云的拦路虎。门槛高由于迁移工作步骤复杂,需要操作人员具备专业的技术背景;特别是要实现在线迁移,技术门槛非常高。成本高高门槛导致企业必然也面临高昂的 DBA 专家人力成本,以及迁移所需的硬件、迁移工具软件等成本。方案失灵云上数据库相对于传统数据库较复杂,且对用户可用权限具有一定控制。如果用户自行迁移数据库,可能导致传统迁移工具很难完成迁移。流程复杂数据库迁移涉及迁移规划、环境搭建、人工部署、多库数据校验以及迁移任务跟踪等环节,迁移周期长。而且在复杂多变的网络场景下,如何保证数据安全以及迁移前后海量数据保持一致,也面临着挑战。牺牲业务为了实现迁移的数据完整性,可能需要在离线状态下迁移数据库,从而导致业务中断。在一寸光阴一寸金的互联网时代,业务中断无论是对企业、还是对企业用户而言,都无异于切菜刀剃头,实在是悬。 在瞬息万变的信息化时代,企业的成败在于能否创新。云计算、大数据、人工智能的马车已经隆隆而起,各行各业争相拥抱新技术、新趋势。当距离消失,要么创新,要么消亡。上云势在必行,满载粮草的数据库却迟迟不能动身,于是需要一场数据迁移来救赎! 云上迁移的黎明之光 云服务最让人心动的,无疑是方便和便宜。业内有个很形象的比喻:云计算的存在,让你调用资源如同使用自来水;你无需再去挖井或者建个水厂,你只需要拧开水龙头,你所需要的就会源源不断淌出来。 同样的,这个理论也适用于数据在云上的流动。以华为云推出的数据复制服务(DRS)为例,它是一种易用、稳定、高效,用于数据库在线迁移和数据库实时同步的云服务。DRS围绕云数据库,降低数据库之间数据流通复杂性,有效帮助用户减少数据传输成本。 华为云数据复制服务使用场景 DRS 是如何扫除传统数据迁移弊端的呢? 首先,DRS 拥有可视化的数据迁移监控和数据一致性对比分析,不但操作简单,提供人性化提示与帮助,而且迁移过程中的状态、进度、对比清晰可见,大大降低操作门槛。无需专业DBA参与,节省人力成本,按需使用迁移资源,节省硬件成本。 此外,DRS几分钟即可搭建一个迁移任务,多项操作后台自动完成,大幅提高效率,迁移周期极短。迁移采用全量迁移加增量迁移的方式,增量复制源库数据可以保障源应用不停机,实现业务零中断。迁移结束后,云上数据库即刻可用,且对源库无侵入,保障数据安全,大大风险低。 DRS 能自动适配云上数据库,支持各厂商之间的云数据库迁移,不但降低迁移成本, 而且大幅提升迁移成功率,较少不必要的风险,具有极高的用户价值。目前,DRS 已经支持MySQL、SQL Server 等主流数据库的跨云迁移,且将于近期支持DDS等更多引擎。 华为云数据迁移的“三优两特“ 服务升级 值得一提的是,对迁移至华为云上的数据库, DRS 将提供优化服务,支持升级到华为云数据库最新高性能版本。 以最受欢迎的开源数据库 MySQL为例,通过DRS在线迁移至华为云数据库的 MySQL 用户,将享受“三优两特“的贵宾级体验: 多线程全量迁移+基于日志解析的增量迁移过程优化:多线程导出导入,保证快照一致性的同时极大提高迁移性能。增量迁移基于日志解析,支持所有MySQL对象(DML+DDL)。全量数据的索引创建优化:创建索引增加的导入时间随表大小、索引多少呈非线性增长。将数据导入与索引创建解耦,极大缩短迁移时间。迁移过程的MySQL参数优化IO占用是迁移性能的最大瓶颈。根据迁移阶段,针对各种日志(binlog,slow log,redo log等)写入进行临时参数优化。多对象选择的特别支持支持按库和表级别进行迁移全流程(全量迁移+增量迁移)支持对象选择多应用场景的特别支持支持国内外主流友商云RDS迁移到华为云RDS支持从用户自建数据库(云上或云下)迁移到华为云RDS 数据库升级完成后,用户将获得原有社区版 3倍以上的性能提升的华为云数据库 MySQL 增强版。该款引擎通过华为云对其内核的深入改造,提供了超强的数据可靠性、可扩展性以及故障快速恢复的能力。 大规模连接下社区版MySQL以及华为云 MySQL 增强版(HWSQL)的性能表现 创新是企业进步的源泉,也是国家兴旺民族进步的不竭动力。华为云数据库作为领先的云服务品牌,在引领创新的路上,一直在加速奔跑。作了茧的蚕,看不到茧壳以外的世界;时代洪流在翻滚,要立于浪潮之巅,不妨加入到这股创新的浪潮里来! 2018 华为全联接大会将于10月份在上海召开,届时将首发华为AI战略和全栈全场景的解决方案,并携合作伙伴带来更多诸如“秦渲云”这样AI、云、大数据、5G、IoT、视频等在各行业的创新与实践,惠及更多开发者人群,“+智能,见未来”我们拭目以待。 免费试用华为云数据复制服务 DRS,请移步官网:https://www.huaweicloud.com/product/drs.html 更多数据库畅销引擎免费试用请点击:http://activity.huaweicloud.com/free_test/index.html
上滑加载中
推荐直播
-
DTT年度收官盛典:华为开发者空间大咖汇,共探云端开发创新
2025/01/08 周三 16:30-18:00
Yawei 华为云开发工具和效率首席专家 Edwin 华为开发者空间产品总监
数字化转型进程持续加速,驱动着技术革新发展,华为开发者空间如何巧妙整合鸿蒙、昇腾、鲲鹏等核心资源,打破平台间的壁垒,实现跨平台协同?在科技迅猛发展的今天,开发者们如何迅速把握机遇,实现高效、创新的技术突破?DTT 年度收官盛典,将与大家共同探索华为开发者空间的创新奥秘。
回顾中 -
GaussDB应用实战:手把手带你写SQL
2025/01/09 周四 16:00-18:00
Steven 华为云学堂技术讲师
本期直播将围绕数据库中常用的数据类型、数据库对象、系统函数及操作符等内容展开介绍,帮助初学者掌握SQL入门级的基础语法。同时在线手把手教你写好SQL。
去报名 -
算子工具性能优化新特性演示——MatMulLeakyRelu性能调优实操
2025/01/10 周五 15:30-17:30
MindStudio布道师
算子工具性能优化新特性演示——MatMulLeakyRelu性能调优实操
即将直播
热门标签