• [赋能学习] 华为FusionInsight MRS CDL使用指南
    # 华为FusionInsight MRS CDL使用指南 ## 说明 CDL是一种简单、高效的数据实时集成服务,能够从各种OLTP数据库中抓取Data Change事件,然后推送至Kafka中,最后由Sink Connector消费Topic中的数据并导入到大数据生态软件应用中,从而实现数据的实时入湖。 CDL服务包含了两个重要的角色:CDLConnector和CDLService。CDLConnector是具体执行数据抓取任务的实例,CDLService是负责管理和创建任务的实例。 本此实践介绍以mysql作为数据源进行数据抓取 ## 前提条件 - MRS集群已安装CDL服务。 - MySQL数据库需要开启mysql的bin log功能(默认情况下是开启的)。 查看MySQL是否开启bin log: 使用工具或者命令行连接MySQL数据库(本示例使用navicat工具连接),执行show variables like 'log_%'命令查看。 例如在navicat工具选择"File > New Query"新建查询,输入如下SQL命令,单击"Run"在结果中"log_bin"显示为"ON"则表示开启成功。 `show variables like 'log_%'` ![20210906_145931_92.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202109/06/165359vvzxbapq6kt5scaa.png) ## 工具准备 现在cdl只能使用rest api的方式进行命令提交,所以需要提前安装工具进行调试。本文使用VSCode工具。 ![20210906_150224_50.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202109/06/165424bqqg51rsexler3df.png) 完成之后安装rest client插件: ![20210906_150343_27.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202109/06/16544635f8nmf5ksptl3ob.png) 完成之后创建一个cdl.http的文件进行编辑: ![20210906_150713_91.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202109/06/165506ymbxdz8aekz849pq.png) ## 创建CDL任务 CDL任务创建的流程图如下所示: ![20210906_163649_62.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202109/06/165526o00hwsdz7ppjoaey.png) 说明:需要先创建一个MySQL link, 在创建一个Kafka link, 然后再创建一个CDL同步任务并启动。 MySQL link部分rest请求代码 ``` @hostname = 172.16.9.113 @port = 21495 @host = {{hostname}}:{{port}} @bootstrap = "172.16.9.113:21007" @bootstrap_normal = "172.16.9.113:21005" @mysql_host = "172.16.2.118" @mysql_port = "3306" @mysql_database = "hudi" @mysql_user = "root" @mysql_password = "Huawei@123" ### get links get https://{{host}}/api/v1/cdl/link ### mysql link validate post https://{{host}}/api/v1/cdl/link?validate=true content-type: application/json { "name": "MySQL_link", //link名,全局唯一,不能重复 "description":"MySQL connection", //link描述 "link-type":"mysql", //link的类型 "enabled":"true", "link-config-values": { "inputs": [ { "name": "host", "value": {{mysql_host}} }, //数据库安装节点的ip { "name": "port", "value": {{mysql_port}} },//数据库监听的端口 { "name": "database.name", "value": {{mysql_database}} }, //连接的数据库名 { "name": "user", "value": {{mysql_user}} }, //用户 { "name": "password","value": {{mysql_password}} } ,//密码 { "name":"schema", "value": {{mysql_database}}}//同数据库名 ] } } ### mysql link create post https://{{host}}/api/v1/cdl/link content-type: application/json { "name": "MySQL_link", //link名,全局唯一,不能重复 "description":"MySQL connection", //link描述 "link-type":"mysql", //link的类型 "enabled":"true", "link-config-values": { "inputs": [ { "name": "host", "value": {{mysql_host}} }, //数据库安装节点的ip { "name": "port", "value": {{mysql_port}} },//数据库监听的端口 { "name": "database.name", "value": {{mysql_database}} }, //连接的数据库名 { "name": "user", "value": {{mysql_user}} }, //用户 { "name": "password","value": {{mysql_password}} } ,//密码 { "name":"schema", "value": {{mysql_database}}}//同数据库名 ] } } ### mysql link update put https://{{host}}/api/v1/cdl/link/MySQL_link content-type: application/json { "name": "MySQL_link", //link名,全局唯一,不能重复 "description":"MySQL connection", //link描述 "link-type":"mysql", //link的类型 "enabled":"true", "link-config-values": { "inputs": [ { "name": "host", "value": {{mysql_host}} }, //数据库安装节点的ip { "name": "port", "value": {{mysql_port}} },//数据库监听的端口 { "name": "database.name", "value": {{mysql_database}} }, //连接的数据库名 { "name": "user", "value": {{mysql_user}} }, //用户 { "name": "password","value": {{mysql_password}} } ,//密码 { "name":"schema", "value": {{mysql_database}}}//同数据库名 ] } } ``` Kafka link部分rest请求代码 ``` ### get links get https://{{host}}/api/v1/cdl/link ### kafka link validate post https://{{host}}/api/v1/cdl/link?validate=true content-type: application/json { "name": "kafka_link", "description":"test kafka link", "link-type":"kafka", "enabled":"true", "link-config-values": { "inputs": [ { "name": "bootstrap.servers", "value": "172.16.9.113:21007" }, { "name": "sasl.kerberos.service.name", "value": "kafka" }, { "name": "security.protocol","value": "SASL_PLAINTEXT" }//安全模式为SASL_PLAINTEXT,普通模式为PLAINTEXT ] } } ### kafka link create post https://{{host}}/api/v1/cdl/link content-type: application/json { "name": "kafka_link", "description":"test kafka link", "link-type":"kafka", "enabled":"true", "link-config-values": { "inputs": [ { "name": "bootstrap.servers", "value": "172.16.9.113:21007" }, { "name": "sasl.kerberos.service.name", "value": "kafka" }, { "name": "security.protocol","value": "SASL_PLAINTEXT" }//安全模式为SASL_PLAINTEXT,普通模式为PLAINTEXT ] } } ### kafka link update put https://{{host}}/api/v1/cdl/link/kafka_link content-type: application/json { "name": "kafka_link", "description":"test kafka link", "link-type":"kafka", "enabled":"true", "link-config-values": { "inputs": [ { "name": "bootstrap.servers", "value": "172.16.9.113:21007" }, { "name": "sasl.kerberos.service.name", "value": "kafka" }, { "name": "security.protocol","value": "SASL_PLAINTEXT" }//安全模式为SASL_PLAINTEXT,普通模式为PLAINTEXT ] } } ``` CDL任务命令部分rest请求代码 ``` @hostname = 172.16.9.113 @port = 21495 @host = {{hostname}}:{{port}} @bootstrap = "172.16.9.113:21007" @bootstrap_normal = "172.16.9.113:21005" @mysql_host = "172.16.2.118" @mysql_port = "3306" @mysql_database = "hudi" @mysql_user = "root" @mysql_password = "Huawei@123" ### create job post https://{{host}}/api/v1/cdl/job content-type: application/json { "job_type": "CDL_JOB", //job类型,目前只支持CDL_JOB这一种 "name": "mysql_to_kafka", //job名称 "description":"mysql_to_kafka", //job描述 "from-link-name": "MySQL_link", //数据源Link "to-link-name": "kafka_link", //目标源Link "from-config-values": { "inputs": [ {"name" : "connector.class", "value" : "com.huawei.cdc.connect.mysql.MysqlSourceConnector"}, {"name" : "schema", "value" : "hudi"}, {"name" : "db.name.alias", "value" : "hudi"}, {"name" : "whitelist", "value" : "hudisource"}, {"name" : "tables", "value" : "hudisource"}, {"name" : "tasks.max", "value" : "10"}, {"name" : "mode", "value" : "insert,update,delete"}, {"name" : "parse.dml.data", "value" : "true"}, {"name" : "schema.auto.creation", "value" : "false"}, {"name" : "errors.tolerance", "value" : "all"}, {"name" : "multiple.topic.partitions.enable", "value" : "false"}, {"name" : "topic.table.mapping", "value" : "[ {\"topicName\":\"huditableout\", \"tableName\":\"hudisource\"} ]" }, {"name" : "producer.override.security.protocol", "value" : "SASL_PLAINTEXT"},//安全模式为SASL_PLAINTEXT,普通模式为PLAINTEXT {"name" : "consumer.override.security.protocol", "value" : "SASL_PLAINTEXT"}//安全模式为SASL_PLAINTEXT,普通模式为PLAINTEXT ] }, "to-config-values": {"inputs": []}, "job-config-values": { "inputs": [ {"name" : "global.topic", "value" : "demo"} ] } } ### get all job get https://{{host}}/api/v1/cdl/job ### submit job put https://{{host}}/api/v1/cdl/job/mysql_to_kafka/start ### get job status get https://{{host}}/api/v1/cdl/submissions?jobName=mysql_to_kafka ### stop job put https://{{host}}/api/v1/cdl/job/mysql_to_kafka/submissions/13/stop ### delete job DELETE https://{{host}}/api/v1/cdl/job/mysql_to_kafka ``` ## 场景验证 生产库MySQL原始数据如下: ![20210906_160423_85.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202109/06/165603xign4ieiyuwfnm9l.png) 提交CDL任务之后 ![20210906_161602_24.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202109/06/165622mpvuvogrt1twgpq1.png) 增加操作: insert into hudi.hudisource values (11,"蒋语堂",38,"女","图","播放器",28732); 对应kafka消息体: ![20210906_160846_67.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202109/06/165646c4wpcnsdtdpqorlo.png) 更改操作: UPDATE hudi.hudisource SET uname='Anne Marie333' WHERE uid=11; 对应kafka消息体: ![20210906_161008_64.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202109/06/165710qrn8ldc5tfe873xi.png) 删除操作:delete from hudi.hudisource where uid=11; 对应kafka消息体: ![20210906_161432_21.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202109/06/165728t09xozzcsmnvmlya.png)
  • [环境搭建] 【FusionInsight HD产品】【HD 6.5.1】Kafka节点部署规划问题
    【功能模块】关于kafka节点部署台数规划【操作步骤&问题现象】1、某局点kafka broker节点部署了4个,在开会讨论中,客户领导说kafka节点必须保持奇数,否则有台broker会浪费,而且leader选举时也会有问题2、但实际情况4台broker节点都进行了存储和使用,并没有出现客户说的问题,而且产品文档中也说明了,broker节点最少三台,并没有说必须保持奇数。只是zookeeper需要保持奇数。客户想让说明,问什么开源的需要保持奇数,但FusionInsight HD 没有这个要求,麻烦大佬帮忙解释下。【截图信息】【日志信息】(可选,上传日志内容或者附件)
  • [赋能学习] 华为云FusionInsight MRS培训系列课程-高级篇
    1.华为云MRS二次开发介绍二次开发赋能视频汇总:https://bbs.huaweicloud.com/forum/thread-90936-1-1.html学习材料《FusionInsight MRS二次开发样例.pdf》2.华为云MRS技术对接介绍FusionInsight MRS生态地图:https://fusioninsight.github.io/ecosystem/zh-hans/学习材料:《FusionInsight MRS技术生态介绍v3.pdf》3.华为云MRS运维调优介绍运维汇总FusionInsight MRS运维HDFS/Hive问题定位解决https://bbs.huaweicloud.com/videos/103220FusionInsight MRS运维HBase/Spark问题定位解决https://bbs.huaweicloud.com/videos/103222FusionInsight MRS运维ES问题定位解决https://bbs.huaweicloud.com/videos/103221调优汇总FusionInsight MRS Hive调优https://bbs.huaweicloud.com/videos/103825FusionInsight MRS Spark调优https://bbs.huaweicloud.com/videos/103830FusionInsight MRS HBase调优https://bbs.huaweicloud.com/videos/103824FusionInsight MRS ES调优https://bbs.huaweicloud.com/videos/103822FusionInsight MRS Kafka调优https://bbs.huaweicloud.com/videos/103827FusionInsight MRS Solr调优https://bbs.huaweicloud.com/videos/103829
  • [赋能学习] 华为云FusionInsight MRS培训系列课程-进阶篇
    1. 华为云原生数据湖MRS基线方案介绍学习材料《FusionInsight MRS云原生数据湖基线方案--离线数据湖.pdf》《FusionInsight MRS云原生数据湖基线方案--实时数据湖.pdf》《FusionInsight MRS云原生数据湖基线方案--逻辑数据湖.pdf》《FusionInsight MRS云原生数据湖基线方案--专题集市.pdf》2. FusionInsight MRS Hudi最佳实践视频介绍参考博文Hudi最佳实践材料材料链接华为MRS基于Hudi和HetuEngine构建实时数据湖最佳实践https://bbs.huaweicloud.com/blogs/290858华为FusionInsight MRS实战 - Hudi实时入湖之DeltaStreamer工具最佳实践https://bbs.huaweicloud.com/blogs/2893153. FusionInisght MRS CDL最佳实践CDL最佳实践材料材料链接华为FusionInsight MRS CDL使用指南https://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=152937华为FusionInsight MRS CDL最新版本使用指南https://bbs.huaweicloud.com/forum/thread-167340-1-1.html华为MRS CDL最新版本使用指南 - hudi实时入湖实战https://bbs.huaweicloud.com/forum/thread-167671-1-1.html4. FusionInisght MRS Flink最佳实践Flink最佳实践材料材料链接华为FusionInsight MRS Flink客户端配置https://bbs.huaweicloud.com/forum/thread-175741-1-1.html华为FusionInsight MRS Flink SQL-Client客户端配置https://bbs.huaweicloud.com/forum/thread-176103-1-1.html华为FusionInsight MRS FlinkSQL 复杂嵌套Json解析最佳实践https://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=153494华为FusionInsight MRS实战 - 使用CDL, FlinkSQL以及Hudi实时入湖https://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=153823华为FusionInsight MRS实战 - 使用FlinkSQL处理数据并使用redis做实时展示https://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=154299华为FusionInsight MRS实战 - Flink增强特性之可视化开发平台FlinkSever开发学习https://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=161992华为FusionInsight MRS实战 - FlinkSQL从kafka写入hivehttps://bbs.huaweicloud.com/forum/thread-173950-1-1.html华为FusionInsight MRS实战 - 使用Flink SQL-Client连接hivehttps://bbs.huaweicloud.com/forum/thread-176154-1-1.html华为FusionInsight MRS实战 - Flink CDC特性学习https://bbs.huaweicloud.com/forum/thread-176113-1-1.html5. FusionInsight MRS HetuEngine介绍及最佳实践HetuEngine专场学习直播回放:https://www.huaweicloud.com/about/live/HetuEngine.html视频介绍HetuEngine动手实践材料材料链接HetuEngine学习1-创建HBase数据源并且构建样例表 https://bbs.huaweicloud.com/forum/thread-147626-1-1.htmlHetuEngine学习2-创建hive样例数据并且和hbase做跨源融合分析https://bbs.huaweicloud.com/forum/thread-147719-1-1.htmlHetuEngine学习3-创建dws数据源并和hive做跨仓融合分析https://bbs.huaweicloud.com/forum/thread-147732-1-1.htmlHetuEngine学习4-Jmeter压测工具使用之HetuEngine压力测试https://bbs.huaweicloud.com/forum/thread-141244-1-1.html6. FusionInsight MRS ClickHouse动手实践视频介绍ClickHouse动手实践材料材料链接MRS Clickhouse 学习01-如何创建复制表以及分布式表并导入数据https://bbs.huaweicloud.com/forum/thread-148243-1-1.html7. FusionInsight MRS Manager Rest接口学习华为FusionInsight MRS实战 - Manager rest接口基础学习https://bbs.huaweicloud.com/forum/thread-175716-1-1.html华为FusionInsight MRS实战 - Manager rest接口进阶学习https://bbs.huaweicloud.com/forum/thread-175718-1-1.html8. 常见问题答疑openlookeng官网:https://openlookeng.io/
  • [性能调优] 【FusionInsight HD】500节点大集群各种GC参数设置多大合适?
    【功能模块】【操作步骤&问题现象】 500节点的HD 集群,各种GC参数设置多大合适?主要涉及Namenode、DataNode、MetaStore、Spark2x等等【截图信息】【日志信息】(可选,上传日志内容或者附件)
  • [赋能学习] 华为云FusionInsight MRS培训系列课程-特性篇
    1.华为云原生数据湖MRS关键技术介绍材料:《华为云Stack 8.0.3 FusionInsight MRS云原生数据湖 技术主打.pdf》课程视频: 2.优势poc用例最佳实践2.1. MRS多租户介绍及操作实践多租户特性介绍:多租户实操材料材料连接MRS多租户学习1-资源共享和抢占https://bbs.huaweicloud.com/forum/thread-147066-1-1.htmlMRS多租户学习2-用户权重配置以及资源抢占https://bbs.huaweicloud.com/forum/thread-147420-1-1.htmlMRS多租户学习3-资源池配置及使用https://bbs.huaweicloud.com/forum/thread-147441-1-1.html2.2 MRS TPC-DS 测试工具操作实践MRS TPC-DS 测试工具学习材料:https://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=146814&page=1&authorid=&replytype=&extra=#pid1286986 2.3 MRS Ranger介绍及操作实践Ranger特性学习材料:Ranger动手操作视频MRS ranger操作视频 ElasticSearchhttps://v.qq.com/x/page/m3259j8lzqe.htmlMRS Ranger操作视频 HetuEnginehttps://v.qq.com/x/page/s3259i43cs7.htmlMRS Ranger操作视频 Hivehttps://v.qq.com/x/page/g3259fwpihf.htmlMRS Ranger操作视频 Kafkahttps://v.qq.com/x/page/g3259dahl8q.htmlMRS Ranger操作视频 Spark2xhttps://v.qq.com/x/page/h3259de5aul.htmlMRS Ranger操作视频 Yarnhttps://v.qq.com/x/page/j3259jt9q0m.htmlMRS Ranger操作视频 HDFShttps://v.qq.com/x/page/c3261lhxugz.html3.常见问题答疑安装问题答疑:安装问题论坛帖:https://bbs.huaweicloud.com/forum/thread-146731-1-1.html https://bbs.huaweicloud.com/forum/thread-146999-1-1.html HetuEngine相比Hive查询加速问题HetuEngine使用如下特点保证计算查询的快速1. MPP架构2. 计算下推3. 预先启动4. 资源自己管理(spark是交给yarn管理)5. 动态过滤6. 小表广播
  • [赋能学习] 华为云FusionInsight MRS培训系列课程-特性篇
    1.华为云原生数据湖MRS关键技术介绍2.优势poc用例最佳实践2.1. MRS多租户介绍及操作实践2.2 MRS TPC-DS 测试工具操作实践2.3 MRS Ranger介绍及操作实践
  • [环境搭建] FusionInsight MRS 安装
    【功能模块】 FusionInsight MRS 安装安装报错。在192上操作时报错【操作步骤&问题现象】也可以在192上具体查看下。对外浮动IP om_float_ip = 可以随意填吗?还是要填写真是的? 这三台机器上有设置浮动IP吗?还是操作时自行设置?对外时钟NTP服务器 可为空吗?PPT和文档上的内容很多,能不能针对这个3台服务器,整理一个可以具体操作的安装步骤文档?这样更方便上级操作。【截图信息】【日志信息】(可选,上传日志内容或者附件)
  • [赋能学习] FusionInsight MRS TPC-DS工具使用
    ## 准备条件 1.集群已经安装完成并正常运行。 2.已经在集群Manager平台上为测试任务添加了一个人机用户,属组为hive、hadoop,supergroup,主组为supergroup。假设用户名为developuser,用户认证成功。 ``` cd /opt/hadoopclient/ source bigdata_env kinit developuser ``` 3.集群中Hive服务及依赖服务正常。 4.Yarn上提交任务的资源配置参数可以根据实际环境情况做调整。 修改Yarn配置: yarn.nodemanager.resource.cpu-vcores 可分配给container的CPU核数。 yarn.nodemanager.resource.memory-mb 表示该节点上YARN可使用的物理内存总量,默认为8192,单位MB。建议配置成节点物理内存总量的75%-90%。若该节点有其他业务的常驻进程,请降低此参数值给该进程预留足够运行资源。 客户端软件已经正确安装到客户端节点上。 ## 开始使用 1.获取mrs-test-demo.zip测试工具,请登录support.huawei.com直接搜索包名,注意对应版本,这里选用3.1.1版本。将工具包解压,选择hive_tpcds_tools_performence,上传到安装客户端的服务器/opt目录下。工具具体路径为 /opt/mrs-test-demo/basic-pack/hive_tpcds_tools_performence 2.修改权限(注意权限修改切勿将整个opt目录下的权限修改掉) ``` cd /opt/mrs-test-demo chmod -R 770 * ``` 3.准备tpcds造数工具,登录路径/opt/mrs-test-demo/basic-pack/hive_tpcds_tools_performence/tpcds-gen使用idea工具打开该路径的源码,编译工程,得到tpcds-gen-1.0-SNAPSHOT.jar, 存放路径为/opt/mrs-test-demo/basic-pack/hive_tpcds_tools_performence/tpcds-gen/target。 并且检查该路径下是否有lib目录包,里面为其他的依赖工具。 4.进入客户端安装目录,初始化环境变量。 ``` source /opt/hadoopclient/bigdata_env kinit developuser ``` 5.执行造数据脚本,造数据过程中需要等待的具体时间由当前环境的配置决定(数据量可以自行调整根据环境需求,本次执行2G。)。 ``` cd /opt/mrs-test-demo/basic-pack/hive_tpcds_tools_performence sh tpcds-setup-hive.sh 2 orc /opt/hadoopclient/ developuser 321@iewauH /tmp/hivedata ``` ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202108/10/163911ih1izbfwqk25fafe.png) 6.查询hdfs上生成的数据及需要测试的Hive表数。 ``` hdfs dfs -du -h /user/hive/warehouse/tpcds_bin_partitioned_orc_2.db/ ``` ![tu6.PNG](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202108/10/164804neo76op3kykiu3aj.png) 7.进入到sqlAll目录下将需要的sql复制到sample-queries-tpcds目录下,如备注中的基线指标sql。 ``` cd /opt/mrs-test-demo/basic-pack/hive_tpcds_tools_performence/sqlAll cp query41.sql query43.sql ../sample-queries-tpcds ``` 8.在/opt/mrs-test-demo/basic-pack/hive_tpcds_tools_performence目录下执行运行脚本。 ``` ./tpcds-run-hive.sh 2 orc /opt/hadoopclient/ developuser 321@iewauH ``` ![tu8.PNG](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202108/10/164815vnp11gmlepzneu6y.png) 9.时间统计脚本统计时间sql_time.sh,脚本内容如下 ``` #!/bin/bash BASE_DIR=$1 num=0.0 for logfile in ${BASE_DIR}/*.log do result=`grep -Rns "selected (" $logfile | tail -1 | grep -Eo '[(](.*)[) seconds]' | grep -Eo '[0-9]+[.]*[0-9]+'` if [ -z $result ]; then continue; fi echo "****${logfile##*/} ${result}s****" num=$(echo "$num + $result"|bc) done echo "total cost time:${num}s" ``` 使用如下启动脚本 `sh sql_time.sh /opt/mrs-test-demo/basic-pack/hive_tpcds_tools_performence/log/tpcds_bin_partitioned_orc_2/querylog` ![tu9.PNG](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202108/10/164832oyzyeicjeqgybqtp.png)
  • [其他问题] 问题求助 Identifier doesn't match expected value 906
    下载最新的认证文件后依旧认证失败,修过过服务器时间后提示时钟未同步,求解决方案。
  • [技术干货] 华为云 FusionInsight 湖仓一体解决方案
      伴随5G、大数据、AI、IoT的飞速发展,数据呈现大规模、多样性的极速增长,为了应对多变的业务诉求,政企客户对数据处理分析的实时性和融合性提出了更高的要求,“湖仓一体”的概念应运而生,它打破数据湖与数仓间的壁垒,使得割裂数据融合统一,减少数据分析中的搬迁,实现统一的数据管理。  早在2020年5月份的华为全球分析师大会上,华为云CTO张宇昕提出了“湖仓一体”概念,在随后的华为云与计算城市峰会上,“湖仓一体”理念跟随华为云FusionInsight智能数据湖在南京、深圳、西安、重庆等地均有呈现,在刚结束的HC2020上,张宇昕在发布新一代智能数据湖华为云FusionInsight时再次提到了湖仓一体理念。那我们就来看看湖仓一体的来世今生。数据湖和数据仓库的发展历程和挑战  早在1990年,比尔·恩门(Bill Inmon)提出了数据仓库,主要是将组织内信息系统联机事务处理(OLTP)常年累积的大量资料,按数据仓库特有的资料储存架构进行联机分析处理(OLAP)、数据挖掘(Data Mining)等分析,帮助决策者快速有效地从大量资料中分析出有价值的资讯,以利决策制定及快速响应外在环境变化,帮助构建商业智能(BI)。  大约十年前,企业开始构建数据湖来应对大数据时代,它通常把所有的企业数据统一存储,既包括源系统中的原始副本,也包括转换后的数据,比如那些用于报表, 可视化, 数据分析和机器学习的数据。  纵观数据湖与数据仓库的技术发展,不难发现两者有着各自的优劣,具体表现如下:  企业在进行系统架构设计选型时,需要从具体的分析场景出发,单一的模式已经无法满足企业发展的业务诉求,集中表现在以下两个痛点:  数据湖主要以离线批量计算为主,因为不支持数据仓库的数据管理能力,难以提高数据质量;数据入湖时效差不支持实时更新,数据无法强一致性;主题建模不友好,无法直接历史拉链建模;同时交互分析通常将数据搬迁到数据仓库平台,造成分析链路长,数据冗余存储;批&流等场景融合不够,无法满足企业的海量数据处理诉求。  数据仓库满足不了非结构化数据的分析需求,性价比不高;同时仓&湖间难以互联互通,数据协同效率较低,无法支持跨平台透明访问,形成了事实上的数据孤岛,找数困难;缺乏全局数据视图,不同平台接口差异和不同开发管理工具,造成用户开发使用复杂,数据分别管理维护代价高体验差。数据湖和数据仓库正在从两条技术演进路线走向融合  综上,数据湖和数据仓库在企业数据分析场景分别承担一湖一仓的重要角色,形成了完整的数据分析生态系统,上述企业场景面临的2个关键痛点也在驱动数据湖和数据仓库在技术演进上走向融合:  第一个融合方向是基于Hadoop体系的数据湖向数据仓库能力扩展,湖中建仓,从DataLake进化到LakeHouse。LakeHouse结合了数据湖和数据仓库特点,直接在用于数据湖的低成本存储上实现与数据仓库中类似的数据结构和数据管理功能。目前业界已经涌现了一些LakeHouse产品,如Netflix开源Iceberg、Uber开源Hudi、Databricks的 DeltaLake。  以目前生态发展迅速的Apache Hudi为例:统一数据存储,分布式存储不同应用所需的各种类型数据;数仓模式执行和治理,实现事务&更新机制,保证数据完整性和一致性,具有健壮的治理&审计机制;支持各种分析引擎,统一数据存储通过开放和标准化的存储格式(如Parquet),提供API以便各类工具和引擎(包括机器学习和Python / R库)直接有效地访问数据。  虽然LakeHouse并不能完全替代数据仓库,但通过增强性能,支持实时入湖、建模、交互分析等场景,将在企业分析环境中发挥更大作用。  第二个融合方向是数据湖和数据仓库协同起来向湖仓一体的融合分析架构发展,随着企业数据量快速增长,不仅是结构化数据,也有非结构化数据,同时提出了对搜索/机器学习更多的能力要求,使得原来数仓技术不能够有效的处理复杂场景,为此需扩展原有系统,引入Hadoop大数据平台实现新类型数据、新业务场景的支持。在这个背景下由Gartner在2011年提出逻辑数据仓库的概念,预测企业数据分析倾向于转向一种更加逻辑化的架构,利用分布式处理、数据虚拟化以及元数据管理等技术,实现逻辑统一物理分开的协同体系。  湖仓一体可以认为是逻辑数据仓库架构理念下针对Hadoop数据湖和MPPDB数据仓库的融合架构的最好诠释,数据对用户将完全实现虚拟化,以逻辑统一的数据分析系统为企业提供数据分析服务:  用户使用层面提供统一元数据管理和数据视图,实现全局数据可见可查,支持标准统一访问接口简化用户开发,提供统一开发和治理的工具体系。  平台层面Hadoop与MPPDB具备数据共享和跨库分析能力,支持互联互通、计算下推、协同计算,实现数据多平台之间透明流动。华为云FusionInsight湖仓一体解决方案参考架构  华为云FusionInsight智能数据湖涵盖了分布式存储、大数据、数据仓库、数据治理等,融合了上述两个技术演进方向,为企业用户提供云原生湖仓一体解决方案,整体的参考架构如下:  下面一起来看看:数据存储层:  通过OBS统一管理湖&仓的存储底座,将存储在EC(Erasure Code纠错码)、可靠性方面的优势融入进了大数据生态:云原生架构领先:  基于云原生架构的OBS存储,具有高带宽,大并发,分布式元数据等特征,因此相同成本的华为存算分离的湖仓一体化集群,数据读写性能领先业界30%。存储计算分离有效降低TCO:  支持大比例EC, 副本数从3最低可降低至1.09,TCO下降20%+。  统一元数据管理实现湖仓共享存储资源池:通过独立的Data Lake Catalog提供统一元数据管理,兼容Hive Metastore接口,可以无缝对接各类大数据组件。实现针对同一份元数据定义支持各类场景、对象、文件、大数据等不同协议间的数据共享,让数据仓库、数据湖、图引擎、AI等多种计算引擎共享统一的数据存储池。此方案不仅消除了孤立系统中的数据副本,还使得客户可以按照业务按需使用计算存储资源,不仅降低了CAPEX,还简化了运维,从而达成最佳TCO。同时,Data Lake Catalog开放接口,支持和第三方的计算引擎层、数据治理层对接。计算引擎层:  把事务能力引入数据湖,通过HetuEngine标准SQL实现跨域多源统一访问,湖&仓数据互通协同计算,数据免搬迁:CarbonData & Hudi数据实时入湖,实现数据湖事务能力:  企业内部许多数据管道通常会并发读写数据,我们通过CarbonData& Hudi数据存储引擎实现数据实时、增量更新,数据T+0实时入湖,大幅缩短传统T+1、T+2时延;引入的增量处理框架,实现了数据湖事务能力,支持入湖过程中的Update/Delete等。HetuEngine支持跨源跨域统一SQL访问,简单易用:  用户层基于统一的标准SQL接口,对接多个数据源(HDFS, HBase, DWS等),提供秒级交互式访问,满足各种统计分析、多表Join关联等,让分析建模人员数据分析更容易,降低访问门槛。HetuEngine & DWS-Express打破数据墙,数据免搬迁创新更敏捷:  支持数据湖与数据仓库间的数据互联互通、跨平台协同计算,数据免搬迁。HetuEngine在湖内基于统一数据目录,实现高并发,高性能的交互式查询,基于一份数据进行批、流、交互式融合分析,贴源加工、整合关联、主题加工等都在湖内,数据不出湖,分析链路短,加速业务创新;用户可使用DWS-Express提供由成百上千节点组成的加速集群,对存储在OBS上的海量数据进行在线分析,相比本地托管集群,效率提升数百倍。自研Superior调度器支持单集群2万+节点规模,业界最佳:  在一个集群内,通过华为自研的Superior调度器支持各种工作负载统一调度,包括数据科学、机器学习以及SQL和分析,调度速率达35万Container/s,资源利用率达90%+,大幅降低企业投入成本。数据冷热分级存储实现更高效的全生命周期管理:  DWS具备与OBS的双向互通的能力,既能直接读取OBS上的海量历史数据,也能够直接写入数据到OBS。通过这个特性,我们可以对企业中的海量数据进行更加高效的全生命周期管理,分析中经常使用到的热/温数据存放在DWS中,较少使用的冷数据存放到OBS中,兼顾企业对分析性能和存储经济性的诉求。无缝衔接AI挖掘更多数据价值:  深度优化一站式开发平台ModelArts&分布式图计算引擎GES提高开发效率。提供基于数据湖的AI训练推理能力,减少数据搬迁次数,基于100+机器学习算子和NLP算法,实现海量数据快速价值挖掘,满足场景预测、自然语言处理及企业知识图谱等应用; 让GES更快捷地为金融等场景提供关系网络分析等服务。运营管理层:  通过DAYU实现了湖&仓统一的数据集成、开发、目录、治理、开放服务等的运营管理:数据集成:  实现多源异构数据高效入湖,支持批/流/实时数据多种方式接入。其中,批量数据迁移基于分布式计算框架,利用并行化处理技术,支持用户稳定高效地对海量数据进行移动,实现不停服数据迁移,快速构建所需的数据架构;流和实时数据接入每小时可从数十万种数据源(例如日志和定位追踪事件、网站点击流、社交媒体源等)中连续捕获、传送和存储数TB数据。数据开发:  提供一站式敏捷数据开发平台,提供可视化的图形开发界面、丰富的数据开发类型(脚本开发和作业开发)、全托管的作业调度和运维监控能力,内置行业数据处理pipeline,一键式开发,全流程可视化,支持多人在线协同开发,支持管理多种大数据云服务,极大地降低了用户使用大数据的门槛,帮助用户快速构建数据湖数据处理中心。数据治理:  为企业提供数据体系标准和数据规范定义的方法论,统一数据语言和数据建模;为普通业务人员提供高效、准确的数据搜索工具,高效找到数据;提供技术元数据与业务元数据的关联,业务人员快速读懂数据;为数据提供有效的质量管控和评估手段,数据可信质量高。数据开放:  为数据湖搭建统一的数据服务总线,帮助企业统一管理对内对外的API服务,支撑业务主题/画像/指标的访问、查询和检索,提升数据消费体验和效率;支持100+开放API,拥有10+行业模板,使能行业ISV快速集成,助力客户数据标准资产沉淀。综上所述  正是在三层架构都打通了湖仓的技术壁垒,我们才看到了真正的湖仓一体:  数据存储层基于云原生领先架构,存算分离有效降低TCO,统一元数据管理实现湖仓共享存储资源池,针对同一份元数据定义支持各种场景,提供API方便各类工具和引擎(包括机器学习、Python、R等)直接有效地访问数据,这是实现湖仓一体的一个关键点;  计算引擎层为数据湖增加了事务能力提升了数据质量;利用HetuEngine通过标准SQL访问跨域多源数据,实现湖&仓数据关联分析协同计算,简单易用; 打破数据墙,在湖内基于统一数据目录,可基于数据湖实现融合分析&AI训练推理,减少数据搬迁,实现海量数据快速价值挖掘。  运营管理层则提供统一的数据开发和治理环境,具备安全管理功能,支持多引擎任务统一开发和编排,数据统一建模和质量监测,实现湖仓一致的开发治理体验。未来展望  华为云FusionInsight智能数据湖基于客户需求和技术演进趋势持续创新,为企业客户提供湖仓一体解决方案,致力于打造业界最佳的数据底座,让企业业务的创新更敏捷,业务洞察更准确,加速释放数据价值,和数据使能协同更好地服务千行万业!    
  • [解决方案] Spring-kafka对接华为FusionInsight Kafka 报没有方法错误
    【功能模块】开发环境集群版本:6.5.1【操作步骤&问题现象】1、参考文档:Spring-kafka对接华为FusionInsight Kafka样例2、按照参考文档操作,测试时报没有方法错误【截图信息】pom文件:运行日志:【日志信息】(可选,上传日志内容或者附件)
  • [运维管理] 请问哪里可以下载FusionInsight6.5的扩容模板
    请问哪里可以下载FusionInsight6.5的扩容模板?在填加主机时有选项使用模板添加? 
  • [行业动态] 华为云FusionInsight携手国家级大数据实验室,探索时序数据库IoTDB
    7月30日,在华为云TechWave数据使能专题日上,华为云FusionInsight技术专家宋秉华博士携手清华大学软件学院院长、大数据系统软件国家工程实验室执行主任王建民教授发表演讲,共同分享了华为云FusionInsight技术团队携手国家级大数据实验室,探索时序数据库IoTDB。华为云FusionInsight技术专家宋秉华博士清华大学软件学院院长、大数据系统软件国家工程实验室执行主任王建民教授 传统时序数据库面临的痛点与挑战       随着物联网的飞速发展,工业领域中的设备、机器、传感器产生海量数据,例如物联网设备的温度、湿度、速度、压力、电压、电流以及证券买入卖出价等,且这些数值还将随着时间演进而不断变化,传统数据库在对这些带时间标签(按照时间的顺序变化,即时间序列化)的数据进行存储、查询、分析等处理操作时捉襟见肘,通用数据库无法满足所有需求、海量时序数据存储查询慢、工业级时序数据库产品需要高可用、存储成本居高不下、使用难等问题。IoTDB一套引擎打通云边端       IoTDB是由清华大学软件学院发起主导、华为深度参与的轻量级、高性能时间序列数据库,该项目于2018年11月正式开源,支持物联网数据收集、存储、查询与分析一体化的数据管理,支持“云-边-端”一体化部署与集成,适用于高端装备管理、工厂设备管理、高速网联设备管理等多种工业应用场景。IoTDB时序数据库聚焦海量杂时序数据的处理,具有“专、快、稳、省、易”五大特点,解决通用数据库和列式数据库在超大规模复杂时序场景的功能短板和性能瓶颈,轻松应对海量负责时间序列数据的处理,并能实现一套引擎打通云边端的时序数据分析。专,IoTDB总结了过去十年来在工业应用中遇到的典型需求,如千万级超大规模测点处理、乱序处理、多序列对齐、序列分割、子序列匹配、旋转门压缩、降采样存储等专业场景,有针对性地设计了TsFile专业时序存储格式和tLSM时序处理算法,解决了通用数据库在超大规模复杂时序场景的功能短板和性能瓶颈;快,时序数据库面临的场景要求数据采集频率高、每秒上万次采集,数据存储周期长,时间跨度大,IoTDB可实现单台服务器千万级数据秒级写入,十亿量级数据毫秒级聚合检索;稳,工业级的时序数据库产品需要具备高可用的基本保障,才能达到商用的要求,IoTDB创新性研究了国际内外的算法,通过对等分布式架构、双层多Raft协议、边云节点同步双活等机制实现高可用,满足7*24小时的零故障运行;省,成熟的工业时序数据库产品,存储成本在时间序列里占很大的比例,IoTDB解决工业客户对IT成本的敏感性,针对性的做了高压缩比算法,包括有损压缩和无损压缩,针对不同场景做自动识别,实现全量数据的低成本持久存储;易,产品的易用性是成熟商用产品的基础指标,IoTDB采用类SQL语句,降低客户使用成本,同时为客户提供查询、存储、分析全生命周期的一体化解决方案,降低客户使用门槛。IoTDB开源探索软件创新之路:产学研用目前,IoTDB已在众多应用场景中进行了落地实践。例如,全国多个城市采用IoTDB管理地铁监控数据,在传统时序处理方案中,端、边、云采用不同的技术栈,异构的技术栈带来数据处理的复杂性,原本需要13台服务器完成的业务场景,目前仅需一台IoTDB服务器就可解决,测点的采样时延也从原来的500ms降至200ms,日增4140亿数据点管理,有效提升资源利用率。        IoTDB时序数据库不仅解决了海量复杂时间序列数据的处理,同时也为软件创新探索出新的模式。王建民教授在演讲中提到:“未来,清华大学将依托大数据国家工程实验室,持续与华为为代表的大批优秀企业,探索产学研用的中国软件创新之路,实现企业与组织、代码与代码的丝丝相扣,让我们共同期待即将发布的MRS IoTDB时序数据库。”华为云FusionInsight MRS一架构三湖释放海量数据价值       MRS IoTDB是华为云FusionInsight MRS云原生数据湖中的时序数据库组件,近期将在FusionInsight8.1.0版本重磅推出高性能企业级时序数据库。华为云FusionInsight MRS可让客户在一个架构实现离线数据湖、实时数据湖、逻辑数据湖三种数据湖和集市能力,实现海量数据接入、治理、存储、分析和多模计算等场景,助力政企客户实现一企一湖、一城一湖,业务洞见更准,价值兑现更快。       目前,华为云FusionInsight MRS云原生数据湖携手800+生态伙伴,已服务于3000+政企客户,广泛应用于政务、金融、运营商、能源、医疗、制造、交通等行业。更多精彩文章:https://bbs.huaweicloud.com/forum/thread-66105-1-1.html 
  • [赋能学习] 华为云FusionInsight相关峰会活动视频汇总
            华为云FusionInsight相关峰会活动视频汇总华为全联接2021(2021.09.23-25)主题演讲回看地址:链接专题演讲回看地址链接华为云FusionInsight版本新能力解读(00:00:04)工商银行携手华为云FusionInsight共建大数据体系(00:11:20)华傲数据携手华为云FusionInsight构建政务三算一景方案(00:27:20)东华博泰携手华为云FusionInsight打造能源大数据方案(00:38:10)交通银行携手华为云FusionInsight,加速建设数字化新交行(00:07:07)链接清华大学携手华为云FusionInsight共筑软件创新体系(00:21:16)链接永洪BI携手华为云FusionInsight,让数据分析更敏捷(00:11:35)链接华为云TechWave数据使能专题日(2021.07.30)数据分论坛视频回看地址(FusionInsight智能数据湖、MRS一架构三湖、IoTDB时序数据库-00:30:10): 链接华为云TechWave全球技术峰会-上海站(2021.06.18)主题演讲回看地址:链接 数据分论坛视频回看地址(MRS一架构三湖-00:42:30): 链接2021华为智慧金融峰会(2021.06.04)主题演讲回看地址:链接数据分论坛视频回看地址(00:32:30 工商银行大数据规划,01:02:39 金融行业智能数据湖创新与探索,01:26:03 北明软件保险集团统一数据平台方案):链接华为云TechWave云原生2.0专题日(2021.05.20)主题演讲回看地址(MRS一架构三湖):链接华为云开发者大会2021(Cloud)(2021.04.24)主题演讲回看地址:链接千级节点的大数据集群如何无业务中断升级:链接跨源、跨域场景下如何实现海量数据分钟级分析:链接华为云TechWave全球技术峰会-深圳站(2021.04.08)主题演讲回看地址:链接华为云TechWave大数据专题日(2020.08.31)主题演讲回看地址:链接       华为云FusionInsight系列文章:https://bbs.huaweicloud.com/forum/thread-66105-1-1.html 
总条数:206 到第
上滑加载中