FusionInsight_标签_开发者

博客(340)
视频(57)
论坛(202)
云声(0)
代码示例(0)

[赋能学习] FusionInsight MRS 赋能材料汇总贴

华为云FusionInsight MRS概念入门华为云FusionInsight MRS 拓展Poc材料汇总项目学习内容学习目标视频学习地址学习材料，点击下载MRS 产品架构FusionInsight MRS 融合大数据和湖仓一体议题解决方案了解大数据发展的历程，深入剖析大数据发展趋势https://bbs.huaweicloud.com/videos/103242MRS 安装部署操作系统安装熟练掌握各种常见操作系统的安装和配置NA《操作系统及Raid配置手册.pdf》磁盘RAID组配置熟练掌握各种常用RAID卡的配置集群规划、安装部署熟练掌握MRS集群的LLD规划工具使用和配置，熟悉集群的安装流程和方法，并能按照指导实操部署https://bbs.huaweicloud.com/videos/103223《MapReduce Service 3.0.2-ESL 产品文档》软件安装章节《FusionInsight MRS规划、部署、实施v3.pdf》MRS 基本功能基本原理、与其他组件的关系熟悉集群各个组件的基本原理和与其他组件的关系https://bbs.huaweicloud.com/forum/thread-66102-1-1.html《MapReduce Service 3.0.2-ESL 产品文档》组件介绍章节集群基础功能掌握熟练掌握manager基本功能，熟悉各个组件基本功能，能够熟练使用各组件的基础命令NA《华为云Stack 8.0.2 MapReduce服务验收测试指南（安全模式）基础包》MRS 关键特性MRS关键特性解读了解MRS关键特性，熟悉MRS优势组件,充分理解 carbondata、HetuEngine、Ranger、多租户、manager等优势组件能力carbon: https://bbs.huaweicloud.com/videos/103212HetuEngine:https://bbs.huaweicloud.com/videos/103213Ranger: https://bbs.huaweicloud.com/videos/103215多租户: https://bbs.huaweicloud.com/videos/103216Manager: https://bbs.huaweicloud.com/videos/103217《FusionInsight MRS关键特性-CarbonData.pdf》《FusionInsight MRS关键特性-Manager.pdf》《FusionInsight MRS关键特性-Ranger.pdf》《FusionInsight MRS关键特性-HetuEngine.pdf》组件高级特性梳理各个组件高级特性，熟练运用于POC测试环节NA《华为云Stack 8.0.2 MapReduce服务验收测试指南（安全模式）扩展包》MRS关键技术及应用场景解读了解MRS关键技术，熟悉MRS关键技术应用场景，结合场景和关键技术特点，发挥MRS优势性能关键技术1：https://bbs.huaweicloud.com/videos/103208关键技术2：https://bbs.huaweicloud.com/videos/103209关键场景1：https://bbs.huaweicloud.com/videos/103211关键场景2：https://bbs.huaweicloud.com/videos/103210《FusionInsight MRS ESL 3.0.2基线方案-融合大数据平台 v1.0》《FusionInsight MRS ESL 3.0.2基线方案-数据湖&湖仓一体 v1.0》MRS 技能进阶MRS二次开发熟练掌握MRS安全认证方式和各组件样例代码、了解各组件支持语言及常用接口https://bbs.huaweicloud.com/videos/103219《MapReduce Service 3.0.2-ESL 产品文档》应用开发指南章节《华为云Stack 8.0.2 MapReduce服务API接口文档》《FusionInsight MRS二次开发样例.pdf》MRS性能调优学习MRS各组件常用调优方式，可根据各组件的原理和特点，调整相关参数，优化组件性能《FusionInsight HD 6.5.1 性能调优指导》MRS各组件常见问题定位学习各组件常见问题定位思路和方法，并运用于现实场景manager/hdfs/hive: https://bbs.huaweicloud.com/videos/103220ES: https://bbs.huaweicloud.com/videos/103221HBase/Spark: https://bbs.huaweicloud.com/videos/103222《FusionInsight MRS(ESL版) HDFS 基本运维及常见问题定位手段.pdf》《FusionInsight MRS(ESL版) Manager 基本运维及常见问题定位手段.pdf》《FusionInsight MRS(ESL版) Hive 基本运维及常见问题定位手段.pdf》《FusionInsight MRS(ESL版)Elasticsearch 基本运维及常见问题定位手段.pdf》《华为FusionInsight MRS(ESL版) HBase 基本运维及常见问题定位手段.pdf》《华为FusionInsight MRS(ESL版) Spark 基本运维及常见问题定位手段.pdf》MRS巡检、补丁升级、容量指导掌握MRS巡检、补丁升级、扩缩容的操作方法https://bbs.huaweicloud.com/videos/103224《FusionInsight MRS(ESL版) 补丁.pdf》《FusionInsight MRS(ESL版) 巡检.pdf》《FusionInsight MRS(ESL版) 升级.pdf》《华为云Stack 8.0.2 MapReduce服务容量调整指导书》MRS生态地图、技术生态介绍了解MRS周边生态和学习常用工具对接方法https://bbs.huaweicloud.com/videos/103218https://fusioninsight.github.io/ecosystem/zh-hans/华为云FusionInsight MRS 交付材料汇总项目学习内容学习目标视频学习地址学习材料MRS部署赋能HCS8.0配套管控面部署掌握MRS管控面部署https://bbs.huaweicloud.com/videos/103826《MRS 8.0管控面部署和集群发放》物理机集群部署及纳管（常见FAQ）掌握MRS物理资源池部署方案及纳管https://bbs.huaweicloud.com/videos/103839《物理机集群部署及纳管》MRS开发支持二次开发流程（重点讲解认证及登录）场景化样例工程样例讲解（以flink/sparkstreaming流处理场景为例） ES检索场景样例讲解典型场景二次开发案例串讲，掌握E2E场景开发demo能力https://bbs.huaweicloud.com/videos/103828《MRS开发支持（重点讲解认证及登录）》MRS平台迁移-迁移案例权限升级至ranger管理（工行案例）ranger权限升级指引https://bbs.huaweicloud.com/videos/103838《Ranger基本知识介绍》MRS平台调优-批处理引擎调优调优参数讲解； Hive调优 Spark调优掌握批处理调优hive: https://bbs.huaweicloud.com/videos/103825spark: https://bbs.huaweicloud.com/videos/103830《Hive性能调优》《Spark性能调优》MRS平台调优-实时&流引擎调优HBase调优ES/solr调优kafka/flink调优掌握实时检索及流处理调优Hbase: https://bbs.huaweicloud.com/videos/103824ES: https://bbs.huaweicloud.com/videos/103822Solr: https://bbs.huaweicloud.com/videos/103829Kafka: https://bbs.huaweicloud.com/videos/103827《HBase性能调优》《Elasticsearch性能调优》《Elasticsearch 优化指导.docx》《Solr性能调优》《Solr性能调优（参数）指导手册.docx》《Solr 优化指导.docx》《kafka性能调优》华为云FusionInsight MRS 运维材料汇总项目学习内容学习目标视频学习地址学习材料故障处理基本问题定位与解决方案重点组件基本的问题定位思路HDFS/Hive问题定位解决https://bbs.huaweicloud.com/videos/103220 HBase/Spark问题定位解决https://bbs.huaweicloud.com/videos/103222 ES问题定位解决https://bbs.huaweicloud.com/videos/103221 Flink常见问题分析https://bbs.huaweicloud.com/videos/103823 《FusionInsight MRS(ESL版) HDFS 基本运维及常见问题定位手段.pdf》《FusionInsight MRS(ESL版) Manager 基本运维及常见问题定位手段.pdf》《FusionInsight MRS(ESL版) Hive 基本运维及常见问题定位手段.pdf》《FusionInsight MRS(ESL版)Elasticsearch 基本运维及常见问题定位手段.pdf》《华为FusionInsight MRS(ESL版) HBase 基本运维及常见问题定位手段.pdf》《华为FusionInsight MRS(ESL版) Spark 基本运维及常见问题定位手段.pdf》《FusionInsight Flink赋能&常见问题定位.pdf》日常运维多租户管理租户管理常见问题https://bbs.huaweicloud.com/videos/103831《多租户基础简介.pdf》用户权限管理创建、删除、管理用户权限https://bbs.huaweicloud.com/videos/103840《用户权限管理简介.pdf》监控模块如何查看监控https://bbs.huaweicloud.com/videos/103836《FusionInsight_Manager监控模块简介_v1.1.pdf》告警监控如何查看告警https://bbs.huaweicloud.com/videos/103832《FusionInsight_Manager告警模块简介_v1.0.pdf》巡检日常巡检FusionInsight MRS巡检工具使用https://bbs.huaweicloud.com/videos/103224《FusionInsight MRS(ESL版) 巡检.pdf》版本升级变更扩容、减容以及修改ip掌握Manager扩容减容修改IP等基本操作https://bbs.huaweicloud.com/videos/103837《扩容介绍.pdf》《修改IP.pdf》kerberos互信掌握kerbos互信的基本操作https://bbs.huaweicloud.com/videos/103833《kerberos互信介绍.pdf》升级、补丁FusionInsight MRS升级、补丁相关问题https://bbs.huaweicloud.com/videos/103224《FusionInsight MRS(ESL版) 升级.pdf》《FusionInsight MRS(ESL版) 补丁.pdf》

晋红轻 发表于2020-12-28 11:38:17 2020-12-28 11:38:17 最后回复太阳雨0416 2021-08-03 14:04:52
24583 4

FusionInsight MapReduce
[赋能学习] FusionInsight MRS概念入门

晋红轻 发表于2020-12-25 09:22:09 2020-12-25 09:22:09 最后回复晋红轻 2020-12-25 09:22:09
1256 0

FusionInsight MapReduce
[互动交流] 【FusionInsight产品】Apache Drill对接hdfs问题

【功能模块】hdfs【操作步骤&问题现象】Apache Drill对接hdfs的时候遇到问题，具体是配置好huaweihdfs之后在后台使用show databases;查看的时候报错：【截图信息】

数字id-1523 发表于2020-12-23 10:07:29 2020-12-23 10:07:29 最后回复晋红轻 2020-12-23 10:11:07
959 2

Hadoop FusionInsight
[互动交流] FusionInsight 6.5.1引入的jackson-databind-2.9.8具有高危漏洞风险

FI被扫面出高危漏洞风险该如何升级解决?

p00557943 发表于2020-12-22 19:19:51 2020-12-22 19:19:51 最后回复 suwei 2020-12-22 19:36:37
1168 1

FusionInsight
[互动交流] 【FusionInsight产品】Apache Kylin对接FusionInsight时web页面打不开

【功能模块】FusionInsight HD【操作步骤&问题现象】Apache Kylin对接FusionInsight时web页面打不开, 在kylin.log可以看到报错【截图信息】【日志信息】（可选，上传日志内容或者附件）

数字id-1523 发表于2020-12-21 11:04:33 2020-12-21 11:04:33 最后回复数字id-1523 2020-12-21 14:17:13
1284 2

Apache 前端 FusionInsight
[技术干货] 【FusionInsight产品】Apache kylin对接MRS启动报错

【功能模块】FusionInsight【操作步骤&问题现象】在测试Apache Kylin对接FusionInsight的时候启动（kylin.sh start）有报错，不知道什么原因。【截图信息】【日志信息】（可选，上传日志内容或者附件）

数字id-1523 发表于2020-12-21 11:01:21 2020-12-21 11:01:21 最后回复数字id-1523 2020-12-21 14:15:28
3402 2

Apache FusionInsight MapReduce
[赋能学习] 零基础入门FusionInsight Hadoop系列视频

部署安装篇演示在实验室环境中安装单OMS的FusionInsight HD 8.0.2版本集群视频标题链接V001 CentOS7.6系统简化安装https://v.qq.com/x/page/p32112zmnpm.htmlV002 配置IP地址和关闭防火墙https://v.qq.com/x/page/f3211dggxf2.htmlV003 编译安装python3https://v.qq.com/x/page/f32115ijwfe.htmlV004 获取安装包https://v.qq.com/x/page/m3219xar65i.htmlV005 OMS安装https://v.qq.com/x/page/o3211b9ql7u.htmlV006 安装集群https://v.qq.com/x/page/y3211owpdlr.htmlV007 注册组件包https://v.qq.com/x/page/h3211p26dlx.htmlV008 添加服务https://v.qq.com/x/page/m3211zmzf0m.htmlV009 注册跨平台软件包https://v.qq.com/x/page/n32117xop4y.htmlV010Manager页面简介https://v.qq.com/x/page/d3212czd59s.htmlV011安装客户端https://v.qq.com/x/page/i3212qu7dsr.htmlV012创建用户及客户端简单实用 https://v.qq.com/x/page/o3212ov6rrf.html各组件基础入门视频Spark(视频待审核后发出)标题链接Spark入门培训系列1:Spark应用场景https://bbs.huaweicloud.com/forum/thread-103560-1-1.htmlSpark入门培训系列1:Spark基本原理上-RDDhttps://bbs.huaweicloud.com/forum/thread-105056-1-1.htmlCarbonData(视频待审核后发出)标题链接CarbonData入门培训——CarbonData原理介绍https://bbs.huaweicloud.com/forum/thread-104377-1-1.htmlCarbonData入门培训——CarbonData基本操作和表目录结构https://bbs.huaweicloud.com/forum/thread-104333-1-1.htmlCarbonData入门培训——CarbonData常见问题定位https://bbs.huaweicloud.com/forum/thread-104380-1-1.html二次开发篇参考之前录制的视频，该部分仅录制新增部分，基于Java语言的maven项目参考之前的视频https://bbs.huaweicloud.com/forum/thread-90936-1-1.html生态案例篇根据项目优先级，优先录制有需求的对接视频标题链接V001 Kettle对接Hivehttps://v.qq.com/x/page/w32115hlhil.htmlV002 Tableau对接HetuEngine场景Demo篇序号基线方案涉及组件场景主题场景描述详情1-1实时检索Kafka 、SparkStreamingHBase、ES交警智能搜车系统实时采集卡口的过车数据，供交警智能系统查询点击跳转1-2实时检索Spark、HBasexx银行日志信息检查业务场景xx银行的手机银行将埋点日志实采集到，传回服务端存入了HBase集群原始表。现在需要检查原始表日志信息完整性，字段是否缺失，是否有异常数据。结果用于反馈给前端开发，检查日志抓取业务是否有问题。点击跳转1-3实时检索Kafka、Flink、HBase、ESXX银行券币实时检索案例海量钞票图片检索点击跳转1-4实时检索Fiber、PhoenixXX银行文件数据存储业务场景（Phoenix高效批量插入）生产场景是之一是：每分钟一个文件，一个文件65431条数据。后期业务的数据量还会成2-3倍增加（因为性能不能满足后期业务，目前没有把表往phoenix进行迁移）。点击跳转1-5实时检索HBase公安户籍系统数据库迁移使用BulkLoad 向 HBase 中批量导入数据点击跳转2-1实时流处理Flume、Kafka、FlinkRedis、HDFS、Hive、Spark数字物流平台实时记录快递到达各个站点信息，保存历史数据供后续分析点击跳转2-2实时流处理Kafka、Redis、Flink、HBase物联网实时数据采集系统通过kafka获取实时仪器设备采集数据，与Redis中缓存的设备信息做关联后保存到HBase中点击跳转2-3实时流处理Kafka通过python语言读写kafka点击跳转2-4实时流处理Flink、HBaseFlink写入跨集群HBase案例点击跳转2-5实时流处理Flume、Kafka、SparkStreamingESXX银行APP精准推荐业务的实时检索案例点击跳转2-6实时流处理Kafka、SparkStreaming、HBasexx公司数据监控案例xx公司需要对公司的某些敏感数据进行监控，将监控数据进行计算分组后进行存储，对实时性要求比较高，bulkload数据入库点击跳转3-1离线批处理HDFS、Spark、ES车辆信息批量入库案例通过python语言实现Spark应用开发点击跳转3-2离线批处理Spark、HBase消费信息入库使用Spark读取HBase数据，处理完毕后写入HBase点击跳转3-3离线批处理Spark商品营销推广分析商品销售过程中，我们需要基于以往的商品销售日志深挖出更多的有用信息，例如哪些人是我们的优质客户，我们该给哪些人发放我们的优惠券，我们该给哪些人发送广告点击跳转特性介绍篇特性：Ranger视频标题链接V001 Ranger简介https://v.qq.com/x/page/z32198yz3q8.htmlSpring与Hadoop组件集成案例标题链接spring-kafka对接安全和非安全kafka集群案例https://bbs.huaweicloud.com/forum/thread-101557-1-1.htmlspring-data-redis对接非安全redis集群案例https://bbs.huaweicloud.com/forum/thread-105351-1-1.htmlSpringBoot对接ElasticSearch案例https://bbs.huaweicloud.com/forum/thread-106571-1-1.htmlSpring集成访问FusionInsighthttps://bbs.huaweicloud.com/forum/thread-133468-1-1.htmlPython3对接 FusionInsight HD组件案例标题组件说明linux环境python3连接安全集群HDFSHDFS连接的是HDFS的webhdfs接口，走HTTP协议https://bbs.huaweicloud.com/forum/thread-116086-1-1.html使用python库confluent_kafka连接安全集群KafkaKafkaconfluent_kafkahttps://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=102610使用python连接有kerberos认证的kafka指导Kafka使用的依赖和上面的不一样，这个是 kafka-pythonpython连接redis集群案例Redis非安全集群的Redis或者安全集群中未开启安全认证的Redishttps://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=97329pyspark读写Hive案例Spark 、ES在Spark任务中访问Hive表https://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=96535pyspark数据处理完毕后写入ES案例Spark、EShttps://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=96463Elasticsearch组件basic认证以及Python对接ES通过basic认证连接ES的http接口https://bbs.huaweicloud.com/forum/thread-99870-1-1.html

suwei 发表于2020-12-14 19:31:24 2020-12-14 19:31:24 最后回复 yd_218635061 2022-06-25 14:23:10
13249 5

视频 Hadoop FusionInsight
[赋能学习] MRS3.0.2版本二次开发(1/27): 环境准备

# 视频在本帖二楼 ## 一、MRS是什么？ MRS是一种基于云计算平台的大数据服务两种部署形式： | 集群类型| 集群部署形式 | |---|----- | | 弹性伸缩集群 | 1、安装云底座后导入MRS镜像；2、通过云底座上的MRS Console发放FusionInsight集群，集群节点为虚拟机 | | 物理机集群 | 1、分别安装云底座、FusionInsight物理机集群；2、通过MRS Console纳管FusionInsight集群 | 因此本系列课程实际讲解的是 FusionInsight 集群的服务调用案例 ## 二、课程说明本次课程共27节，课程目录列表如下，所有样例都是基于Java语言的maven项目，其他非maven项目，我们后续会在FusionInsight论坛上传使用指导 ### 1.1 课程列表 | 序号 | 组件 | | ---- | ---- | | 1 | 环境准备 | | 2 | HDFS调用样例 | | 3 | MapReduce任务提交样例 | | 4 | MapReduce多组件调用样例 | | 5 | Hive的HCatalog接口调用样例 | | 6 | Hive的JDBC接口调用样例 | | 7 | Hetu的JDBC接口调用样例 | | 8 | HBase通用API使用样例 | | 9 | HBase Rest接口调用样例 | | 10 | HBase thrift接口调用样例 | | 11 | Redis调用样例 | | 12 | Kafka接口调用样例 | | 13 | ES的Rest接口样例 | | 14 | ES的Transport接口样例 | | 15 | Flink构造DataStream样例 | | 16 | Flink异步Checkpoint样例 | | 17 | Flink实现配置表与实时流join的样例 | | 18 | Flink读写Kafka样例 | | 19 | Flink实现pipline样例 | | 20 | Flink TableAPI使用样例 | | 21 | 使用java命令提交spark任务样例 | | 22 | Spark读写HBase样例 | | 23 | Spark读取Hive写入HBase样例 | | 24 | Spark读写ElasticSearch样例 | | 25 | Spark-submit提交SparkSQL样例 | | 26 | 通过JDBC接口访问SparkSQL样例 | | 27 | SparkStreaming读取Kafka写入HBase样例 | ## 三、环境准备 ### 3.1 集群环境本系列课程使用的是FusionInsight集群为安全模式，支持Kerberos认证已经安装了客户端，客户端目录为/opt/client，该目录可根据实际情况自定义 ### 3.2 开发环境 | 工具 | 说明 | | ------------------- | --------------------------------- | | 系统 | windows10 64bit | | JDK | Oracle JDK 1.8 | | maven | 3.6.3 | | git | 2.18 for windows 样例代码下载工具 | | scala | 2.11.12(部分组件使用) | | xshell或者Mobaxterm | ssh客户端工具 | | WinSCP | sftp传输工具 | ### 3.3 样例代码获取获取地址：[https://github.com/huaweicloud/huaweicloud-mrs-example/tree/mrs-3.0.2](https://github.com/huaweicloud/huaweicloud-mrs-example/tree/mrs-3.0.2) 注意是 mrs-3.0.2 分支 git下载样例代码命令参考： ``` git clone -b mrs-3.0.2 https://github.com/huaweicloud/huaweicloud-mrs-example.git ``` 如果访问github比较慢的同学，也可以通过 FusionInsight 论坛获取，获取方式为论坛内搜索二次开发，找到环境准备这节课，从帖子的附件中下载即可 ### 3.4 配置maven仓库样例代码需要从maven仓下载依赖，因此需要开发环境连通互联网环境。 maven仓库配置可以参考华为公有云网站MRS服务的指导，链接为： https://support.huaweicloud.com/devg-mrs/mrs_06_0002.html 也可参考如下方式配置： 1. 创建settings.xml文件内容参考如下 ![image.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202011/18/201216w7jj3d1udkiiyrxh.png) 2. 在IDEA项目中修改Settings中的Maven仓配置，如图所示位置 ![image.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202011/18/201302idolzynfwoeiiq92.png) ## 四、环境检查 ### 4.1 开发环境与集群网络检查网络检查可以通过windows环境下的cmd命令行进行ping检查，也可以参考使用MobaXterm中的NetworkScanner来扫描网络 ![image.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202011/18/203048oxp7khzztdnbwlvf.png) ### 4.2 开发环境与集群时间差检查 Windows开发环境的时间与集群时间误差不能超过5分钟 ### 4.3 开发环境JDK配置检查如图所有需配置为1.8 ![image.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202011/18/201604lyr5c8g06nqbtit5.png) ![image.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202011/18/2022423uhvcbkf2dozmzxz.png) ### 4.4 端口检查所有组件的端口占用信息可通过版本配套的通信矩阵来获取具体端口信息，其中注意Kerberos认证需要开放UDP端口21732 本版本用到的通信矩阵将以附件形式附上，或通过如下链接获取 https://support.huawei.com/enterprise/zh/doc/EDOC1100161650?idPath=22658044%7C22662728%7C22666212%7C22396131 ## 五、互动渠道：FusionInsight论坛请在该论坛发表“问题求助”类型帖子

suwei 发表于2020-11-18 20:30:59 2020-11-18 20:30:59 最后回复 JHONG 2021-03-11 13:43:59
8022 5

MapReduce服务 MRS FusionInsight
[技术干货] “3+3”看华为云FusionInsight如何引领“数据新基建”持续发展

摘要：一个统一的现代化的数据基建需要三类架构来实践三种不同的应用场景。近期，美国知名科技企业风投机构A16Z总结出一套通用的技术架构服务，分为以下三种场景。一、数据基建架构全景数据流向显示，左侧的数据源经数据处理（批量、实时流、事件流等）将数据统一汇聚到数据湖或数仓中，通过数据科学或机器学习进行AI分析，通过AD Hoc和实时分析为客户或APP提供敏捷的结果数据。华为云FusionInsight为政企客户提供一站式全场景的云原生数据湖，围绕政企客户在采存算管用等数据全生命周期提供领先的整体解决方案，方案主要包含MRS大数据、DWS数据仓库、一站式数据治理中心等云服务，助力政企客户释放海量数据价值！其架构如下：上千个大型客户已经基于FusionInsight架构构建其大数据应用平台。A16Z经过调查相关业内人士得出一个结论：一个统一的现代化的数据基建需要三类架构来实践三种不同的应用场景。现代化 BI 架构多模式数据处理架构人工智能和机器学习架构1.现代化 BI 架构这是对小型数据团队和预算有限的企业的默认选项，企业逐渐从传统数仓迁移到这个架构，利用云的灵活度和可扩展性。应用场景包含：报表，仪表盘，自助式分析，主要使用SQL来分析结构化数据。优势：前期投入低，启动快，市场上人才储备充分。缺陷：对于数据场景复杂的团队不适用，比如需要数据科学，机器学习，或者实时场景。传统的小型数据团队其面对的数据基本以核心交易系统的RDBMS结构化数据为主，数据量在GB级，普通的数仓都可支持其数据的分析挖掘，无需大数据支撑就可完成，这种处理方式在2008年时的大型企业中也较为常见，其数据量较小基本上使用数仓就可完成日常的数据大屏、数据分析等工作。这是对小型数据团队和预算有限的企业的默认选项，利用云的灵活度和可扩展性，企业逐渐从传统数仓迁移到这个架构。华为云FusionInsight可提供企业级数仓，DWS目前服务于全球1000+大型客户，广泛应用于政府、金融、运营商、大企业等领域。产品始于2011年，经历将近10年技术积累，已取得180+国内外授权专利。DWS可支撑日常的结构化数据分析，其具有如下特点：大规模：GaussDB(DWS)基于分布式架构，在保证ACID的基础下，突破大规模分布式场景下集群通信（Multi-Streams）、逻辑集群（Multi-Groups）技术，具备2048节点扩展能力。值得一提的是，逻辑集群可将ODS、数据仓库、数据集市、自助分析等不同业务负载，有机的统一起来，有效隔离、有效共享。高性能：GaussDB(DWS)具备多层级全并行计算引擎。支持多个物理节点并行计算，在一个物理节点内部，支持多个CPU核心并行计算，在一个CPU核心的指令序列中，支持SIMD指令，实现一个指令同时操作多条数据。将并行能力发挥到极致，为业务提供极致的性能。另外，Multi-Cores技术使得在鲲鹏上性能相比同代x86芯片提升30%以上。高可靠：GaussDB(DWS)具备多层级容灾能力，在AZ、集群、节点及进程出现软硬件异常的情况下能够平滑处理。另外，Server端Multi-Retries技术大幅减少故障失败的业务感知；其次，在棘手的亚健康问题上，GaussDB(DWS)也有完善的检测和处理机制；最后，离线扩容、半在线扩容、在线扩容技术能够从容应对客户不同的扩容需求。华为云DWS数据仓库技术核心是分布式架构，过去十年一直围绕分布式构筑竞争力。未来，GaussDB(DWS) 数据仓库将基于分布式架构持续演进，围绕云、大数据、5G/IoT、人工智能，构筑下一代开放的、全场景分析型数据库。2.多模式数据处理架构这个架构通常用于大型企业和科技公司，用来满足复杂的数据需求场景。应用场景包括：BI及高级功能，包括AI/ML，低延时分析，大规模数据转换，多类型的数据处理（文字，图像和视频）使用各种语言（JAVA/SCALA，Python和SQL）优势：能灵活的支持各种应用，工具和UDF和部署环境。在大规模数据集上的成本优势。缺陷：不适合小型数据团队，维护这套架构需要较多的时间，费用和专家资源投入。在现实世界中，需求侧觉醒的同时，在平行的赛博世界中，技术的进化也一直在持续。自从2006年Apache Hadoop架构发布以来，到2011年，企业逐渐采用Hadoop架构演进出来的开源或商用大数据软件，开启了离线计算时代；2012年，以Spark等为核心的流式计算开启了实时计算时代，在线分析和实时计算的场景也开始逐渐应用，但这一阶段的使用者主要是开发人员；2013年至今，随着数据的激增，大数据平台演进成了融合大数据平台，而随着AI等技术的突飞猛进，从数据分析到数据挖掘，大数据平台向着智能化进行演进。权威调研机构IDC表示，“数字化时代下的竞争正在加速，市场参与者要么通过数字化转型成为领头企业形成规模化优势，要么将逐渐被市场淘汰”。随着5G、AI、IoT等技术的迅猛发展，到2025年，全球数据量将从2018年的33ZB快速增长到180ZB，全球数字经济总量将达25万亿，CEO也越来越重视，参与度高达67%，数字化技术让投资回报率达到6.7倍，政企数字化进程为64%。综上可知，数字化转型是政企充分释放复杂场景用数需求的必经之路。数字底座如此关键，那么大数据作为主要承载技术，自然是其重中之重。华为云FusionInsight提供MRS数据湖服务，让政企客户在一个大、快、融、稳的云原生数据湖架构下持续演进：1)大：支持最大2万+节点大规模集群，可集群联邦无限扩容；2)快：可T+0实时增量更新同步，可毫秒级高效实时OLAP，缩短分析链路，实现实时数据湖；3)融：通过HetuEngine打破多引擎、多源、跨地域的限制，消除数据孤岛，统一SQL接口融合分析，简化用数，全民BI；4)稳：支持在线滚动升级，无需拆集群、搬应用，使客户一个架构持续演进，十年无忧！5)云原生数据湖：通过统一元数据，让数据全局可视；通过存算分离的企业级EC，降低TCO。华为云大数据，自2008 年开始投入研究，最早于2014年推出商用产品，秉承开源开放的心态，践行“平台+生态”战略，华为云踩对了历史的进程，围绕政企大数据全生命周期，华为云FusionInsight是一个技术领先的云原生智能数据湖，是华为云三大使能之数据使能方案的坚实数据底座。3. 人工智能和机器学习架构应用机器学习的公司已经在使用这套架构的一部分技术。深度使用机器学习的企业会部署整套架构，甚至自研新的工具。场景：数据驱动的内外部应用程序，场景有实时的或批处理的。优势：完全掌控整体的开发过程，将机器学习打造为企业核心且长期的能力。缺陷：不适合尚在探索机器学习，只为小范围的内部应用场景。大规模应用机器学习仍是当前最大的数据挑战华为云ModelArts为政企客户提供一站式的AI训练和推理平台，其具有如下特点：支持AI全栈、全流程、全场景开发训练支持资源统一管理、统一池化调度支持业界主流引擎和自研引擎，实现零成本迁移提供多维度功能特性，满足各类用户在近日发布的《IDC MarketScape: 中国大数据管理平台厂商评估，2020》(以下简称IDC大数据报告)报告中，对中国主流大数据厂商从能力、战略、市场份额三个维度进行了全面评估，华为云位居领导者象限领先位置，并在技术实力和市场份额两大维度双领先在技术上持续创新打磨之外，华为云FusionInsight也是“最懂行”的大数据解决方案：在政府领域，国内50%的智慧城市都有华为云FusionInsight的孜孜不倦的身影，华为云大数据已支撑多个部委和各省市地区建设“大数据+政务”。在某市，华为云FusionInsight联合伙伴建成“一云二网三平台”，在统一的政务数据逻辑模型的指导下，针对民生、产业、政府的“痛点”和“难点”，从构建城市数据资源库为开端，以大数据分析支撑政府智慧决策，以建设智慧应用为抓手，打破信息孤岛，实现信息资源交换共享，在 “数聚惠民”、“数聚兴业”、“数聚善政”三大方面，发挥大数据的威力，支撑 “一号、一窗、一网” 政务服务，让简政放权、百姓办业务“最多跑一次”成为现实。在金融领域，国内50%的TOP20金融客户(含银行、证券、保险等)均已使用华为云FusionInsight构建其大数据平台。某行使用华为云FusionInsight构建大数据基础平台，支撑了银行企业级数据湖、数据仓库、集团信息库为核心的“一湖两库”建设，承载了总行及各支行业务系统，支撑日常银行BI、AI、数据挖掘、数据分析等，实现了一份数据全局可用，免除数据搬迁，提升协同效率10倍，存储周期提升2倍，资源利用率最大可达90%，加速银行数字化转型进程。在运营商领域，国内三大运营商均使用华为云FusionInsight构建其大数据平台。广东移动基于华为云FusionInsight，联合政企客户共同打造智慧电网、智慧交通、智慧港口、高清视频等系列标杆应用，打通数据全生命周期链路，实现对内业务支撑、对外应用赋能，全面支撑了各类政务、民生等大数据应用服务。在交通领域，深圳地铁在6、10号线采用华为云FusionInsight构建大数据分析平台，打造领先的5G+大数据方案，并构建其数据资产中心和运行监控中心，承载地铁各业务系统，支撑设备健康、能耗管理、客流统计、线路中心级监控、应急决策和图像型火灾分析等线路级数据分析，数据分析效率从周级缩短至分钟级，实现高效运营，推动深圳步入更美好的全联接数字化轨道交通新时代…除过在以上各行业的应用，在环境保护方面，青海绿能数据有限公司基于华为云FusionInsight构建了国内首个能源大数据创新平台，实现了规划辅助决策、用气象数据科学指导发电等创新业务，为上下游产业链企业提供25类47项数据服务，推动28座新能源场站实现了“无人值班、少人值守”，并有效支撑了青海“绿电15日”，以大数据为基石，建设绿色新青海，守护高原和谐生态。同时，华为坚持“自己的降落伞自己先跳”，华为集团IT通过FusionInsight构建OneData大数据集群，实现大数据平台在大规模场景下的开拓，OneData集群其规模已至1万+节点;同时，实现了统一的数据管理服务，在菩提海UniDB产品中，通过逻辑统一方式，把50+物理分散的计算集群(Hadoop+MPP)，基于五统一(数据安全，元数据目录，数据集成，数据访问，任务调度)，整合成湖仓一体的架构，支撑上千个企业租户的PB级数据分析处理需求。一个基于FusionInsight MRS+DWS 的“+治理，+AI，+运营，+云”的融合数据底座(菩提海)已经在华为集团IT广泛使用，未来可期。以上只是“冰山的一角”，华为云FusionInsight一方面不断深入理解客户不断发展的业务诉求，另一方面，持续技术创新并引领行业发展，商业诉求+技术创新双轮驱动行业可持续、高质量发展，“用数”助力客户商业成功!上面的论述已经充分证明，华为云是“懂行”的大数据领导者，真正让客户用好数、管好数、放心用。据了解，截至2020 年10月底，华为云FusionInsight 智能数据湖已服务60+个国家和地区，3,000+客户，覆盖政府、金融、运营商、电力、传媒、医疗、教育、交通、油气、物流、零售、制造、互联网等行业。

追梦小柠檬 发表于2020-11-17 21:24:53 2020-11-17 21:24:53 最后回复窗台 2020-11-30 21:17:17
2056 2

FusionInsight 大数据
[技术干货] 再拔头筹，FusionInsight为华为云大数据打造硬实力

近日，IDC发布《IDC MarketScape: 中国大数据管理平台厂商评估，2020》报告。该报告从能力、市场、战略三大维度对中国主流大数据厂商进行全面评估，报告显示华为云位居“领导者(Leaders)”象限，并在市场份额和技术实力两个维度双领先。可以看到，在IDC大数据报告中，有云服务厂商、传统ICT 厂商，以及大数据时代的创企等三类“玩家”。为何华为云能够脱颖而出？解读华为云FusionInsight智能数据湖五大硬核能力据了解，华为云FusionInsight智能数据湖五大硬核能力凸显了创新技术。硬核能力一：让政企客户在一个大、快、融、稳的数据湖架构下可持续演进！大：传统的大数据单集群扩容受限，往往扩容到2000节点就难以突破，华为云FusionInsight通过大集群突破扩展性瓶颈，支持最大2万+节点大集群，还可集群联邦无限扩容。此大规模特性已在华为内部获得了实践，华为云流程IT通过FusionInsight构建OneData大数据集群，其规模已至1万+节点，支撑各部门运营分析、即席查询等大数据分析，每日新增数据近100TB，10万张表，即席查询任务日均1万+，批处理作业每日10万+。华为流程IT OneData大集群历经两次滚动升级，业务0中断，已稳定运行六年。快：因数据量仍在不断指数级增长，人们对大数据高效处理的极致追求永无止境！传统大数据存在分析链路长，以T+1事后报表为主。华为云FusionInsight MRS可T+0实时增量更新和实时OLAP，让大数据越用越”快“！华为集团IT基于FusionInsight，实现了CDC+FLINK的实时集成方案，支撑了主干交易、财经、供应等交易数据的增量整合模型落地，相对于传统数仓的ETL+调度方案，数据供给效率提升了10倍。融：传统大数据分析面临类型多、分布散、协同难等问题；FusionInsight通过HetuEngine实现五大融合，统一SQL接口仅用简单的SQL就可操作PB级数据，全民BI，让大数据越用越简单。某行基于FusionInsight构建金融大数据，通过HetuEngine统一SQL接口，解决数据分散，组件多、语言多等难题，降低技术开发门槛，跨源跨域跨引擎融合分析，数据免搬迁，降低整体TCO。稳：FusionInsight可保障一企一湖连续性，在线滚动升级，业务永远在线，无需拆集群、搬应用，彻底解决传统大数据集群多、效率低、管理难、升级难等问题，让升级过程中关键业务不中断，确保业务连续性。某运营商使用FusionInsight搭建了大数据平台应对5G数据浪涌，先后两次滚动升级实现了大数据平台的平滑演进，实现业务无中断，升级无感知，用户体验持续在线，单集群规模已扩展至1500+节点，支撑了各类政务、旅游、精准扶贫等200+大数据应用服务，覆盖用户1.3亿+。硬核能力二：实时数据湖为了实现实时性，华为云FusionInsight提出了实时数据湖，支持数据实时批量入湖、实时增量同步，全量数据供应效率T+0；可对贴源数据实时多维分析，缩短分析链路，提高分析效率，让数据价值近在眼前！硬核能力三：云原生数据湖近几年，云原生是云计算领域关键的技术创新，华为云在云原生领域也探索多年，通过Data Lake Catalog数据湖目录，为超大规模分析引擎提供统一元数据服务，让数据全局可视可得；在数据存储方面，通过OBS存算分离方案，实现计算、存储按需扩容，基于企业级EC实现最低1.2副本，总体TCO下降20%+，让数据每bit成本更优！。湖内提供交互式分析引擎，可无缝对接BI报表和自助分析，实现秒级用数，数据免搬迁；湖内统一SQL接口，降低技术开发门槛，简化用数，实现技术领先的云原生数据湖。硬核能力四：企业级数据仓库华为云FusionInsight为客户提供基于Shared-Nothing架构提供新一代开放的、全场景分析型数据仓库DWS，支持2048节点扩展能力；多层级全并行计算引擎，可调度海量的算力资源，通过高效的指令效率，实现数据导入和分析；具备多层级容灾能力，稳定可靠，离线、半在线、在线扩容技术，从容应对多种扩容场景。硬核能力五：一站式数据湖治理中心华为云FusionInsight为客户提供一站式数据湖治理中心，助力企业快速构建从数据接入到分析的E2E数据治理体系，统一数据标准，加速数据资产化。通过全域数据视图统一信息架构，统一数据标准；通过一站式全栈平台实现30+异构数据源的高效数据集成；拥有开放完备的安全体系，数据分级分类，统一安全认证。通过以上五大“硬核”能力的加持，华为云FusionInsight新一代的数据湖，让大数据越用越快、越用越易、越用越稳、越用越省！技术产品好不好，要用案例来说话事实上，华为云这种“稳定第一”的表现，在很多权威榜单中也有体现，例如连续四年上榜工信部中国大数据企业50强，连续三年入围Gartner Magic Quadrant for Data Management Solutions for Analytics，在中国区厂商排名第一。在技术受到权威机构认可的同时，华为云FusionInsight也是“最懂行”的大数据解决方案。截至 2020 年 6 月底，华为云大数据已服务了 60+个国家和地区、3000+客户，覆盖政府、金融、运营商、电力、医疗、制造、互联网等众多行业。在政府领域，国内50%的智慧城市都有华为云FusionInsight的孜孜不倦的身影，华为云大数据已支撑多个部委和各省市地区建设“大数据+政务”。在某市，华为云FusionInsight联合伙伴建成“一云二网三平台”，在统一的政务数据逻辑模型的指导下，针对民生、产业、政府的“痛点”和“难点”，从构建城市数据资源库为开端，以大数据分析支撑政府智慧决策，以建设智慧应用为抓手，打破信息孤岛，实现信息资源交换共享，在 “数聚惠民”、“数聚兴业”、“数聚善政”三大方面，发挥大数据的威力，支撑 “一号、一窗、一网” 政务服务，让简政放权、百姓办业务“最多跑一次”成为现实。在金融领域，国内50%的TOP20金融客户（含银行、证券、保险等）均已使用华为云FusionInsight构建其大数据平台。某行使用华为云FusionInsight构建大数据基础平台，支撑了银行企业级数据湖、数据仓库、集团信息库为核心的“一湖两库”建设，承载了总行及各支行业务系统，支撑日常银行BI、AI、数据挖掘、数据分析等，实现了一份数据全局可用，免除数据搬迁，提升协同效率10倍，存储周期提升2倍，资源利用率最大可达90%，加速银行数字化转型进程。在运营商领域，国内三大运营商均使用华为云FusionInsight构建其大数据平台。广东移动基于华为云FusionInsight，联合政企客户共同打造智慧电网、智慧交通、智慧港口、高清视频等系列标杆应用，打通数据全生命周期链路，实现对内业务支撑、对外应用赋能，全面支撑了各类政务、民生等大数据应用服务。在交通领域，深圳地铁在6、10号线采用华为云FusionInsight构建大数据分析平台，打造领先的5G+大数据方案，并构建其数据资产中心和运行监控中心，承载地铁各业务系统，支撑设备健康、能耗管理、客流统计、线路中心级监控、应急决策和图像型火灾分析等线路级数据分析，数据分析效率从周级缩短至分钟级，实现高效运营，推动深圳步入更美好的全联接数字化轨道交通新时代…以及在环境保护方面，青海绿能数据有限公司基于华为云FusionInsight构建了国内首个能源大数据创新平台，实现了规划辅助决策、用气象数据科学指导发电等创新业务，为上下游产业链企业提供25类47项数据服务，推动28座新能源场站实现了“无人值班、少人值守”，并有效支撑了青海“绿电15日”，以大数据为基石，建设绿色新青海，守护高原和谐生态。同时，华为坚持“自己的降落伞自己先跳”，华为集团IT通过FusionInsight构建OneData大数据集群，实现大数据平台在大规模场景下的开拓，OneData集群其规模已至1万+节点；同时，实现了统一的数据管理服务，在菩提海UniDB产品中，通过逻辑统一方式，把50+物理分散的计算集群(Hadoop+MPP)，基于五统一（数据安全，元数据目录，数据集成，数据访问，任务调度），整合成湖仓一体的架构，支撑上千个企业租户的PB级数据分析处理需求。一个基于FusionInsight MRS+DWS 的“+治理，+AI，+运营，+云”的融合数据底座(菩提海)已经在华为集团IT广泛使用，未来可期！以上只是“冰山的一角”，华为云FusionInsight一方面不断深入理解客户不断发展的业务诉求，另一方面，持续技术创新并引领行业发展，商业诉求+技术创新双轮驱动行业可持续、高质量发展，“用数”助力客户商业成功！上面的论述已经充分证明，华为云是“懂行”的大数据领导者，真正让客户用好数、管好数、放心用！底子硬才是真的硬道理可以看到，无论是技术实力还是市场表现，华为云都做到了行业第一。那么，在已有的成绩面前，华为云能否“守得住”？这方面，从已有的动作看，差异化这个主要的特征之外，华为云维持自身地位还有三个方面的竞争优势。长期的技术沉淀华为云 FusionInsight 大数据自 2009 年就开始投入研究，最早在 2014 年推出商用产品，现在，MRS“大快融稳”的云原生数据湖、DWS企业级数据仓库以及一站式数据湖治理中心3项硬核能力都建立这样的长期积累之上，缺乏技术积累和理解的平台显然无法完成这样的升级。对行业、对业务、对企业实际的理解大数据服务必须建立在业务深度理解的基础上，而这不是一朝一夕能完成的，需要靠不断的探索和磨合。华为的市场第一既是一种竞争结果，也代表着它拥有最广泛和深度的业务实践机会。丰富而深厚的生态合作当下，华为云积累了从基础设施到分析应用等领域的合作伙伴群体，包括多行业 800+ISV等，现在，其为合作伙伴提供了100+开放API接口，技术生态化带来的大数据应用将更加丰富。可以看到，三个都需要时间和经验积淀的优势，让华为云大数据有了既深且宽的竞争“护城河”。

追梦小柠檬 发表于2020-11-15 21:33:30 2020-11-15 21:33:30 最后回复追梦小柠檬 2020-11-15 21:33:30
950 0

FusionInsight 大数据
[技术干货] 华为云FusionInsight与世界同行，持续创新，引领大数据技术发展

近期，美国知名科技企业风投机构A16Z总结出一套通用的技术架构服务，分为以下三种场景。一、数据基建架构全景图片来源于网络数据流向显示，左侧的数据源经数据处理（批量、实时流、事件流等）将数据统一汇聚到数据湖或数仓中，通过数据科学或机器学习进行AI分析，通过AD Hoc和实时分析为客户或APP提供敏捷的结果数据。华为云FusionInsight为政企客户提供一站式全场景的云原生数据湖，围绕政企客户在采存算管用等数据全生命周期提供领先的整体解决方案，方案主要包含MRS云原生数据湖、DWS数据仓库、一站式数据治理中心等云服务，助力政企客户释放海量数据价值！其架构如下：华为云FusionInsight智能数据湖架构图上千个大型客户已经基于FusionInsight架构构建其大数据应用平台。 A16Z经过调查相关业内人士得出一个结论：一个统一的现代化的数据基建需要三类架构来实践三种不同的应用场景。现代化 BI 架构多模式数据处理架构人工智能和机器学习架构 1.现代化 BI 架构图片来源于网络这是对小型数据团队和预算有限的企业的默认选项，企业逐渐从传统数仓迁移到这个架构，利用云的灵活度和可扩展性。应用场景包含：报表，仪表盘，自助式分析，主要使用SQL来分析结构化数据。优势：前期投入低，启动快，市场上人才储备充分。缺陷：对于数据场景复杂的团队不适用，比如需要数据科学，机器学习，或者实时场景。传统的小型数据团队其面对的数据基本以核心交易系统的RDBMS结构化数据为主，数据量在GB级，普通的数仓都可支持其数据的分析挖掘，无需大数据支撑就可完成，这种处理方式在2008年时的大型企业中也较为常见，其数据量较小基本上使用数仓就可完成日常的数据大屏、数据分析等工作。这是对小型数据团队和预算有限的企业的默认选项，利用云的灵活度和可扩展性，企业逐渐从传统数仓迁移到这个架构。华为云FusionInsight可提供企业级数仓，DWS目前服务于全球1000+大型客户，广泛应用于政府、金融、运营商、大企业等领域。产品始于2011年，经历将近10年技术积累，已取得180+国内外授权专利。DWS可支撑日常的结构化数据分析，其具有如下特点：大规模：DWS基于分布式架构，在保证ACID的基础下，突破大规模分布式场景下集群通信（Multi-Streams）、逻辑集群（Multi-Groups）技术，具备2048节点扩展能力。值得一提的是，逻辑集群可将ODS、数据仓库、数据集市、自助分析等不同业务负载，有机的统一起来，有效隔离、有效共享。高性能：DWS具备多层级全并行计算引擎。支持多个物理节点并行计算，在一个物理节点内部，支持多个CPU核心并行计算，在一个CPU核心的指令序列中，支持SIMD指令，实现一个指令同时操作多条数据。将并行能力发挥到极致，为业务提供极致的性能。另外，Multi-Cores技术使得在鲲鹏上性能相比同代x86芯片提升30%以上。高可靠：DWS具备多层级容灾能力，在AZ、集群、节点及进程出现软硬件异常的情况下能够平滑处理。另外，Server端Multi-Retries技术大幅减少故障失败的业务感知；其次，在棘手的亚健康问题上，DWS也有完善的检测和处理机制；最后，离线扩容、半在线扩容、在线扩容技术能够从容应对客户不同的扩容需求。华为云DWS数据仓库技术核心是分布式架构，过去十年一直围绕分布式构筑竞争力。未来，DWS数据仓库将基于分布式架构持续演进，围绕云、大数据、5G/IoT、人工智能，构筑下一代开放的、全场景分析型数据库。 2.多模式数据处理架构图片来源于网络这个架构通常用于大型企业和科技公司，用来满足复杂的数据需求场景。应用场景包括：BI及高级功能，包括AI/ML，低延时分析，大规模数据转换，多类型的数据处理（文字，图像和视频）使用各种语言（JAVA/SCALA，Python和SQL）优势：能灵活的支持各种应用，工具和UDF和部署环境。在大规模数据集上的成本优势。缺陷：不适合小型数据团队，维护这套架构需要较多的时间，费用和专家资源投入。在现实世界中，需求侧觉醒的同时，在平行的赛博世界中，技术的进化也一直在持续。自从2006年Apache Hadoop架构发布以来，到2011年，企业逐渐采用Hadoop架构演进出来的开源或商用大数据软件，开启了离线计算时代；2012年，以Spark等为核心的流式计算开启了实时计算时代，在线分析和实时计算的场景也开始逐渐应用，但这一阶段的使用者主要是开发人员；2013年至今，随着数据的激增，大数据平台演进成了融合大数据平台，而随着AI等技术的突飞猛进，从数据分析到数据挖掘，大数据平台向着智能化进行演进。权威调研机构IDC表示，“数字化时代下的竞争正在加速，市场参与者要么通过数字化转型成为领头企业形成规模化优势，要么将逐渐被市场淘汰”。随着5G、AI、IoT等技术的迅猛发展，到2025年，全球数据量将从2018年的33ZB快速增长到180ZB，全球数字经济总量将达25万亿，CEO也越来越重视，参与度高达67%，数字化技术让投资回报率达到6.7倍，政企数字化进程为64%。综上可知，数字化转型是政企充分释放复杂场景用数需求的必经之路。华为云FusionInsight MRS架构特性数字底座如此关键，那么大数据作为主要承载技术，自然是其重中之重。华为云FusionInsight提供MRS云原生数据湖服务，让政企客户在一个大、快、融、稳的云原生数据湖架构下持续演进：大：支持最大2万+节点大规模集群，可集群联邦无限扩容；快：可T+0实时增量更新同步，可毫秒级高效实时OLAP，缩短分析链路，实现实时数据湖；融：通过HetuEngine打破多引擎、多源、跨地域的限制，消除数据孤岛，统一SQL接口融合分析，简化用数，全民BI；稳：支持在线滚动升级，无需拆集群、搬应用，使客户一个架构持续演进，十年无忧！云原生数据湖：通过统一元数据，让数据全局可视；通过存算分离的企业级EC，降低TCO。华为云大数据，自2008 年开始投入研究，最早于2014年推出商用产品，秉承开源开放的心态，践行“平台+生态”战略，华为云踩对了历史的进程，围绕政企大数据全生命周期，华为云FusionInsight是一个技术领先的云原生智能数据湖，是华为云三大使能之数据使能方案的坚实数据底座。 3. 人工智能和机器学习架构图片来源于网络应用机器学习的公司已经在使用这套架构的一部分技术。深度使用机器学习的企业会部署整套架构，甚至自研新的工具。场景：数据驱动的内外部应用程序，场景有实时的或批处理的。优势：完全掌控整体的开发过程，将机器学习打造为企业核心且长期的能力。缺陷：不适合尚在探索机器学习，只为小范围的内部应用场景。大规模应用机器学习仍是当前最大的数据挑战 ModelArts AI平台架构图华为云ModelArts为政企客户提供一站式的AI训练和推理平台，其具有如下特点：支持AI全栈、全流程、全场景开发训练支持资源统一管理、统一池化调度支持业界主流引擎和自研引擎，实现零成本迁移提供多维度功能特性，满足各类用户在近日发布的《IDC MarketScape: 中国大数据管理平台厂商评估，2020》(以下简称IDC大数据报告)报告中，对中国主流大数据厂商从能力、战略、市场份额三个维度进行了全面评估，华为云位居领导者象限领先位置，并在技术实力和市场份额两大维度双领先在技术上持续创新打磨之外，华为云FusionInsight也是“最懂行”的大数据解决方案：在政府领域，国内50%的智慧城市都有华为云FusionInsight的孜孜不倦的身影，华为云大数据已支撑多个部委和各省市地区建设“大数据+政务”。在某市，华为云FusionInsight联合伙伴建成“一云二网三平台”，在统一的政务数据逻辑模型的指导下，针对民生、产业、政府的“痛点”和“难点”，从构建城市数据资源库为开端，以大数据分析支撑政府智慧决策，以建设智慧应用为抓手，打破信息孤岛，实现信息资源交换共享，在 “数聚惠民”、“数聚兴业”、“数聚善政”三大方面，发挥大数据的威力，支撑 “一号、一窗、一网” 政务服务，让简政放权、百姓办业务“最多跑一次”成为现实。在金融领域，国内50%的TOP20金融客户(含银行、证券、保险等)均已使用华为云FusionInsight构建其大数据平台。某行使用华为云FusionInsight构建大数据基础平台，支撑了银行企业级数据湖、数据仓库、集团信息库为核心的“一湖两库”建设，承载了总行及各支行业务系统，支撑日常银行BI、AI、数据挖掘、数据分析等，实现了一份数据全局可用，免除数据搬迁，提升协同效率10倍，存储周期提升2倍，资源利用率最大可达90%，加速银行数字化转型进程。在运营商领域，国内三大运营商均使用华为云FusionInsight构建其大数据平台。广东移动基于华为云FusionInsight，联合政企客户共同打造智慧电网、智慧交通、智慧港口、高清视频等系列标杆应用，打通数据全生命周期链路，实现对内业务支撑、对外应用赋能，全面支撑了各类政务、民生等大数据应用服务。在交通领域，深圳地铁在6、10号线采用华为云FusionInsight构建大数据分析平台，打造领先的5G+大数据方案，并构建其数据资产中心和运行监控中心，承载地铁各业务系统，支撑设备健康、能耗管理、客流统计、线路中心级监控、应急决策和图像型火灾分析等线路级数据分析，数据分析效率从周级缩短至分钟级，实现高效运营，推动深圳步入更美好的全联接数字化轨道交通新时代… 除过在以上各行业的应用，在环境保护方面，青海绿能数据有限公司基于华为云FusionInsight构建了国内首个能源大数据创新平台，实现了规划辅助决策、用气象数据科学指导发电等创新业务，为上下游产业链企业提供25类47项数据服务，推动28座新能源场站实现了“无人值班、少人值守”，并有效支撑了青海“绿电15日”，以大数据为基石，建设绿色新青海，守护高原和谐生态。同时，华为坚持“自己的降落伞自己先跳”，华为集团IT通过FusionInsight构建OneData大数据集群，实现大数据平台在大规模场景下的开拓，OneData集群其规模已至1万+节点;同时，实现了统一的数据管理服务，在菩提海UniDB产品中，通过逻辑统一方式，把50+物理分散的计算集群(Hadoop+MPP)，基于五统一(数据安全，元数据目录，数据集成，数据访问，任务调度)，整合成湖仓一体的架构，支撑上千个企业租户的PB级数据分析处理需求。一个基于FusionInsight MRS+DWS 的“+治理，+AI，+运营，+云”的融合数据底座(菩提海)已经在华为集团IT广泛使用，未来可期。以上只是“冰山的一角”，华为云FusionInsight一方面不断深入理解客户不断发展的业务诉求，另一方面，持续技术创新并引领行业发展，商业诉求+技术创新双轮驱动行业可持续、高质量发展，“用数”助力客户商业成功!上面的论述已经充分证明，华为云是“懂行”的大数据领导者，真正让客户用好数、管好数、放心用。据了解，截至2020 年10月底，华为云FusionInsight 智能数据湖已服务60+个国家和地区，3,000+客户，覆盖政府、金融、运营商、电力、传媒、医疗、教育、交通、油气、物流、零售、制造、互联网等行业。PS：华为云FusionInsight智能数据湖将参加2020高交会，参展时间：11月11日-15日，展馆地址：深圳市会展中心1号馆1A16，感兴趣的朋友不要错过，每天更有好礼等着你！更多内容，华为云FusionInsight系列文章：https://bbs.huaweicloud.com/forum/thread-66105-1-1.html 免责声明：文中部分图片来源于网络，如有版权问题请联系作者删除。

沙漏 发表于2020-11-10 15:07:44 2020-11-10 15:07:44 最后回复沙漏 2020-11-10 15:07:44
2346 0

FusionInsight 大数据
[技术干货] 华为云FusionInsight湖仓一体解决方案的前世今生

伴随5G、大数据、AI、IoT的飞速发展，数据呈现大规模、多样性的极速增长，为了应对多变的业务诉求，政企客户对数据处理分析的实时性和融合性提出了更高的要求，“湖仓一体”的概念应运而生，它打破数据湖与数仓间的壁垒，使得割裂数据融合统一，减少数据分析中的搬迁，实现统一的数据管理。华为云CTO张宇昕在2020HAS上提出“湖仓一体”概念早在2020年5月份的华为全球分析师大会上，华为云CTO张宇昕提出了“湖仓一体”，在刚结束的HC2020上，张宇昕在发布新一代智能数据湖华为云FusionInsight时再次提到了湖仓一体。那我们就来看看湖仓一体的来世今生。数据湖和数据仓库的发展历程和挑战早在1990年，比尔·恩门（Bill Inmon）提出了数据仓库，主要是将组织内信息系统联机事务处理(OLTP)常年累积的大量资料，按数据仓库特有的资料储存架构进行联机分析处理(OLAP)、数据挖掘(Data Mining)等分析，帮助决策者快速有效地从大量资料中分析出有价值的资讯，以利决策制定及快速响应外在环境变化，帮助构建商业智能(BI)。大约十年前，企业开始构建数据湖来应对大数据时代，它通常把所有的企业数据统一存储，既包括源系统中的原始副本，也包括转换后的数据，比如那些用于报表, 可视化, 数据分析和机器学习的数据。纵观数据湖与数据仓库的技术发展，不难发现两者有着各自的优劣，具体表现如下：特性数据湖数据仓库数据源来自 IoT 设备、网站、移动应用程序、社交媒体和企业应用程序的非关系和关系来自交易系统、运营数据库和业务线应用程序的关系Schema在分析时写入（读取型 Schema）在 DW 实现之前设计（写入型 Schema）性价比低成本存储获得较快的查询结果较高成本的存储获得最快的查询结果数据质量任何可以或无法进行监管的数据 (例如原始数据)可作为重要事实依据的高度监管数据用户数据科学家、数据开发人员、业务分析师业务分析师分析机器学习、预测分析、数据发现和描述批处理报告、BI 和可视化企业在进行系统架构设计选型时，需要从具体的分析场景出发，单一的模式已经无法满足企业发展的业务诉求，集中表现在以下两个痛点：湖仓对比, 各有千秋数据湖主要以离线批量计算为主，因为不支持数据仓库的数据管理能力，难以提高数据质量；数据入湖时效差不支持实时更新，数据无法强一致性；主题建模不友好，无法直接历史拉链建模；同时交互分析通常将数据搬迁到数据仓库平台，造成分析链路长，数据冗余存储；批&流等场景融合不够，无法满足企业的海量数据处理诉求。数据仓库满足不了非结构化数据的分析需求，性价比不高；同时仓&湖间难以互联互通，数据协同效率较低，无法支持跨平台透明访问，形成了事实上的数据孤岛，找数困难；缺乏全局数据视图，不同平台接口差异和不同开发管理工具，造成用户开发使用复杂，数据分别管理维护代价高体验差。数据湖和数据仓库正在从两条技术演进路线走向融合综上，数据湖和数据仓库在企业数据分析场景分别承担一湖一仓的重要角色，形成了完整的数据分析生态系统，上述企业场景面临的2个关键痛点也在驱动数据湖和数据仓库在技术演进上走向融合：第一个融合方向是基于Hadoop体系的数据湖向数据仓库能力扩展，湖中建仓，从DataLake进化到LakeHouse。LakeHouse结合了数据湖和数据仓库特点，直接在用于数据湖的低成本存储上实现与数据仓库中类似的数据结构和数据管理功能。目前业界已经涌现了一些LakeHouse产品，如Netflix开源Iceberg、Uber开源Hudi、Databricks的 DeltaLake。从DataLake进化到LakeHouse，数据湖扩展数仓能力以目前生态发展迅速的Apache Hudi为例：统一数据存储，分布式存储不同应用所需的各种类型数据；数仓模式执行和治理，实现事务&更新机制，保证数据完整性和一致性，具有健壮的治理&审计机制；支持各种分析引擎，统一数据存储通过开放和标准化的存储格式（如Parquet），提供API以便各类工具和引擎（包括机器学习和Python / R库）直接有效地访问数据。虽然LakeHouse并不能完全替代数据仓库，但通过增强性能，支持实时入湖、建模、交互分析等场景，将在企业分析环境中发挥更大作用。第二个融合方向是数据湖和数据仓库协同起来向湖仓一体的融合分析架构发展，随着企业数据量快速增长，不仅是结构化数据，也有非结构化数据，同时提出了对搜索/机器学习更多的能力要求，使得原来数仓技术不能够有效的处理复杂场景，为此需扩展原有系统，引入Hadoop大数据平台实现新类型数据、新业务场景的支持。在这个背景下由Gartner在2011年提出逻辑数据仓库的概念，预测企业数据分析倾向于转向一种更加逻辑化的架构，利用分布式处理、数据虚拟化以及元数据管理等技术，实现逻辑统一物理分开的协同体系。逻辑数仓的高阶架构湖仓一体可以认为是逻辑数据仓库架构理念下针对Hadoop数据湖和MPPDB数据仓库的融合架构的最好诠释，数据对用户将完全实现虚拟化，以逻辑统一的数据分析系统为企业提供数据分析服务：用户使用层面提供统一元数据管理和数据视图，实现全局数据可见可查，支持标准统一访问接口简化用户开发，提供统一开发和治理的工具体系。平台层面Hadoop与MPPDB具备数据共享和跨库分析能力，支持互联互通、计算下推、协同计算，实现数据多平台之间透明流动。华为云FusionInsight湖仓一体解决方案参考架构华为云FusionInsight智能数据湖涵盖了分布式存储、大数据、数据仓库、数据治理等，融合了上述两个技术演进方向，为企业用户提供云原生湖仓一体解决方案，整体的参考架构如下：华为云FusionInsight湖仓一体解决方案参考架构下面一起来看看：数据存储层：通过OBS统一管理湖&仓的存储底座，将存储在EC（Erasure Code纠错码）、可靠性方面的优势融入进了大数据生态：云原生架构领先：基于云原生架构的OBS存储，具有高带宽，大并发，分布式元数据等特征，因此相同成本的华为存算分离的湖仓一体化集群，数据读写性能领先业界30%。存储计算分离有效降低TCO：支持大比例EC, 副本数从3最低可降低至1.09，TCO下降20%+。统一元数据管理实现湖仓共享存储资源池：通过独立的Data Lake Catalog提供统一元数据管理，兼容Hive Metastore接口，可以无缝对接各类大数据组件。实现针对同一份元数据定义支持各类场景、对象、文件、大数据等不同协议间的数据共享，让数据仓库、数据湖、图引擎、AI等多种计算引擎共享统一的数据存储池。此方案不仅消除了孤立系统中的数据副本，还使得客户可以按照业务按需使用计算存储资源，不仅降低了CAPEX，还简化了运维，从而达成最佳TCO。同时，Data Lake Catalog开放接口，支持和第三方的计算引擎层、数据治理层对接。计算引擎层：把事务能力引入数据湖，通过HetuEngine标准SQL实现跨域多源统一访问，湖&仓数据互通协同计算，数据免搬迁：CarbonData & Hudi数据实时入湖，实现数据湖事务能力：企业内部许多数据管道通常会并发读写数据，我们通过CarbonData& Hudi数据存储引擎实现数据实时、增量更新，数据T+0实时入湖，大幅缩短传统T+1、T+2时延；引入的增量处理框架，实现了数据湖事务能力，支持入湖过程中的Update/Delete等。HetuEngine支持跨源跨域统一SQL访问，简单易用：用户层基于统一的标准SQL接口，对接多个数据源（HDFS, HBase, DWS等），提供秒级交互式访问，满足各种统计分析、多表Join关联等，让分析建模人员数据分析更容易，降低访问门槛。HetuEngine & DWS-Express打破数据墙，数据免搬迁创新更敏捷：支持数据湖与数据仓库间的数据互联互通、跨平台协同计算，数据免搬迁。HetuEngine在湖内基于统一数据目录，实现高并发，高性能的交互式查询，基于一份数据进行批、流、交互式融合分析，贴源加工、整合关联、主题加工等都在湖内，数据不出湖，分析链路短，加速业务创新；用户可使用DWS-Express提供由成百上千节点组成的加速集群，对存储在OBS上的海量数据进行在线分析，相比本地托管集群，效率提升数百倍。自研Superior调度器支持单集群2万+节点规模，业界最佳：在一个集群内，通过华为自研的Superior调度器支持各种工作负载统一调度，包括数据科学、机器学习以及SQL和分析，调度速率达35万Container/s，资源利用率达90%+，大幅降低企业投入成本。数据冷热分级存储实现更高效的全生命周期管理：DWS具备与OBS的双向互通的能力，既能直接读取OBS上的海量历史数据，也能够直接写入数据到OBS。通过这个特性，我们可以对企业中的海量数据进行更加高效的全生命周期管理，分析中经常使用到的热/温数据存放在DWS中，较少使用的冷数据存放到OBS中，兼顾企业对分析性能和存储经济性的诉求。无缝衔接AI挖掘更多数据价值：深度优化一站式开发平台ModelArts&分布式图计算引擎GES提高开发效率。提供基于数据湖的AI训练推理能力，减少数据搬迁次数，基于100+机器学习算子和NLP算法，实现海量数据快速价值挖掘，满足场景预测、自然语言处理及企业知识图谱等应用；让GES更快捷地为金融等场景提供关系网络分析等服务。运营管理层：通过DAYU实现了湖&仓统一的数据集成、开发、目录、治理、开放服务等的运营管理：数据集成：实现多源异构数据高效入湖，支持批/流/实时数据多种方式接入。其中，批量数据迁移基于分布式计算框架，利用并行化处理技术，支持用户稳定高效地对海量数据进行移动，实现不停服数据迁移，快速构建所需的数据架构；流和实时数据接入每小时可从数十万种数据源（例如日志和定位追踪事件、网站点击流、社交媒体源等）中连续捕获、传送和存储数TB数据。数据开发：提供一站式敏捷数据开发平台，提供可视化的图形开发界面、丰富的数据开发类型（脚本开发和作业开发）、全托管的作业调度和运维监控能力，内置行业数据处理pipeline，一键式开发，全流程可视化，支持多人在线协同开发，支持管理多种大数据云服务，极大地降低了用户使用大数据的门槛，帮助用户快速构建数据湖数据处理中心。数据治理：为企业提供数据体系标准和数据规范定义的方法论，统一数据语言和数据建模；为普通业务人员提供高效、准确的数据搜索工具，高效找到数据；提供技术元数据与业务元数据的关联，业务人员快速读懂数据；为数据提供有效的质量管控和评估手段，数据可信质量高。数据开放：为数据湖搭建统一的数据服务总线，帮助企业统一管理对内对外的API服务，支撑业务主题/画像/指标的访问、查询和检索，提升数据消费体验和效率；支持100+开放API，拥有10+行业模板，使能行业ISV快速集成，助力客户数据标准资产沉淀。综上所述，正是在三层架构都打通了湖仓的技术壁垒，我们才看到了真正的湖仓一体：数据存储层基于云原生领先架构，存算分离有效降低TCO，统一元数据管理实现湖仓共享存储资源池，针对同一份元数据定义支持各种场景，提供API方便各类工具和引擎（包括机器学习、Python、R等）直接有效地访问数据，这是实现湖仓一体的一个关键点；计算引擎层为数据湖增加了事务能力提升了数据质量；利用HetuEngine通过标准SQL访问跨域多源数据，实现湖&仓数据关联分析协同计算，简单易用; 打破数据墙，在湖内基于统一数据目录，可基于数据湖实现融合分析&AI训练推理，减少数据搬迁，实现海量数据快速价值挖掘。运营管理层则提供统一的数据开发和治理环境，具备安全管理功能，支持多引擎任务统一开发和编排，数据统一建模和质量监测，实现湖仓一致的开发治理体验。未来展望华为云FusionInsight智能数据湖基于客户需求和技术演进趋势持续创新，为企业客户提供湖仓一体解决方案，致力于打造业界最佳的数据底座，让企业业务的创新更敏捷，业务洞察更准确，加速释放数据价值，和数据使能协同更好地服务千行万业！

沙漏 发表于2020-11-03 21:38:32 2020-11-03 21:38:32 最后回复建赟 2020-11-07 20:38:23
4025 1

云数据仓库 GaussDB(DWS) FusionInsight
[行业动态] 华为云FusionInsight大数据技术普惠创新，释放千行百业数据价值

8月31日，华为云举办TechWave大数据专题日，围绕“大数据技术普惠创新，释放千行百业数据价值！” 主题，从金融、运营商等行业在大数据创新的实践，顶级高校的大数据顶尖人才培养和科学研究，以及华为云FusionInsight智能数据湖系列大数据产品的技术创新等方面，以产学研深度融合的方式展开分享和探讨。专题日上，还重磅发布实时数仓新品。大会的精彩内容，让我们一起来看下吧！大数据技术普惠创新，释放千行百业数据价值上世纪90年代至今，人们经历了PC时代、互联网时代、移动互联网时代，当前正在迈入智能数据时代。随着技术的演进，数据也发生了巨大变化。数据规模越来越大、数据种类呈现多样性、数据处理时效性要求越来越高，同时，对数据融合分析要求越来越强烈。华为云人工智能领域总裁贾永利表示，“为了应对企业应用大数据面临的各种挑战，华为云推出了智能数据湖FusionInsight，围绕客户在采存算管用等数据全生命周期提供整体解决方案。“方案包含了MRS大数据、DWS数仓、DAYU数据运营等产品，并由华为云博士天团进行详细解读。同时，为了响应政企客户在数据仓库方面对时效性的需求，专题日还重磅发布了DWS实时数仓新品，其具备快、易、简、省四大特点，具体如下：快：实时数仓时序数据单机入库性能支持每秒10万条数据、每秒60万条流数据持续计算入库，并可线性扩展。易：支持基于SQL完成复杂流式计算语义定义，简化开发。以Druid监控的一个场景为例，仅用150行SQL代码实现了原有1900 行Druid脚本同样的功能。简：实现了1 = N。在一个平台内，同时实现Flink/Spark Streaming（流数据处理）+Druid（流数据预聚合）+InfluxDB（时序数据处理），简化了开发和运维工作。省：时序数据经过实时数仓的自适应压缩算法，最高可达40:1的压缩比，将多维度行列存储优化，数据冷热温自动分区，极大地减少存储空间，节省用户成本。华为云DWS实时数仓，适用于IoT和运维监控场景，已经在华为流程IT运维大数据平台上线使用。工商银行、广东移动分享大数据创新实践大数据专题日中，工商银行、广东移动作为行业的领军者，分别分享了基于华为云FusionInsight的大数据创新实践。工商银行软件开发中心总经理刘承岩表示：“在智能化阶段，我们引入了华为云FusionInsight、GaussDB等产品，搭建了自主可控的大数据云平台，解决了大数据全场景生态化应用的存储、算力和算法挑战，支撑了我行企业级数据湖、数据仓库、集团信息库的一湖两库建设，数据智能服务由事后快速演进到事前、事中的阶段；在生态化阶段，我行进一步深化和华为云的合作，实现大数据云平台和华为云Stack云基础设施的融合，进一步提升大数据云平台的高可用和弹性灵活扩展能力，全面支撑金融数据湖的生态化建设，更好的服务于我行数字工行转型！” 同时，中国移动通信集团广东有限公司信息系统总经理谭丽丽表示：“为更好释放运营商大数据的强大生产力，用好数据、技术等资源，提高广东移动大数据平台的能力，广东移动基于华为云FusionInsight构建智慧大数据平台，积极创新面向个人客户的应用服务，联合政企客户共同打造智慧电网、智慧交通、智慧港口、高清视频应用等系列标杆应用，全力推动5G+大数据，服务百姓、融入百业，更好地满足广大客户对美好数字生活的需要！”清华大学：产学研深度融合，培养大数据领军人才清华大学软件学院院长、信息学院副院长、大数据研究中心执行主任王建民分享了他对大数据顶尖人才培养的看法。他认为，大数据作为一种新型战略资源，其运用将改变人们的传统认知，对大数据开展持续深入的研究，不仅将引发学科建设、科学研究等方面的深刻变革，还将极大的推动人才培养和教师队伍建设。未来，清华大学将持续不断的培养大数据领域的专门人才，在数字中国、数字经济、新基建等重大领域，让大数据人才“学以致其道，算以致其用”。同时，依托大数据研究中心，持续与华为等企业一起，创新合作机制。持续探索与兄弟院系、学校开展跨学科、跨领域的深度融合，打造顶尖的大数据科学研究团队，突破大数据关键领域与技术，培养一批有水平，有远见，有担当的大数据领军人才，为社会繁荣发展做出贡献！华为云FusionInsight引领全球大数据技术发展华为云FusionInsight解决方案首席架构师洪福成为我们解读了华为云FusionInsight整体架构解决方案。华为云FusionInsight智能数据湖为政企客户提供了一站式大数据分析平台，其主要有以下四个特点：大集群：支持单集群2万节点。华为自研Superior超级调度器，可以调度2万+节点规模；单跨机房部署，解决空间不足；业务自动感知；支持滚动升级，业务运行0中断，用户体验无感知。湖仓一体：批处理和交互式查询融合， “0”数据搬移。基于HetuEngine组件实现交互式查询，数据“0”搬迁；资源基于YARN进行统一调度，资源利用率高、成本更低；支持多租户，多部门业务任务并行处理。实时数据湖：数据T+0实时入库、消费、分析。数据增量更新入库：基于行级Delta文件，IO小，面向实时更新优化，T+0时效；支持ACID事务，确保数据一致性，多方并发读写数据；Carbon支持索引，精确点查比Parquet性能提升100倍，1PB数据精确点查30内响应。一个企业一个湖：集约高效、易管理。资源利用率高：湖内全量数据批、流、交互式多引擎融合，多租户权限隔离，统一资源调度，资源利用率提升至90%；分析效率高：数据在统一数据湖内，数据流转链路短，分析效率高；易管理、易维护：统一集群，一个版本；滚动升级，业务“0”中断。CarbonData释放海量数据价值尽显数据湖之美华为云大数据高级架构师郝行军博士为我们解读了华为自研的CarbonData数据存储引擎。其面对复杂业务场景可实现全局一份数据到处使用，免去数据搬迁的困扰；面对海量数据的查询使用，针对性优化了查询加速，可实现PB级数据30秒内响应；在时间就是金钱的信息时代，时效性的突出优势被企业所看好，同时CarbonData支持大数据更新，可实现数据T+0实时入湖，优化了传统T+1、T+2的可见时延。 DWS新一代、全场景、云数据仓库华为云DWS总经理叶涛分享了数据仓库的大、快、稳等特性。大：分布式架构、高扩展，容纳海量数据和业务DWS从架构源头上采用了Share-Nothing无共享的分布式架构，单集群PB级以上的数据容量，最大可扩展至2048个节点。随着节点数增加，集群的性能和容量线性增长，线性加速比>0.9。快：聚合海量算力、最优效率，导入和分析快如闪电采用了全并行计算的架构。支持多个物理节点并行计算。同时，实现了新一代智能优化器技术、高效的算子算法、动态编译等核心技术，带来了高效的指令效率。稳：多层备份、多级保护，实现数据无忧、持续可用在GaussDB(DWS)的系统部署中，关键硬件都有冗余备份。所有的软件组件都能实现实例多活或者Active-Standby的互备。同时，实现了全方位的软硬件故障检测，一旦出现了硬件和软件的故障，集群都可以快速的检测和响应，自动的故障切换，实现数据无忧，业务持续可用。DAYU一站式数据运营，管好数，用好数华为云大数据产品总监杨兴华分享了一站式数据运营平台DAYU，协同伙伴，使能“从比特到信息”的价值发现，释放数据之美，助力企业管好数，用好数。其核心特点如下：全域联邦数据资产管理：支持超过30+的数据源对接，形成数据融合协同，同时也不破坏原有的IT系统建设，支撑达到“立而不破”的效果。开放的架构体系：DAYU围绕数据使用，今年重构了整体架构，重心面向伙伴协同，打造开放体系，提供分层API接口供伙伴调用，包括基础的集成开发，元数据管理、安全管理，数据开放，以及高级的质量管理，数据模型，资产运营等，伙伴可以根据自身系统和业务特点按需集成；共享型行业资产模型：在资产运营管理框架基础上，采用模型驱动的理念实现资产的一键注入、导出、自动化管理，数据资产化效率实现3倍提升，支撑伙伴快速构筑行业数据资产生态。此外，DAYU围绕数据目录，资产地图，数据血缘，打造了进阶式的数据资产管理体系。在数据安全方面，DAYU从最开始就围绕数据规划了完善的安全管理能力，包括权限管控、合规审计、敏感发现、隐私保护和风险管理，让用户放心用数。 DAYU推出一年多以来，其端到端全流程数据可视管理，一键式资产沉淀能力，加速了企业数字化转型的进程，受到行业伙伴和客户的欢迎。未来将继续围绕数据价值使能，坚持架构开放，持续丰富各层级的API，进一步普惠伙伴，助力沉淀行业数据资产。目前，华为云FusionInsight智能数据湖已广泛应用于政府、金融、运营商、大企业、互联网等行业，已为全球60多个国家和地区的3000多家政企客户提供服务。未来，华为云FusionInsight将与800多家合作伙伴一起，携手客户创新应用实践，基于FusionInsight智能数据湖构建领先的数据基础平台，实现一企一湖，业务洞见更准，价值兑现更快。让政企用户更方便快捷高效地用好数据，加速数字化转型升级。 8月31日，华为云TechWave大数据专题日成功举办。让我们看金融、运营商等行业趋势，听顶级高校人才培养之道，学华为大数据领先技术，各路领军人物“华山论数”，精彩内容更能回看！大数据专题日地址：https://www.huaweicloud.com/about/techwave_bigdata.html 华为云大数据调查问卷：有奖观影活动：

沙漏 发表于2020-09-01 09:49:27 2020-09-01 09:49:27 最后回复沙漏 2020-09-01 09:49:27
12227 0

FusionInsight 云计算大数据
[行业动态] 华为云FusionInsight助力广东移动利用大数据技术应对5G数据浪涌，释放海量数据价值

“2020年疫情突发，广东移动通过用户注册提交信息，快速组装业务逻辑，注册大数据标准服务OPENAPI，以100个通道同时向外发布数据查询能力。结合大数据平台的快速能力，24小时内组装出‘健康码’的应用，查询返回时间小于1秒钟，每天响应200万的并发查询量，峰值达400万，高效助力疫情防控。”8月31日，华为云TechWave大数据专题日在线上举行，中国移动通信集团广东有限公司信息系统部总经理谭丽丽分享了运营商大数据创新应用实践。广东移动信息系统部总经理谭丽丽数据价值日益显现，广东移动积极拓展大数据应用近年来，在云计算、大数据、人工智能等ICT技术的推动下，数字化转型方兴未艾，数据的作用越来越重要。据GIV@2025预测，到2025年，全球97%的大企业将采用AI，90%的人口将拥有个人智能终端助理，58%的人口将享有5G服务。与此同时，企业的数据利用率将达86%，全球年存储数据量高达180ZB。这意味着，数据已成为至关重要的生产要素，蕴藏着巨大的价值和潜能。据悉，作为运营商领域的创新排头兵，中国移动通信集团广东有限公司信息系统部总经理（以下简称“广东移动”）一直致力于拓展大数据应用，早在2015年10月便启动了大数据平台建设工作，并在2016年建立子公司统一的大数据生态，依托大数据平台来实现内部业务效率提升和外部用户服务。经过近五年的建设，广东移动大数据集群规模已超2500节点，存储容量达到80PB，覆盖移动用户数超1.3亿，是全国运营商领域覆盖用户数量最多，规模最大以及技术领先的大数据平台。随着5G商用进程的深化，5G 技术将推动移动互联网、物联网、大视频、大数据、云计算、人工智能等关联领域裂变式发展，数据进一步迎来爆发式增长。为满足中国移动公司“5G+”战略布局及业务发展的需求，更好释放运营商大数据的强大生产力，用好数据、技术等资源，提高广东移动大数据平台的能力，广东移动基于华为云智能数据湖解决方案FusionInsight构建大数据智慧平台，积极创新面向个人客户的应用服务，联合政企客户共同打造智慧电网、智慧交通、智慧港口、高清视频应用等系列标杆应用。华为云提供数字底座，助力广东移动构建大数据智慧平台为全面释放数据价值，广东移动大数据智慧平台分为基础设施资源层、技术平台层、数据平台层和应用层。其中，技术平台以华为云智能数据湖FusionInsight为数字底座，为上层大数据平台和应用提供数据采集和分发、Hadoop大数据处理、高性能资源调度器、增强实时计算和数仓等服务，通过数据虚拟化的统一SQL查询、分布式计算、高速传输优化及Redis内存优化、Flink内存管理优化等技术，大幅提升大数据处理效率。在构建大数据智慧平台的过程中，广东移动还积极进行技术创新，包括自主搭建运营商数据平台，提供安全的、高并发、快速组装应用服务能力：引进无感知滚动升级，实现在线扩容而不中断业务；自主研发超级资源调度引擎Superior，提升系统资源调度效率4倍以上；自主研发跨集群协同技术，为5G高速发展提供技术储备等。广东移动大数据智慧平台得益于华为云FusionInsight智能数据湖提供的数字底座，及上述多方面的技术创新，广东移动基于大数据智慧平台打通了数据全生命周期链路，实现了对内业务支撑、对外应用赋能。而依托数据平台高可靠、高并发、快速组装应用服务的能力，广东移动为各行各业研发了多个行业解决方案，全面支撑了包括疫情防控在内的各类政务、民生等工程的应用服务。在政务应用方面：广东移动智慧平台面对政府机关、事业单位的公共服务和公益类服务提供的精准短信推送能力，可依托大数据的标签洞察及客户触达能力，精准筛选用户，进行短信的精准投放。在旅游应用方面：通过数据平台组装大数据旅游应用，可圈定旅游地区，实时解析旅游区内的数据，定期生成景区热力图，并发布数据给大数据旅游系统。在精准扶贫方面：数据平台组装成大数据精准扶贫应用“岭南优品”，打造全国首个电商扶贫平台，为大数据精准扶贫提供智慧化平台。目前该平台用户规模达到670万，完成交易订单723万，交易额达2.2亿元。在防诈骗监控方面：通过数据平台提供的分析模型，组装防诈应用，对于异常外呼用户，优化过滤算法，识别出异常群体，及时阻断、回溯诈骗行为，减少人民群众损失。在保障春运安全方面：数据平台提供基础能力，组装大数据交通应用，定期生成交通枢纽热力图，并发布数据给大数据交通系统。数字化大潮浩浩荡荡，大数据价值亟待释放。未来，华为云将持续助力广东移动大数据技术创新，携手广东移动及全国各地运营商伙伴，全力推动5G服务百姓、融入百业，更好地满足广大客户对美好数字生活的向往。十多年来FusionInsight 致力于为全球60+国家地区、3000+政企客户构建企业级智能数据湖，结合平台+生态战略，与800+商业合作伙伴，广泛应用于金融、运营商、政府、能源、医疗、制造、交通等多个行业，在政企数字化转型中，释放数据价值，助力政企客户业务高速增长。MRS源于开放的大数据生态，叠加了企业级的关键能力，既保持了开放性，又给客户提供了企业级融合大数据平台，帮助客户实现T+0数据入湖，一站式融合分析，让数据“慧”说话。相关文章：华为云TechWave大数据专题日，解密金融业为何“偏爱”华为云？2020中国大数据企业50强重磅发布，华为云大数据连续四年荣登榜首0业务中断！全国首个1000+大数据集群成功升级！再获殊荣！华为云Fusioninsight智能数据湖、GaussDB(DWS)数据仓库斩获业界两项大奖FusionInsight亮相华为云与计算城市峰会深圳站FusionInsight MRS 技术解读：单集群如何做到2万+规模华为云FusionInsight MRS融合大数据平台进阶之路华为云FusionInsight MRS通过信通院大数据能力评估单集群突破2万+规模重磅发布！华为云EI智能数据湖FusionInsight 8.0 MRS 6月30日发布新特性，更快更安全，小伙伴们快来GET√+CarbonData，华为云EI智能数据湖FusionInsight让数据处理飞起来！华为云EI智能数据湖FusionInsight携手Kyligence助力保险业数字化转型！华为云EI智能数据湖FusionInsight MRS大数据在银行业的应用探索与典型案例直击痛点！华为云EI智能数据湖FusionInsight助力政企客户释放数据价值！

沙漏 发表于2020-08-31 17:14:23 2020-08-31 17:14:23 最后回复沙漏 2020-08-31 17:14:23
7402 0

5G 人工智能 FusionInsight 大数据
[技术干货] 0业务中断！全国首个1000+大数据集群成功升级！

8月4日，广东移动大数据平台再获重大突破，全国首个1000+大数据集群升级成功，打破传统离线升级方式迫使业务中断的桎梏，通过滚动升级完成了大数据平台的平滑演进，实现业务0中断，升级无感知，用户体验持续在线。此次升级意义重大，正式开启了广东移动大数据平台的融合时代，全面提升用户体验。广东移动大数据平台简介广东移动大数据平台自2016年建设以来，对内为省市各业务部门、对外为各行业提供大数据分析处理能力。大数据平台整体规模达到1500+节点、平台承载租户282个，日均处理21万+作业量，陆续完成了各个重大节假日（春节、国庆、70周年、灯光节等）的活动支撑与保障工作。广东移动大数据平台架构图伴随5G、互联网、AI的高速发展，数据种类和量级呈指数级增长，这对大数据平台分析处理的准确性与及时性提出了更高的要求，现网大数据平台在应对数据浪涌中逐渐显露疲态。为此，广东移动大数据平台的升级项目势在必行。项目升级面临巨大挑战广东移动大数据平台作为业界首个1000+节点的大数据生产集群平台，实现版本从V100R002C70跨版本升级6.5.1，面临着三大挑战：l 业界首次大集群跨版本升级：广东移动大数据平台升级工程是现网同类大数据局点中首个大集群跨版本升级改造工程。集群规模大，滚动升级时间周期长，业务应用多，需要根据不同业务的闲忙时间段，合理制定升级批次计划；升级工程计划制定无参考案例，现场根据前期调研、业务评估、测试验证后制定大集群的批次升级计划；l 集群规模大，服务组件多，方案复杂：三水大数据集群是广东移动大数据平台中规模最大的单集群，节点数达到1000+，同时提供多种组件服务和场景解决方案。多方案混合应用的集群的升级工程在技术上第一次商用场景下实施，多组件混合应用的业务场景多，对升级期间平台稳定性要求高；l 业务种类多，且不便不中断：广东移动大数据平台承载业务项目达200+，日处理业务量达21万+，月增长数据量接近1PB，日查询作业峰值达23W+；每天需运行关键业务，如对内精准营销、收入稽核，对外广告精准投放等；大量运行中的业务和关键业务在升级过程中不允许被中断。作为承载广东省大数据分析处理的核心平台，时刻存在关键业务的运作，传统大数据平台离线升级方式，对业务的顺利进行有着极大的制约。例如，新版本发布后，如果想使用特定的补丁版本，在安装/升级场景下，需要先升级到新版本后，再安装补丁；如此一来，不仅变更次数多，还需多次重启集群操作，变更操作难度高且效率低下，按当前平台规模采用离线方式升级，预计中断业务72小时以上。全力应对，逐个攻破为保障大集群升级过程的平滑，广东移动携手华为云FusionInsight智能数据湖，端到端分步骤的完成滚动升级，实现升级过程中的可视化控制和管理。为应对上述挑战，此次升级主要进行了以下操作：l 在开源社区部分组件并不支持大版本滚动升级的背景下，我们解决了社区协议和元数据格式不相同、及API变化等导致的兼容性问题，实现了在滚动升级过程中，仍可继续使用未升级的软件设备进行业务处理的方法，降低大集群跨版本升级改造工程对现有业务的干扰影响；l 面对集群规模大、服务组件多、方案复杂的升级场景，为避免各种突发事件中断升级进程，我们提供了故障节点隔离能力。在故障发生时，可以跳过该节点的升级动作，使得故障处理和升级可以有序进行；l 为降低在升级过程中对关键任务SLA的影响，我们新增按升级批次进行暂停的能力，关键作业或者作业高峰时段，可以暂停升级动作，保障关键任务平稳执行。本次操作使得1000+大数据集群获得滚动升级，新的平台版本6.5.1，在平台组件内核版本升级的同时，提供了精细化指标监控、统一在线日志检索等功能，支持ARM生态以及ARM&X86混合部署（全球唯一）、计算存储分离方案、引入ZooKeeper防过载特性等，并做到了全面的优化提升。6.5.1版本平台架构组件版本变更提前部署，稳步推进l 前期准备，经过近半年的不断测试、预演、与100+个重要关键租户协调沟通项目后，确认升级改造工程实施方案；l 7月8日-7月23日，历时半个月，在0业务中断的情况下，顺利完成大数据平台的平滑升级，实现大数据技术及组件的最新版本更新；l 7月24日-8月3日，业务观察期内平台业务稳定无任何故障；l 8月4日，广东移动大数据Hadoop平台大版本升级宣告成功。广东移动站在了大数据技术前端，紧随社区技术的快速发展，大数据平台本次Hadoop版本由2.7.2版本直接升级到3.1.1版本，实现了一个升级无感知的融合大数据平台，大幅提升了用户体验。未来，广东移动将继续推进技术创新，助力大数据平台进一步更新迭代。华为将持续以客户为中心，为客户提供一站式，易使用，高可靠，可持续演进的FusionInsight融合大数据平台。截至目前，华为云FusionInsight智能数据湖已是60+国家，3000+客户的共同选择，广泛应用于政府、金融、运营商、大企业、互联网等领域。面向未来，华为云联合800+合作伙伴，用智能数据湖帮助企业构建领先的数据基础平台，释放政企数据价值，让数据“慧”说话，使企业更智能。相关文章：再获殊荣！华为云Fusioninsight智能数据湖、GaussDB(DWS)数据仓库斩获业界两项大奖FusionInsight亮相华为云与计算城市峰会深圳站FusionInsight MRS 技术解读：单集群如何做到2万+规模华为云FusionInsight MRS融合大数据平台进阶之路华为云FusionInsight MRS通过信通院大数据能力评估单集群突破2万+规模重磅发布！华为云EI智能数据湖FusionInsight 8.0 MRS 6月30日发布新特性，更快更安全，小伙伴们快来GET√+CarbonData，华为云EI智能数据湖FusionInsight让数据处理飞起来！华为云EI智能数据湖FusionInsight 成功助力10000+大数据集群滚动升级！华为云EI智能数据湖FusionInsight携手Kyligence助力保险业数字化转型！华为云EI智能数据湖FusionInsight MRS大数据在银行业的应用探索与典型案例进而有为！华为云EI智能数据湖FusionInsight亮相华为云与计算城市峰会南京站！直击痛点！华为云EI智能数据湖FusionInsight助力政企客户释放数据价值！

沙漏 发表于2020-08-12 16:52:47 2020-08-12 16:52:47 最后回复用户 2020-08-19 10:58:06
3938 1

FusionInsight 大数据

上滑加载中

推荐直播

Skill 构建 × 智能创作：基于华为云码道的 AI 内容生产提效方案
2026/03/25 周三 19:00-20:00

余伟，华为云软件研发工程师/万邵业（万少），华为云HCDE开发者专家

本次直播带来两大实战：华为云码道 Skill-Creator 手把手搭建专属知识库 Skill；如何用码道提效 OpenClaw 小说文本，打造从大纲到成稿的 AI 原创小说全链路。技术干货 + OPC创作思路，一次讲透！
回顾中
码道新技能，AI 新生产力——从自动视频生成到开源项目解析
2026/04/08 周三 19:00-21:00

童得力-华为云开发者生态运营总监/何文强-无人机企业AI提效负责人

本次华为云码道 Skill 实战活动，聚焦两大 AI 开发场景：通过实战教学，带你打造 AI 编程自动生成视频 Skill，并实现对 GitHub 热门开源项目的智能知识抽取，手把手掌握 Skill 开发全流程，用 AI 提升研发效率与内容生产力。
回顾中
华为云码道：零代码股票智能决策平台全功能实战
2026/04/18 周六 10:00-12:00

秦拳德-中软国际教育卓越研究院研究员、华为云金牌讲师、云原生技术专家

利用Tushare接口获取实时行情数据，采用Transformer算法进行时序预测与涨跌分析，并集成DeepSeek API提供智能解读。同时，项目深度结合华为云CodeArts（码道）的代码智能体能力，实现代码一键推送至云端代码仓库，建立起高效、可协作的团队开发新范式。开发者可快速上手，从零打造功能完整的个股筛选、智能分析与风险管控产品。
回顾中

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript