• [赋能学习] MRS3.0.2版本 二次开发(1/27): 环境准备
    # 视频在本帖二楼 ## 一、MRS是什么? MRS是一种基于云计算平台的大数据服务 两种部署形式: | 集群类型| 集群部署形式 | |---|----- | | 弹性伸缩集群 | 1、安装云底座后导入MRS镜像;2、通过云底座上的MRS Console发放FusionInsight集群,集群节点为虚拟机 | | 物理机集群 | 1、分别安装云底座、FusionInsight物理机集群;2、通过MRS Console纳管FusionInsight集群 | 因此本系列课程实际讲解的是 FusionInsight 集群的服务调用案例 ## 二、课程说明 本次课程共27节,课程目录列表如下,所有样例都是基于Java语言的maven项目,其他非maven项目,我们后续会在FusionInsight论坛上传使用指导 ### 1.1 课程列表 | 序号 | 组件 | | ---- | ---- | | 1 | 环境准备 | | 2 | HDFS调用样例 | | 3 | MapReduce任务提交样例 | | 4 | MapReduce多组件调用样例 | | 5 | Hive的HCatalog接口调用样例 | | 6 | Hive的JDBC接口调用样例 | | 7 | Hetu的JDBC接口调用样例 | | 8 | HBase通用API使用样例 | | 9 | HBase Rest接口调用样例 | | 10 | HBase thrift接口调用样例 | | 11 | Redis调用样例 | | 12 | Kafka接口调用样例 | | 13 | ES的Rest接口样例 | | 14 | ES的Transport接口样例 | | 15 | Flink构造DataStream样例 | | 16 | Flink异步Checkpoint样例 | | 17 | Flink实现配置表与实时流join的样例 | | 18 | Flink读写Kafka样例 | | 19 | Flink实现pipline样例 | | 20 | Flink TableAPI使用样例 | | 21 | 使用java命令提交spark任务样例 | | 22 | Spark读写HBase样例 | | 23 | Spark读取Hive写入HBase样例 | | 24 | Spark读写ElasticSearch样例 | | 25 | Spark-submit提交SparkSQL样例 | | 26 | 通过JDBC接口访问SparkSQL样例 | | 27 | SparkStreaming读取Kafka写入HBase样例 | ## 三、环境准备 ### 3.1 集群环境 本系列课程使用的是FusionInsight集群为安全模式,支持Kerberos认证 已经安装了客户端,客户端目录为/opt/client,该目录可根据实际情况自定义 ### 3.2 开发环境 | 工具 | 说明 | | ------------------- | --------------------------------- | | 系统 | windows10 64bit | | JDK | Oracle JDK 1.8 | | maven | 3.6.3 | | git | 2.18 for windows 样例代码下载工具 | | scala | 2.11.12(部分组件使用) | | xshell或者Mobaxterm | ssh客户端工具 | | WinSCP | sftp传输工具 | ### 3.3 样例代码获取 获取地址:[https://github.com/huaweicloud/huaweicloud-mrs-example/tree/mrs-3.0.2](https://github.com/huaweicloud/huaweicloud-mrs-example/tree/mrs-3.0.2) 注意是 mrs-3.0.2 分支 git下载样例代码命令参考: ``` git clone -b mrs-3.0.2 https://github.com/huaweicloud/huaweicloud-mrs-example.git ``` 如果访问github比较慢的同学,也可以通过 FusionInsight 论坛获取,获取方式为论坛内搜索 二次开发,找到环境准备这节课,从帖子的附件中下载即可 ### 3.4 配置maven仓库 样例代码需要从maven仓下载依赖,因此需要开发环境连通互联网环境。 maven仓库配置可以参考华为公有云网站MRS服务的指导,链接为: https://support.huaweicloud.com/devg-mrs/mrs_06_0002.html 也可参考如下方式配置: 1. 创建settings.xml文件内容参考如下 ![image.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202011/18/201216w7jj3d1udkiiyrxh.png) 2. 在IDEA项目中修改Settings中的Maven仓配置,如图所示位置 ![image.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202011/18/201302idolzynfwoeiiq92.png) ## 四、环境检查 ### 4.1 开发环境与集群网络检查 网络检查可以通过windows环境下的cmd命令行进行ping检查,也可以参考使用MobaXterm中的NetworkScanner来扫描网络 ![image.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202011/18/203048oxp7khzztdnbwlvf.png) ### 4.2 开发环境与集群时间差检查 Windows开发环境的时间与集群时间误差不能超过5分钟 ### 4.3 开发环境JDK配置检查 如图所有需配置为1.8 ![image.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202011/18/201604lyr5c8g06nqbtit5.png) ![image.png](https://bbs-img-cbc-cn.obs.cn-north-1.myhuaweicloud.com/data/attachment/forum/202011/18/2022423uhvcbkf2dozmzxz.png) ### 4.4 端口检查 所有组件的端口占用信息可通过版本配套的通信矩阵来获取具体端口信息,其中注意Kerberos认证需要开放UDP端口21732 本版本用到的通信矩阵将以附件形式附上,或通过如下链接获取 https://support.huawei.com/enterprise/zh/doc/EDOC1100161650?idPath=22658044%7C22662728%7C22666212%7C22396131 ## 五、互动渠道:FusionInsight论坛 请在该论坛发表“问题求助”类型帖子
  • [技术干货] “3+3”看华为云FusionInsight如何引领“数据新基建”持续发展
     摘要:一个统一的现代化的数据基建需要三类架构来实践三种不同的应用场景。近期,美国知名科技企业风投机构A16Z总结出一套通用的技术架构服务,分为以下三种场景。一、数据基建架构全景数据流向显示,左侧的数据源经数据处理(批量、实时流、事件流等)将数据统一汇聚到数据湖或数仓中,通过数据科学或机器学习进行AI分析,通过AD Hoc和实时分析为客户或APP提供敏捷的结果数据。华为云FusionInsight为政企客户提供一站式全场景的云原生数据湖,围绕政企客户在采存算管用等数据全生命周期提供领先的整体解决方案,方案主要包含MRS大数据、DWS数据仓库、一站式数据治理中心等云服务,助力政企客户释放海量数据价值!其架构如下:上千个大型客户已经基于FusionInsight架构构建其大数据应用平台。A16Z经过调查相关业内人士得出一个结论:一个统一的现代化的数据基建需要三类架构来实践三种不同的应用场景。现代化 BI 架构多模式数据处理架构人工智能和机器学习架构1.现代化 BI 架构这是对小型数据团队和预算有限的企业的默认选项,企业逐渐从传统数仓迁移到这个架构,利用云的灵活度和可扩展性。应用场景包含:报表,仪表盘,自助式分析,主要使用SQL来分析结构化数据。优势:前期投入低,启动快,市场上人才储备充分。缺陷:对于数据场景复杂的团队不适用,比如需要数据科学,机器学习,或者实时场景。传统的小型数据团队其面对的数据基本以核心交易系统的RDBMS结构化数据为主,数据量在GB级,普通的数仓都可支持其数据的分析挖掘,无需大数据支撑就可完成,这种处理方式在2008年时的大型企业中也较为常见,其数据量较小基本上使用数仓就可完成日常的数据大屏、数据分析等工作。这是对小型数据团队和预算有限的企业的默认选项,利用云的灵活度和可扩展性,企业逐渐从传统数仓迁移到这个架构。华为云FusionInsight可提供企业级数仓,DWS目前服务于全球1000+大型客户,广泛应用于政府、金融、运营商、大企业等领域。产品始于2011年,经历将近10年技术积累,已取得180+国内外授权专利。DWS可支撑日常的结构化数据分析,其具有如下特点:大规模:GaussDB(DWS)基于分布式架构,在保证ACID的基础下,突破大规模分布式场景下集群通信(Multi-Streams)、逻辑集群(Multi-Groups)技术,具备2048节点扩展能力。值得一提的是,逻辑集群可将ODS、数据仓库、数据集市、自助分析等不同业务负载,有机的统一起来,有效隔离、有效共享。高性能:GaussDB(DWS)具备多层级全并行计算引擎。支持多个物理节点并行计算,在一个物理节点内部,支持多个CPU核心并行计算,在一个CPU核心的指令序列中,支持SIMD指令,实现一个指令同时操作多条数据。将并行能力发挥到极致,为业务提供极致的性能。另外,Multi-Cores技术使得在鲲鹏上性能相比同代x86芯片提升30%以上。高可靠:GaussDB(DWS)具备多层级容灾能力,在AZ、集群、节点及进程出现软硬件异常的情况下能够平滑处理。另外,Server端Multi-Retries技术大幅减少故障失败的业务感知;其次,在棘手的亚健康问题上,GaussDB(DWS)也有完善的检测和处理机制;最后,离线扩容、半在线扩容、在线扩容技术能够从容应对客户不同的扩容需求。华为云DWS数据仓库技术核心是分布式架构,过去十年一直围绕分布式构筑竞争力。未来,GaussDB(DWS) 数据仓库将基于分布式架构持续演进,围绕云、大数据、5G/IoT、人工智能,构筑下一代开放的、全场景分析型数据库。2.多模式数据处理架构这个架构通常用于大型企业和科技公司,用来满足复杂的数据需求场景。应用场景包括:BI及高级功能,包括AI/ML,低延时分析,大规模数据转换,多类型的数据处理(文字,图像和视频)使用各种语言(JAVA/SCALA,Python和SQL)优势:能灵活的支持各种应用,工具和UDF和部署环境。在大规模数据集上的成本优势。缺陷:不适合小型数据团队,维护这套架构需要较多的时间,费用和专家资源投入。在现实世界中,需求侧觉醒的同时,在平行的赛博世界中,技术的进化也一直在持续。自从2006年Apache Hadoop架构发布以来,到2011年,企业逐渐采用Hadoop架构演进出来的开源或商用大数据软件,开启了离线计算时代;2012年,以Spark等为核心的流式计算开启了实时计算时代,在线分析和实时计算的场景也开始逐渐应用,但这一阶段的使用者主要是开发人员;2013年至今,随着数据的激增,大数据平台演进成了融合大数据平台,而随着AI等技术的突飞猛进,从数据分析到数据挖掘,大数据平台向着智能化进行演进。权威调研机构IDC表示,“数字化时代下的竞争正在加速,市场参与者要么通过数字化转型成为领头企业形成规模化优势,要么将逐渐被市场淘汰”。随着5G、AI、IoT等技术的迅猛发展,到2025年,全球数据量将从2018年的33ZB快速增长到180ZB,全球数字经济总量将达25万亿,CEO也越来越重视,参与度高达67%,数字化技术让投资回报率达到6.7倍,政企数字化进程为64%。综上可知,数字化转型是政企充分释放复杂场景用数需求的必经之路。数字底座如此关键,那么大数据作为主要承载技术,自然是其重中之重。华为云FusionInsight提供MRS数据湖服务,让政企客户在一个大、快、融、稳的云原生数据湖架构下持续演进:1)大:支持最大2万+节点大规模集群,可集群联邦无限扩容;2)快:可T+0实时增量更新同步,可毫秒级高效实时OLAP,缩短分析链路,实现实时数据湖;3)融:通过HetuEngine打破多引擎、多源、跨地域的限制,消除数据孤岛,统一SQL接口融合分析,简化用数,全民BI;4)稳:支持在线滚动升级,无需拆集群、搬应用,使客户一个架构持续演进,十年无忧!5)云原生数据湖:通过统一元数据,让数据全局可视;通过存算分离的企业级EC,降低TCO。华为云大数据,自2008 年开始投入研究,最早于2014年推出商用产品,秉承开源开放的心态,践行“平台+生态”战略,华为云踩对了历史的进程,围绕政企大数据全生命周期,华为云FusionInsight是一个技术领先的云原生智能数据湖,是华为云三大使能之数据使能方案的坚实数据底座。3. 人工智能和机器学习架构应用机器学习的公司已经在使用这套架构的一部分技术。深度使用机器学习的企业会部署整套架构,甚至自研新的工具。场景:数据驱动的内外部应用程序,场景有实时的或批处理的。优势:完全掌控整体的开发过程,将机器学习打造为企业核心且长期的能力。缺陷:不适合尚在探索机器学习,只为小范围的内部应用场景。大规模应用机器学习仍是当前最大的数据挑战华为云ModelArts为政企客户提供一站式的AI训练和推理平台,其具有如下特点:支持AI全栈、全流程、全场景开发训练支持资源统一管理、统一池化调度支持业界主流引擎和自研引擎,实现零成本迁移提供多维度功能特性,满足各类用户在近日发布的《IDC MarketScape: 中国大数据管理平台厂商评估,2020》(以下简称IDC大数据报告)报告中,对中国主流大数据厂商从能力、战略、市场份额三个维度进行了全面评估,华为云位居领导者象限领先位置,并在技术实力和市场份额两大维度双领先在技术上持续创新打磨之外,华为云FusionInsight也是“最懂行”的大数据解决方案:在政府领域,国内50%的智慧城市都有华为云FusionInsight的孜孜不倦的身影,华为云大数据已支撑多个部委和各省市地区建设“大数据+政务”。在某市,华为云FusionInsight联合伙伴建成“一云二网三平台”,在统一的政务数据逻辑模型的指导下,针对民生、产业、政府的“痛点”和“难点”,从构建城市数据资源库为开端,以大数据分析支撑政府智慧决策,以建设智慧应用为抓手,打破信息孤岛,实现信息资源交换共享,在 “数聚惠民”、“数聚兴业”、“数聚善政”三大方面,发挥大数据的威力,支撑 “一号、一窗、一网” 政务服务,让简政放权、百姓办业务“最多跑一次”成为现实。在金融领域,国内50%的TOP20金融客户(含银行、证券、保险等)均已使用华为云FusionInsight构建其大数据平台。某行使用华为云FusionInsight构建大数据基础平台,支撑了银行企业级数据湖、数据仓库、集团信息库为核心的“一湖两库”建设,承载了总行及各支行业务系统,支撑日常银行BI、AI、数据挖掘、数据分析等,实现了一份数据全局可用,免除数据搬迁,提升协同效率10倍,存储周期提升2倍,资源利用率最大可达90%,加速银行数字化转型进程。在运营商领域,国内三大运营商均使用华为云FusionInsight构建其大数据平台。广东移动基于华为云FusionInsight,联合政企客户共同打造智慧电网、智慧交通、智慧港口、高清视频等系列标杆应用,打通数据全生命周期链路,实现对内业务支撑、对外应用赋能,全面支撑了各类政务、民生等大数据应用服务。在交通领域,深圳地铁在6、10号线采用华为云FusionInsight构建大数据分析平台,打造领先的5G+大数据方案,并构建其数据资产中心和运行监控中心,承载地铁各业务系统,支撑设备健康、能耗管理、客流统计、线路中心级监控、应急决策和图像型火灾分析等线路级数据分析,数据分析效率从周级缩短至分钟级,实现高效运营,推动深圳步入更美好的全联接数字化轨道交通新时代…除过在以上各行业的应用,在环境保护方面,青海绿能数据有限公司基于华为云FusionInsight构建了国内首个能源大数据创新平台,实现了规划辅助决策、用气象数据科学指导发电等创新业务,为上下游产业链企业提供25类47项数据服务,推动28座新能源场站实现了“无人值班、少人值守”,并有效支撑了青海“绿电15日”,以大数据为基石,建设绿色新青海,守护高原和谐生态。同时,华为坚持“自己的降落伞自己先跳”,华为集团IT通过FusionInsight构建OneData大数据集群,实现大数据平台在大规模场景下的开拓,OneData集群其规模已至1万+节点;同时,实现了统一的数据管理服务,在菩提海UniDB产品中,通过逻辑统一方式,把50+物理分散的计算集群(Hadoop+MPP),基于五统一(数据安全,元数据目录,数据集成,数据访问,任务调度),整合成湖仓一体的架构,支撑上千个企业租户的PB级数据分析处理需求。一个基于FusionInsight MRS+DWS 的“+治理,+AI,+运营,+云”的融合数据底座(菩提海)已经在华为集团IT广泛使用,未来可期。以上只是“冰山的一角”,华为云FusionInsight一方面不断深入理解客户不断发展的业务诉求,另一方面,持续技术创新并引领行业发展,商业诉求+技术创新双轮驱动行业可持续、高质量发展,“用数”助力客户商业成功!上面的论述已经充分证明,华为云是“懂行”的大数据领导者,真正让客户用好数、管好数、放心用。据了解,截至2020 年10月底,华为云FusionInsight 智能数据湖已服务60+个国家和地区,3,000+客户,覆盖政府、金融、运营商、电力、传媒、医疗、教育、交通、油气、物流、零售、制造、互联网等行业。
  • [技术干货] 再拔头筹,FusionInsight为华为云大数据打造硬实力
    近日,IDC发布《IDC MarketScape: 中国大数据管理平台厂商评估,2020》报告。该报告从能力、市场、战略三大维度对中国主流大数据厂商进行全面评估,报告显示华为云位居“领导者(Leaders)”象限,并在市场份额和技术实力两个维度双领先。可以看到,在IDC大数据报告中,有云服务厂商、传统ICT 厂商,以及大数据时代的创企等三类“玩家”。为何华为云能够脱颖而出?解读华为云FusionInsight智能数据湖五大硬核能力据了解,华为云FusionInsight智能数据湖五大硬核能力凸显了创新技术。硬核能力一:让政企客户在一个大、快、融、稳的数据湖架构下可持续演进!大:传统的大数据单集群扩容受限,往往扩容到2000节点就难以突破,华为云FusionInsight通过大集群突破扩展性瓶颈,支持最大2万+节点大集群,还可集群联邦无限扩容。此大规模特性已在华为内部获得了实践,华为云流程IT通过FusionInsight构建OneData大数据集群,其规模已至1万+节点,支撑各部门运营分析、即席查询等大数据分析,每日新增数据近100TB,10万张表,即席查询任务日均1万+,批处理作业每日10万+。华为流程IT OneData大集群历经两次滚动升级,业务0中断,已稳定运行六年。快:因数据量仍在不断指数级增长,人们对大数据高效处理的极致追求永无止境!传统大数据存在分析链路长,以T+1事后报表为主。华为云FusionInsight MRS可T+0实时增量更新和实时OLAP,让大数据越用越”快“!华为集团IT基于FusionInsight,实现了CDC+FLINK的实时集成方案,支撑了主干交易、财经、供应等交易数据的增量整合模型落地,相对于传统数仓的ETL+调度方案,数据供给效率提升了10倍。融:传统大数据分析面临类型多、分布散、协同难等问题;FusionInsight通过HetuEngine实现五大融合,统一SQL接口仅用简单的SQL就可操作PB级数据,全民BI,让大数据越用越简单。某行基于FusionInsight构建金融大数据,通过HetuEngine统一SQL接口,解决数据分散,组件多、语言多等难题,降低技术开发门槛,跨源跨域跨引擎融合分析,数据免搬迁,降低整体TCO。稳:FusionInsight可保障一企一湖连续性,在线滚动升级,业务永远在线,无需拆集群、搬应用,彻底解决传统大数据集群多、效率低、管理难、升级难等问题,让升级过程中关键业务不中断,确保业务连续性。某运营商使用FusionInsight搭建了大数据平台应对5G数据浪涌,先后两次滚动升级实现了大数据平台的平滑演进,实现业务无中断,升级无感知,用户体验持续在线,单集群规模已扩展至1500+节点,支撑了各类政务、旅游、精准扶贫等200+大数据应用服务,覆盖用户1.3亿+。硬核能力二:实时数据湖为了实现实时性,华为云FusionInsight提出了实时数据湖, 支持数据实时批量入湖、实时增量同步,全量数据供应效率T+0;可对贴源数据实时多维分析,缩短分析链路,提高分析效率,让数据价值近在眼前!硬核能力三:云原生数据湖近几年,云原生是云计算领域关键的技术创新,华为云在云原生领域也探索多年,通过Data Lake Catalog数据湖目录,为超大规模分析引擎提供统一元数据服务,让数据全局可视可得;在数据存储方面,通过OBS存算分离方案,实现计算、存储按需扩容,基于企业级EC实现最低1.2副本,总体TCO下降20%+,让数据每bit成本更优!。湖内提供交互式分析引擎,可无缝对接BI报表和自助分析,实现秒级用数,数据免搬迁;湖内统一SQL接口,降低技术开发门槛,简化用数,实现技术领先的云原生数据湖。硬核能力四:企业级数据仓库华为云FusionInsight为客户提供基于Shared-Nothing架构提供新一代开放的、全场景分析型数据仓库DWS,支持2048节点扩展能力;多层级全并行计算引擎,可调度海量的算力资源,通过高效的指令效率,实现数据导入和分析;具备多层级容灾能力,稳定可靠,离线、半在线、在线扩容技术,从容应对多种扩容场景。硬核能力五:一站式数据湖治理中心华为云FusionInsight为客户提供一站式数据湖治理中心,助力企业快速构建从数据接入到分析的E2E数据治理体系,统一数据标准,加速数据资产化。通过全域数据视图统一信息架构,统一数据标准;通过一站式全栈平台实现30+异构数据源的高效数据集成;拥有开放完备的安全体系,数据分级分类,统一安全认证。通过以上五大“硬核”能力的加持,华为云FusionInsight新一代的数据湖,让大数据越用越快、越用越易、越用越稳、越用越省!技术产品好不好,要用案例来说话事实上,华为云这种“稳定第一”的表现,在很多权威榜单中也有体现,例如连续四年上榜工信部中国大数据企业50强,连续三年入围Gartner Magic Quadrant for Data Management Solutions for Analytics,在中国区厂商排名第一。在技术受到权威机构认可的同时,华为云FusionInsight也是“最懂行”的大数据解决方案。截至 2020 年 6 月底,华为云大数据已服务了 60+个国家和地区、3000+客户,覆盖政府、金融、运营商、电力、医疗、制造、互联网等众多行业。在政府领域,国内50%的智慧城市都有华为云FusionInsight的孜孜不倦的身影,华为云大数据已支撑多个部委和各省市地区建设“大数据+政务”。在某市,华为云FusionInsight联合伙伴建成“一云二网三平台”,在统一的政务数据逻辑模型的指导下,针对民生、产业、政府的“痛点”和“难点”,从构建城市数据资源库为开端,以大数据分析支撑政府智慧决策,以建设智慧应用为抓手,打破信息孤岛,实现信息资源交换共享,在 “数聚惠民”、“数聚兴业”、“数聚善政”三大方面,发挥大数据的威力,支撑 “一号、一窗、一网” 政务服务,让简政放权、百姓办业务“最多跑一次”成为现实。在金融领域,国内50%的TOP20金融客户(含银行、证券、保险等)均已使用华为云FusionInsight构建其大数据平台。某行使用华为云FusionInsight构建大数据基础平台,支撑了银行企业级数据湖、数据仓库、集团信息库为核心的“一湖两库”建设,承载了总行及各支行业务系统,支撑日常银行BI、AI、数据挖掘、数据分析等,实现了一份数据全局可用,免除数据搬迁,提升协同效率10倍,存储周期提升2倍,资源利用率最大可达90%,加速银行数字化转型进程。在运营商领域,国内三大运营商均使用华为云FusionInsight构建其大数据平台。广东移动基于华为云FusionInsight,联合政企客户共同打造智慧电网、智慧交通、智慧港口、高清视频等系列标杆应用,打通数据全生命周期链路,实现对内业务支撑、对外应用赋能,全面支撑了各类政务、民生等大数据应用服务。在交通领域,深圳地铁在6、10号线采用华为云FusionInsight构建大数据分析平台,打造领先的5G+大数据方案,并构建其数据资产中心和运行监控中心,承载地铁各业务系统,支撑设备健康、能耗管理、客流统计、线路中心级监控、应急决策和图像型火灾分析等线路级数据分析,数据分析效率从周级缩短至分钟级,实现高效运营,推动深圳步入更美好的全联接数字化轨道交通新时代…以及在环境保护方面,青海绿能数据有限公司基于华为云FusionInsight构建了国内首个能源大数据创新平台,实现了规划辅助决策、用气象数据科学指导发电等创新业务,为上下游产业链企业提供25类47项数据服务,推动28座新能源场站实现了“无人值班、少人值守”,并有效支撑了青海“绿电15日”,以大数据为基石,建设绿色新青海,守护高原和谐生态。同时,华为坚持“自己的降落伞自己先跳”,华为集团IT通过FusionInsight构建OneData大数据集群,实现大数据平台在大规模场景下的开拓,OneData集群其规模已至1万+节点;同时,实现了统一的数据管理服务,在菩提海UniDB产品中,通过逻辑统一方式,把50+物理分散的计算集群(Hadoop+MPP),基于五统一(数据安全,元数据目录,数据集成,数据访问,任务调度),整合成湖仓一体的架构,支撑上千个企业租户的PB级数据分析处理需求。一个基于FusionInsight MRS+DWS 的“+治理,+AI,+运营,+云”的融合数据底座(菩提海)已经在华为集团IT广泛使用,未来可期!以上只是“冰山的一角”,华为云FusionInsight一方面不断深入理解客户不断发展的业务诉求,另一方面,持续技术创新并引领行业发展,商业诉求+技术创新双轮驱动行业可持续、高质量发展,“用数”助力客户商业成功!上面的论述已经充分证明,华为云是“懂行”的大数据领导者,真正让客户用好数、管好数、放心用!底子硬才是真的硬道理可以看到,无论是技术实力还是市场表现,华为云都做到了行业第一。那么,在已有的成绩面前,华为云能否“守得住”?这方面,从已有的动作看,差异化这个主要的特征之外,华为云维持自身地位还有三个方面的竞争优势。长期的技术沉淀华为云 FusionInsight 大数据自 2009 年就开始投入研究,最早在 2014 年推出商用产品,现在,MRS“大快融稳”的云原生数据湖、DWS企业级数据仓库以及一站式数据湖治理中心3项硬核能力都建立这样的长期积累之上,缺乏技术积累和理解的平台显然无法完成这样的升级。对行业、对业务、对企业实际的理解大数据服务必须建立在业务深度理解的基础上,而这不是一朝一夕能完成的,需要靠不断的探索和磨合。华为的市场第一既是一种竞争结果,也代表着它拥有最广泛和深度的业务实践机会。丰富而深厚的生态合作当下,华为云积累了从基础设施到分析应用等领域的合作伙伴群体,包括多行业 800+ISV等,现在,其为合作伙伴提供了100+开放API接口,技术生态化带来的大数据应用将更加丰富。可以看到,三个都需要时间和经验积淀的优势,让华为云大数据有了既深且宽的竞争“护城河”。
  • [技术干货] 华为云FusionInsight与世界同行,持续创新,引领大数据技术发展
            近期,美国知名科技企业风投机构A16Z总结出一套通用的技术架构服务,分为以下三种场景。一、数据基建架构全景图片来源于网络        数据流向显示,左侧的数据源经数据处理(批量、实时流、事件流等)将数据统一汇聚到数据湖或数仓中,通过数据科学或机器学习进行AI分析,通过AD Hoc和实时分析为客户或APP提供敏捷的结果数据。华为云FusionInsight为政企客户提供一站式全场景的云原生数据湖,围绕政企客户在采存算管用等数据全生命周期提供领先的整体解决方案,方案主要包含MRS云原生数据湖、DWS数据仓库、一站式数据治理中心等云服务,助力政企客户释放海量数据价值!其架构如下:华为云FusionInsight智能数据湖架构图        上千个大型客户已经基于FusionInsight架构构建其大数据应用平台。        A16Z经过调查相关业内人士得出一个结论:一个统一的现代化的数据基建需要三类架构来实践三种不同的应用场景。现代化 BI 架构多模式数据处理架构人工智能和机器学习架构        1.现代化 BI 架构 图片来源于网络        这是对小型数据团队和预算有限的企业的默认选项,企业逐渐从传统数仓迁移到这个架构,利用云的灵活度和可扩展性。        应用场景包含:报表,仪表盘,自助式分析,主要使用SQL来分析结构化数据。优势:前期投入低,启动快,市场上人才储备充分。缺陷:对于数据场景复杂的团队不适用,比如需要数据科学,机器学习,或者实时场景。    传统的小型数据团队其面对的数据基本以核心交易系统的RDBMS结构化数据为主,数据量在GB级,普通的数仓都可支持其数据的分析挖掘,无需大数据支撑就可完成,这种处理方式在2008年时的大型企业中也较为常见,其数据量较小基本上使用数仓就可完成日常的数据大屏、数据分析等工作。这是对小型数据团队和预算有限的企业的默认选项,利用云的灵活度和可扩展性,企业逐渐从传统数仓迁移到这个架构。    华为云FusionInsight可提供企业级数仓,DWS目前服务于全球1000+大型客户,广泛应用于政府、金融、运营商、大企业等领域。产品始于2011年,经历将近10年技术积累,已取得180+国内外授权专利。DWS可支撑日常的结构化数据分析,其具有如下特点:大规模:DWS基于分布式架构,在保证ACID的基础下,突破大规模分布式场景下集群通信(Multi-Streams)、逻辑集群(Multi-Groups)技术,具备2048节点扩展能力。值得一提的是,逻辑集群可将ODS、数据仓库、数据集市、自助分析等不同业务负载,有机的统一起来,有效隔离、有效共享。高性能:DWS具备多层级全并行计算引擎。支持多个物理节点并行计算,在一个物理节点内部,支持多个CPU核心并行计算,在一个CPU核心的指令序列中,支持SIMD指令,实现一个指令同时操作多条数据。将并行能力发挥到极致,为业务提供极致的性能。另外,Multi-Cores技术使得在鲲鹏上性能相比同代x86芯片提升30%以上。高可靠:DWS具备多层级容灾能力,在AZ、集群、节点及进程出现软硬件异常的情况下能够平滑处理。另外,Server端Multi-Retries技术大幅减少故障失败的业务感知;其次,在棘手的亚健康问题上,DWS也有完善的检测和处理机制;最后,离线扩容、半在线扩容、在线扩容技术能够从容应对客户不同的扩容需求。    华为云DWS数据仓库技术核心是分布式架构,过去十年一直围绕分布式构筑竞争力。未来,DWS数据仓库将基于分布式架构持续演进,围绕云、大数据、5G/IoT、人工智能,构筑下一代开放的、全场景分析型数据库。        2.多模式数据处理架构图片来源于网络        这个架构通常用于大型企业和科技公司,用来满足复杂的数据需求场景。        应用场景包括:BI及高级功能,包括AI/ML,低延时分析,大规模数据转换,多类型的数据处理(文字,图像和视频)使用各种语言(JAVA/SCALA,Python和SQL)优势:能灵活的支持各种应用,工具和UDF和部署环境。在大规模数据集上的成本优势。缺陷:不适合小型数据团队,维护这套架构需要较多的时间,费用和专家资源投入。        在现实世界中,需求侧觉醒的同时,在平行的赛博世界中,技术的进化也一直在持续。自从2006年Apache Hadoop架构发布以来,到2011年,企业逐渐采用Hadoop架构演进出来的开源或商用大数据软件,开启了离线计算时代;2012年,以Spark等为核心的流式计算开启了实时计算时代,在线分析和实时计算的场景也开始逐渐应用,但这一阶段的使用者主要是开发人员;2013年至今,随着数据的激增,大数据平台演进成了融合大数据平台,而随着AI等技术的突飞猛进,从数据分析到数据挖掘,大数据平台向着智能化进行演进。权威调研机构IDC表示,“数字化时代下的竞争正在加速,市场参与者要么通过数字化转型成为领头企业形成规模化优势,要么将逐渐被市场淘汰”。随着5G、AI、IoT等技术的迅猛发展,到2025年,全球数据量将从2018年的33ZB快速增长到180ZB,全球数字经济总量将达25万亿,CEO也越来越重视,参与度高达67%,数字化技术让投资回报率达到6.7倍,政企数字化进程为64%。综上可知,数字化转型是政企充分释放复杂场景用数需求的必经之路。华为云FusionInsight MRS架构特性        数字底座如此关键,那么大数据作为主要承载技术,自然是其重中之重。华为云FusionInsight提供MRS云原生数据湖服务,让政企客户在一个大、快、融、稳的云原生数据湖架构下持续演进:大:支持最大2万+节点大规模集群,可集群联邦无限扩容;快:可T+0实时增量更新同步,可毫秒级高效实时OLAP,缩短分析链路,实现实时数据湖;融:通过HetuEngine打破多引擎、多源、跨地域的限制,消除数据孤岛,统一SQL接口融合分析,简化用数,全民BI;稳:支持在线滚动升级,无需拆集群、搬应用,使客户一个架构持续演进,十年无忧!云原生数据湖:通过统一元数据,让数据全局可视;通过存算分离的企业级EC,降低TCO。        华为云大数据,自2008 年开始投入研究,最早于2014年推出商用产品,秉承开源开放的心态,践行“平台+生态”战略,华为云踩对了历史的进程,围绕政企大数据全生命周期,华为云FusionInsight是一个技术领先的云原生智能数据湖,是华为云三大使能之数据使能方案的坚实数据底座。        3. 人工智能和机器学习架构图片来源于网络        应用机器学习的公司已经在使用这套架构的一部分技术。深度使用机器学习的企业会部署整套架构,甚至自研新的工具。场景:数据驱动的内外部应用程序,场景有实时的或批处理的。优势:完全掌控整体的开发过程,将机器学习打造为企业核心且长期的能力。缺陷:不适合尚在探索机器学习,只为小范围的内部应用场景。大规模应用机器学习仍是当前最大的数据挑战 ModelArts AI平台架构图        华为云ModelArts为政企客户提供一站式的AI训练和推理平台,其具有如下特点:支持AI全栈、全流程、全场景开发训练支持资源统一管理、统一池化调度支持业界主流引擎和自研引擎,实现零成本迁移提供多维度功能特性,满足各类用户        在近日发布的《IDC MarketScape: 中国大数据管理平台厂商评估,2020》(以下简称IDC大数据报告)报告中,对中国主流大数据厂商从能力、战略、市场份额三个维度进行了全面评估,华为云位居领导者象限领先位置,并在技术实力和市场份额两大维度双领先在技术上持续创新打磨之外,华为云FusionInsight也是“最懂行”的大数据解决方案:        在政府领域,国内50%的智慧城市都有华为云FusionInsight的孜孜不倦的身影,华为云大数据已支撑多个部委和各省市地区建设“大数据+政务”。在某市,华为云FusionInsight联合伙伴建成“一云二网三平台”,在统一的政务数据逻辑模型的指导下,针对民生、产业、政府的“痛点”和“难点”,从构建城市数据资源库为开端,以大数据分析支撑政府智慧决策,以建设智慧应用为抓手,打破信息孤岛,实现信息资源交换共享,在 “数聚惠民”、“数聚兴业”、“数聚善政”三大方面,发挥大数据的威力,支撑 “一号、一窗、一网” 政务服务,让简政放权、百姓办业务“最多跑一次”成为现实。        在金融领域,国内50%的TOP20金融客户(含银行、证券、保险等)均已使用华为云FusionInsight构建其大数据平台。某行使用华为云FusionInsight构建大数据基础平台,支撑了银行企业级数据湖、数据仓库、集团信息库为核心的“一湖两库”建设,承载了总行及各支行业务系统,支撑日常银行BI、AI、数据挖掘、数据分析等,实现了一份数据全局可用,免除数据搬迁,提升协同效率10倍,存储周期提升2倍,资源利用率最大可达90%,加速银行数字化转型进程。        在运营商领域,国内三大运营商均使用华为云FusionInsight构建其大数据平台。广东移动基于华为云FusionInsight,联合政企客户共同打造智慧电网、智慧交通、智慧港口、高清视频等系列标杆应用,打通数据全生命周期链路,实现对内业务支撑、对外应用赋能,全面支撑了各类政务、民生等大数据应用服务。        在交通领域,深圳地铁在6、10号线采用华为云FusionInsight构建大数据分析平台,打造领先的5G+大数据方案,并构建其数据资产中心和运行监控中心,承载地铁各业务系统,支撑设备健康、能耗管理、客流统计、线路中心级监控、应急决策和图像型火灾分析等线路级数据分析,数据分析效率从周级缩短至分钟级,实现高效运营,推动深圳步入更美好的全联接数字化轨道交通新时代…        除过在以上各行业的应用,在环境保护方面,青海绿能数据有限公司基于华为云FusionInsight构建了国内首个能源大数据创新平台,实现了规划辅助决策、用气象数据科学指导发电等创新业务,为上下游产业链企业提供25类47项数据服务,推动28座新能源场站实现了“无人值班、少人值守”,并有效支撑了青海“绿电15日”,以大数据为基石,建设绿色新青海,守护高原和谐生态。        同时,华为坚持“自己的降落伞自己先跳”,华为集团IT通过FusionInsight构建OneData大数据集群,实现大数据平台在大规模场景下的开拓,OneData集群其规模已至1万+节点;同时,实现了统一的数据管理服务,在菩提海UniDB产品中,通过逻辑统一方式,把50+物理分散的计算集群(Hadoop+MPP),基于五统一(数据安全,元数据目录,数据集成,数据访问,任务调度),整合成湖仓一体的架构,支撑上千个企业租户的PB级数据分析处理需求。一个基于FusionInsight MRS+DWS 的“+治理,+AI,+运营,+云”的融合数据底座(菩提海)已经在华为集团IT广泛使用,未来可期。        以上只是“冰山的一角”,华为云FusionInsight一方面不断深入理解客户不断发展的业务诉求,另一方面,持续技术创新并引领行业发展,商业诉求+技术创新双轮驱动行业可持续、高质量发展,“用数”助力客户商业成功!上面的论述已经充分证明,华为云是“懂行”的大数据领导者,真正让客户用好数、管好数、放心用。    据了解,截至2020 年10月底,华为云FusionInsight 智能数据湖已服务60+个国家和地区,3,000+客户,覆盖政府、金融、运营商、电力、传媒、医疗、教育、交通、油气、物流、零售、制造、互联网等行业。PS:华为云FusionInsight智能数据湖将参加2020高交会,参展时间:11月11日-15日,展馆地址:深圳市会展中心1号馆1A16,感兴趣的朋友不要错过,每天更有好礼等着你!更多内容,华为云FusionInsight系列文章:https://bbs.huaweicloud.com/forum/thread-66105-1-1.html 免责声明:文中部分图片来源于网络,如有版权问题请联系作者删除。
  • [技术干货] 华为云FusionInsight湖仓一体解决方案的前世今生
            伴随5G、大数据、AI、IoT的飞速发展,数据呈现大规模、多样性的极速增长,为了应对多变的业务诉求,政企客户对数据处理分析的实时性和融合性提出了更高的要求,“湖仓一体”的概念应运而生,它打破数据湖与数仓间的壁垒,使得割裂数据融合统一,减少数据分析中的搬迁,实现统一的数据管理。华为云CTO张宇昕在2020HAS上提出“湖仓一体”概念        早在2020年5月份的华为全球分析师大会上,华为云CTO张宇昕提出了“湖仓一体”,在刚结束的HC2020上,张宇昕在发布新一代智能数据湖华为云FusionInsight时再次提到了湖仓一体。那我们就来看看湖仓一体的来世今生。数据湖和数据仓库的发展历程和挑战        早在1990年,比尔·恩门(Bill Inmon)提出了数据仓库,主要是将组织内信息系统联机事务处理(OLTP)常年累积的大量资料,按数据仓库特有的资料储存架构进行联机分析处理(OLAP)、数据挖掘(Data Mining)等分析,帮助决策者快速有效地从大量资料中分析出有价值的资讯,以利决策制定及快速响应外在环境变化,帮助构建商业智能(BI)。        大约十年前,企业开始构建数据湖来应对大数据时代,它通常把所有的企业数据统一存储,既包括源系统中的原始副本,也包括转换后的数据,比如那些用于报表, 可视化, 数据分析和机器学习的数据。        纵观数据湖与数据仓库的技术发展,不难发现两者有着各自的优劣,具体表现如下:特性数据湖数据仓库数据源来自 IoT 设备、网站、移动应用程序、社交媒体和企业应用程序的非关系和关系来自交易系统、运营数据库和业务线应用程序的关系Schema在分析时写入(读取型 Schema)在 DW 实现之前设计(写入型 Schema)性价比低成本存储获得较快的查询结果较高成本的存储获得最快的查询结果数据质量任何可以或无法进行监管的数据 (例如原始数据)可作为重要事实依据的高度监管数据用户数据科学家、数据开发人员、业务分析师业务分析师分析机器学习、预测分析、数据发现和描述批处理报告、BI 和可视化        企业在进行系统架构设计选型时,需要从具体的分析场景出发,单一的模式已经无法满足企业发展的业务诉求,集中表现在以下两个痛点:湖仓对比, 各有千秋数据湖主要以离线批量计算为主,因为不支持数据仓库的数据管理能力,难以提高数据质量;数据入湖时效差不支持实时更新,数据无法强一致性;主题建模不友好,无法直接历史拉链建模;同时交互分析通常将数据搬迁到数据仓库平台,造成分析链路长,数据冗余存储;批&流等场景融合不够,无法满足企业的海量数据处理诉求。数据仓库满足不了非结构化数据的分析需求,性价比不高;同时仓&湖间难以互联互通,数据协同效率较低,无法支持跨平台透明访问,形成了事实上的数据孤岛,找数困难;缺乏全局数据视图,不同平台接口差异和不同开发管理工具,造成用户开发使用复杂,数据分别管理维护代价高体验差。数据湖和数据仓库正在从两条技术演进路线走向融合        综上,数据湖和数据仓库在企业数据分析场景分别承担一湖一仓的重要角色,形成了完整的数据分析生态系统,上述企业场景面临的2个关键痛点也在驱动数据湖和数据仓库在技术演进上走向融合:        第一个融合方向是基于Hadoop体系的数据湖向数据仓库能力扩展,湖中建仓,从DataLake进化到LakeHouse。LakeHouse结合了数据湖和数据仓库特点,直接在用于数据湖的低成本存储上实现与数据仓库中类似的数据结构和数据管理功能。目前业界已经涌现了一些LakeHouse产品,如Netflix开源Iceberg、Uber开源Hudi、Databricks的 DeltaLake。从DataLake进化到LakeHouse,数据湖扩展数仓能力         以目前生态发展迅速的Apache Hudi为例:统一数据存储,分布式存储不同应用所需的各种类型数据;数仓模式执行和治理,实现事务&更新机制,保证数据完整性和一致性,具有健壮的治理&审计机制;支持各种分析引擎,统一数据存储通过开放和标准化的存储格式(如Parquet),提供API以便各类工具和引擎(包括机器学习和Python / R库)直接有效地访问数据。        虽然LakeHouse并不能完全替代数据仓库,但通过增强性能,支持实时入湖、建模、交互分析等场景,将在企业分析环境中发挥更大作用。        第二个融合方向是数据湖和数据仓库协同起来向湖仓一体的融合分析架构发展,随着企业数据量快速增长,不仅是结构化数据,也有非结构化数据,同时提出了对搜索/机器学习更多的能力要求,使得原来数仓技术不能够有效的处理复杂场景,为此需扩展原有系统,引入Hadoop大数据平台实现新类型数据、新业务场景的支持。在这个背景下由Gartner在2011年提出逻辑数据仓库的概念,预测企业数据分析倾向于转向一种更加逻辑化的架构,利用分布式处理、数据虚拟化以及元数据管理等技术,实现逻辑统一物理分开的协同体系。逻辑数仓的高阶架构        湖仓一体可以认为是逻辑数据仓库架构理念下针对Hadoop数据湖和MPPDB数据仓库的融合架构的最好诠释,数据对用户将完全实现虚拟化,以逻辑统一的数据分析系统为企业提供数据分析服务:        用户使用层面提供统一元数据管理和数据视图,实现全局数据可见可查,支持标准统一访问接口简化用户开发,提供统一开发和治理的工具体系。        平台层面Hadoop与MPPDB具备数据共享和跨库分析能力,支持互联互通、计算下推、协同计算,实现数据多平台之间透明流动。华为云FusionInsight湖仓一体解决方案参考架构           华为云FusionInsight智能数据湖涵盖了分布式存储、大数据、数据仓库、数据治理等,融合了上述两个技术演进方向,为企业用户提供云原生湖仓一体解决方案,整体的参考架构如下:华为云FusionInsight湖仓一体解决方案参考架构        下面一起来看看:        数据存储层:通过OBS统一管理湖&仓的存储底座,将存储在EC(Erasure Code纠错码)、可靠性方面的优势融入进了大数据生态:云原生架构领先:基于云原生架构的OBS存储,具有高带宽,大并发,分布式元数据等特征,因此相同成本的华为存算分离的湖仓一体化集群,数据读写性能领先业界30%。存储计算分离有效降低TCO:支持大比例EC, 副本数从3最低可降低至1.09,TCO下降20%+。统一元数据管理实现湖仓共享存储资源池:通过独立的Data Lake Catalog提供统一元数据管理,兼容Hive Metastore接口,可以无缝对接各类大数据组件。实现针对同一份元数据定义支持各类场景、对象、文件、大数据等不同协议间的数据共享,让数据仓库、数据湖、图引擎、AI等多种计算引擎共享统一的数据存储池。此方案不仅消除了孤立系统中的数据副本,还使得客户可以按照业务按需使用计算存储资源,不仅降低了CAPEX,还简化了运维,从而达成最佳TCO。同时,Data Lake Catalog开放接口,支持和第三方的计算引擎层、数据治理层对接。        计算引擎层:把事务能力引入数据湖,通过HetuEngine标准SQL实现跨域多源统一访问,湖&仓数据互通协同计算,数据免搬迁:CarbonData & Hudi数据实时入湖,实现数据湖事务能力:企业内部许多数据管道通常会并发读写数据,我们通过CarbonData& Hudi数据存储引擎实现数据实时、增量更新,数据T+0实时入湖,大幅缩短传统T+1、T+2时延;引入的增量处理框架,实现了数据湖事务能力,支持入湖过程中的Update/Delete等。HetuEngine支持跨源跨域统一SQL访问,简单易用:用户层基于统一的标准SQL接口,对接多个数据源(HDFS, HBase, DWS等),提供秒级交互式访问,满足各种统计分析、多表Join关联等,让分析建模人员数据分析更容易,降低访问门槛。HetuEngine & DWS-Express打破数据墙,数据免搬迁创新更敏捷:支持数据湖与数据仓库间的数据互联互通、跨平台协同计算,数据免搬迁。HetuEngine在湖内基于统一数据目录,实现高并发,高性能的交互式查询,基于一份数据进行批、流、交互式融合分析,贴源加工、整合关联、主题加工等都在湖内,数据不出湖,分析链路短,加速业务创新;用户可使用DWS-Express提供由成百上千节点组成的加速集群,对存储在OBS上的海量数据进行在线分析,相比本地托管集群,效率提升数百倍。自研Superior调度器支持单集群2万+节点规模,业界最佳:在一个集群内,通过华为自研的Superior调度器支持各种工作负载统一调度,包括数据科学、机器学习以及SQL和分析,调度速率达35万Container/s,资源利用率达90%+,大幅降低企业投入成本。数据冷热分级存储实现更高效的全生命周期管理:DWS具备与OBS的双向互通的能力,既能直接读取OBS上的海量历史数据,也能够直接写入数据到OBS。通过这个特性,我们可以对企业中的海量数据进行更加高效的全生命周期管理,分析中经常使用到的热/温数据存放在DWS中,较少使用的冷数据存放到OBS中,兼顾企业对分析性能和存储经济性的诉求。无缝衔接AI挖掘更多数据价值:深度优化一站式开发平台ModelArts&分布式图计算引擎GES提高开发效率。提供基于数据湖的AI训练推理能力,减少数据搬迁次数,基于100+机器学习算子和NLP算法,实现海量数据快速价值挖掘,满足场景预测、自然语言处理及企业知识图谱等应用; 让GES更快捷地为金融等场景提供关系网络分析等服务。        运营管理层:通过DAYU实现了湖&仓统一的数据集成、开发、目录、治理、开放服务等的运营管理:数据集成:实现多源异构数据高效入湖,支持批/流/实时数据多种方式接入。其中,批量数据迁移基于分布式计算框架,利用并行化处理技术,支持用户稳定高效地对海量数据进行移动,实现不停服数据迁移,快速构建所需的数据架构;流和实时数据接入每小时可从数十万种数据源(例如日志和定位追踪事件、网站点击流、社交媒体源等)中连续捕获、传送和存储数TB数据。数据开发:提供一站式敏捷数据开发平台,提供可视化的图形开发界面、丰富的数据开发类型(脚本开发和作业开发)、全托管的作业调度和运维监控能力,内置行业数据处理pipeline,一键式开发,全流程可视化,支持多人在线协同开发,支持管理多种大数据云服务,极大地降低了用户使用大数据的门槛,帮助用户快速构建数据湖数据处理中心。数据治理:为企业提供数据体系标准和数据规范定义的方法论,统一数据语言和数据建模;为普通业务人员提供高效、准确的数据搜索工具,高效找到数据;提供技术元数据与业务元数据的关联,业务人员快速读懂数据;为数据提供有效的质量管控和评估手段,数据可信质量高。数据开放:为数据湖搭建统一的数据服务总线,帮助企业统一管理对内对外的API服务,支撑业务主题/画像/指标的访问、查询和检索,提升数据消费体验和效率;支持100+开放API,拥有10+行业模板,使能行业ISV快速集成,助力客户数据标准资产沉淀。        综上所述,正是在三层架构都打通了湖仓的技术壁垒,我们才看到了真正的湖仓一体:        数据存储层基于云原生领先架构,存算分离有效降低TCO,统一元数据管理实现湖仓共享存储资源池,针对同一份元数据定义支持各种场景,提供API方便各类工具和引擎(包括机器学习、Python、R等)直接有效地访问数据,这是实现湖仓一体的一个关键点;        计算引擎层为数据湖增加了事务能力提升了数据质量;利用HetuEngine通过标准SQL访问跨域多源数据,实现湖&仓数据关联分析协同计算,简单易用; 打破数据墙,在湖内基于统一数据目录,可基于数据湖实现融合分析&AI训练推理,减少数据搬迁,实现海量数据快速价值挖掘。        运营管理层则提供统一的数据开发和治理环境,具备安全管理功能,支持多引擎任务统一开发和编排,数据统一建模和质量监测,实现湖仓一致的开发治理体验。未来展望        华为云FusionInsight智能数据湖基于客户需求和技术演进趋势持续创新,为企业客户提供湖仓一体解决方案,致力于打造业界最佳的数据底座,让企业业务的创新更敏捷,业务洞察更准确,加速释放数据价值,和数据使能协同更好地服务千行万业!
  • [行业动态] 华为云FusionInsight大数据技术普惠创新,释放千行百业数据价值
            8月31日,华为云举办TechWave大数据专题日,围绕“大数据技术普惠创新,释放千行百业数据价值!” 主题,从金融、运营商等行业在大数据创新的实践,顶级高校的大数据顶尖人才培养和科学研究,以及华为云FusionInsight智能数据湖系列大数据产品的技术创新等方面,以产学研深度融合的方式展开分享和探讨。专题日上,还重磅发布实时数仓新品。大会的精彩内容,让我们一起来看下吧!大数据技术普惠创新,释放千行百业数据价值        上世纪90年代至今,人们经历了PC时代、互联网时代、移动互联网时代,当前正在迈入智能数据时代。随着技术的演进,数据也发生了巨大变化。数据规模越来越大、数据种类呈现多样性、数据处理时效性要求越来越高,同时,对数据融合分析要求越来越强烈。        华为云人工智能领域总裁贾永利表示,“为了应对企业应用大数据面临的各种挑战,华为云推出了智能数据湖FusionInsight,围绕客户在采存算管用等数据全生命周期提供整体解决方案。“方案包含了MRS大数据、DWS数仓、DAYU数据运营等产品,并由华为云博士天团进行详细解读。        同时,为了响应政企客户在数据仓库方面对时效性的需求,专题日还重磅发布了DWS实时数仓新品,其具备快、易、简、省四大特点,具体如下:快:实时数仓时序数据单机入库性能支持每秒10万条数据、每秒60万条流数据持续计算入库,并可线性扩展。易:支持基于SQL完成复杂流式计算语义定义,简化开发。以Druid监控的一个场景为例,仅用150行SQL代码实现了原有1900 行Druid脚本同样的功能。简:实现了1 = N。在一个平台内,同时实现Flink/Spark Streaming(流数据处理)+Druid(流数据预聚合)+InfluxDB(时序数据处理),简化了开发和运维工作。省:时序数据经过实时数仓的自适应压缩算法,最高可达40:1的压缩比,将多维度行列存储优化,数据冷热温自动分区,极大地减少存储空间,节省用户成本。        华为云DWS实时数仓,适用于IoT和运维监控场景,已经在华为流程IT运维大数据平台上线使用。工商银行、广东移动分享大数据创新实践        大数据专题日中,工商银行、广东移动作为行业的领军者,分别分享了基于华为云FusionInsight的大数据创新实践。        工商银行软件开发中心总经理刘承岩表示:“在智能化阶段,我们引入了华为云FusionInsight、GaussDB等产品,搭建了自主可控的大数据云平台,解决了大数据全场景生态化应用的存储、算力和算法挑战,支撑了我行企业级数据湖、数据仓库、集团信息库的一湖两库建设,数据智能服务由事后快速演进到事前、事中的阶段;在生态化阶段,我行进一步深化和华为云的合作,实现大数据云平台和华为云Stack云基础设施的融合,进一步提升大数据云平台的高可用和弹性灵活扩展能力,全面支撑金融数据湖的生态化建设,更好的服务于我行数字工行转型!”        同时,中国移动通信集团广东有限公司信息系统总经理谭丽丽表示:“为更好释放运营商大数据的强大生产力,用好数据、技术等资源,提高广东移动大数据平台的能力,广东移动基于华为云FusionInsight构建智慧大数据平台,积极创新面向个人客户的应用服务,联合政企客户共同打造智慧电网、智慧交通、智慧港口、高清视频应用等系列标杆应用,全力推动5G+大数据,服务百姓、融入百业,更好地满足广大客户对美好数字生活的需要!”清华大学:产学研深度融合,培养大数据领军人才        清华大学软件学院院长、信息学院副院长、大数据研究中心执行主任王建民分享了他对大数据顶尖人才培养的看法。他认为,大数据作为一种新型战略资源,其运用将改变人们的传统认知,对大数据开展持续深入的研究,不仅将引发学科建设、科学研究等方面的深刻变革,还将极大的推动人才培养和教师队伍建设。未来,清华大学将持续不断的培养大数据领域的专门人才,在数字中国、数字经济、新基建等重大领域,让大数据人才“学以致其道,算以致其用”。同时,依托大数据研究中心,持续与华为等企业一起,创新合作机制。持续探索与兄弟院系、学校开展跨学科、跨领域的深度融合, 打造顶尖的大数据科学研究团队,突破大数据关键领域与技术,培养一批有水平,有远见,有担当的大数据领军人才,为社会繁荣发展做出贡献!华为云FusionInsight引领全球大数据技术发展        华为云FusionInsight解决方案首席架构师洪福成为我们解读了华为云FusionInsight整体架构解决方案。        华为云FusionInsight智能数据湖为政企客户提供了一站式大数据分析平台,其主要有以下四个特点:大集群:支持单集群2万节点。华为自研Superior超级调度器,可以调度2万+节点规模;单跨机房部署,解决空间不足;业务自动感知;支持滚动升级,业务运行0中断,用户体验无感知。湖仓一体:批处理和交互式查询融合, “0”数据搬移。基于HetuEngine组件实现交互式查询,数据“0”搬迁;资源基于YARN进行统一调度,资源利用率高 、成本更低;支持多租户,多部门业务任务并行处理。实时数据湖:数据T+0实时入库、消费、分析。数据增量更新入库:基于行级Delta文件,IO小,面向实时更新优化,T+0时效;支持ACID事务,确保数据一致性,多方并发读写数据;Carbon支持索引,精确点查比Parquet性能提升100倍,1PB数据精确点查30内响应。一个企业一个湖:集约高效、易管理。资源利用率高:湖内全量数据批、流、交互式多引擎融合,多租户权限隔离,统一资源调度,资源利用率提升至90%;分析效率高:数据在统一数据湖内,数据流转链路短,分析效率高;易管理、易维护:统一集群,一个版本;滚动升级,业务“0”中断。CarbonData释放海量数据价值 尽显数据湖之美        华为云大数据高级架构师郝行军博士为我们解读了华为自研的CarbonData数据存储引擎。        其面对复杂业务场景可实现全局一份数据到处使用,免去数据搬迁的困扰;面对海量数据的查询使用,针对性优化了查询加速,可实现PB级数据30秒内响应;在时间就是金钱的信息时代,时效性的突出优势被企业所看好,同时CarbonData支持大数据更新,可实现数据T+0实时入湖,优化了传统T+1、T+2的可见时延。    DWS新一代、全场景、云数据仓库    华为云DWS总经理叶涛分享了数据仓库的大、快、稳等特性。大: 分布式架构、高扩展,容纳海量数据和业务DWS从架构源头上采用了Share-Nothing无共享的分布式架构,单集群PB级以上的数据容量,最大可扩展至2048个节点。随着节点数增加,集群的性能和容量线性增长,线性加速比>0.9。快:聚合海量算力、最优效率,导入和分析快如闪电采用了全并行计算的架构。支持多个物理节点并行计算。同时,实现了新一代智能优化器技术、高效的算子算法、动态编译等核心技术,带来了高效的指令效率。稳:多层备份、多级保护,实现数据无忧、持续可用在GaussDB(DWS)的系统部署中,关键硬件都有冗余备份。 所有的软件组件都能实现实例多活或者Active-Standby的互备。同时,实现了全方位的软硬件故障检测,一旦出现了硬件和软件的故障,集群都可以快速的检测和响应,自动的故障切换,实现数据无忧,业务持续可用。DAYU一站式数据运营,管好数,用好数       华为云大数据产品总监杨兴华分享了一站式数据运营平台DAYU,协同伙伴,使能“从比特到信息”的价值发现,释放数据之美,助力企业管好数,用好数。        其核心特点如下:全域联邦数据资产管理:支持超过30+的数据源对接,形成数据融合协同,同时也不破坏原有的IT系统建设,支撑达到“立而不破”的效果。开放的架构体系:DAYU围绕数据使用,今年重构了整体架构,重心面向伙伴协同,打造开放体系,提供分层API接口供伙伴调用,包括基础的集成开发,元数据管理、安全管理,数据开放,以及高级的质量管理,数据模型,资产运营等,伙伴可以根据自身系统和业务特点按需集成;共享型行业资产模型:在资产运营管理框架基础上,采用模型驱动的理念实现资产的一键注入、导出、自动化管理,数据资产化效率实现3倍提升,支撑伙伴快速构筑行业数据资产生态。        此外,DAYU围绕数据目录,资产地图,数据血缘,打造了进阶式的数据资产管理体系。在数据安全方面,DAYU从最开始就围绕数据规划了完善的安全管理能力,包括权限管控、合规审计、敏感发现、隐私保护和风险管理,让用户放心用数。        DAYU推出一年多以来,其端到端全流程数据可视管理,一键式资产沉淀能力,加速了企业数字化转型的进程,受到行业伙伴和客户的欢迎。未来将继续围绕数据价值使能,坚持架构开放,持续丰富各层级的API,进一步普惠伙伴,助力沉淀行业数据资产。        目前,华为云FusionInsight智能数据湖已广泛应用于政府、金融、运营商、大企业、互联网等行业,已为全球60多个国家和地区的3000多家政企客户提供服务。未来,华为云FusionInsight将与800多家合作伙伴一起,携手客户创新应用实践,基于FusionInsight智能数据湖构建领先的数据基础平台,实现一企一湖,业务洞见更准,价值兑现更快。让政企用户更方便快捷高效地用好数据,加速数字化转型升级。        8月31日,华为云TechWave大数据专题日成功举办。让我们看金融、运营商等行业趋势,听顶级高校人才培养之道,学华为大数据领先技术,各路领军人物“华山论数”,精彩内容更能回看!大数据专题日地址:https://www.huaweicloud.com/about/techwave_bigdata.html    华为云大数据调查问卷:    有奖观影活动:
  • [大数据] 华为云FusionInsight助力广东移动拓展大数据应用,释放海量数据价值
        “2020年疫情突发,广东移动通过用户注册提交信息,快速组装业务逻辑,注册大数据标准服务OPENAPI,以100个通道同时向外发布数据查询能力。结合数据**的快速能力,24小时内组装出‘健康码’的应用,查询返回时间小于1秒钟,每天响应200万的并发查询量,峰值达400万,高效助力疫情防控。”8月31日,华为云TechWave大数据专题日在线上举行,中国移动通信集团广东有限公司信息系统部总经理谭丽丽分享了运营商大数据创新应用实践。 广东移动信息系统部总经理谭丽丽数据价值日益显现,广东移动积极拓展大数据应用    近年来,在云计算、大数据、人工智能等ICT技术的推动下,数字化转型方兴未艾,数据的作用越来越重要。据GIV@2025预测,到2025年,全球97%的大企业将采用AI,90%的人口将拥有个人智能终端助理,58%的人口将享有5G服务。与此同时,企业的数据利用率将达86%,全球年存储数据量高达180ZB。这意味着,数据已成为至关重要的生产要素,蕴藏着巨大的价值和潜能。    据悉,作为运营商领域的创新排头兵,中国移动通信集团广东有限公司信息系统部总经理(以下简称“广东移动”)一直致力于拓展大数据应用,早在2015年10月便启动了大数据平台建设工作,并在2016年建立子公司统一的大数据生态,依托大数据平台来实现内部业务效率提升和外部用户服务。经过近五年的建设,广东移动大数据集群规模已超2500节点,存储容量达到80PB,覆盖移动用户数超1.3亿,是全国运营商领域覆盖用户数量最多,规模最大以及技术领先的大数据平台。    随着5G商用进程的深化,5G 技术将推动移动互联网、物联网、大视频、大数据、云计算、人工智能等关联领域裂变式发展,数据进一步迎来爆发式增长。为满足中国移动公司“5G+”战略布局及业务发展的需求,更好释放运营商大数据的强大生产力,用好数据、技术等资源,提高广东移动大数据平台的能力,广东移动基于华为云智能数据湖解决方案FusionInsight构建智慧**,积极创新面向个人客户的应用服务,联合政企客户共同打造智慧电网、智慧交通、智慧港口、高清视频应用等系列标杆应用。 华为云提供数字底座,助力广东移动构建智慧**    为全面释放数据价值,广东移动智慧**分为基础设施资源层、技术平台层、数据**层和应用层。其中,技术平台以华为云智能数据湖FusionInsight为数字底座,为上层数据**和应用提供数据采集和分发、Hadoop大数据处理、高性能资源调度器、增强实时计算和数仓等服务,通过数据虚拟化的统一SQL查询、分布式计算、高速传输优化及Redis内存优化、Flink内存管理优化等技术,大幅提升大数据处理效率。    在构建智慧**的过程中,广东移动还积极进行技术创新,包括自主搭建运营商数据**,提供安全的、高并发、快速组装应用服务能力:引进无感知滚动升级,实现在线扩容而不中断业务;自主研发超级资源调度引擎Superior,提升系统资源调度效率4倍以上;自主研发跨集群协同技术,为5G高速发展提供技术储备等。广东移动智慧**    得益于华为云FusionInsight智能数据湖提供的数字底座,及上述多方面的技术创新,广东移动基于智慧**打通了数据全生命周期链路,实现了对内业务支撑、对外应用赋能。而依托数据**高可靠、高并发、快速组装应用服务的能力,广东移动为各行各业研发了多个行业解决方案,全面支撑了包括疫情防控在内的各类政务、民生等工程的应用服务。在政务应用方面:广东移动智慧平台面对政府机关、事业单位的公共服务和公益类服务提供的精准短**送能力,可依托大数据的标签洞察及客户触达能力,精准筛选用户,进行短信的精准投放。在旅游应用方面:数据**提供位置能力,组装大数据旅游应用,可圈定旅游地区,实时解析旅游区内的数据,定期生成景区热力图,并发布数据给大数据旅游系统。在精准扶贫方面:数据**组装成大数据精准扶贫应用“岭南优品”,打造全国首个电商扶贫平台,为大数据精准扶贫提供智慧化平台。目前该平台用户规模达到670万,完成交易订单723万,交易额达2.2亿元。在防诈骗监控方面:通过数据**提供的分析模型,组装防诈应用,对于异常外呼用户,优化过滤算法,识别出异常群体,及时阻断、回溯诈骗行为,减少人民群众损失。在保障春运安全方面:数据**提供基础能力,组装大数据交通应用,定期生成交通枢纽热力图,并发布数据给大数据交通系统。    数字化大潮浩浩荡荡,大数据价值亟待释放。未来,华为云将持续助力广东移动大数据技术创新,携手广东移动及全国各地运营商伙伴,全力推动5G服务百姓、融入百业,更好地满足广大客户对美好数字生活的向往。十多年来FusionInsight 致力于为全球60+国家地区、3000+政企客户构建企业级智能数据湖,结合平台+生态战略,与800+商业合作伙伴 ,广泛应用于金融、运营商、政府、能源、医疗、制造、交通等多个行业,在政企数字化转型中,释放数据价值,助力政企客户业务高速增长。MRS源于开放的大数据生态,叠加了企业级的关键能力,既保持了开放性,又给客户提供了企业级融合大数据平台,帮助客户实现T+0数据入湖,一站式融合分析,让数据“慧”说话。相关文章:华为云TechWave大数据专题日,解密金融业为何“偏爱”华为云?2020中国大数据企业50强重磅发布,华为云大数据连续四年荣登榜首0业务中断!全国首个1000+大数据集群成功升级!再获殊荣!华为云Fusioninsight智能数据湖、GaussDB(DWS)数据仓库斩获业界两项大奖FusionInsight亮相华为云与计算城市峰会深圳站FusionInsight MRS 技术解读:单集群如何做到2万+规模华为云FusionInsight MRS融合大数据平台进阶之路华为云FusionInsight MRS通过信通院大数据能力评估 单集群突破2万+规模重磅发布!华为云EI智能数据湖FusionInsight 8.0 MRS 6月30日发布新特性,更快更安全,小伙伴们快来GET√+CarbonData,华为云EI智能数据湖FusionInsight让数据处理飞起来!华为云EI智能数据湖FusionInsight携手Kyligence助力保险业数字化转型!华为云EI智能数据湖FusionInsight MRS大数据在银行业的应用探索与典型案例直击痛点!华为云EI智能数据湖FusionInsight助力政企客户释放数据价值!
  • [行业动态] 华为云FusionInsight助力广东移动利用大数据技术应对5G数据浪涌,释放海量数据价值
        “2020年疫情突发,广东移动通过用户注册提交信息,快速组装业务逻辑,注册大数据标准服务OPENAPI,以100个通道同时向外发布数据查询能力。结合大数据平台的快速能力,24小时内组装出‘健康码’的应用,查询返回时间小于1秒钟,每天响应200万的并发查询量,峰值达400万,高效助力疫情防控。”8月31日,华为云TechWave大数据专题日在线上举行,中国移动通信集团广东有限公司信息系统部总经理谭丽丽分享了运营商大数据创新应用实践。 广东移动信息系统部总经理谭丽丽数据价值日益显现,广东移动积极拓展大数据应用        近年来,在云计算、大数据、人工智能等ICT技术的推动下,数字化转型方兴未艾,数据的作用越来越重要。据GIV@2025预测,到2025年,全球97%的大企业将采用AI,90%的人口将拥有个人智能终端助理,58%的人口将享有5G服务。与此同时,企业的数据利用率将达86%,全球年存储数据量高达180ZB。这意味着,数据已成为至关重要的生产要素,蕴藏着巨大的价值和潜能。        据悉,作为运营商领域的创新排头兵,中国移动通信集团广东有限公司信息系统部总经理(以下简称“广东移动”)一直致力于拓展大数据应用,早在2015年10月便启动了大数据平台建设工作,并在2016年建立子公司统一的大数据生态,依托大数据平台来实现内部业务效率提升和外部用户服务。经过近五年的建设,广东移动大数据集群规模已超2500节点,存储容量达到80PB,覆盖移动用户数超1.3亿,是全国运营商领域覆盖用户数量最多,规模最大以及技术领先的大数据平台。        随着5G商用进程的深化,5G 技术将推动移动互联网、物联网、大视频、大数据、云计算、人工智能等关联领域裂变式发展,数据进一步迎来爆发式增长。为满足中国移动公司“5G+”战略布局及业务发展的需求,更好释放运营商大数据的强大生产力,用好数据、技术等资源,提高广东移动大数据平台的能力,广东移动基于华为云智能数据湖解决方案FusionInsight构建大数据智慧平台,积极创新面向个人客户的应用服务,联合政企客户共同打造智慧电网、智慧交通、智慧港口、高清视频应用等系列标杆应用。华为云提供数字底座,助力广东移动构建大数据智慧平台        为全面释放数据价值,广东移动大数据智慧平台分为基础设施资源层、技术平台层、数据平台层和应用层。其中,技术平台以华为云智能数据湖FusionInsight为数字底座,为上层大数据平台和应用提供数据采集和分发、Hadoop大数据处理、高性能资源调度器、增强实时计算和数仓等服务,通过数据虚拟化的统一SQL查询、分布式计算、高速传输优化及Redis内存优化、Flink内存管理优化等技术,大幅提升大数据处理效率。        在构建大数据智慧平台的过程中,广东移动还积极进行技术创新,包括自主搭建运营商数据平台,提供安全的、高并发、快速组装应用服务能力:引进无感知滚动升级,实现在线扩容而不中断业务;自主研发超级资源调度引擎Superior,提升系统资源调度效率4倍以上;自主研发跨集群协同技术,为5G高速发展提供技术储备等。广东移动大数据智慧平台        得益于华为云FusionInsight智能数据湖提供的数字底座,及上述多方面的技术创新,广东移动基于大数据智慧平台打通了数据全生命周期链路,实现了对内业务支撑、对外应用赋能。而依托数据平台高可靠、高并发、快速组装应用服务的能力,广东移动为各行各业研发了多个行业解决方案,全面支撑了包括疫情防控在内的各类政务、民生等工程的应用服务。在政务应用方面:广东移动智慧平台面对政府机关、事业单位的公共服务和公益类服务提供的精准短信推送能力,可依托大数据的标签洞察及客户触达能力,精准筛选用户,进行短信的精准投放。在旅游应用方面:通过数据平台组装大数据旅游应用,可圈定旅游地区,实时解析旅游区内的数据,定期生成景区热力图,并发布数据给大数据旅游系统。在精准扶贫方面:数据平台组装成大数据精准扶贫应用“岭南优品”,打造全国首个电商扶贫平台,为大数据精准扶贫提供智慧化平台。目前该平台用户规模达到670万,完成交易订单723万,交易额达2.2亿元。在防诈骗监控方面:通过数据平台提供的分析模型,组装防诈应用,对于异常外呼用户,优化过滤算法,识别出异常群体,及时阻断、回溯诈骗行为,减少人民群众损失。在保障春运安全方面:数据平台提供基础能力,组装大数据交通应用,定期生成交通枢纽热力图,并发布数据给大数据交通系统。        数字化大潮浩浩荡荡,大数据价值亟待释放。未来,华为云将持续助力广东移动大数据技术创新,携手广东移动及全国各地运营商伙伴,全力推动5G服务百姓、融入百业,更好地满足广大客户对美好数字生活的向往。十多年来FusionInsight 致力于为全球60+国家地区、3000+政企客户构建企业级智能数据湖,结合平台+生态战略,与800+商业合作伙伴 ,广泛应用于金融、运营商、政府、能源、医疗、制造、交通等多个行业,在政企数字化转型中,释放数据价值,助力政企客户业务高速增长。MRS源于开放的大数据生态,叠加了企业级的关键能力,既保持了开放性,又给客户提供了企业级融合大数据平台,帮助客户实现T+0数据入湖,一站式融合分析,让数据“慧”说话。相关文章:华为云TechWave大数据专题日,解密金融业为何“偏爱”华为云?2020中国大数据企业50强重磅发布,华为云大数据连续四年荣登榜首0业务中断!全国首个1000+大数据集群成功升级!再获殊荣!华为云Fusioninsight智能数据湖、GaussDB(DWS)数据仓库斩获业界两项大奖FusionInsight亮相华为云与计算城市峰会深圳站FusionInsight MRS 技术解读:单集群如何做到2万+规模华为云FusionInsight MRS融合大数据平台进阶之路华为云FusionInsight MRS通过信通院大数据能力评估 单集群突破2万+规模重磅发布!华为云EI智能数据湖FusionInsight 8.0 MRS 6月30日发布新特性,更快更安全,小伙伴们快来GET√+CarbonData,华为云EI智能数据湖FusionInsight让数据处理飞起来!华为云EI智能数据湖FusionInsight携手Kyligence助力保险业数字化转型!华为云EI智能数据湖FusionInsight MRS大数据在银行业的应用探索与典型案例直击痛点!华为云EI智能数据湖FusionInsight助力政企客户释放数据价值!
  • [大数据] FusionInsight MRS 技术解读:单集群如何做到2万+规模
    7月9日,中国通信院在大数据产业峰会·成果发布会上为通过大数据产品能力评测的产品颁发证书,华为云FusionInsight MRS以测试项全部满分的成绩顺利通过评估,并成功突破单集群2万节点的超大规模,树立行业新标杆。为了应对5G、IoT高速发展,大数据技术在分布式批处理基础能力上进一步加强。FusionInsight MRS作为华为基于Hadoop生态的大数据产品,一直致力于超大规模单集群承载能力的探索和实践,目的是当数据指数级增长时,华为自研的大数据产品能平滑的满足用户需求。随着社会数字化转型的加速,数据量激增超出了预期,与此同时,用户的多场景融合分析的诉求不允许将集群进行拆分,不允许将数据分析业务割裂而导致业务模块之间失去关联。因此华为大数据研发团队开启了单集群2万节点规模探索。超大规模集群的技术痛点对于一个分布式系统来说,当集群规模由小变大以后,简单的问题都会变得异常复杂。随着节点的增多,简单的心跳机制,也会让Master节点不堪重负。2W节点的FusionInsight MRS集群面临着诸多挑战:1.如何实现面向多租户场景的批、流、交互式混合负载的高效调度,集群规模与处理能力的线性扩展、引擎之间资源波峰波谷错峰复用数据的集中存储可以通过超大集群来有效解决,但数据如果仅仅是存着,不会产生价值,只有进行大量的分析才能从数据中找到价值。通过跑批任务,生成固定的报表是大数据平台的常规用法,数百P的数据如果仅仅用来跑批,无论是对数据还是对海量的计算资源都是一种浪费;时间就是金钱,时间就是效率,数据T+0入湖,实时更新入湖,就是不断加速数据价值变现,超大规模集群应该能实现数据的T+0实时数据入湖,全量数据的批量分析,数据分析师的交互式探索分析,确保平台的价值最大化 。如在一个大集群上,同时快速的实现数据T+0的实时入湖,批分析,还能面向大量分析师的即席查询要求,做到计算资源的隔离和共享,是调度系统需要解决的一个重要问题。2.如何面对存储、计算、管理方面的新挑战,突破多个组件的瓶颈限制计算方面:随着集群规模变大,YARN的ResourceManager可调度的资源变得更多,可以并行的任务更多,这对中心调度进程提出了更高的要求,如果调度速度跟不上,作业任务会在集群入口处堆积,而集群的计算资源无法有效利用。存储方面:随着存储容量的增加,HDFS在大规模集群上需要管理的文件对象增多,HDFS NameNode元数据量也会相应增加。社区虽然提供了NameNode联邦机制,但需要应用层感知不同NameNode的命名空间,使用和维护都会变得异常复杂。除此之外,还很容易出现各命名空间之间映射的数据量不均衡的问题。同时,随着数据量的增加,Hive元数据中的数据量急剧增长,对元数据库也会形成极大的压力,极易出现所有的SQL语句都堆积在元数据查询环节造成阻塞。运维管理方面:除了计算和存储面临的瓶颈问题,平台的运维能力,也会随着规模变大,遇到瓶颈问题。如系统的监控系统,当节点从5000变为20000的时候,每秒处理的监控指标会从每秒60万增加到200多万条。3.如何提升大规模集群的可靠性和运维能力,确保集群不停服平台的可靠性一直是平台运维部门最关注的点,当集群承担了全集团的全量数据统一加工分析之后,就意味着集群必须24小时永远在线,但是技术会不断发展[Z(4] ,平台必须要确保系统可以支持后续的更新与升级,以确保集群可面相未来持续演进,发展。另外,随着集群规模的增加,机房空间不足的问题将凸显出来。如果简单地将一个大集群跨机房部署,在带宽负载和可靠性上,都会面临比较大的挑战。如何做到机房级的可靠性,对一个超大规模的集群也至关重要。超大规模集群优化的实践过程针对以上各方面的挑战,FusionInsight MRS在3.0版本进行了系统性的优化。如果说当年从500到5000节点,主要是在代码级的优化,那么从5000到2W,仅凭代码级的优化已经无法达成,很多问题需要架构级的优化才能解决。1.自研Superior超级调度器,解决超大规模调度效率和面向多租户场景的混合负载的问题FusionInsight引入数据虚拟化引擎,在统一的大集群上提供了交互式查询的能力,解决了面向分析师的查询效率问题。为了支撑在超大集群上同时支持多样化的负载,在自研的Superior调度器上,实现了为租户同时分配保留资源与共享资源,租户独享保留资源的权益同时还满足了资源共享的需求。对于更重要的业务,则可以通过绑定固定资源池的方式,将一批固定的机器分配给某个租户,做到物理上的隔离。通过计算引擎和调度引擎的协同,真正做到了数据不出湖,在一个大平台上的业务闭环。在多租户能力方面,随着租户越来越多,租户间的资源隔离成为用户的核心诉求。Hadoop社区提供了基于队列的计算资源隔离能力,基于Quota的存储资源阈值限制能力,但是在任务或者读写操作被分配到同一台主机上时,依然会相互争抢资源。针对此场景,在MRS产品上提供了以下几种方式进行更加细粒度的隔离:标签存储:给承载存储资源的DataNode打标签,在文件写入时指定标签,实现了最大程度的存储资源隔离。该特性可以有效应用于冷热数据存储和硬件资源异构的场景。多服务:在同一个集群中的不同主机资源上,部署多个同种服务,不同的应用可根据需求,使用各自的服务资源,并且相互之间互不干扰。多实例:在同一个集群中的同一台主机资源上,独立部署同种服务的多个实例资源,以达到主机资源的充分利用,不与其它服务实例共享。例如:HBase多实例、Elasticsearch多实例、Redis多实例等。2.技术攻坚,突破计算、存储、管理等各方面的瓶颈在计算任务的调度效率方面,通过专利调度算法进行优化,将一维的调度转换为二维调度,实现了相对开源调度器在效率上数倍提升。在实际的大规模集群生产环境下,针对自研Superior和开源Capacity性能对比:同步调度情况下,Superior比Capacity快30倍异步调度情况下,Superior比Capacity快2倍同时通过对2W集群的深度优化,FusionInsight MRS 3.0版本的Superior可以达到调度35w/s个Container的调度速率,完全超出了大规模集群在调度速率上的用户预期,并且集群资源利用率达到98%以上,超过开源Capacity的能力近一倍,为大规模集群的平稳商用奠定了坚实的基础。下图是分别在Superior和Capacity下关于“资源利用率”的监控视图:可以看出Superior近乎100%的资源使用率,而Capacity下资源无法得到充分利用。Superior资源利用率Capacity资源利用率在存储方面,Hadoop社区为解决HDFS在文件对象管理上的瓶颈,推出了联邦解决方案。但是大量不同命名空间的引入,直接导致上层业务在开发、管理、维护上复杂度上升。为解决这一问题,社区又推出了Router Based Federation特性,由于在NameNode之上加了一层Router进行交互,导致性能下降。针对以上问题,FusionInsight MRS对产品方案做了如下优化:通过在大集群生产环境中识别关键瓶颈,FusionInsight MRS利用合并单次读写流程中的交互次数、使用改良的数据通信压缩算法等技术方案,将性能下降控制在4%以内。为解决不同命名空间之间数据不均衡的问题,FusionInsight MRS利用DataMovementTool自动均衡不同命名空间之间的数据,大大降低了集群维护成本。随着数据量的增加,Hive的元数据在面对海量表/分区的时候,也面临着非常大的瓶颈。虽然Hive的社区推出了Metastore Cache的解决方案,但并未解决多个Metastore之间的缓存一致性的问题,导致此方案无法在大规模的集群上规模商用。FusionInsight MRS通过引入分布式缓存Redis作为替代方案,结合分布式锁、缓存黑白名单机制、缓存生命周期管理等技术手段增强了Metastore Cache的可用性。在运维管理面方面,当集群规模增长到2W节点后,运维压力陡然增加:系统需要采集的监控指标数量也从原来的每秒采集60W+条数据,增长到200W+条告警并发处理从原来的200条/s增长到1000条/s配置管理的总条目数从50万增长到200多万FusionInsight MRS原有架构中主备模式的监控、告警、配置、元数据存储模块,因为数据量的暴涨受到了巨大的性能挑战,为解决这一问题,新版本利用Flink、HBase、Hadoop、Elasticsearch等成熟的分布式组件技术,将原来的集约主从模式调整成了可弹性伸缩的分布式模式,成功解决了运维管理面临的难题,并且为后续运维数据的二次价值挖掘打下了基础。3.通过滚动升级/补丁、任务级“断点续传”、跨AZ高可用等部署能力,保障平台持续稳定运行滚动升级/补丁:FusionInsight从2.7版本开始支持滚动升级功能,实现了平台升级/补丁等操作的业务无感知。但随着时间的发展 ,社区能力却不支持滚动升级,如Hadoop2到Hadoop3的大版本升级这意味着很多超大集群不得不一直停留在老版本而无法升级,当然这是业务无法接受的。FusionInsight MRS通过对社区接口的兼容性处理,成功实现了Hadoop大版本间的滚动升极,并在2020年Q2完成了1W+节点集群规模的滚动升级。在FusionInsight的客户中,滚动升级成了500+规模集群的必备能力。任务级“断点续传”:在大规模集群上,持续运行着一些超大任务,动辄包含几十万个Container,这类任务往往运行时间长,中间一旦出现个别故障,有可能导致任务需重新执行,造成大量的计算资源白白浪费。FusionInsight MRS提供了多种机制保障任务的可靠运行,例如:存储上提供感知AZ的文件存储策略,将文件自身及其副本分别放置在不同的AZ上,用户发起读写操作时,优先在本AZ内寻找资源,只有在AZ故障的极端场景下,才会出现跨AZ的网络读写流量。计算上提供感知AZ的任务调度机制,将用户提交的任务充分分配在同一个AZ内完成,避免同一个任务的不同计算单元之间消耗网络资源。        通过以上的存储块放置策略和计算任务的本地化调度,还可实现单集群跨AZ的高可用,单AZ故障的时候,核心数据和计算任务不受影响。【结束语】        FusionInsight MRS 单集群21000节点在2020年7月获信通院颁发大数据产品能力评测证书,成为业界第一个单集群突破2W节点的商用大数据平台,树立行业新标杆。未来,FusionInsight MRS将持续深入大数据技术的探索和研究,在大集群技术的基础上进一步实现存算分离,通过统一的元数据和安全管理,实现数算分离(数据+元数据和计算分离),从而实现数据在更大范围的共享,进而实现一份数据,多个计算集群的灵活部署和弹性伸缩,通过平滑扩展的架构,可支持10万级,甚至百万级别的集群规模,不断适应企业大数据应用多场景融合的核心诉求。未来架构演进方向 十多年来FusionInsight 致力于为全球60+国家地区、3000+政企客户构建企业级智能数据湖,结合平台+生态战略,与800+商业合作伙伴 ,广泛应用于金融、运营商、政府、能源、医疗、制造、交通等多个行业,在政企数字化转型中,释放数据价值,助力政企客户业务高速增长。MRS源于开放的大数据生态,叠加了企业级的关键能力,既保持了开放性,又给客户提供了企业级融合大数据平台,帮助客户实现T+0数据入湖,一站式融合分析,让数据“慧”说话。相关文章:华为云FusionInsight MRS通过信通院大数据能力评估 单集群突破2万+规模重磅发布!华为云EI智能数据湖FusionInsight 8.0 MRS 6月30日发布新特性,更快更安全,小伙伴们快来GET√+CarbonData,华为云EI智能数据湖FusionInsight让数据处理飞起来!华为云EI智能数据湖FusionInsight 成功助力10000+大数据集群滚动升级!华为云EI智能数据湖FusionInsight携手Kyligence助力保险业数字化转型!华为云EI智能数据湖FusionInsight MRS大数据在银行业的应用探索与典型案例进而有为!华为云EI智能数据湖FusionInsight亮相华为云与计算城市峰会南京站!直击痛点!华为云EI智能数据湖FusionInsight助力政企客户释放数据价值!
  • [大数据] 华为云FusionInsight MRS融合大数据平台进阶之路
            大数据诞生之初聚焦在海量数据的批分析,实际使用场景基本都是海量数据T+1的跑批业务,随着用户业务的不断发展,对数据使用维度的复杂性和T+0时效性要求也在不断增加,而且每个需求上都有细粒度甚至苛刻的定义。为此,华为研发队伍不断的加大MRS研发力度,FusionInsight 8.0 MRS版本是产品演进过程中一个较大的转折点,产品在保障跑批及跑批性能的同时,考虑到用户对T+0数据时效的贴源分析场景,引入了更高性能的交互式查询引擎,实现企业全量数据分析从T+0贴源分析,到全量数据融合分析,再到结果的交互式探索分析,解决了过去数据共享难、使用效率低、跨系统链路复杂等难题,实现了统一分析的一站式所见即所得平台。        除此之外,新版本对Spark、Hive等组件进行了增强,使得原有业务应用的性能得到大幅提升,在MRS平台上构建海量数据融合批、流、交互式的一站式分析平台。        FusionInsight 8.0 MRS的版本已正式发布,本文意在结合融合大数据场景重点介绍新版本的核心产品能力。支持事务ACID,实现全量数据T+0入湖,一站式融合分析,消除数据孤岛        事务以及事务的ACID是数据处理中永恒的话题,原本是经典的数据库设计理论,现在已经逐渐衍生到各种数据平台产品中,MRS也不例外,目的是为了解决在Hadoop生态中数据时效达到T+0贴源分析。        实际上在MRS早期版本中已经沿用并增强了Hive本身对事务的支持,但实际场景中使用效果并不理想,既要兼顾列式引擎的极致查询性能,又要兼顾传统MPP基于事务能力的行式存储,这给研发人员提出了很大的挑战。FusionInsight 8.0 MRS的版本里,由华为贡献的顶级项目CarbonData升级到 2.0版本,在保证列式存储天然的优势外,极大的提升了ACID能力,同时也提升了Upsert操作的性能,使得T+0贴源分析的数据应用场景的业务需求得到充分满足,让用户得到同OLAP几乎一致的体验感。        除此之外,FusionInsight 8.0 MRS还支持Merge操作,极大的丰富了SQL的语法且能保证一致的性能。传统大数据平台中T+1流水线示例传统大数据平台中T+0流水线示例        在业务场景上,受Lambda/Kappa架构思想的影响,过去用户往往会建立两条流水线作业,一条是T+1从Source->PDM->SUM->MARK的分层结构的批处理模型,另一条是基于Flink/Kafka的流式处理引擎实现实时数据的消费,遗憾的是,仅T+0的数据无法满足业务需求,还是要依赖T+1的方式来实现。FusionInsight 8.0 MRS新版本中的统一分析新方案        FusionInsight 8.0 MRS中,Carondata引入事务机制,将两条作业流水线完美融合,流式引擎可以以实时或者准实时的方式处理后存储在Carbondata中,直接以T+0的方式进行贴源数据的加工和分析。给用户提供了一种完整的贴源Source->PDM->SUM->MARK统一分析新方案。Carbondata提供丰富的索引和物化视图,提升Spark/Hive性能        索引的多样性是Carbondata的一大特色,这给开发者更多的优化手段和极大的优化空间,让SQL解析的过程向数据库优化器功能更进一步。在FusionInsight 8.0 MRS版本中,引入了二级索引、时序索引、空间索引、Segment级别MINMAX索引、倒排索引和分桶索引。FusionInsight 8.0 MRS的三级索引方案        其中,一级索引在Driver端利用分区和块级索引实现粗粒度的分区剪裁;二级索引在节点内使用块内索引实现细粒度数据过滤;三级索引在文件内实现倒排索引快速定位到明细数据。三层索引按序使用,对于非主键的精确查询秒级响应,极大的提升了OLAP分析性能。        Carbondata实现了数据库的物化视图能力,不仅支持很多场景下数据的动态实时更新,还支持物化视图中对Join、Group By、Order By等SQL能力,实现了基于物化视图的复杂查询秒级响应。HetuEngine 提供高性能交互式查询        HetuEngine是一个高性能的交互式查询工具,可以直接查询Hive数据,无需将数据从Hive中迁移到其它数据库,通过一个引擎可以访问所有格式的数据,且兼容SQL2003标准。HetuEngine 的核心架构采用管道式多线程任务,CPU资源可以充分利用,相比较Hive+MR的机制,大大提升响应能力;数据处理在内存中完成,内存块之间的数据交换避免了磁盘的IO开销,极大的提升了性能。        与此同时,HetuEngine将计算资源统一交给Yarn进行资源管理,无需像Impala一样规划单独的节点部署,同时还充分享受到了YARN的多租户资源隔离机制,可实现计算资源的弹性伸缩。实现了真正的数据共享、计算隔离、弹性伸缩。满足了企业越来越多的高并发即席分析场景,大集群的扩展能力,灵活的租户分配机制,通过横向扩展能力可轻松实现10000+并发的即席分析。HetuEngine        HetuEngine对跨源、跨域的数据融合也做到了极强的支撑,通过公共的连接插件层整合了多种数据源的连接插件,对于异构平台的HBase/Hive/ElasticSearch,以及高斯DWS,都能实现融合关联分析。“一份数据 + 一个引擎”支持数据湖全场景使用        以HBase、MongoDB或者ElasticSearch为代表的Nosql数据库,虽然可以支持实时查询类业务,但是均不支持存算分离的部署架构,为了满足PB级别存储的需求,需要启动更多的计算节点,消耗更多的CPU和存储成本,同时还要付出更多的运维成本,计算和存储的紧密耦合也意味着更低的计算和存储利用率。        以Spark on Parquet、Hive on ORC为代表的Hadoop生态数据仓库解决方案,支持将数据放在对象存储服务上,但是没有对数据构建高效的索引,使得明细数据查询或者复杂查询都很慢。        为了实现“又方便又快又便宜”的任性,FusionInsight 8.0 MRS引入了HetuEngine 和Carbondata 2.0,对接并完全发挥了Carbondata的优势,能够像关系型数据库一样高效执行复杂交互式的SQL查询,又可以兼备NoSQL的索引性能优势,还能和Spark/Hive一样享受文件存储成本优势和高度可扩展性的数据并行处理。异构融合,平滑演进        对于计算引擎来说,基于Carbondata 2.0,原先已经投产的Flink、Hive、Hetu等计算引擎怎么办?FusionInsight 8.0 MRS支持异构引擎无缝接入,不会因为新组件的引入造成原组件无法使用或性能降低。        对存储引擎来说,在引入了Carbondata之后,之前基于Parquet或者ORC格式存储的文件怎么办?是否需要迁移?HetuEngine 支持对Parquet、ORC、CarbonData数据进行统一访问,无需迁移即可实现全域数据的统一管理和使用。如果想全部用CarbonData存储格式实现统一的数据管理和非异构的数据关联,Carbondata 2.0支持PB级别Parquet数据平滑导入,完全不必担心新组件引入带来的迁移障碍。基于FusionInsight MRS新版本的企业大数据参考架构        在典型的基于Hadoop生态的企业架构中,数据仓库基于Hive构建,如下图所示,跑批业务从文件交换区读取当天的数据增量开始,以T+1的方式顺次加工处理并整合到各个逻辑存储层,如下红色箭头代表了T+1时效的数据流向。实时业务在没有Carbondata之前,仅仅通过Kafka/Flink引擎将数据采集并存储到贴源区,供用户直接使用。由于不支持事务ACID,实时数据无法保证数据一致性,密集的交易数据无法通过数据处理逻辑(贴源->ODS->PDM->SUM->MARK)而保证业务的上的数据准确。引入Carbondata和HetuEngine 之后,T+0的数据完全可以保证事务ACID机制,从而实时数据经过业务逻辑层次按序加工后,保证准确性和一致性。FusionInsight 8.0 MRS新版本的企业大数据参考架构总结:        FusionInsight 8.0 MRS基于CarbonData 2.0和HetuEngine 以及其它社区组件的升级与增强,提供了一种全新的企业级的融合大数据平台解决方案,基于事务的增强,用户可以完全实现T+0时效的数据消费和贴源分析,一份数据同时支持多种应用场景,一个引擎支持多种数据存储模式,充分利用资源,消除数据孤岛。支持的数据规模达到EB级,ACID能力增强,查询性能秒级响应,多索引优化,高性能交互式查询以及异构融合。使用一套生态体系完成全部业务场景的愿景得以实现。十多年来FusionInsight 致力于为全球60+国家地区、3000+政企客户构建企业级智能数据湖,结合平台+生态战略,与800+商业合作伙伴 ,广泛应用于金融、运营商、政府、能源、医疗、制造、交通等多个行业,在政企数字化转型中,释放数据价值,助力政企客户业务高速增长。MRS源于开放的大数据生态,叠加了企业级的关键能力,既保持了开放性,又给客户提供了企业级融合大数据平台,帮助客户实现T+0数据入湖,一站式融合分析,让数据“慧”说话。相关文章:FusionInsight MRS 技术解读:单集群如何做到2万+规模华为云FusionInsight MRS通过信通院大数据能力评估 单集群突破2万+规模重磅发布!华为云EI智能数据湖FusionInsight 8.0 MRS 6月30日发布新特性,更快更安全,小伙伴们快来GET√+CarbonData,华为云EI智能数据湖FusionInsight让数据处理飞起来!华为云EI智能数据湖FusionInsight 成功助力10000+大数据集群滚动升级!华为云EI智能数据湖FusionInsight携手Kyligence助力保险业数字化转型!华为云EI智能数据湖FusionInsight MRS大数据在银行业的应用探索与典型案例进而有为!华为云EI智能数据湖FusionInsight亮相华为云与计算城市峰会南京站!直击痛点!华为云EI智能数据湖FusionInsight助力政企客户释放数据价值!
  • [技术干货] 0业务中断!全国首个1000+大数据集群成功升级!
    8月4日,广东移动大数据平台再获重大突破,全国首个1000+大数据集群升级成功,打破传统离线升级方式迫使业务中断的桎梏,通过滚动升级完成了大数据平台的平滑演进,实现业务0中断,升级无感知,用户体验持续在线。此次升级意义重大,正式开启了广东移动大数据平台的融合时代,全面提升用户体验。广东移动大数据平台简介广东移动大数据平台自2016年建设以来,对内为省市各业务部门、对外为各行业提供大数据分析处理能力。大数据平台整体规模达到1500+节点、平台承载租户282个,日均处理21万+作业量,陆续完成了各个重大节假日(春节、国庆、70周年、灯光节等)的活动支撑与保障工作。广东移动大数据平台架构图伴随5G、互联网、AI的高速发展,数据种类和量级呈指数级增长,这对大数据平台分析处理的准确性与及时性提出了更高的要求,现网大数据平台在应对数据浪涌中逐渐显露疲态。为此,广东移动大数据平台的升级项目势在必行。项目升级面临巨大挑战广东移动大数据平台作为业界首个1000+节点的大数据生产集群平台,实现版本从V100R002C70跨版本升级6.5.1,面临着三大挑战:l  业界首次大集群跨版本升级:广东移动大数据平台升级工程是现网同类大数据局点中首个大集群跨版本升级改造工程。集群规模大,滚动升级时间周期长,业务应用多,需要根据不同业务的闲忙时间段,合理制定升级批次计划;升级工程计划制定无参考案例,现场根据前期调研、业务评估、测试验证后制定大集群的批次升级计划;l  集群规模大,服务组件多,方案复杂:三水大数据集群是广东移动大数据平台中规模最大的单集群,节点数达到1000+,同时提供多种组件服务和场景解决方案。多方案混合应用的集群的升级工程在技术上第一次商用场景下实施,多组件混合应用的业务场景多,对升级期间平台稳定性要求高;l  业务种类多,且不便不中断:广东移动大数据平台承载业务项目达200+,日处理业务量达21万+,月增长数据量接近1PB,日查询作业峰值达23W+;每天需运行关键业务,如对内精准营销、收入稽核,对外广告精准投放等;大量运行中的业务和关键业务在升级过程中不允许被中断。作为承载广东省大数据分析处理的核心平台,时刻存在关键业务的运作,传统大数据平台离线升级方式,对业务的顺利进行有着极大的制约。例如,新版本发布后,如果想使用特定的补丁版本,在安装/升级场景下,需要先升级到新版本后,再安装补丁;如此一来,不仅变更次数多,还需多次重启集群操作,变更操作难度高且效率低下,按当前平台规模采用离线方式升级,预计中断业务72小时以上。        全力应对,逐个攻破为保障大集群升级过程的平滑,广东移动携手华为云FusionInsight智能数据湖,端到端分步骤的完成滚动升级,实现升级过程中的可视化控制和管理。为应对上述挑战,此次升级主要进行了以下操作:l  在开源社区部分组件并不支持大版本滚动升级的背景下,我们解决了社区协议和元数据格式不相同、及API变化等导致的兼容性问题,实现了在滚动升级过程中,仍可继续使用未升级的软件设备进行业务处理的方法,降低大集群跨版本升级改造工程对现有业务的干扰影响;l  面对集群规模大、服务组件多、方案复杂的升级场景,为避免各种突发事件中断升级进程,我们提供了故障节点隔离能力。在故障发生时,可以跳过该节点的升级动作,使得故障处理和升级可以有序进行;l  为降低在升级过程中对关键任务SLA的影响,我们新增按升级批次进行暂停的能力,关键作业或者作业高峰时段,可以暂停升级动作,保障关键任务平稳执行。本次操作使得1000+大数据集群获得滚动升级,新的平台版本6.5.1,在平台组件内核版本升级的同时,提供了精细化指标监控、统一在线日志检索等功能,支持ARM生态以及ARM&X86混合部署(全球唯一)、计算存储分离方案、引入ZooKeeper防过载特性等,并做到了全面的优化提升。6.5.1版本平台架构组件版本变更提前部署,稳步推进l  前期准备,经过近半年的不断测试、预演、与100+个重要关键租户协调沟通项目后,确认升级改造工程实施方案;l  7月8日-7月23日,历时半个月,在0业务中断的情况下,顺利完成大数据平台的平滑升级,实现大数据技术及组件的最新版本更新;l  7月24日-8月3日,业务观察期内平台业务稳定无任何故障;l  8月4日,广东移动大数据Hadoop平台大版本升级宣告成功。广东移动站在了大数据技术前端,紧随社区技术的快速发展,大数据平台本次Hadoop版本由2.7.2版本直接升级到3.1.1版本,实现了一个升级无感知的融合大数据平台,大幅提升了用户体验。未来,广东移动将继续推进技术创新,助力大数据平台进一步更新迭代。华为将持续以客户为中心,为客户提供一站式,易使用,高可靠,可持续演进的FusionInsight融合大数据平台。        截至目前,华为云FusionInsight智能数据湖已是60+国家,3000+客户的共同选择,广泛应用于政府、金融、运营商、大企业、互联网等领域。面向未来,华为云联合800+合作伙伴,用智能数据湖帮助企业构建领先的数据基础平台,释放政企数据价值,让数据“慧”说话,使企业更智能。相关文章:再获殊荣!华为云Fusioninsight智能数据湖、GaussDB(DWS)数据仓库斩获业界两项大奖FusionInsight亮相华为云与计算城市峰会深圳站FusionInsight MRS 技术解读:单集群如何做到2万+规模华为云FusionInsight MRS融合大数据平台进阶之路华为云FusionInsight MRS通过信通院大数据能力评估 单集群突破2万+规模重磅发布!华为云EI智能数据湖FusionInsight 8.0 MRS 6月30日发布新特性,更快更安全,小伙伴们快来GET√+CarbonData,华为云EI智能数据湖FusionInsight让数据处理飞起来!华为云EI智能数据湖FusionInsight 成功助力10000+大数据集群滚动升级!华为云EI智能数据湖FusionInsight携手Kyligence助力保险业数字化转型!华为云EI智能数据湖FusionInsight MRS大数据在银行业的应用探索与典型案例进而有为!华为云EI智能数据湖FusionInsight亮相华为云与计算城市峰会南京站!直击痛点!华为云EI智能数据湖FusionInsight助力政企客户释放数据价值!
  • [生态对接] FusionInsight与第三方组件对接指导汇总贴
    ## 本帖收集所有涉及第三方工具对接的指导帖 ### 数据集成 ---- - [kettle对接FusionInsight Hetu](https://bbs.huaweicloud.com/forum/thread-67689-1-1.html) ### 数据可视化&分析 ---- - [永洪BI对接FusionInsight Hetu](https://bbs.huaweicloud.com/forum/thread-63680-1-1.html) - [KyligenceEnterprise 4.0对接FusionInsight 6.5.1](https://bbs.huaweicloud.com/forum/thread-63255-1-1.html) - [tableau对接HetuEngine指导](https://bbs.huaweicloud.com/forum/thread-93050-1-1.html) ### 集成开发环境 ---- - [DBeaver对接FusionInsight Hive](https://bbs.huaweicloud.com/forum/thread-66023-1-1.html) - [DBeaver对接FusionInsight Hetu](https://bbs.huaweicloud.com/forum/thread-63172-1-1.html) - [JupyterNotebook对接FusionInsight HDFS](https://bbs.huaweicloud.com/forum/thread-65639-1-1.html) - [JupyterNotebook对接FusionInsight Hive](https://bbs.huaweicloud.com/forum/thread-65636-1-1.html) - [JupyterNobetook安装以及对接FusionInsight Spark2x组件](https://bbs.huaweicloud.com/forum/thread-65634-1-1.html) ### 其他 ---- - [Apache Beam对接FusionInsight Spark](https://bbs.huaweicloud.com/forum/thread-68236-1-1.html) - [Filebeat对接FusionInsight Elasticsearch](https://bbs.huaweicloud.com/forum/thread-67507-1-1.html) - [Logstash对接FusionInsight Elasticsearch](https://bbs.huaweicloud.com/forum/thread-67504-1-1.html) - [Kibana对接FusionInsight Elasticsearch](https://bbs.huaweicloud.com/forum/thread-66788-1-1.html) - [Cerebro对接FusionInsight Elasticsearch](https://bbs.huaweicloud.com/forum/thread-68719-1-1.html) - [第三方AD服务对接FusionInsight](https://bbs.huaweicloud.com/forum/thread-63306-1-1.html) ### FusionInsight生态对接问题解决三板斧 ---- ## Kerberos认证相关问题总结 - [生态对接常见问题总结之Kerberos篇(一)](https://bbs.huaweicloud.com/forum/thread-86710-1-1.html) - [生态对接常见问题总结之Kerberos篇(二)](https://bbs.huaweicloud.com/forum/thread-86713-1-1.html) - [生态对接常见问题总结之Kerberos篇(三)](https://bbs.huaweicloud.com/forum/thread-86748-1-1.html) - [生态对接常见问题总结之Kerberos篇(四)](https://bbs.huaweicloud.com/forum/thread-86751-1-1.html) ## 集群配置相关问题总结 - [生态对接常见问题总结之集群配置篇(一)](https://bbs.huaweicloud.com/forum/thread-86753-1-1.html) - [生态对接常见问题总结之集群配置篇(二)](https://bbs.huaweicloud.com/forum/thread-86754-1-1.html) - [生态对接常见问题总结之集群配置篇(三)](https://bbs.huaweicloud.com/forum/thread-86756-1-1.html)
  • [行业动态] FusionInsight亮相华为云与计算城市峰会深圳站
            7月28日,“深圳·进而有为 华为云与计算城市峰会2020”在深圳鹏瑞莱佛士酒店举行。深圳市人民政府领导、华为公司领导及企业代表和行业专家共同就发力新基建,培育新产业,构建智慧深圳等议题展开深入研讨。FusionInsight在近年来深入理解招商局、深交所、平安银行、深圳机场、深圳地铁、深圳万科等头部客户对大数据+人工智能的需求,助力深圳客户数字化转型,让数据“慧”说话,使政企客户业务场景更智能。华为公司高级副总裁、云与计算BG总裁侯金龙做峰会演讲        峰会现场设置了大面积展区,供与会者亲自体验华为的最新技术应用,感受科技的魅力。作为向上承接丰富应用,向下承载海量数据的大数据平台,华为云EI智能数据湖FusionInsight亮相峰会,吸引众多与会观众交流讨论!        如今,新基建浪潮袭来,5G、大数据、物联网等新一代信息技术高速发展,面对政企数字化转型带来的机遇和挑战,华为云 FusionInsight智能数据湖为业界提供了全融合、智能化、云化的湖仓一体解决方案。方案包含MRS大数据、DWS数据仓库、CSS云搜索、GES图计算、DAYU数据运营等云服务;支持大数据离线分析、实时流处理、实时检索、交互查询等常见大数据使用场景,为政府、金融、运营商、大企业等政企客户,提供建得快、存得省、用得好的智能数据湖,从海量数据中发掘数据价值,加速政企智能升级。华为云FusionInsight助力政企数字化转型一、化繁为简 建设大数据中心        企业高速发展,业务诉求随之增多,为满足不断增长的需求,大数据中心的资源扩容刻不容缓。传统大数据中心建设涉及诸多复杂繁琐的人为操作部署,费时费力且跟不上业务多变的需求。        FusionInsight实现大数据全面云化,支持资源的弹性发放,可根据业务需求自动调整资源分配的配置和策略,资源申请周期也从原来的22天缩短至1小时,轻松应对业务浪涌,简化了大数据中心建设的步骤,保障了业务的稳定高效运作,实现了大数据中心的快速建设。        同时, FusionInsight支持多集群统一运维,1000+的精细化运维指标,实时掌握集群运行状况,5分钟快速响应,问题定位提效30%,使得运维效率和能力大幅提升。二、存算分离 让数据每比特性价比最优        随着5G、IoT、AI的高速发展导致数据量的暴增,传统大数据中心使用原生Hadoop架构存储数据,1:3的备份方式,存储与计算耦合,扩容后易导致存储利用率高、CPU利用率低,造成资源浪费。加之系统建设烟囱林立,数据冗余现象严重,使得存储成本居高不下。        FusionInsight采用OBS存算分离技术替代Hadoop传统的本地HDFS存储,计算存储按需独立扩容。结合华为企业级EC技术将副本率降低至1:1.09,存储资源利用率由传统的33%提升至91%,数据存储周期提升2倍+,TCO下降30%,极大的降低了数据存储成本,让数据每比特性价比最优。三、算以致用 释放数据价值        大数据技术涉及的组件繁杂,需要专业的技术开发人员和运维人员进行开发和维护。很多大数据中心低水平运营,数据使用杂乱无章,无法跨源跨域协同分析,导致资源无法充分发挥价值,造成了数据中心资源的浪费。加上运维人才的短缺、运维能力跟不上数据中心建设速度,使得数据中心持续发展面临着严峻的挑战。        FusionInsight采用湖仓一体技术,把批量处理、实时处理、交互查询、实时查询等20+大数据分析技术统一资源池,结合HetuEngine引擎,实现一个接口、一个目录、一份数据,解决政企客户的取数难、找数难、用数难问题,分析提效2-10倍,助力政企释放数据价值,加速数字化转型。        行稳致远,进而有为。在新基建加速落地的智慧城市建设时代,华为云FusionInsight将继续大数据技术的创新,通过企业级的融合大数据平台,实现全部业务场景一站式解决方案,让数据有温度、用科技促发展,打造数字基础设施的黑土地,携手合作伙伴赋能千行百业。        十多年来FusionInsight 致力于为全球60+国家地区、3000+政企客户构建企业级智能数据湖,结合平台+生态战略,与800+商业合作伙伴 ,广泛应用于金融、运营商、政府、能源、医疗、制造、交通等多个行业,在政企数字化转型中,释放数据价值,助力政企客户业务高速增长。相关文章:FusionInsight MRS 技术解读:单集群如何做到2万+规模华为云FusionInsight MRS融合大数据平台进阶之路华为云FusionInsight MRS通过信通院大数据能力评估 单集群突破2万+规模重磅发布!华为云EI智能数据湖FusionInsight 8.0 MRS 6月30日发布新特性,更快更安全,小伙伴们快来GET√+CarbonData,华为云EI智能数据湖FusionInsight让数据处理飞起来!华为云EI智能数据湖FusionInsight 成功助力10000+大数据集群滚动升级!华为云EI智能数据湖FusionInsight携手Kyligence助力保险业数字化转型!华为云EI智能数据湖FusionInsight MRS大数据在银行业的应用探索与典型案例进而有为!华为云EI智能数据湖FusionInsight亮相华为云与计算城市峰会南京站!直击痛点!华为云EI智能数据湖FusionInsight助力政企客户释放数据价值!
  • [生态对接] FusionInsight Elasticsearch对接Kibana
    ## 对接场景 Kibana提供了图形化操作界面,通过可视化界面对Elasticsearch进行索引构建、查询、分析等操作。 本指导适用FusionInsight HD 6.5.1版本 ## 前提条件 已下载安装Kibana。 - 下载Kibana安装包“kibana-oss-6.7.1-linux-x86_64.tar.gz”并上传至任意EsMaster实例所在节点,例如`/opt`目录下。 开源社区下载地址:https://www.elastic.co/cn/downloads/past-releases/kibana-oss-6-7-1。 - 解压安装包,并进入对应解压目录。 ``` cd /opt tar -zxvf kibana-oss-6.7.1-linux-x86_64.tar.gz cd kibana-6.7.1-linux-x86_64/ ``` > - 使用Dev Tools功能的用户,需要在elasticsearch组内。 > - 使用其他功能的用户,需要在supergroup组内。 ## 操作步骤 修改配置并启动Kibana。 - 如果当前系统为TaiShan服务器,需要下载Nodejs的ARM版本替换kibana解压目录下的node目录 下载node-v10.15.2-linux-arm64.tar.gz,解压后替换kibana-6.7.1-linux-x86_64下的node。下载地址:https://nodejs.org/dist/v10.15.2/ ``` tar -zxvf node-v10.15.2-linux-arm64.tar.gz -C /opt rm -rf /opt/kibana-6.7.1-linux-x86_64/node/* mv /opt/node-v10.15.2-linux-arm64/* /opt/kibana-6.7.1-linux-x86_64/node/ ``` - 修改`config/kibana.yml`配置,示例如下: ``` #Kibana在Elasticsearch中使用的索引名称。 #若需要启动多个Kibana,请确保不同用户的该配置项内容不重复。 kibana.index: ".kibana" #Kibana服务端口。 server.port: 5601 #当前节点ip,默认localhost。 server.host: "10.1.1.1" #需要访问的Elasticsearch节点IP及端口号,建议配置EsNode1实例的IP和端口号。普通模式下,请将https修改为http。 elasticsearch.hosts: ["https://10.1.1.1:24100"] #直接填写none即可。 elasticsearch.ssl.verificationMode: none #修改xxxxxx为“用户名:密码”的base64转码结果;普通模式不需要此项配置。 elasticsearch.customHeaders: {"custom-proxy-username":"xxxxxx"} #Kibana日志目录,根据实际场景自定义即可,请提前手动创建该文件。 logging.dest: /opt/kibana-6.7.1-linux-x86_64/log/kibana.log #Kibana健康检查周期,请根据实际使用场景合理填写,单位ms。 elasticsearch.healthCheck.delay: 60000 ``` > - elasticsearch.hosts禁止配置EsMaster节点的IP和Port。EsMaster实例为重要的管理进程,为确保Elasticsearch集群稳定性,不允许配置EsMaster节点IP和Port。 > - 因部分java库仍遵循RFC的Base64规定,在进行加密时会增加换行符,请保证elasticsearch.customHeaders配置项中的信息无换行符。 > - 可下载Elasticsearch客户端,导入RestClient二次开发样例,使用com.huawei.fusioninsight.elasticsearch.example.util.Base64Utils工具类进行Base64加密。 > - 请确保Base64转码结果在填写时,只替换“xxxxxx”部分。 例如,当前用户名为test,密码为123,“test:123”转base64后为“dGVzdDoxMjM=”,则配置项填写为:elasticsearch.customHeaders: {"custom-proxy-username":"dGVzdDoxMjM="} - 使用命令`./bin/kibana`启动Kibana > 如需后台运行,可执行如下命令`nohup ./bin/kibana &`启动Kibana: - 查看Kibana日志,确认启动成功后,登录Kibana界面。 在配置的Kibana日志文件中,找到如下类似日志,即表明Kibana已经启动成功,在浏览器输入日志中打印的链接即可,如http://10.1.1.1:5601。 ``` "type":"log","@timestamp":"2019-06-07T07:07:32Z","tags":["status","plugin:elasticsearch@6.7.1","info"],"pid":44252,"state":"green","message":"Status changed from yellow to green - Ready","prevState":"yellow","prevMsg":"Waiting for Elasticsearch"} {"type":"log","@timestamp":"2019-06-07T07:07:32Z","tags":["listening","info"],"pid":44252,"message":"Server running at http://10.1.1.1:5601"} ``` > - create index pattern等操作,Kibana会创建相关索引,默认为".kibana"开头。 > - Kibana会根据健康检查状态进行信息反馈,如果在healthCheck周期内,信息发生变化(例如切换登录用户),可能需要等到下一次healthCheck的反馈结果才会生效;同时,健康检查会发送多个http请求到Elasticsearch,为防止增加Elasticsearch集群的压力,请根据使用场景,合理配置kibana.yml中的健康检查周期,即参数elasticsearch.healthCheck.delay。
  • 华为云FusionInsight系列文章
    奖项荣誉领跑中国大数据平台市场,华为云再获第一(华为云官微)cid:link_116华为云FusionInsight位居中国数字政府大数据市场第一(华为云官网)cid:link_20四获权威机构认可!华为云持续领跑政务大数据领域(IT168)cid:link_149华为云FusionInsight三次蝉联中国大数据市场第一(华为云官微)cid:link_117 华为云FusionInsight连续三次获得第一 加速释放数据要素价值http://ex.chinadaily.com.cn/exchange/partners/82/rss/channel/cn/columns/j3u3t6/stories/WS61f11154a3107be497a0410b.html(中国日报网)cid:link_174 (搜狐网)华为云再次位居中国政务大数据市场领导者位置https://mp.weixin.qq.com/s/03sf-oiSA8A2OU_w_3mUiw (华为云官微)大数据平台,第一!cid:link_118 (华为云官微)华为云位居IDC中国大数据平台市场研究报告第一cid:link_21  (CSDN)华为云再次位居IDC MarketScape 中国大数据管理平台领导者象限,市场份额和技术实力维度双领先!cid:link_32巨头激烈竞逐大数据,“差异化”如何成就华为云的领导者地位(科技向令说)https://baijiahao.baidu.com/s?id=1682516174333252035强者恒强,华为云是如何走出自己的硬核大数据之路?(天极网)https://baijiahao.baidu.com/s?id=1682422802041458052   你要的真相来了!IDC报告指点中国大数据江山,华为云何以独占鳌头?(云报)cid:link_119创新、成长、基础能力全面领先,华为云领跑中国大数据厂商cid:link_143(华为云头条)https://baijiahao.baidu.com/s?id=1699456220819177122&wfr=spider&for=pc(人民网)cid:link_33(视频证言)主流大数据厂商激烈角逐湖仓一体新架构,华为云引领技术潮流cid:link_120(InfoQ)数据战略高地,华为云FusionInsight再次领跑cid:link_34cid:link_22(CSDN)政务专区华为斩获2021中国领军智慧政务解决方案提供商大奖(华为数字中国官微)cid:link_121 1.19亿,软通智慧联合华为中标北京市社保卡项目,助力“互联网+人社”政务服务!cid:link_178 刚刚!十堰与华为签署战略合作协议!cid:link_122 27 亿!华为中标东莞“数字政府”cid:link_123华为北京总经理:“数”领新征程,助力打造数字北京名片cid:link_124深圳龙岗城市大脑:基层治理重器,让城市更聪明cid:link_107 9428万元,华为中标吉安市智慧城市二期(城市大脑)项目cid:link_125北京市西城区与华为签署战略合作协议 共同推动“数字孪生城市”建设https://baijiahao.baidu.com/s?id=1697645026731253420&wfr=spider&for=pc福州市与华为签署深化战略合作协议,持续推进建设“数字应用第一城”https://baijiahao.baidu.com/s?id=1698000099928529071&wfr=spider&for=pc恭喜!大数据“星河”标杆案例奖+1cid:link_126· 华为云FusionInsight湖仓一体助力威海市商业银行荣膺2022大数据“星河”标杆案例奖华为助力交通银行荣膺《亚洲银行家》“最佳大数据应用奖”https://mp.weixin.qq.com/s/zXyyhBSoDXKnghQuH_0Rhg数博会拍了拍我们,恭喜获奖cid:link_129 (华为云官微)· 华为云FusionInsight MRS IoTDB获2022数博会领先科技成果——优秀项目奖2021中国大数据企业50强重磅发布,华为云大数据连续六年入选榜单cid:link_158 cid:link_23 (CSDN)· 华为获2021中国大数据企业50强“民生信用卡-华为大数据联合创新实验室”荣获亚洲银行家“中国最佳AI创新实室”奖cid:link_130(微信公众号)cid:link_35 华为云FusionInsight智能数据湖获2021中国大数据最佳解决方案奖cid:link_144  (头条)· 华为云FusionInsight智能数据湖获“2021中国大数据平台最佳解决方案”奖华为云斩获第七届中国国际大数据大会两项大奖cid:link_108· 华为云FusionInsight MRS云原生数据湖获“2020年度大数据行业优秀解决方案”奖华为云FusionInsight MRS全面升级,斩获金融行业大数据最佳解决方案奖cid:link_59 https://www.toutiao.com/i6904920539622539784/#tt_daymode=1&tt_font=m(头条)· 华为云FusionInsight MRS云原生数据湖获“金融行业大数据最佳解决方案”奖华为云大数据创新普惠,释放海量数据价值,获2020中国大数据最佳解决方案奖cid:link_24(CSDN)cid:link_60 · 华为云FusionInsight智能数据湖获“2020中国大数据平台最佳解决方案”奖· 华为云DWS获“2020中国大数据数据仓库领域最佳产品”奖· 华为云DAYU数据运营获“2020中国大数据数据治理领域最佳产品”奖2020中国大数据企业50强重磅发布,华为云大数据连续四年荣登榜首cid:link_131(华为云官微)cid:link_61 · 华为获2020中国大数据企业50强再获殊荣!华为云Fusioninsight智能数据湖、DWS数据仓库斩获业界两项大奖https://tech.china.com/article/20200730/072020_570371.html(中华网)cid:link_62 · 华为云FusionInsight智能数据湖获“2020中国信息通信大数据行业影响力奖”· 华为云数据仓库DWS获“2020中国信息通信大数据创新方案奖”华为云FusionInsight MRS通过信通院大数据能力评估 单集群突破2万+规模cid:link_25(CSDN)cid:link_63 视频专区招商银行&红柳林用数实践cid:link_132 华为云FusionInsight智能数据湖打造千行百业数据底座cid:link_31 视频证言:华为云位居中国数据管理解决方案领导者位置cid:link_1中国工商银行:金融数据创新应用实践cid:link_150  广东移动:运营商大数据创新应用实践cid:link_151 清华大学:产学研深度融合,培养大数据顶尖技术人才cid:link_152  华为FusionInsight广东移动大数据案例cid:link_2   华为FusionInsight助力招商银行发现大数据的价值cid:link_5   青海绿能数据:绿色科技守护和谐生态cid:link_3   青海绿能数据有限公司总经理采访cid:link_4    技术解读视频华为云FusionInsight携手国家级大数据实验室,探索时序数据库IoTDBcid:link_14 金融行业智能数据湖创新与探索cid:link_109华为云FusionInsight MRS,一个架构实现三种数据湖https://www.huaweicloud.com/about/techwave_cloudnative_2_0.html千级节点的大数据集群如何无业务中断升级?cid:link_110跨源、跨域场景下如何实现海量数据分钟级分析?cid:link_111大数据技术普惠创新,释放千行百业数据价值cid:link_153 华为云FusionInsight引领全球大数据技术发展cid:link_154 DWS,新一代全场景云数据仓库cid:link_155 CarbonData,释放海量数据价值,尽享数据湖之美cid:link_156  硬核技术解读现代数据栈构建要选对路,才能上“高速”https://www.toutiao.com/article/7208081476032659968/现代数据平台要实现自助用数还要解决的三大问题cid:link_159工业数据分析为什么要用FusionInsight MRS IoTDB?cid:link_160实时数据湖表存储设计方法(基于Hudi表)cid:link_161华为云FusionInsight MRS基于Apache IoTDB打造时序数据库引擎cid:link_162FusionInsight MRS RTD 实时决策引擎在医保行业实践cid:link_163华为云基于 Apache Hudi 极致查询优化的探索实践!cid:link_164【大架光临】第7期:湖仓一体天花板,大数据一站式SQL分析技术实践cid:link_165 华为MRS基于Hudi和HetuEngine构建实时数据湖最佳实践cid:link_166 基于MRS-Hudi构建数据湖的典型应用场景介绍cid:link_167华为FusionInsight MRS实战 - Hudi实时入湖之DeltaStreamer工具最佳实践cid:link_36 (CSDN)cid:link_168 华为云FusionInsight携手国家级大数据实验室,探索时序数据库IoTDBcid:link_169华为云FusionInsight MRS容灾:大数据两地三中心的容灾也可以如此省心cid:link_170 MRS CDL架构设计与实现cid:link_171深度解读MRS IoTDB时序数据库的整体架构设计与实现cid:link_37 (CSDN)cid:link_172 华为云FusionInsight MRS如何实现千余节点滚动升级无业务中断升级cid:link_38cid:link_26(CSDN)华为云FusionInsight MRS跨湖跨仓场景下如何实现海量数据分钟级分析cid:link_39cid:link_27(CSDN)华为云FusionInsight与世界同行,持续创新,引领大数据技术发展cid:link_64  ClickHouse如何成为OLAP开源引擎的黑马?cid:link_65  华为云FusionInsight湖仓一体解决方案的前世今生cid:link_66    华为云FusionInsight MRS打造技术领先、越用越快、越用越省、越用越易、越用越稳的数据湖cid:link_67  HC2020:华为云FusionInsight携手生态伙伴,共创行业新价值cid:link_68 新一代智能数据湖华为云FusionInsight,用数据驱动业务增长新动能cid:link_69华为云FusionInsight引领全球大数据技术发展cid:link_70华为云TechWave大数据专题日,CarbonData释放海量数据价值cid:link_71 从比特到信息 华为云DAYU使能行业数据价值释放cid:link_72 华为云FusionInsight MRS融合大数据平台进阶之路cid:link_73 FusionInsight MRS 技术解读:单集群如何做到2万+规模cid:link_74 重磅发布!FusionInsight 8.0 MRS新特性,更快更安全,小伙伴们快来GET√cid:link_75 +CarbonData,华为云智能数据湖让数据处理飞起来!cid:link_76 Spark 3.0.0 is comingcid:link_77 FusionInsight大数据存算分离,使客户每比特成本最优cid:link_78 (2019)FusionInsight,一个融合的大数据平台cid:link_175 最新资讯报道一片数据湖,蕴藏多少智慧生机?cid:link_133华为云FusionInsight助力客户全面演进到现代数据栈 云领未来cid:link_115清华大学携手华为云FusionInsight探索软件创新体系之路cid:link_15永洪BI携手华为云FusionInsight,让数据分析更敏捷cid:link_134华为全联接2021:华为云FusionInsight智能数据湖观影一览cid:link_16HC2021揭秘华为云FusionInsight智能数据湖 8.1.0 版本新能力cid:link_17 华傲数据携手华为云FusionInsight打造政务“三算一景”方案,加速释放“数字红利”cid:link_18 东华博泰携手华为云FusionInsight发布能源大数据的解决方案cid:link_19 华为云提出 “DIGITS”理念,最大化释放数据要素价值cid:link_135 (InfoQ)华为云FusionInsight智能数据湖加速政企数字化转型cid:link_40重磅!AI&数据系列新品发布,加速千行百业智能升级cid:link_136 (华为云)让数据成为新的生产要素,解读华为云数据领域最新进展与布局cid:link_137 (公众号)再推数据、AI新品,华为云又有哪些能力升级?cid:link_138 (InfoQ)中国信通院发布《2021大数据十大关键词》https://city.huanqiu.com/article/43fZj0e0By4(环球网)cid:link_416月18日,华为云FusionInsight MRS云原生数据湖为你解密如何提升大数据分析时效性cid:link_42华为云FusionInsight湖仓一体,加速金融行业数字化转型升级cid:link_145(头条)cid:link_43AI与数据双轮驱动金融业务创新,构建全场景智慧金融cid:link_146(头条)华为云数据使能,加速金融数据资产化cid:link_147(头条)一架构三湖,解密华为云FusionInsight MRS组件新特性cid:link_44华为云FusionInsight MRS云原生数据湖携合作伙伴共建繁荣生态cid:link_45cid:link_106业界领先的FusionInsight MRS湖仓一体方案,如何用1个架构实现3种数据湖?5月20日华为云带你一起解密cid:link_46https://baijiahao.baidu.com/s?id=1699550446141551411&wfr=spider&for=pcHDC.Cloud2021 | 一文回顾华为云FusionInsight MRS云原生数据湖亮点cid:link_47cid:link_28华为云TechWave全球技术峰会成功召开,数据使能,驱动业务增长cid:link_139  cid:link_48 华为云TechWave数据使能分论坛,“鹏城论数”邀您来cid:link_140  cid:link_49 业务0中断,金融行业首个1000+大数据集群滚动升级成功cid:link_50云原生2.0,华为云FusionInsight智能数据湖构建坚实数据底座cid:link_79华为云FusionInsight MRS云原生数据湖直击传统大数据三大痛点,赋能新云原生企业cid:link_80华为云TechWave云原生2.0数据服务分论坛,精彩内容抢先知!cid:link_81华为参与编制的《信息技术 大数据 系统运维和管理功能要求》国家标准正式实施cid:link_82  华为云FusionInsight亮相高交会 三大硬核能力成就最懂行的大数据领导者cid:link_83  精彩不断,好礼不停!尽在华为云FusionInsight高交会展台!cid:link_84  问卷抽奖,好礼不断。我为华为云FusionInsight打Call!cid:link_85华为云FusionInsight领跑中国大数据管理平台头部厂商cid:link_86  HC2020精彩回顾,华为云FusionInsight智能数据湖点亮数据未来cid:link_87 请保持清醒:开源是和世界同步的绝佳机会cid:link_88 Flink 1.11:更好用的流批一体 SQL 引擎cid:link_89 华为云FusionInsight大数据技术普惠创新,释放千行百业数据价值cid:link_90 华为云TechWave大数据专题日独家播报cid:link_141  华为云TechWave大数据专题日,清华大学王建民院长畅谈大数据顶尖人才培养之道cid:link_91 亮点抢先看,华为云 TechWave 大数据专题日有啥料?cid:link_92 有奖观影:华为云TechWave大数据专题日好礼不断cid:link_93 FusionInsight亮相华为云与计算城市峰会深圳站cid:link_94 进而有为!华为云EI智能数据湖FusionInsight亮相华为云与计算城市峰会南京站cid:link_95 重磅发布!Apache CarbonData 2.0线上发布会,6月3日见!cid:link_96 2020年华为FusionInsight大数据开启渠道与伙伴线上赋能cid:link_97 实操案例分析金融上千节点无中断升级,华为云FusionInsight是如何做到的?cid:link_113(华为云头条)cid:link_51交通银行携手华为云FusionInsight,加速建设数字化新交行cid:link_52工商银行携手华为云FusionInsight共建大数据体系cid:link_53  数字化转型提升太平洋保险风险治理能力cid:link_54  华为云FusionInsight MRS在金融行业存算分离的实践cid:link_157  (51CTO)cid:link_55 (CSDN)cid:link_56 华为云FusionInsight助力宇宙行打造金融数据湖新标杆cid:link_29(CSDN)cid:link_57 华为云FusionInsight MRS金融行业首个1000+大集群滚动升级成功cid:link_30(CSDN)cid:link_58 华为云TechWave大数据专题日,解密金融业为何“偏爱”华为云?cid:link_98 招商银行借助华为FusionInsight变革金融服务cid:link_173 华为云FusionInsight携手Kyligence助力保险业数字化转型cid:link_99 大数据在银行业的应用探索与典型案例cid:link_100 (2018)上交所大数据平台建设 华为FusionInsight解决方案功不可没cid:link_177 运营商华为云FusionInsight助力广东移动利用大数据技术应对5G数据浪涌,释放海量数据价值cid:link_101 0业务中断!全国首个1000+大数据集群成功升级!cid:link_102 浙江移动携手华为FusionInsight打造0业务中断的融合大数据平台cid:link_103 大企业城轨信息化优秀案例分享 | 深圳地铁数字地铁项目cid:link_142 智慧民航先行者!华为为民航运行中枢装上“智慧大脑” cid:link_176 华为云FusionInsight+永洪BI共建政企用数之道,普惠千行百业cid:link_148  深圳地铁6号线、10号线采用华为城轨云,以实现5G覆盖cid:link_114 华为与中国铁路西安局合作开发首台“5G+AI智慧机务系统”正式投用https://baijiahao.baidu.com/s?id=1643810563228081483&wfr=spider&for=pc 华为云EI智能数据湖FusionInsight 成功助力10000+大数据集群滚动升级!cid:link_104 HDC期间华为云FusionInsight提供HetuEngine展点直播以及合作伙伴华傲数据线上展点cid:link_105 
总条数:198 到第
上滑加载中