• [技术干货] 华为云 FusionInsight 湖仓一体解决方案
      伴随5G、大数据、AI、IoT的飞速发展,数据呈现大规模、多样性的极速增长,为了应对多变的业务诉求,政企客户对数据处理分析的实时性和融合性提出了更高的要求,“湖仓一体”的概念应运而生,它打破数据湖与数仓间的壁垒,使得割裂数据融合统一,减少数据分析中的搬迁,实现统一的数据管理。  早在2020年5月份的华为全球分析师大会上,华为云CTO张宇昕提出了“湖仓一体”概念,在随后的华为云与计算城市峰会上,“湖仓一体”理念跟随华为云FusionInsight智能数据湖在南京、深圳、西安、重庆等地均有呈现,在刚结束的HC2020上,张宇昕在发布新一代智能数据湖华为云FusionInsight时再次提到了湖仓一体理念。那我们就来看看湖仓一体的来世今生。数据湖和数据仓库的发展历程和挑战  早在1990年,比尔·恩门(Bill Inmon)提出了数据仓库,主要是将组织内信息系统联机事务处理(OLTP)常年累积的大量资料,按数据仓库特有的资料储存架构进行联机分析处理(OLAP)、数据挖掘(Data Mining)等分析,帮助决策者快速有效地从大量资料中分析出有价值的资讯,以利决策制定及快速响应外在环境变化,帮助构建商业智能(BI)。  大约十年前,企业开始构建数据湖来应对大数据时代,它通常把所有的企业数据统一存储,既包括源系统中的原始副本,也包括转换后的数据,比如那些用于报表, 可视化, 数据分析和机器学习的数据。  纵观数据湖与数据仓库的技术发展,不难发现两者有着各自的优劣,具体表现如下:  企业在进行系统架构设计选型时,需要从具体的分析场景出发,单一的模式已经无法满足企业发展的业务诉求,集中表现在以下两个痛点:  数据湖主要以离线批量计算为主,因为不支持数据仓库的数据管理能力,难以提高数据质量;数据入湖时效差不支持实时更新,数据无法强一致性;主题建模不友好,无法直接历史拉链建模;同时交互分析通常将数据搬迁到数据仓库平台,造成分析链路长,数据冗余存储;批&流等场景融合不够,无法满足企业的海量数据处理诉求。  数据仓库满足不了非结构化数据的分析需求,性价比不高;同时仓&湖间难以互联互通,数据协同效率较低,无法支持跨平台透明访问,形成了事实上的数据孤岛,找数困难;缺乏全局数据视图,不同平台接口差异和不同开发管理工具,造成用户开发使用复杂,数据分别管理维护代价高体验差。数据湖和数据仓库正在从两条技术演进路线走向融合  综上,数据湖和数据仓库在企业数据分析场景分别承担一湖一仓的重要角色,形成了完整的数据分析生态系统,上述企业场景面临的2个关键痛点也在驱动数据湖和数据仓库在技术演进上走向融合:  第一个融合方向是基于Hadoop体系的数据湖向数据仓库能力扩展,湖中建仓,从DataLake进化到LakeHouse。LakeHouse结合了数据湖和数据仓库特点,直接在用于数据湖的低成本存储上实现与数据仓库中类似的数据结构和数据管理功能。目前业界已经涌现了一些LakeHouse产品,如Netflix开源Iceberg、Uber开源Hudi、Databricks的 DeltaLake。  以目前生态发展迅速的Apache Hudi为例:统一数据存储,分布式存储不同应用所需的各种类型数据;数仓模式执行和治理,实现事务&更新机制,保证数据完整性和一致性,具有健壮的治理&审计机制;支持各种分析引擎,统一数据存储通过开放和标准化的存储格式(如Parquet),提供API以便各类工具和引擎(包括机器学习和Python / R库)直接有效地访问数据。  虽然LakeHouse并不能完全替代数据仓库,但通过增强性能,支持实时入湖、建模、交互分析等场景,将在企业分析环境中发挥更大作用。  第二个融合方向是数据湖和数据仓库协同起来向湖仓一体的融合分析架构发展,随着企业数据量快速增长,不仅是结构化数据,也有非结构化数据,同时提出了对搜索/机器学习更多的能力要求,使得原来数仓技术不能够有效的处理复杂场景,为此需扩展原有系统,引入Hadoop大数据平台实现新类型数据、新业务场景的支持。在这个背景下由Gartner在2011年提出逻辑数据仓库的概念,预测企业数据分析倾向于转向一种更加逻辑化的架构,利用分布式处理、数据虚拟化以及元数据管理等技术,实现逻辑统一物理分开的协同体系。  湖仓一体可以认为是逻辑数据仓库架构理念下针对Hadoop数据湖和MPPDB数据仓库的融合架构的最好诠释,数据对用户将完全实现虚拟化,以逻辑统一的数据分析系统为企业提供数据分析服务:  用户使用层面提供统一元数据管理和数据视图,实现全局数据可见可查,支持标准统一访问接口简化用户开发,提供统一开发和治理的工具体系。  平台层面Hadoop与MPPDB具备数据共享和跨库分析能力,支持互联互通、计算下推、协同计算,实现数据多平台之间透明流动。华为云FusionInsight湖仓一体解决方案参考架构  华为云FusionInsight智能数据湖涵盖了分布式存储、大数据、数据仓库、数据治理等,融合了上述两个技术演进方向,为企业用户提供云原生湖仓一体解决方案,整体的参考架构如下:  下面一起来看看:数据存储层:  通过OBS统一管理湖&仓的存储底座,将存储在EC(Erasure Code纠错码)、可靠性方面的优势融入进了大数据生态:云原生架构领先:  基于云原生架构的OBS存储,具有高带宽,大并发,分布式元数据等特征,因此相同成本的华为存算分离的湖仓一体化集群,数据读写性能领先业界30%。存储计算分离有效降低TCO:  支持大比例EC, 副本数从3最低可降低至1.09,TCO下降20%+。  统一元数据管理实现湖仓共享存储资源池:通过独立的Data Lake Catalog提供统一元数据管理,兼容Hive Metastore接口,可以无缝对接各类大数据组件。实现针对同一份元数据定义支持各类场景、对象、文件、大数据等不同协议间的数据共享,让数据仓库、数据湖、图引擎、AI等多种计算引擎共享统一的数据存储池。此方案不仅消除了孤立系统中的数据副本,还使得客户可以按照业务按需使用计算存储资源,不仅降低了CAPEX,还简化了运维,从而达成最佳TCO。同时,Data Lake Catalog开放接口,支持和第三方的计算引擎层、数据治理层对接。计算引擎层:  把事务能力引入数据湖,通过HetuEngine标准SQL实现跨域多源统一访问,湖&仓数据互通协同计算,数据免搬迁:CarbonData & Hudi数据实时入湖,实现数据湖事务能力:  企业内部许多数据管道通常会并发读写数据,我们通过CarbonData& Hudi数据存储引擎实现数据实时、增量更新,数据T+0实时入湖,大幅缩短传统T+1、T+2时延;引入的增量处理框架,实现了数据湖事务能力,支持入湖过程中的Update/Delete等。HetuEngine支持跨源跨域统一SQL访问,简单易用:  用户层基于统一的标准SQL接口,对接多个数据源(HDFS, HBase, DWS等),提供秒级交互式访问,满足各种统计分析、多表Join关联等,让分析建模人员数据分析更容易,降低访问门槛。HetuEngine & DWS-Express打破数据墙,数据免搬迁创新更敏捷:  支持数据湖与数据仓库间的数据互联互通、跨平台协同计算,数据免搬迁。HetuEngine在湖内基于统一数据目录,实现高并发,高性能的交互式查询,基于一份数据进行批、流、交互式融合分析,贴源加工、整合关联、主题加工等都在湖内,数据不出湖,分析链路短,加速业务创新;用户可使用DWS-Express提供由成百上千节点组成的加速集群,对存储在OBS上的海量数据进行在线分析,相比本地托管集群,效率提升数百倍。自研Superior调度器支持单集群2万+节点规模,业界最佳:  在一个集群内,通过华为自研的Superior调度器支持各种工作负载统一调度,包括数据科学、机器学习以及SQL和分析,调度速率达35万Container/s,资源利用率达90%+,大幅降低企业投入成本。数据冷热分级存储实现更高效的全生命周期管理:  DWS具备与OBS的双向互通的能力,既能直接读取OBS上的海量历史数据,也能够直接写入数据到OBS。通过这个特性,我们可以对企业中的海量数据进行更加高效的全生命周期管理,分析中经常使用到的热/温数据存放在DWS中,较少使用的冷数据存放到OBS中,兼顾企业对分析性能和存储经济性的诉求。无缝衔接AI挖掘更多数据价值:  深度优化一站式开发平台ModelArts&分布式图计算引擎GES提高开发效率。提供基于数据湖的AI训练推理能力,减少数据搬迁次数,基于100+机器学习算子和NLP算法,实现海量数据快速价值挖掘,满足场景预测、自然语言处理及企业知识图谱等应用; 让GES更快捷地为金融等场景提供关系网络分析等服务。运营管理层:  通过DAYU实现了湖&仓统一的数据集成、开发、目录、治理、开放服务等的运营管理:数据集成:  实现多源异构数据高效入湖,支持批/流/实时数据多种方式接入。其中,批量数据迁移基于分布式计算框架,利用并行化处理技术,支持用户稳定高效地对海量数据进行移动,实现不停服数据迁移,快速构建所需的数据架构;流和实时数据接入每小时可从数十万种数据源(例如日志和定位追踪事件、网站点击流、社交媒体源等)中连续捕获、传送和存储数TB数据。数据开发:  提供一站式敏捷数据开发平台,提供可视化的图形开发界面、丰富的数据开发类型(脚本开发和作业开发)、全托管的作业调度和运维监控能力,内置行业数据处理pipeline,一键式开发,全流程可视化,支持多人在线协同开发,支持管理多种大数据云服务,极大地降低了用户使用大数据的门槛,帮助用户快速构建数据湖数据处理中心。数据治理:  为企业提供数据体系标准和数据规范定义的方法论,统一数据语言和数据建模;为普通业务人员提供高效、准确的数据搜索工具,高效找到数据;提供技术元数据与业务元数据的关联,业务人员快速读懂数据;为数据提供有效的质量管控和评估手段,数据可信质量高。数据开放:  为数据湖搭建统一的数据服务总线,帮助企业统一管理对内对外的API服务,支撑业务主题/画像/指标的访问、查询和检索,提升数据消费体验和效率;支持100+开放API,拥有10+行业模板,使能行业ISV快速集成,助力客户数据标准资产沉淀。综上所述  正是在三层架构都打通了湖仓的技术壁垒,我们才看到了真正的湖仓一体:  数据存储层基于云原生领先架构,存算分离有效降低TCO,统一元数据管理实现湖仓共享存储资源池,针对同一份元数据定义支持各种场景,提供API方便各类工具和引擎(包括机器学习、Python、R等)直接有效地访问数据,这是实现湖仓一体的一个关键点;  计算引擎层为数据湖增加了事务能力提升了数据质量;利用HetuEngine通过标准SQL访问跨域多源数据,实现湖&仓数据关联分析协同计算,简单易用; 打破数据墙,在湖内基于统一数据目录,可基于数据湖实现融合分析&AI训练推理,减少数据搬迁,实现海量数据快速价值挖掘。  运营管理层则提供统一的数据开发和治理环境,具备安全管理功能,支持多引擎任务统一开发和编排,数据统一建模和质量监测,实现湖仓一致的开发治理体验。未来展望  华为云FusionInsight智能数据湖基于客户需求和技术演进趋势持续创新,为企业客户提供湖仓一体解决方案,致力于打造业界最佳的数据底座,让企业业务的创新更敏捷,业务洞察更准确,加速释放数据价值,和数据使能协同更好地服务千行万业!————————————————
  • [行业动态] 华为云FusionInsight湖仓一体,加速金融行业数字化转型升级
    6月3日至4日,华为智慧金融峰会2021在上海成功举办,峰会以“数智金融、升级有道”为主题,汇聚金融行业领军人物,共话大数据前沿技术,探讨金融行业数字化转型之道。    在本次金融峰会中华为云联合FusionInsight智能数据湖的伙伴发布一系列云原生2.0金融大数据解决方案,发展共创共享共赢的金融生态。其中,华为云联合北明软件发布保险集团统一数据平台联合解决方案,依托FusionInsight实现数据资产化、共享化、服务化的统一建设,助力保险集团数字化转型;华为云联合Kyligence发布大数据OLAP联合解决方案,基于FusionInsight助力客户快速发掘海量数据业务价值,驱动金融高效商业决策。华为云数据使能,加速金融数据资产化在“华为云数据使能,加速金融数据资产化”分论坛上,华为云FusionInsight携手工商银行、北明软件等客户与伙伴共同分享金融数据解决方案创新与实践,包含工商银行大数据体验演进历程及规划,华为云FusionInsight分享金融行业智能数据湖创新与实践,北明软件分享保险集团统一数据平台建设实践等议题。工商银行大数据平台产品经理袁一在演讲中表示,工商银行携手华为云FusionInsight智能数据湖持续创新探索,让工行大数据平台持续演进,通过滚动升级,业务无中断;通过大数据存算分离,使全局数据统一存储,上层架构更灵活;通过HetuEngine提升全行13000名分析师即时BI体验,形成集技术、数据、服务于一体的大数据服务体系,不断提升工行金融服务实体经济能力,倾力打造服务于经济高质量发展的数字工行。(工商银行大数据平台产品经理袁一演讲)华为云FusionInsight总经理杨志勇讲到,华为云FusionInsight智能数据湖提供湖仓一体化的现代数仓平台,客户可因地适宜设计自己的湖仓一体化数据架构,从单一离线跑批走向实时,T+0供数加速业务创新,让开发者轻松驾驭数据。目前已在工行、招行等大型金融企业成功实践,极大提升了用户体验。在2020年IDC MarketScape和2021年Frost&Sullivan评估中,FusionInsight多项指标领先国内大数据厂商。(华为云FusionInsight总经理杨志勇演讲)北明软件副总裁张翼表示,北明软件依托华为云FusionInsight智能数据湖,通过“湖仓一体化、流批一体化、数据服务化”的平台架构思想,构建保险集团统一数据平台,实现数据价值发现和提升,助力保险集团数字化转型。(北明软件副总裁张翼演讲)        金融行业是数字化转型的先行者,在不断的探索与创新中,FusionInsight将提供前沿湖仓一体技术,深度结合金融业应用场景,助力金融机构构建一企一湖、一城一湖,业务洞见更准,价值兑现更快!        在金融领域,华为云 FusionInsight已在工商银行、建设银行、招商银行等银行、证券、保险行业广泛应用。工商银行使用FusionInsight湖仓一体解决方案,实现金融数据湖与金融数仓的高效协同,提升全行13000+分析师即时BI体验。金融业存在很多场景需跨多部门进行数据协同,但往往需要数小时甚至数天。通过HetuEngine数据虚拟化引擎,实现跨湖跨仓秒级协同分析,数据免搬迁;提供统一SQL接口简化用数,使金融业务上线缩短到天级。       目前,华为云FusionInsight智能数据湖携手800+生态伙伴,已服务于60多个国家3000+客户,广泛应用于政务、金融、运营商、制造、交通、能源等行业。更多精彩文章:https://bbs.huaweicloud.com/forum/thread-66105-1-1.html
  • [运维管理] FusionInsight HD 8.1.0 Hetu版本1.0.0 GaussDB 8.0.0.1版本
    【操作步骤&问题现象】Hetu连接GaussdDB 数据源在多表关联场景下速度快于本身GaussDB 1.在默认不添加catlog自定义配置情况下描述下为什么?2.在添加parallel-read-enabled,postgresql.allow.filter-pushdown自定义配置下描述为什么?
  • [运维管理] FusionInsight hetu 在连接gaussdb catlog数据源drop表时报错 disabled
    【操作步骤&问题现象】版本 8.1.0hetu 部件版本 1.0.1drop表时报错  drop table is disabled in this catalog同时对于各个catlog数据源支持程度是否有说明文档?
  • [环境搭建] 求救!GaussDB200 单机部署 使用fusioninsight manager搭建集群时找不到主机
    大大们,GaussDB A搭建集群时修改了ssh的默认端口22,然后manager安装成功之后,用fusioninsight manager搭建集群,显示找不到主机,能帮忙看看可能什么原因吗?个人认为是端口的问题,修改完能该的配置文件重新安装了一下,但是还是不行,不知道是什么原因FusionInsight_SetupTool/preinstall/tools/cluster/lib/remote.shFusionInsight_SetupTool/preinstall/tools/cluster/cluster.iniFusionInsight_SetupTool/preinstall/script/function/remote.shFusionInsight_SetupTool/preinstall/script/function/005.check_ini.shFusionInsight_SetupTool/upgrade/func/constants.sh
  • [问题求助] 【XXX产品】【XXX功能】一句话描述问题
  • [行业动态] 一架构三湖,解密华为云FusionInsight MRS组件新特性
           5月20日,华为云FusionInsight MRS产品经理在“华为云TechWave云原生2.0专题日”上发表《华为云FusionInsight MRS,一个架构实现三种数据湖》的主题演讲,分享了智能数据时代的数据湖发展趋势、MRS云原生数据湖技术创新实现一个架构构建离线、实时、逻辑三种数据湖,以及业务实践中的成功案例等。进入智能数据时代,业界建设数据湖的十大共识       经过数十年的快速发展,大数据处理技术已日渐成熟,围绕数据仓库、数据湖衍生技术多如繁星,业界在多年的探索之中,也对未来数据湖形态有了十个重要共识,湖仓一体成为智能数据湖的首选架构。为应对智能数据时代对大数据技术提出的新挑战,华为云FusionInsight MRS云原生数据湖进行全面升级,引入了Hudi、ClickHouse热门组件,加强了自研的HetuEngine虚拟化引擎,同时新增IoTDB时序处理的能力,拓展数据使能应用的边界。华为云FusionInsight MRS云原生数据湖       华为云FusionInsight MRS云原生数据湖为政企客户提供湖仓一体、云原生的数据湖解决方案,构建一个架构可持续演进的离线、实时、逻辑三种数据湖,支撑政企客户全量数据的实时分析、离线分析、交互查询、实时检索、多模分析、数据仓库、数据接入和治理等大数据应用场景,使政企客户高效用数、简化用数,助力政企客户实现一企一湖、一城一湖,业务洞见更准,价值兑现更快。离线数据湖:提供交互式、BI、AI等多个计算引擎,采用OBS实现存算分离,使得云原生数据湖的架构更灵活。支持单集群2万+节点的超大规模,通过集群联邦,可支持10万+规模。支持滚动升级,保障关键业务升级不中断。实时数据湖:通过Hudi支持ACID数据实时增量入湖、ClickHouse毫秒级OLAP分析等构建实时更新处理能力,使得供数时效从T+1到T+0。逻辑数据湖:HetuEngine提供跨湖、跨仓、跨云的协同分析,实现湖仓一体,减少80%数据搬迁,协同分析提效50倍。一架构三湖新特性,覆盖数据分析全流程Hudi:增量实时入湖,实现数据入湖时效快、开发易、性能高、资源利用率更高       传统数据湖不支持数据更新,导致数据采用T+1离线处理模式,完全无法满足灵活多变的业务诉求,针对数据时效性问题,华为云FusionInsight MRS云原生数据湖引入Hudi。       Hudi可以支持数据更新、数据删除,还有ACID保证,保证数据实时入湖更新操作。它提供多种视图,包括读优化视图、增量视图、实时视图,可以对不同的分析应用提供不同的视图,基于这些技术可轻松实现增量表、拉链表,镜像表这些数据存储模型。引入Hudi后,带来四大显著效果:数据时效更快:在业务系统,通过CDC的系统实现分钟级数据入湖,数据时效性从T+1到T+0。处理性能更高:面对数据有删除、更新的场景下,传统采用Hive更新方式,仅处理一行数据也可能需要对整个表,至少要对整个分区进行处理,引入Hudi后处理效率提升10倍+。开发更简单:对于开发人员来说,传统数据入湖不支持更新或者删除,开发人员需新建临时表,将数据处理后再进行覆盖,对同一个任务可能需要写很多代码去完成,有了Hudi的加持之后,做一个数据更新的操作就跟使用数据库一样简单,单条语句即可完成。资源利用率更高:传统T+1的模式并不是24小时跑任务,而是在晚上进行批量加工,早上出报表,整个处理过程中,计算高峰期仅晚上跑批的时间,而资源却是按照高峰期的计算需求来配比,导致白天的资源利用不足,引入Hudi后,数据实时采集入湖,把入湖处理的工作分散到全天的过程,实际上把整个资源消耗的高峰和低峰抹平掉。       某金融客户基于Hudi构建数据湖,数据入湖时延降至分钟级,且白天资源利用率提升2倍+,数据处理效率提升50%,开发人员通过单条语句即可完成开发,简化开发难度。ClickHouse:实时OLAP引擎,实现报表全自助高性价比的实时分析       传统的OLAP引擎因其处理能力有限,数据一般按照专题或者主题进行组织后再与BI工具对接,导致BI用户和提供数据的数据工程师脱节。比如BI用户有一个新的需求,所需的数据没有在专题集市中,需要将需求给到数据工程师,以便开发相应的ETL任务,这个过程往往需要部门间协调,时间周期长,协作效益低。       现在,华为云FusionInsight MRS云原生数据湖可以将所有明细数据以大宽表的形式加载ClickHouse,BI用户可以基于ClickHouse大宽表进行自助分析,对数据工程师供数要求少,甚至在面对大部分新需求时,无需重新供数,开发效率和BI报表上线率都会得到极大提升。同时,ClickHouse在一张表里的数据分析可达毫秒级。       基于ClickHouse实现自助BI在华为内部实践也获得了很好的效果。华为集团HIS数据湖原来基于传统OLAP引擎建模,受限于开发效率,几年才上线了几十个报表。在引入Clickhouse后,三个月时间开发上线了400+报表,业务上线效率提升50倍。目前,华为内部ClickHouse的整体使用规模已经达到2000+节点,数据量规模达10+PB,日增数据量100TB。HetuEngine:数据虚拟化引擎,突破地理限制,打破数据“墙”       伴随企业发展与数字化转型的需求,企业业务越来越复杂,创新需求越来越高。单系**立工作难以满足业务的变化需求,企业内可能同时存在多个湖、多个仓、多个系统,但传统方案烟囱式建设,湖仓之间、多引擎之间无直接的互联互通能力,需要通过ETL数据来回搬迁,造成数据流转链路长,数据多份冗余,产生数据孤岛。系统多份数据冗余也难以保证数据的一致性和可靠性。       为了让数据使用更简单,跨湖协同更容易,解决湖仓数据割裂的问题,华为推出了数据虚拟化引擎HetuEngine,实现跨湖、跨仓和云上、云下、多云协同分析的能力,突破地理限制,打破数据“墙”,跨湖协同分析效率提升50倍,跨仓协同分析减少80%的系统间数据搬迁同步,分析性能从分钟级提升至秒级。       金融某行通过引入HetuEngine数据虚拟化引擎,在数据湖查询分析方面该行提升了并发能力,仅1/5的资源即可支持45并发,峰值并发最大达200QPS,平均时延优化到8秒;在湖仓协同分析方面,通过HetuEngine打通数据湖与数仓间的数据壁垒,湖仓协同分析性能从分钟级提升至秒级,同时减少80%的系统间数据搬迁同步,大大提升数据治理效率。IoTDB:时序数据库,云边端协同轻松构建时序数据集市时序数据具备两大特点:在端、边、云都有处理,时序数据采集后不需要更新。传统时序处理方案中,在端、边、云采用不同的技术栈,异构的技术栈必将带来数据处理的复杂性。清华大学开发的时序数据库IoTDB(又称时序引擎),通过统一的时序数据文件格式TsFile,实现一份数据兼容全场景,一套引擎打通云边端、一套框架集成云边端。华为跟清华大学保持紧密的合作,最新发布的IoTDB集群版本,就是华为与清华主导开发的一个版本。       在上海、成都、重庆等城市均已采用IoTDB管理地铁监控数据,原本144辆列车需要9台服务器,现在仅需一个IoTDB实例即可满足要求,测点的采样时延也从原来的500ms降至200ms,日增4140亿数据点管理,大大提升资源利用率。结语       目前,华为云FusionInsight MRS云原生数据湖携手800+生态伙伴,已服务于3000+政企客户,广泛应用于公用事业、金融、运营商、能源、医疗、制造、交通等行业。更多精彩文章:https://bbs.huaweicloud.com/forum/thread-66105-1-1.html
  • [其他] 【fusioninsight hd】对接【bi】
    【功能模块】【操作步骤&问题现象】1、能连接,也能够查询单张表的数据,只有在使用bi的数据库管理功能的时候会报错,这个功能就是查询某个schema下的所有表名,都是通过jdbc方式查询的2、【截图信息】【日志信息】(可选,上传日志内容或者附件)
  • [维护宝典] FusionInsight Kafka删除Topic失败原因及解决方案
    一、无权限创建Topic会报错“ERROR kafka.admin.AdminOperationException: Error while deleting topic topicName解决办法是使用具有kafkaadmin权限的用户。二、“topic.enable”配置为falseFusionInsight Manager页面“集群->Kafka->配置->全部配置”查看Kafka服务端delete.topic.enable参数配置。如果参数设置为false,改为true后保存并重启kafka服务。三、节点异常或节点磁盘下线或数据目录异常1. 节点异常FusionInsight Manager页面“集群->Kafka->实例”查看各个实例状态是否是良好。2. 磁盘下线FusionInsight Manager有没有“数据目录状态异常”的告警。Topic副本所在节点server.log日志中搜“offline”关键字和“checkpoint file”关键字查看磁盘是否下线或因checkpoint文件问题没有上线。搜“cannot allocate memory”关键字查看是否内存不足导致。搜“No space left”关键字查看是否磁盘写满。注意:出现“数据目录状态异常”的告警后,只有重启告警节点才可以使磁盘重新上线。3. 数据目录权限异常节点上Kafka数据目录(一般是“/srv/BigData/kafka/dataX/kafka-logs”)目录权限是否正常。四、删除后又自动创建TopicFusionInsight Manager页面“集群->Kafka”查看controller所在主机节点,此节点上Kafka日志目录中查看controller.log,如果日志中有“Deletion of topic topicName successfully completed”和“New topics: [Set(topicName)]”说明topic又被自动创建。五、Controller未执行删除如果controller.log日志中只有“Starting topic deletion”日志而未打印具体的执行成功或失败的日志,可尝试切controller,步骤如下:1. 进FI客户端(例如/opt/hadoopclient)2. 执行zkCli.sh -server zk业务IP:24002/kafka3. 执行get /controller4. 若获取到controller信息,执行deleteall /controller和get /controller。
  • [问题求助] smartbi v95怎么对接FusionInsight Hetu
    如题,寻求smartbi v95对接FusionInsight Hetu的操作步骤。
  • [行业动态] 数据战略高地,华为云FusionInsight再次领跑
    未来4年随着5G、AI、IoT等发展,数据量将激增4倍,到35年呈50倍增长,数据已成为世界各国关键的战略资源,跨境数据流通成为多边贸易重要议题,中国也从数据大国迈向数据强国,数据已作为继土地、资本、技术、劳动力的第5种生产要素,其重要性越来越凸显。各企业若想要在数字化转型过程中乘风破浪,搭上通往“数字经济“的快艇,选择具有竞争力的数字底座至关重要。近日, Frost&Sullivan弗若斯特沙利文发布了《2020年中国数据管理解决方案市场报告》,从产品创新能力、成长能力、基础能力三个维度对主流大数据厂商进行全面评估,报告显示华为云位居“领导者”位置,在中国大数据厂商中全面领先。报告解读本次报告从创新能力、成长能力、基础能力三方面对产品进行全面评估,其中横坐标代表创新指数,重点关注湖仓一体能力、海量数据事务支持能力,以及数据虚拟化能力;纵坐标代表成长指数,关注包含可扩展性、生态对接等能力;圆环中的色深代表产品的基础指数,关注支持的部署形态、数据类型等能力。从Frost Radar(弗若斯特雷达)中不难看出,活跃在中国市场的大数据厂商均已进入报告,产品表现上华为云最为抢眼,在上述三方面的表现都处于中国领先位置。华为云FusionInsight智能数据湖为政企客户提供湖仓一体的解决方案,包含MRS云原生数据湖、GaussDB(DWS)云数据仓库、DGC数据湖治理中心、GES图引擎、DLI数据湖探索等云服务,用于离线分析、实时分析、数仓集市、交互查询、实时检索、多模分析、数据接入治理、图计算等海量数据分析场景。本次报告中,华为云FusionInsight智能数据湖解决方案能位居“领导者”位置,有哪些过人之处呢?下面将从创新能力、成长能力及基础能力三方面进行解读:创新能力-湖仓一体打通数据壁垒,跨湖跨仓协同分析高效用数华为云FusionInsight解决方案中的MRS云原生数据湖产品,通过创新的HetuEngine数据虚拟化引擎,可以帮助客户构建逻辑数据湖,提供跨湖、跨仓、跨云的协同分析,实现湖仓一体,减少80%数据搬迁。同时,MRS云原生数据湖还可构建实时数据湖,提供Hudi  ACID数据实时增量入湖、ClickHouse毫秒级OLAP分析、Flink批流合一等实时处理能力,支撑全自助实时分析处理等场景,使得数据时效从T+1到T+0。成长能力-一个可持续演进的数字底座至关重要华为云FusionInsight MRS云原生数据湖作为企业级平台,支持2万+超大规模集群,通过集群联邦可达10万节点,助力客户一个平台持续演进。通过创新的超级调度器Superior,任务调度性能相比传统方案提升20+倍。华为云FusionInsight MRS云原生数据湖不仅在规模上满足企业持续高速发展的需求,同时还提供滚动升级能力,使得升级过程业务不中断,保障业务连续性。基础能力-数据不出湖,分析性能提升50%+华为云FusionInsight MRS云原生数据湖可构建离线数据湖,实现湖内建仓,数据不出湖,缩短数据分析链路,让分析性能提升50%+;离线数据湖拥有交互式、BI、AI等多个计算引擎,一个平台实现海量数据多场景分析;采用OBS实现存算分离,计算与存储按需扩容,其企业级EC能力替代了传统3副本方案,统一数据存储有效提升存储周期2倍+,使得云原生数据湖架构更灵活。同时,华为云FusionInsight智能数据湖解决方案,不仅包含有MRS云原生数据湖,可以使政企客户一个架构构建离线、实时、逻辑3种数据湖,还提供GaussDB(DWS)云数据仓库、DGC数据湖治理中心、GES图引擎、DLI数据湖探索等云服务,助力政企客户实现一企一湖、一城一湖,业务洞见更准,价值兑现更快!。GaussDB(DWS)云数据仓库:是一款具备分析及混合负载能力的云数据仓库,具有高性能、高扩展、高可用等特点,广泛应用于汽车、制造、零售、互联网、金融、政府、电信等行业核心分析决策系统。DGC数据湖治理中心:一站式数据开发集成管理平台,包含数据架构、标准规范、数据开发、数据质量等功能,统一数据标准,加速数据资产沉淀。GES图引擎:是中国首个商用的、拥有自主知识产权的原生图产品,具备多项自主专利。针对以关系为基础的图结构数据,应用于社交APP、关系分析、物流配送、知识图谱等场景。DLI数据湖探索:提供一站式Serverless的融合处理分析服务。企业使用标准SQL、Spark、Flink就可轻松完成多数据源的联合计算分析,挖掘和探索数据价值。通过以上 “硬核”能力加持,华为云FusionInsight位居 “领导者”位置和国内领先的大数据厂商,可谓实至名归。      华为云 FusionInsight 智能数据湖深入各行业客户需求,已经规模商用湖仓一体创新技术方案,以数据驱动各行业业务增长。据了解,华为云 FusionInsight 客户覆盖全球 60 多个国家 3000 多家客户,覆盖政府、金融、运营商、电力、传媒、医疗、教育、交通、油气、物流、零售、制造等行业。      在政务领域,在政务数字化参与部委、各省市智慧城市、数字城市建设。在某市,华为云 FusionInsight 联合伙伴建成“一云二网三平台”,针对民生、产业、政府的“痛点”和“难点”,从构建城市数据资源库为开端,以大数据分析支撑政府智慧决策,在 “数聚惠民”、“数聚兴业”、“数聚善政”三大方面,支撑 “一号、一窗、一网” 政务服务,让简政放权、百姓办业务“最多跑一次”成为现实。      在金融领域,华为云 FusionInsight在工商银行、建设银行、招商银行等银行、证券、保险行业广泛应用。其中工商银行与华为开展联创工作,引入了华为云 FusionInsight 智能数据湖解决方案,搭建了自主可控的大数据云平台,解决了大数据全场景生态化应用的存储、算力和算法挑战,支撑了企业级数据湖、数据仓库、集团信息库的建设,通过HetuEngine提升了全行13000+分析师的即时BI体验,智能服务演进由事后快速演进到事前、事中的阶段。      在运营商领域,已覆盖国内三大运营商以及海外运营商客户。其中广东移动基于华为云 FusionInsight,联合政企客户共同打造智慧电网、智慧港口、高清视频等系列标杆应用,打通数据全生命周期链路,实现对内业务支撑、对外应用赋能,全面支撑了各类政务、民生等大数据应用服务。      面向大企业客户,覆盖能源、交通、制造等行业客户大数据平台建设。其中深圳地铁采用华为城轨云解决方案,利用云计算、大数据、5G、人工智能等技术核心,建立了统一、开放、智能的城轨数字平台,利用华为云 FusionInsight MRS 云原生数据湖能力构建深圳地铁大数据分析平台,在智慧车站、智慧运维方面,对新技术与地铁场景进行创新融合,推进了车站业务全日自动运行、线上线下一体化客服、设备主动检测、健康管理等应用,探索数字化、高效化的新业务模式,为城市提供更优质的公共交通服务。      华为云FusionInsight持续投入10年+,坚持与世界同行,在开源社区先后开放CarbonData和openLooKeng等组件,携手800+合作伙伴,服务于全球60+国家和地区3000+政企客户,已广泛应用于政府、金融、运营商、大企业等行业。更多精彩文章:https://bbs.huaweicloud.com/forum/thread-66105-1-1.html
  • [公告] 【TICS动态】华为云CEO余承东重磅发布:可信智能计算服务TICS
    摘要:可信智能计算服务TICS,使能数据可信流通,安全释放数据价值。商业开发者可以通过TICS,为多个参与方快速构建互信联盟,将可开发的数据资源范围从企业扩张到海量的社会数据,通过数据流通创造更大价值。在华为开发者大会2021(Cloud)期间,余承东重磅发布了6大创新产品及服务,包括华为云CCE Turbo容器集群、CloudIDE智能编程助手、GaussDB(for openGauss)数据库、可信智能计算服务TICS、华为云盘古系列大模型(包含全球最大规模的中文NLP大模型及CV大模型等)、多样性计算基础软件,为开发者提供技术支持,并使能开发者提升开发效率和质量。为了帮助开发者抓住智能升级的黄金机会,华为带来6大创新技术发布:数据使能——TICS可信智能计算服务数据作为关键生产要素,一定要流动才能发挥更大的价值。释放数据价值的关键是可信安全流通,但开放难、共享难、流通难是亟需解决的三大挑战。 今天,我们发布TICS可信智能计算服务,使能数据可信流通,安全释放数据价值。它具有以下三大特性: 基于多方数据联邦探查和建模,让隐私数据不出域,可用不可见。通过联邦AI算法和同态加密算法协同,实现模型批量计算,训练性能提升10倍,无须加速卡,也能大幅提升计算性能。支持主流大数据源,无须转换即可适配。原文地址: https://mp.weixin.qq.com/s/cl0RtAShnmXk3GQThNEDxQ
  • [行业动态] 华为云FusionInsight MRS跨湖跨仓场景下如何实现海量数据分钟级分析
           华为开发者大会2021(Cloud)于2021年4月24日-26日在深圳成功举行。本届大会以#每一个开发者都了不起#为主题,为众多开发者带来一场ICT方面的技术盛宴。       大会期间,由华为技术专家天团打造的《名师大讲堂》系列专题演讲,围绕云原生、大数据、人工智能等话题,探讨技术创新带来的价值,分享创新实践。其中,华为云FusionInsight MRS云原生数据湖HetuEngine架构师武文博,分享了“跨湖跨仓场景下如何实现海量数据分钟级分析”主题。华为云FusionInsight MRS云原生数据湖HetuEngine架构师武文博演讲传统大数据平台融合分析存在数据墙、数据难打通、数据协同慢三大问题       随着大数据技术的应用和发展,数据种类越来越多,分布越来越广,查询场景也越来越复杂,尤其在新兴业务中,需要在一个平台上使用离线分析、实时分析、图分析、文本分析、交互式查询等多种引擎,多元异构的数据融合才能盘活数据,通过数据挖掘开发数据价值,发挥数据作为生产要素的作用。而传统大数据平台在应对数据融合分析时逐渐显露疲态,存在如下问题:       多数据源间存在数据墙:Hive、HBase、MPPDB、Oracle….数据组件众多,组件间形成“数据墙”;为了应对不同场景的需求,数据重复存储到多个数据组件:Hive(历史数据),HBase(原始数据),MPPDB(专题数据),管理复杂,耗费存储空间;       多中心数据难以打通:各类分析应用只能基于本地数据;用外中心数据做碰撞分析需要先搬迁到本地,操作复杂,效率低;异地数据加工需要在当地部署和维护加工平台,架构复杂;       多数据中心难以形成合力:数据集中在主中心,造成主中心负载畸高,分中心却空闲严重;紧急任务需要迅速处理,却因为分中心数据还未同步,无法分析;多数据中心和多集群的计算和扩展能力远远强于单个中心,但由于跨数据中心访问技术基本处于空白状态,业务只能依靠单中心支撑。简化用数,HetuEngine统一接口,跨湖跨仓跨云协同分析从数天降至分钟级       为了让数据使用更简单,跨湖协同更容易,解决上述三大问题,华为推出了“HetuEngine”,于2019年11月发布,2020年6月正式开源(开源名称openLooKeng)。HetuEngine是统一高效的数据虚拟化引擎,与大数据生态无缝融合,实现海量数据秒级查询;业界首创多源异构协同,实现一站式SQL融合分析。HetuEngine具备如下特性:高性能交互式查询:传统大数据通过Hive引擎构建即席查询任务,查询时间长, HetuEngine通过启发式索引和执行计划Cache,实现秒级查询响应;跨湖跨仓跨云融合:传统数据分析需先统一数据格式,HetuEngine可实现不同数据格式间的join,减少数据搬迁,较传统方案提效30%;传统DC分析要建手工摆渡数据,HetuEngine可通过DC Connector进行连接,数据全局可视,协同耗时从数天缩短至分钟级;多引擎融合:传统大数据在进行多引擎组件开发时,需涉及多组件定制开发,HetuEngine可统一SQL接口访问大数据,降低用数门槛,开发提效2-10倍。       目前,华为云FusionInsight MRS云原生数据湖为政企提供湖仓一体的解决方案,一个架构可构建三种数据湖:离线数据湖、实时数据湖、逻辑数据湖。其中逻辑数据湖通过HetuEngine提供跨湖、跨仓、跨云统一访问,减少数据搬迁,数据高效流动,全域数据分钟级协同分析,业务上线效率提升10倍,由周级缩短至天级。       HetuEngine已在各行各业大规模使用,下面一起来看HetuEngine在金融领域的典型场景实践。工商银行基于HetuEngine实现即时BI,加速金融数据湖的灵活数据探索       工行金融数据湖承载总行及分行全量原始数据,供全行数据分析师进行数据探索分析。目前日查询量5000条,查询数据平均10亿行,最大可达百亿行,伴随数字化转型进入深水区,多样性业务诉求对数据融合分析提出了更高的要求。       在某些场景中,金融业务需要在数据湖内先使用批处理技术对原始数据加工成专题数据,然后跨集群搬移数据集市,再从数据集市上做BI分析。传统大数据平台中,SAS等工具通过Hive SQL访问数据湖数据性能差,平均响应时间5分钟~2小时,并发能力不足10,且湖仓数据割裂,将数据加工后加载到OLAP集市,数据链路长,分析效率和开发效率都很低。       该行通过华为云FusionInsight MRS云原生数据湖提供的HetuEngine,解决了数据湖与数仓间的数据协同分析问题,避免了不必要的ETL。通过HetuEngine数据虚拟化实现湖仓互联互通协同分析;避免不必要的ETL流程,减少数据搬迁。       通过引入HetuEngine数据虚拟化引擎,在数据湖查询分析方面该行提升了并发能力,仅1/5的资源即可支持45并发,峰值并发最大达200QPS,平均时延优化到8秒;在湖仓协同分析方面,通过HetuEngine打通数据湖与数仓间的数据壁垒,湖仓协同分析性能从分钟级提升至秒级,同时减少80%的系统间数据搬迁同步,大大提升数据治理效率。结语       HetuEngine作为统一高效的数据虚拟化引擎,打通了多数据源间的数据墙,实现高性能跨湖跨仓跨云数据融合分析,同时,HetuEngine提供统一访问入口,屏蔽了传统复杂的访问接口,并统一使用 SQL 接口,降低大数据使用门槛,简化用数!       华为云FusionInsight MRS云原生数据湖还将持续创新,做大数字世界黑土地,携手800+ISV为客户提供持续演进的湖仓一体解决方案,可以在一个架构上实现离线数据湖、实时数据湖、逻辑数据湖,在千行百业构筑“一企一湖,一城一湖”。原文链接:https://bbs.huaweicloud.com/blogs/262885更多精彩文章:https://bbs.huaweicloud.com/forum/thread-66105-1-1.html
  • [行业动态] 华为云FusionInsight MRS如何实现千余节点滚动升级无业务中断升级
            华为开发者大会2021(Cloud)于2021年4月24日-26日在深圳成功举行。本届大会以#每一个开发者都了不起#为主题,为众多开发者带来一场ICT方面的技术盛宴。       大会期间,由华为技术专家天团打造的《名师大讲堂》系列专题演讲,围绕云原生、大数据、人工智能等话题,探讨技术创新带来的价值,分享创新实践。其中,华为云FusionInsight解决方案架构师许田立,分享了“千级节点的大数据集群如何无业务中断升级”主题。华为云FusionInsight解决方案架构师许田立演讲照片数据量激增,可持续发展的数据底座尤为重要       随着5G、IoT技术的飞速发展,数据已成为重要的战略资源。据预测未来4年数据量将激增4倍+,达180ZB,到35年呈50倍增长。同时,数据作为继土地、资本、技术、劳动力的第5种生产要素,已是数字经济发展的重要要素。但相关调查结果显示,企业运营中仅56%的数据被存储,仅32%的数据被利用。为应对呈指数级增长的数据资产,挖掘海量数据价值,政企客户采用大规模数据底座的需求越来越迫切。       众所周知,企业早期业务较小,各业务从数据集成到数据应用,系统自建,烟囱林立,伴随业务飞速发展,数据不统一、数据融合分析难、开发维护成本高等问题日益凸显,烟囱式的数据体系演进达到瓶颈。        为突破以上瓶颈,挖掘数据价值,驱动业务增长,传统烟囱式数据体系向统一数据湖架构演进,实现一致的数据清洁,做到同名同义,统一数据标准;通过一套技术架构减少维护成本;采用乐高积木式的指标体系,提升开发效率;拉通数据实现跨域融合分析,带来更多的业务创新。        立足于长远,大集群的数据湖架构不仅需满足当下,更应具备可持续演进的能力。        从技术角度来看,大数据开源、开放技术仍在蓬勃发展,以前,驾驭大数据“三驾马车”可转遍大数据的池塘,现如今,大数据技术已发展成一片海洋,社区已具有100+开源项目,大数据技术创新进入深水区。现在大数据不仅限于Hadoop生态,已是多种主流数据处理技术的集合,在不同场景有着丰富的组件进行支撑。华为云大数据技术与世界同步,积极拥抱开源,汲取全球顶尖大数据实践经验。        从业务角度来看,大数据平台承载了海量数据各业务分析场景,其中更涉及多个关键业务,如运营商的对内收入稽核、对外广告精准投放,金融领域的反欺诈、精准营销等场景,服务连续性要求高,7*24小时不中断;如何让大数据平台软件保持最新保本,实现最优的平台参数,达到最快的问题解决速度?这些都对平台运维部门提出了极高的要求。        为了保持业务的连续性和技术引领,一个超大规模、高效率、可持续发展的数据底座显得尤为重要,而不中断业务的滚动升级能力则成为其中的必备能力。滚动升级实现架构平滑演进,业务无中断        华为云FusionInsight MRS云原生数据湖提供超大规模集群,支持单集群2万+节点规模,并可联邦无限扩容,同时,从500+节点集群的标配开始,华为云FusionInsight MRS云原生数据湖已提供滚动升级能力,截止目前升级成功率为100%。        当然,滚动升级的成功并不是一蹴而就的,在其升级过程中也将面临如下挑战:无处不在的兼容性:HDFS作为一个分布式架构组件,涉及的跨进程的接口众多,在中间状态,涉及到新老版本交互的场景众多,每一种组合都存在兼容性问题;可靠性:集群规模达到一定数量后,集群升级历时需数天,升级过程中需要应对各种突发事件,例如硬件的磁盘故障、网络拥塞等各种异常场景,面临这些挑战需要确保升级进度不受影响;业务无中断:大数据平台承载企业多场景应用,升级过程中,关键业务不允许中断。        为了保障大集群升级过程的平滑,华为云FusionInsight MRS云原生数据湖团队提供了升级管理可视化服务工具,可以端到端分步骤的完成滚动升级,实现升级过程中的可视化控制和管理,并应对上述挑战,主要做了如下处理:在接口中增加版本号,新版本客户端带上版本号标识;服务端提供两种RPC实现入口,在入口处进行消息格式不兼容的预处理,解决接口兼容性问题;面对社区大版本变更导致的不兼容问题,通过多版本并存的方式,解决滚动升级对业务的影响;为快速处理升级过程中出现的硬件故障,提供了故障节点隔离能力,在故障发生时,可以跳过该节点的升级动作,使得故障处理和升级可以有序进行;为降低在升级过程中对关键任务SLA的影响,提供了滚动升级暂停的能力,关键作业或者作业高峰时段,无论是同一批次内还是多批次间,都可暂停升级动作,保障关键任务平稳执行。        滚动升级不仅是一个升级动作,更是一个系统工程,华为云FusionInsight MRS云原生数据湖从兼容性、可靠性、工具自动化、保障团队等多方面入手,注重细节,通过滚动升级助力政企客户平台架构平滑演进。工商银行实现首个金融行业1000+大集群滚动升级成功        工行大数据平台的Hadoop批量集群已超过1000节点,日均处理作业10万+,数据存储数十PB,承载了全行重点批量作业,其中包括反欺诈、精准营销等多个重要业务场景,服务连续性需求较高。而大数据技术迭代快,传统升级方式需断电、重启等操作,升级操作复杂,影响现网业务运行,且大集群升级耗时长,突发故障易中断升级动作。        大数据技术快速发展,为满足业务变化发展需求,工行采用了华为云FusionInsight MRS 滚动升级方案,借助于大数据核心组件的高可用机制, MRS按照依赖层次,多层次并行,在不影响集群整体业务的情况下,一次升级/重启少量节点,依据组件和实例的依赖关系,自动编排升级批次。升级过程中,隔离故障节点,待升级完成后,再进行故障处理。循环滚动,直至集群所有节点升级到新版本。        通过华为云FusionInsight滚动升级能力,实现大集群分批次滚动升级,业务0中断;故障节点隔离功能确保升级动作的稳定运行,实现7*24小时不间断服务;1000+精细化运维指标及可视化操作简化运维,实现一个架构持续演进。结语      滚动升级作为大集群数据底座的必备能力,完美解决了传统大数据平台操作繁琐、业务停机、升级成本高等问题,实现一个架构的持续演进,业务无中断。同时,华为云FusionInsight MRS云原生数据湖还将持续创新,做大数字世界黑土地,携手800+ISV为客户提供持续演进的湖仓一体解决方案,可以在一个架构上实现离线数据湖、实时数据湖、逻辑数据湖,在千行百业构筑“一企一湖,一城一湖”。原文链接:https://bbs.huaweicloud.com/blogs/262883更多精彩文章:https://bbs.huaweicloud.com/forum/thread-66105-1-1.html
  • [行业动态] HDC.Cloud2021 | 一文回顾华为云FusionInsight MRS云原生数据湖亮点
    2021年4月26日,HDC.Cloud2021(华为开发者大会2021)成功落下帷幕。本次大会,华为云FusionInsight MRS云原生数据湖带着“一架构三湖”的愿景与使命来到现场,与众多行业客户、合作伙伴、开发者一起,就如何在5G、AI、IoT高速发展的当下,用更好的技术创新,赋能千行百业等议题进行深入的探讨。下面,让我们一起再次重温本次活动的精彩瞬间。数据使能展区华为云FusionInsight MRS云原生数据湖绽放光彩华为云FusionInsight MRS一架“构”三湖在数据使能展区,华为云FusionInsight MRS云原生数据湖带来最懂行的大数据解决方案,为政企客户提供湖仓一体、云原生的大数据解决方案,一个架构可构建3种数据湖:离线数据湖、实时数据湖、逻辑数据湖,支撑政企客户全量数据的实时分析、离线分析、交互查询、实时检索、多模分析、数据仓库、数据接入和治理等大数据应用场景,使政企客户高效用数、简化用数,助力政企客户实现一企一湖、一城一湖,业务洞见更准,价值兑现更快。离线数据湖:HetuEngine提供秒级交互式查询能力,数据不出湖,分析链路短,性能比Impala快30%+,分析提效10倍+;DLC提供统一的元数据,数据全局可视;HetuEngine提供湖内统一SQL接口:HDFS、Hive、HBase、ES等,简化用数。实时数据湖:流处理 + Hudi实现数据更新入湖,从T+1到T+0;ClickHouse提供毫秒级实时OLAP分析能力;Flink提供FlinkSQL能力,批流SQL接口统一,实现流批一体。逻辑数据湖:HetuEngine提供跨湖、跨仓、跨云统一访问,减少数据搬迁,数据高效流动,全域数据秒级协同分析秒级响应,业务上线效率提升10倍,由周级缩短至天级。       华为云FusionInsight MRS践行产学研合作,全面推进大数据开源技术发展,联合清华大学发布了IoTDB时序引擎版本。目前华为云FusionInsight MRS已应用于60多个国家3000+客户,助力政企客户实现一企一湖、一城一湖,业务洞见更准,价值兑现更快!华为云FusionInsight技术生态工程师黄昊兮讲解实验在华为云FusionInsight MRS云原生数据湖展台的一侧,设有开发者实操的沙箱实验室,华为云FusionInsight技术生态资深工程师黄昊兮,在现场为大家现身授教,讲述“使用MRS Hudi体验实时入湖、使用MRS Clickhouse体验实时OLAP、使用MRS HetuEngine体验跨源跨域分析能力”三个实验,通过上手实操体验加深了解各组件的特性,Hudi能够支持数据增量更新,从传统Append 到 Upsert,实现数据实时更新,数据价值释放从T+1转变为T+0;Clickhouse具备毫秒级的OLAP分析能力,实现数据分析不出湖,解决了传统数据冗余、来回搬迁的问题;HetuEngine提供统一标准SQL对分布于多个地域(或数据中心)的多种数据源实现高效访问,屏蔽数据在结构、存储及地域上的差异,实现数据与应用的解耦。华为云FusionInsight MRS云原生数据湖展区       展区不仅拥有华为云FusionInsight MRS云原生数据湖一架“构”三湖的特性,更有落地实际应用的沙箱体验,让观展嘉宾在获得大数据前沿技术的同时,收获一份上手操作的亲身体验。名师大讲堂:畅谈新技术、新价值、新趋势       大会期间,由华为技术专家天团打造的《名师大讲堂》系列专题演讲,围绕云原生、大数据、人工智能等话题,探讨技术创新带来的价值,分享创新实践。其中,华为云FusionInsight MRS云原生数据湖带来两场专家演讲,由华为云FusionInsight解决方案架构师许田立,分享“千级节点的大数据集群如何无业务中断升级”主题,由HetuEngine架构师武文博,分享“跨源、跨域场景下如何实现海量数据分钟级分析”主题。千级节点的大数据集群滚动升级,业务无中断华为云FusionInsight解决方案架构师许田立演讲随着政企数字化发展,数据湖在政府、金融、运营商、大型企业等中承载越来越多的关键数据分析、处理的业务,在日常升级和维护过程中,对于业务连续性保障的要求也越来越高。而大数据技术迭代快,传统大数据平台采用离线升级方式,需断电、重启等操作,升级操作复杂,运维繁琐,影响现网业务运行,且大集群升级耗时长,突发故障易中断升级动作,为保持业务的连续性和技术引领,急需业务不中断的滚动升级能力,确保大集群数据底座的持续演进。华为云FusionInsight MRS云原生数据湖提供超大规模集群,支持单集群2万+节点规模,并可联邦无限扩容,同时,从500+节点集群的标配开始,华为云FusionInsight MRS云原生数据湖已提供滚动升级能力,截止目前升级成功率为100%。       通过华为云FusionInsight MRS云原生数据湖滚动升级能力,助力政企客户实现大集群分批次、循环滚动升级,业务0中断;故障节点隔离功能确保升级动作的稳定运行,实现7*24小时不间断服务;1000+精细化运维指标及可视化操作简化运维,实现一个架构持续演进。海量数据跨湖跨仓分钟级分析HetuEngine架构师武文博演讲HetuEngine是统一高效的数据虚拟化分析引擎,与大数据生态无缝融合,实现海量数据秒级查询;业界首创多源异构协同,实现一站式SQL融合分析,海量数据协同分析分钟级。高性能交互式查询:传统大数据通过Hive引擎构建即席查询任务,查询时间长, HetuEngine通过启发式索引和执行计划Cache,实现秒级查询响应;跨湖跨仓跨云融合:传统数据分析需先统一数据格式,HetuEngine可实现不同数据格式间的join,减少数据搬迁,较传统方案提效30%;传统DC分析要建手工摆渡数据,HetuEngine可通过DC Connector进行连接,数据全局可视,协同耗时从数天缩短至分钟级;多引擎融合:传统大数据在进行多引擎组件开发时,需涉及多组件定制开发,HetuEngine可统一SQL接口访问大数据,降低用数门槛,开发提效2-10倍。结语大幕拉下,并不是终点,而是新一段征程的起点。华为云FusionInsight MRS云原生数据湖将不忘初心,砥砺前行,保持技术创新源动力,做大数字世界黑土地,携手800+ISV为客户提供持续演进的湖仓一体解决方案,可以在一个架构上实现离线数据湖、实时数据湖、逻辑数据湖,在千行百业构筑“一企一湖,一城一湖”。文章来源:https://bbs.huaweicloud.com/blogs/262882  更多精彩文章:https://bbs.huaweicloud.com/forum/thread-66105-1-1.html
总条数:198 到第
上滑加载中