• [行业动态] FusionInsight 使用费用是怎样的,可以离线部署吗
    FusionInsight 使用费用是怎样的,可以离线部署吗,又相关资费介绍吗
  • [行业动态] 上千节点无中断升级,华为云FusionInsight是如何做到的?
    金融领域的反欺诈、精准营销等大量的业务场景对服务连续性要求高,7*24小时不能中断,为了保持业务的连续性和技术引领,一个超大规模、高效率、可持续发展的数据底座显得尤为重要,而不中断业务的滚动升级能力则成为最硬核的衡量指标,中国最佳零售银行,金融数据湖上千节点滚动升级,2万多个业务正常运行,这背后的奥秘究竟是什么?今天让我们深入了解一下……作为“中国最佳零售银行”,某股份制银行一直将客户体验放在首位。近年来,该行以轻型银行为战略目标,打造以数据作为关键战略资产的未来银行,通过引入华为云FusionInsight建设全行统一的金融数据湖,汇聚各渠道业务数据,实现全行数据资源共享,用于探索新的客户体验和商业模式。当前,该行金融数据湖规模达到千余节点,承载了行内上万应用,支撑反欺诈、智慧营销等重要业务场景,日均处理数万大数据作业。随着该行不断深入使用大数据技术,逐步支撑行内关键金融业务,对于整个数据湖平台的服务连续性要求也越来越高,一方面行内金融数据湖要紧跟技术潮流不断升级革新,一方面要求支撑行内外业务的数据湖能够7*24小时不中断服务。然而传统的方案需要断电重启,显然不能满足行内业务连续性保障的要求;同时在金融数据湖升级过程中,对于数据湖这种复杂系统来讲,传统升级方案如果碰到突发的故障,容易导致整个升级动作中断重来,为平稳升级带来极大地挑战。近期,该行采用FusionInsight MRS云原生数据湖滚动升级能力,实现行内大数据平台的成功滚动升级,升级过程中金融数据湖承载的行内2万+应用正常运行,实现两个“不中断”:业务不中断数据湖承载了成千上万的任务作业,在升级过程中,关键的数据分析服务要能够不间断地支撑上层业务,这就导致升级和使用存在着矛盾冲突;MRS具有循环滚动升级能力,一次升级少量节点,循环滚动,直至整个集群的所有节点升级到新版本;同时,为了降低升级对关键任务SLA的影响,MRS还提供滚动升级暂停能力,在任务高峰时段或关键任务执行时,可以保障关键任务正常平稳运行。分批次升级示意图进度不中断数据湖是一个复杂系统,由服务器、存储、网络、软件等组成,在升级时经常会碰到突发事件,如磁盘故障、网络拥塞问题。在大数据平台升级过程中,部署人员需要应对各种突发事件,如磁盘故障、网络拥塞等多种异常场景,客户要求不中断升级。MRS提供故障节点隔离能力,在故障发生时,可以跳过该节点的升级动作,让故障处理和集群升级有序进行。滚动升级不仅是一个升级动作,更是一个系统工程。该行携手华为云FusionInsight MRS云原生数据湖,从兼容性、可靠性、工具自动化、保障团队等多方面入手,注重细节,实现了行内大数据平台架构的平滑演进,升级过程行内用户无感知,保障上层业务平稳运行。MRS目前已通过中国信通院3万+大集群评测,还可以通过集群联邦扩展到10万+大集群。除此之外,还为大规模集群提供超级调度器Superior,资源调度效率是开源大数据的30倍+,能够让整个集群的资源利用率最高达到90%+。截止目前,华为云FusionInsight已先后帮助国有大行、股份制银行、城商农信行,运营商如广东移动、浙江移动等客户实现平滑升级,顺利完成累计60000多节点的无风险升级,让3000+政企客户技术永新,业务永远在线。在本次升级过程中,某股份制银行成功上线了最新版本的华为云FusionInsight MRS云原生数据湖,并在新集群上提供如HetuEngine、 ClickHouse、Hudi等新组件,为项目管理、反欺诈、BI报表等业务创新提供有力技术支撑。在整个升级期间,行内数万名数据分析师毫无感觉,同事模型平台、先机平台、反欺诈平台等关键业务应用平滑运行无中断,为进一步行内实现湖仓一体目标,深度使用FusionInsight奠定良好基础。 
  • [问题求助] fusioninsight opensource flink sql 作业
    fusioninsight opensource flink 1.12 sql 作业中,怎么把kafka的数据接进来写入postgres中,尝试好多,一直sql校验失败。查资料没有示例
  • [问题求助] FusionInsight 做主备HA检测时,备节点能ha替代主,但是主节点一直无法启动oms.sh也无法启动HA
    已重装
  • [知识分享] HDFS 细粒度锁优化,FusionInsight MRS有妙招
    本文分享自华为云社区《[FusionInsight MRS HDFS 细粒度锁优化实践](https://bbs.huaweicloud.com/blogs/353362?utm_source=csdn&utm_medium=bbs-ex&utm_campaign=ei&utm_content=content)》,作者:pippo。 # 背景 HDFS依赖NameNode作为其元数据服务。NameNode将整个命名空间信息保存在内存中提供服务。读取请求(getBlockLocations、listStatus、getFileInfo)等从内存中获取信息。写请求(mkdir、create、addBlock)更新内存状态,并将日志事务写入到日志服务(QJM)。 HDFS NameNode的性能决定了整个Hadoop集群的可扩展性。命名空间性能的改进对于进一步扩展Hadoop集群至关重要。 - Apache HDFS 整体架构如下: ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20225/27/1653615824071691620.png) - Apache HDFS 交互信息如下: ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20225/27/1653615845153231628.png) # 痛点 HDFS NameNode的写操作的性能受全局命名空间系统锁的限制。每个写操作都会获取锁并保留锁,直到该操作执行完成。这样可以防止写入操作的并发执行,即使它们是完全独立的,例如命名空间中的对象不相交部分。 # 什么是Fine Grained Locking(FGL) FGL【细粒度锁】的主要目的是通过在独立命名空间分区上用多个并发锁替换全局锁,允许写入操作的并发。 # 当前状态 HDFS设计思路为一次写,多次读。读操作使用共享锁,写操作使用独占锁。由于HDFS NameNode元数据被设计为单个内存空间中的命名空间树,因此树的任何级别的写操作都会阻塞其它写操作,直到当前写操作完成。虽然写是一次,但是当涉及大量并发读/写操作时,这就会影响整体性能。 在HDFS NameNode中,内存中的元数据有三种不同的数据结构: - INodeMap: inodeid -> INode - BlocksMap: blockid -> Blocks - DataNodeMap: datanodeId -> DataNodeInfo INodeMap结构中包含inodeid到INode的映射,在整个Namespace目录树种存在两种不同类型的INode数据结构:INodeDirectory和INodeFile。其中INodeDirectory标识的是目录树中的目录,INodeFile标识的是目录树中的文件。 BlocksMap结构中包含blockid到BlockInfo的映射。每一个INodeFile都会包含数量不同的Block,具体数量由文件大小以及每个Block大小来决定,这些Block按照所在文件的先后顺序组成BlockInfo数组,BlockInfo维护的是Block的元数据;通过blockid可以快速定位Block。 DataNodeMap结果包含datanodeid到DataNodeInfo的映射。当集群启动过程中,通过机架感知逐步建立起整个集群的机架拓扑结构,一般在NameNode的生命周期内不会发生大变化。 通过INodeMap和BlocksMap共同标识存储在HDFS中的每个文件及其块的信息。随着文件数量的增加,此数据结构大小也会随之增加,并对单个全局锁的性能产生很大影响。下面我们采用简单的文件目录树结构来演示现有的单一全局锁在文件系统的缺点。 ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20225/27/1653615920936272267.png) HDFS NameNode 内存目录树结构 如上图所示,/D11/D21/D31/F2 和 /D12/D24/D38/F16是不相交的文件,即有不同的父节点和祖父节点。可以看到F2和F16是两个独立的文件,对其中一个文件的任何操作都不应该影响另一个文件。 # 设计 如前所述,HDFS NameNode将文件信息和元数据结构在内存中保存为一个目录树结构。当修改任意两个独立的文件时,第二次操作需要等到第一次操作完成并释放锁。释放锁以后,只有第二个操作获取锁后才能继续修改文件系统。类似的,后续操作也会阻塞,直到第二次操作释放锁。 在下面的例子中,我们考虑2个文件并发写入(创建、删除、追加。。。)操作。F2和F16是文件系统下的2个独立文件(具有不同的父节点和祖父节点)。在将内容追加到F2时,F16也可以同时进行修改。但是由于整个目录树全局对象锁,对F16的操作必须等对F2的操作完成后才能执行。 代替全局锁,可以将锁分布在一组名为“分区”的文件中,每个分区都可以有自己的锁。现在F2属于分区-1,F16属于分区-2。F2文件操作可以通过获取分区-1的锁来进行修改,F16文件操作可以通过获取分区-2的锁来进行修改。 和以前一样,需要先获取全局锁,然后搜索每个文件属于哪个分区。找到分区后,获取分区锁并释放全局锁。因此全局锁并不会完全被删除。相反,通过减少全局锁时间跨度,一旦释放全局锁,则其它写操作可以获取全局锁并继续获取分区锁来进行文件操作。 ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20225/27/1653615954378433039.png) 分区的数量如何决定?如果有效的定义分区从而获得更高的吞吐量? 默认情况下,分区大小为65K,溢出系数为1.8。一旦分区达到溢出条件,将会创建新分区并加入到分区列表中。理想情况下,可以拥有等于NameNode可用CPU核数的分区数,过多的分区数量将会使得CPU过载,而过少的分区数量无法充分利用CPU。 # 实现 引入新的数据结构-PartitionedGSet,它保存命名空间创建的所有分区信息。PartitionEntry是一个分区的对象结构。LatchLock是新引入的锁,用于控制两级锁--顶层锁和子锁。 # PartitionedGSet PartitionedGSet是一个两级层次结构。第一层RangeMap定义了INode的范围,并将它们映射到相应的分区中。分区构成了层次结构的第二级,每个分区存储属于指定范围的INode信息。为了根据键值查找INode,需要首先在RangeMap中找到对应键值的范围,然后在对应的RangeSet,使用哈希值获取到对应的INode。 ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20225/27/1653615992450186918.png) HDFS NameNode 两级层次结构 RangeGSet的容量有一定的阈值。当达到阈值后,将创建新的RangeGSet。空的或者未充分利用的RangeGSet由后台RangeMonitor守护程序来进行垃圾回收。 HDFS NameNode启动时,根据镜像中的INode数量计算合理的初始分区数。同时还需要考虑CPU核数,因为将分区数量提高到远超CPU核数并不会增加系统的并行性。 - 动态分区:分区的大小有限,可以像平衡树一样可以进行分裂和合并。 - 单个分区:只有一个分区,且只有一个与之相对应的锁,并且应和全局锁类似。这适用于小型集群或写入负载比较轻的集群。 - 静态分区:有一个固定的RangeMap,不添加或者合并现有分区。这适用于分区均匀增长的文件系统。而且这将消除锁定RangeMap的要求,允许并行使用锁。 # Latch Lock RangeMap与RangeGSet分别有单独的锁。Latch Lock是一种锁模式,其中首先获取RangeMap的锁,以查找与给定INode键对应的范围,然后获取与分区对应的RangeGSet的锁,同时释放RangeMap锁。这样针对任何其它范围的下一个操作都可以开始并发执行。 在RangeMap上持有锁类似于全局锁。目录删除、重命名、递归创建目录等几个操作可能需要锁定多个RangeGSet。这要确保当前HDFS语义所要求的操作的原子性。例如,如果重命名将文件从一个目录移动到另一个目录,则必须锁定包含文件、源和目标目录的RangeMap,以便使重命名成为原子。此锁定模式的一个理想优化是允许某些操作的Latch Lock与其他操作的全局锁结合使用。 # INode Keys HDFS中的每个目录和文件都有一个唯一的INode,即使文件被重命名或者移动到其它位置,该INode会保持不变。INode键是以文件INode本身结尾,前面包含父INode的固定长度序列。 Key Definition: key(f) = selfId是文件的INodeId,pId是父目录的INodeId,ppId是父目录的父目录的INodeId。INode键的这种表达不仅保证了同级,同时也保证了表亲(相同祖父节点)在大多数情况下被分区到相同的范围中。这些键基于INodeId而非文件名,允许简单的文件和目录进行重命名,称为就地重命名,而无需重新进行分区。 # 效果 经过测试验证使用和不使用FGL功能性能,在主要写入操作情况下,吞吐量平均提高了25%左右。 ## 详细性能对比 使用Hadoop NN Benchmarking工具(NNThroughputBenchmark)来验证NameNode的性能。每个写入API验证并观察到平均25%的性能提升。有很少一部分轻微或者没有提升的API,分析并发现这些API均是轻量级API,因此没有太大的提升。 NNThroughputBenchmark是用于NameNode性能基准测试工具。该工具提供了非常基本的API调用,比如创建文件,创建目录、删除。在这个基础上进行了增强,从而能够支持所有写入API,并能够捕获使用和不使用FGL的版本的性能数据。 用于测试的数据集:线程数 1000、文件数 1000000、每个目录文件数 40。 # 写入调用频率高的API ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20225/27/1653616077867487794.png) # 其它内部写API ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20225/27/1653616090511168604.png) # 常用读取API: 通过完整的FGL实现,读取API也有很好的性能提升。 ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20225/27/1653616112137858409.png) # 运行基准测试工具的命令: ./hadoop org.apache.hadoop.hdfs.server.namenode.NNThroughputBenchmark -fs file:/// -op create -threads 200 -files 1000000 -filesPerDir 40 –close ./hadoop org.apache.hadoop.hdfs.server.namenode.NNThroughputBenchmark -fs hdfs:x.x.x.x:dddd/hacluster -op create -threads 200 -files 1000000 -filesPerDir 40 -close # 参考 与FGL相关的社区讨论 Hadoop Meetup Jan 2019 — HDFS Scalability and Consistent Reads from Standby Node, which covers Three-Stage Scalability Plan. Slides 21–25 社区中跟踪与NameNode可扩展性相关的其它Jira HDFS-5453. Support fine grain locking in FSNamesystem HDFS-5477. Block manager as a service HDFS-8286. Scaling out the namespace using KV store HDFS-14703. Namenode Fine Grained Locking (design inspired us to implement it fully) # 总结 华为云FusionInsight MRS云原生数据湖为政企客户提供湖仓一体、云原生的数据湖解决方案,构建一个架构可持续演进的离线、实时、逻辑三种数据湖,支撑政企客户全量数据的实时分析、离线分析、交互查询、实时检索、多模分析、数据仓库、数据接入和治理等大数据应用场景。 华为云FusionInsight MRS通过FGL对HDFS NameNode锁机制进行优化,有效提升了NameNode的读写吞吐量,从而能够支持更多数据,更多业务请求访问,从而更好的支撑政企客户高效用数,业务洞见更准,价值兑现更快。
  • [问题求助] FusionInsight 重装DWS 时,preinstall error version is lower than
    【【日志信息】(可选,上传日志内容或者附件)
  • [问题求助] fusioninsight 主管理节点ntp启动成功,备用节点的ntp启动失败
    证书还没到期,systemctl status ntpd也能看到ntp服务正常启动ntp状态信息每次都是主机和备机只能装上一个,另外一个就报ntp超时的错误
  • [问题求助] 【FusionInsight产品6.5.1】【LoaderServer功能】LoaderServer重启后服务显示404
    【功能模块】  loaderserver【操作步骤&问题现象】1、做完重启了FI集群,今天发现Loader WebUI,ResourceManager WebUI点进去之后显示404【截图信息】【日志信息】(可选,上传日志内容或者附件)
  • [生态对接] Kibana-oss 6.7.1对接 FusionInsight Elasticsearch6.7.1
    【功能模块】FusionInsight Elasticsearch 6.7.1Kibana 6.7.1linux系统为7.x x86【操作步骤&问题现象】1、按照https://bbs.huaweicloud.com/forum/thread-66788-1-1.html这篇文章的步骤,kibana连接es, 日志报错如下:{"type":"log","@timestamp":"2022-02-23T02:16:25Z","tags":["warning","elasticsearch","admin"],"pid":8726,"message":"Unable to revive connection: http://x.x.x.x:24100/"}2、打开浏览器,访问kibana,http://x.x.x.x:5601,报错如下:Kibana server is not ready yet【截图信息】有谁知道这个问题怎么解决吗?【日志信息】(可选,上传日志内容或者附件)
  • [行业动态] 华为云FusionInsight连续三次获得第一 加速释放数据要素价值
    近日,IDC发布《中国大数据平台市场研究报告,2021 H1》,华为云FusionInsight智能数据湖已连续三次获得大数据平台市场份额第一。基于超过10年服务于政务、金融、运营商、大企业、互联网等行业客户的实践经验,华为云FusionInsight智能数据湖通过不断的技术创新为客户提供业界领先的云原生、湖仓一体解决方案。如今,数据已经与土地、劳动力、资本、技术并称为五种要素,数据不仅是一种产业或应用,更是国家发展的战略性、基础性资源。未来,数据要素市场空间巨大,通过驱动关键大数据技术和开源技术的不断创新发展,培育数据要素市场,打造新型数字产业,到2025年大数据产业规模将达到3万亿。大数据产业快速发展,已成为支撑经济社会发展的优势产业。华为云FusionInsight智能数据湖不断深入客户场景,提供大数据轻咨询专业服务,加速释放各行各业数据要素价值。在政务领域,华为云FusionInsight智能数据湖已为部委、各省市客户,提供领先的大数据云服务产品组合。2021年,华为云携手华傲数据,基于FusionInsight联合打造“三算一景”的政务大数据治理解决方案:华为云提供大数据所需的“算力”,基于各委办局的海量数据资源,即“算料”,通过数据治理的模型不断打磨数据 “算法”, 贯穿包括一网统管、一网通办、一屏尽览等“应用场景”。在“一秒七办”方案中,实现政务数据服务的自动匹配、自动填表、自动证明、自动核对、自动审批、自动评审、自动响应,让业务场景纵向高效畅通;结合大数据、区块链、AI技术,横向扩宽业务范围,实现跨部门、跨层级的互联互通,让“数据多跑路,群众少跑腿”。在金融领域,近年来工商银行、交通银行、杭州银行等银行、保险、证券客户携手华为云FusionInsight智能数据湖共建金融大数据体系。其中在工商银行已建成同业最大的大数据单集群,总规模达4000+节点,支撑行内外200+应用。工行的风险控制、损益预查询等关键业务也逐步接入大数据平台。在交互查询场景,该行通过MRS HetuEngine数据虚拟化引擎,分析提效50倍,提升全行13000名分析师即时BI新体验,并已面向全行推广。在运营商领域,随着移动互联网、IoTDB等技术的迅猛发展,运营商已深入支撑各行各业的大数据应用。广东移动基于华为云FusionInsight智能数据湖,联合政企客户共同打造智慧电网、智慧交通、智慧港口、高清视频等系列标杆应用,实现对内业务支撑、对外应用赋能,建成服务于超过1.3亿移动用户的大数据平台。在互联网领域,华为云在互联网大数据市场同样突飞猛进,在公有云上也建立了专属Region,为客户上云提供便利,使得像梦饷集团、T3出行这样的大型互联网客户纷纷转向华为云。梦饷集团依托MRS云原生数据湖,使用DLI数据湖探索和数据仓库作为基础数据处理层,支持离线、实时、交互式场景,并无缝对接AI引擎,实现智能推荐与搜索,释放数据价值,驱动梦饷集团全场景业务的数字化与智能化升级。在大企业领域,制造、生产、服务型企业越来越重视大数据,不断提升区域统筹能力,提高服务水平。在电力能源、生产制造、交通城轨等领域,越来越多的企业采用云边端的方式协同计算海量数据,支撑业务创新。华为云MRS携手清华大学打造专、快、易、稳、省的IoTDB时序库,覆盖海量高频,且具有时序特点的时序数据分析,一份数据兼容云边端全场景。同时,随着我国提出“双碳”的战略目标,在2021年东华博泰携手华为云FusionInsight,实现以数据为源力核,平台为运力核,应用为创力核,体系为内力核,生态为汇力核,打造“五核聚一”的数字化运营架构,为能源行业提供大数据创新解决方案,共建智慧能源生态圈。越来越多的政务、金融、运营商、互联网、大企业客户,优选华为云FusionInsight智能数据湖构建大数据体系,在数字化转型过程中实现业务的高质量可持续发展。客户需要企业级+安全+高效的大数据平台科技为社会发展提供的源动力,推动了机械化、电气化、自动化和信息化,到如今的智能化。在智能化阶段,数据成为“新石油”,为经济社会发展提供取之不尽用之不竭的“原材料”,这一点是数据要素有别于其他资源的重要特征。越来越多的客户越来越重视数据资产,同时大多数客户在建设大数据平台时要求,不仅要满足当下业务发展需要,还要支撑其未来发展战略目标,进而对大数据底层技术平台提出了更高的要求,需具备如下特点:特点一:企业级,可持续演进各行业的大数据平台已承载了海量数据和关键业务场景,如金融实时风控业务场景,对于业务连续性要求高,需7*24小时不中断;华为云FusionInsight智能数据湖提供单集群6万+节点大规模滚动升级能力,确保关键业务升级“0”中断。特点二:安全可靠,放心使用数据资产安全是大数据平台建设的必备要素。华为云FusionInsight智能数据湖经过超过10年不断打磨,已服务于60多个国家超过3000个客户,深入行业场景化实践,理解客户业务场景化诉求,因为懂行业、懂数据,所以“敬畏”数据。在平台安全方面,FusionInsight围绕数据全生命周期,构筑可信的安全体系,让未经授权的访问者“进不来、看不到、拿不走、赖不掉、用不了、坏不了”以及多平面网络物理隔离,防止数据意外泄露;在数据共享、融合分析等场景,DGC数据湖治理中心除了提供全链路数据治理能力,还提供分层分级的数据安全开放管理,使得客户在不断提高数据要素质量的同时,还能安全地共享数据;在跨地域、跨部门、跨业务的协同安全计算场景中,FusionInsight还提供TICS可信智能计算服务, 提供深度协同优化联邦训练和全同态加密,让跨部门、跨层级数据协同分析“可用不可见”,加速数据要素市场化流通,并获得权威机构包括信通院、金标委的多项认证。时至今日,大数据平台重要性已不言而喻,FusionInsight可以让数据“坏不了”,实现数据备份、跨AZ(可用区)容灾、异地容灾的全场景覆盖,进一步保障业务连续性。特点三:高效易用,不断创新工业革命实现了从“马车”到“火车”的重要改变,资源的挖掘、开采与提炼不断解放了生产力,人们的工作效率得以不断提升。在效率方面,大数据平台建设呈现云原生化趋势,结合容器等虚拟化技术,实现大数据计算所需资源的快速上线,从传统建设耗时数月降至数分钟。在数据供应时效性方面,传统大数据方案批量接入,全量更新,T+1式天级供数,无法满足上层业务的灵活变化;华为云FusionInsight MRS提供自研CDL引擎,配合Hudi+Flink+ClickHouse方案,实时接入,增量更新,PB级数据毫秒级自助分析,结合自研RTD实时决策引擎,实现海量数据从接入到决策的全链路实时数据湖,让数据时效从T+1走向T+0,高效释放海量数据价值。“湖仓一体”+“轻咨询”,打通大数据的“任督二脉”近十年,大数据技术发展迅猛,“湖仓一体”已是数据湖建设的首选架构,其通过统一的数据存储,让数据在湖内流动,减少数据搬迁和冗余,最终实现一份数据支持多工作负载。早在2020年5月,华为云在全球分析师大会上提出“湖仓一体”概念,华为云FusionInsight智能数据湖提供云原生数据湖服务和云数据仓库服务,湖仓既可以灵活按需部署,也可以融合演进到湖仓一体的架构,并基于云原生存储实现存算分离架构,使得数据在底层统一存储,统一元数据,计算与存储资源灵活扩容,采用1.2副本替换传统 3副本方案,让资源利用率提高2倍+。在“全局一份数据”基础之上,FusionInsight提供自研数据虚拟化引擎HetuEngine,其具有自动学习、自动感知、自动优化等智能化特点,上层通过SQL操作大数据,降低技术使用门槛,让海量数据跨域高效、跨源易用,协同分析提效50倍。同时还能让客户在一个架构上实现离线、实时、逻辑三种数据湖和数仓集市,解决传统大数据平台存在的烟囱式建设,湖仓割裂,数据来回搬迁等问题。华为云FusionInsight还为客户提供大数据轻咨询服务,从大数据平台顶层设计规划,到大数据场景化业务构建,甚至包括客户的大数据业务上线运维,提供端到端的专业服务,使能客户,加速客户的数据供给能力。大平台、大市场、大机遇本次华为云FusionInsight智能数据湖在《IDC中国大数据平台市场研究报告,2021H1》获得市场第一,得益于其超过10年持续深入客户业务场景,通过不断地技术创新,为客户提供领先的智能数据湖解决方案。这已是FusionInsight连续三次蝉联中国大数据市场第一,之前分别在IDC《中国大数据平台市场研究,2020》取得2019年市场份额第一,在《IDC MarketScape:中国大数据管理平台厂商评估,2020》报告中获得2020年市场份额第一。独行快、众行远。开放的平台已广泛被政务、金融、运营商、互联网、大企业所使用。华为云FusionInsight智能数据湖坚定开放路线,先后开放CarbonData和openLooKeng,联合世界顶级高校如清华大学持续探索中国软件创新之路,引领全球大数据技术不断发展。华为云FusionInsight将持续联合800+合作伙伴,为客户提供领先的大数据解决方案,在大平台、大市场、大机遇的历史时刻,共同谱写新型数字产业新篇章。更多精彩文章:https://bbs.huaweicloud.com/forum/thread-66105-1-1.html
  • [问题求助] FusionInsight安全模式ES使用java-transport-client认证问题
    springboot 使用 java-transport-client 读写 FusionInsight HD 6.5.1 安全模式 ES 6.7.1 ,刚启动服务时可以正常读写 ES ,但过一段时间后就报错,错误堆栈如下认证代码复制于样例已替换下面三个包,请问是否替换正确elasticsearch-transport-clientelasticsearchtransport
  • [运维管理] FusionInsight HD loader对接关系型数据库咨询
    在线下C70、C80、6.5.1版本的集群中,使用loader导入导出数据是否支持对接达梦数据库?产品文档中描述的只是可以支持对接关系型数据库,这是否说明只要是关系型数据库就都支持使用loader导入和导出这个操作?达梦就是关系型数据库,想知道是否支持?
  • [行业动态] 华为云FusionInsight三次蝉联中国大数据市场第一
    近日,全球领先的IT研究和咨询公司国际数据公司(IDC)发布《中国大数据平台市场研究报告,2021H1》,华为云FusionInsight智能数据湖位居中国大数据平台市场份额第一,连续三次蝉联榜首。华为云FusionInsight智能数据湖持续深耕政务、金融、运营商、互联网、泛企业行业,尤其在2021年上半年,金融行业国有大行、股份制银行、城商农信行、保险、证券客户首选华为云FusionInsight;同时,华为云在互联网市场也突飞猛进,大型互联网客户也转向华为云;华为云在公有云上也建立专属Region,为政务和企业用户上云提供便利,使得公有云大数据市场得以高速增长。在华为云连续三次取得市场份额第一评估的背后,离不开客户对华为云FusionInsight智能数据湖解决方案的认可,也离不开华为云在大数据技术的持续创新。华为云FusionInsight为客户提供完整的大数据云服务产品组合,有单集群最大支持6万节点的MRS云原生数据湖服务,单集群最大支持2048节点的云数据仓库DWS服务,MRS/DWS既可以灵活按需部署,也可以融合演进到湖仓一体的架构;同时面向不断增长的数据探索分析、新型的图分析、可信计算等诉求,提供了托管式的DLI数据湖探索服务、自主知识产权的GES图计算服务、创新的可信智能计算服务TICS,并提供源自华为自身数字化转型经验沉淀的DGC数据湖治理中心服务,以及面向计算多样性、数据多样性、环境多样性等构建的统一数据引擎华为HIS UniDB,有效支持了华为集团IT企业数据湖的运行。结合华为iData帮助客户构建一站式的大数据分析平台,让客户在复杂环境下,快速构建企业级数据分析解决方案,加速释放企业海量数据价值。MRS云原生数据湖:让企业在湖仓一体、存算分离、云原生的架构上实现离线、实时、逻辑三种数据湖:离线数据湖:让传统孤岛式建设走向统一数据平台,一个平台支持AI、BI、交互式查询等多种引擎,最大支持6万+大集群滚动升级,确保关键业务不中断;实时数据湖:通过CDL+Hudi+Flink+ClickHouse实现数据全链路实时分析,价值兑现从T+1到T+0;逻辑数据湖:HetuEngine提供跨湖、跨仓的协同分析,减少80%数据搬迁,协同分析提效50倍。DWS云数据仓库:一站式全场景数据仓库服务,在全并行分布式架构的基础上,创新性地无缝融合OLAP引擎、时序引擎、CEP引擎,同时支撑批量、交互式和实时分析等不同业务场景需求。打通异构平台间的壁垒,做到数据融合、分析协同,不仅极大地简化了全域数据的架构,也让数据分析变得简单化、自主化。DLI数据湖探索:提供全开源、全托管的一站式的流处理、批处理、交互式分析的大数据Serverless分析服务。GES图引擎:提供分布式云原生的图引擎服务,是针对以“关系”为基础的“图”结构数据,进行查询、分析的服务, 内置30+算法,支持千亿点万亿边6跳秒查,广泛应用于风控、推荐、反欺诈等具有丰富关系数据的场景。TICS可信智能计算:华为云率先提出联邦SQL分析与多方安全计算的技术融合,实现数据分析的“可用不可见”。深度协同优化联邦训练和全同态加密,涵盖多方安全计算、联邦学习和可信执行环境等技术,打破跨机构的数据孤岛,实现多方数据联合分析和联邦学习,加速数据要素市场化流通,并获得多项权威机构包括信通院、金标委的行业认证。DGC数据湖治理中心:提供全链路数据治理工具,包含标准规范、数据集成、数据开发、数据质量、数据安全、数据服务等功能,满足企业数据工程师、建模工程师、业务分析师协同作战诉求,用数更敏捷,加速数据资产沉淀和供数效率,成为企业数字化创新的助推器。近10年来,华为云FusionInsight智能数据湖持续压强投入,已服务于政务、金融、运营商、互联网、泛企业等行业客户,坚定开放路线,与世界同行,先后在开源社区开放CarbonData和openLooKeng等大数据组件,并在Hadoop社区贡献达到Top2、Spark社区贡献达到Top4。华为云FusionInsight携手800+ISV,持续践行“平台+生态”战略,服务于全球客户。更多精彩文章:https://bbs.huaweicloud.com/forum/thread-66105-1-1.html  
  • [赋能学习] 华为FusionInsight MRS实战 - Flink CDC特性学习
    # 华为FusionInsight MRS实战 - Flink CDC特性学习 ## Flink cdc介绍 Flink CDC连接器是Apache Flink新版本特性,是数据源连接器,使用更改数据捕获(CDC)从不同数据库接收更改。Flink CDC连接器集成了Debezium作为引擎来捕获数据更改。所以它可以充分利用Debezium的能力。 ![](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202112/30/112535tjbh9lentmbac92x.png) 华为FusionInsight MRS 812版本,Flink版本1.12为例,介绍Flink CDC对应能力 Flink CDC与Flink版本对应关系 |Flink CDC Connector Version|Flink Version| | ---- | ---- | |1.0.0|1.11.*| |1.1.0|1.11.*| |1.2.0|1.12.*| |1.3.0|1.12.*| |1.4.0|1.13.*| |2.0.*|1.13.*| |2.1.*|1.13.*| 选择使用flink cdc版本1.2.0 Flink CDC支持数据源 |Database|Version| | ---- | ---- | |MySQL|Database: 5.7, 8.0.xJDBC Driver: 8.0.16| |PostgreSQL|Database: 9.6, 10, 11, 12JDBC Driver: 42.2.12 | 可支持的格式 |Format |Supported Connector |Flink Version| | ---- | ---- | ---- | |Changelog Json|Apache Kafka|1.11+| ## Flink cdc 方案优势 同之前的实时同步方案相比,使用flink cdc能够减少cdl工具和kafka的维护成本,链路更短,延迟更低,flink提供了exactly once语义,可以从指定position读取,并且去掉了kafka,减少了消息的存储成本。 ## 场景说明 ![](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202112/30/112609rvm99dkn6crfneyc.png) 1. 使用Flink cdc的能力直接从数据源MySQL中获取数据内容并使用Flink SQL处理发送至数据下游 2. 使用Kafka进行数据接收,使用Changelog格式 ## 样例数据简介 生产库MySQL原始数据: ![](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202112/30/112632ppbjzz0cst1krstz.png) ## 前提条件 该特性目前只支持在Flink Client客户端使用,所以首先需要了解以下三点内容。 1. 如何配置Flink客户端。 参考:[《华为FusionInsight MRS Flink客户端配置》](https://bbs.huaweicloud.com/forum/thread-175741-1-1.html) 2. 如何配置Flink SQL Client。参考:[《华为FusionInsight MRS Flink SQL-Client客户端配置》](https://bbs.huaweicloud.com/forum/thread-176103-1-1.html) 3. 如何使用Flink SQL Client。参考:[《华为FusionInsight MRS实战 - Flink增强特性之可视化开发平台FlinkSever开发学习》](https://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=161992) ## 操作步骤 - 准备驱动包 https://github.com/ververica/flink-cdc-connectors/releases 根据上述对应版本,选择flink cdc版本为1.2.0 ![](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202112/30/112838lns4q3awzysrrjoh.png) 下载对应的jar包并放置到flink客户端lib目录下,比如 /opt/92_client/hadoopclient/Flink/flink/lib ![](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202112/30/113048lx0qy8nwmdoowalc.png) - 使用命令启动flink session `./bin/yarn-session.sh -t conf/` ![](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202112/30/113113igl7bfjymb6julfw.png) - 使用命令登录flink sql client客户端 `./sql-client.sh embedded -d ./../conf/sql-client-defaults.yaml` ![](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202112/30/113136hvyiurtu9r9wmthc.png) - 在sql client创建数据源表 ``` CREATE TABLE MYSQL_MATERIAL_INFO( uid INT, uname VARCHAR(32), age INT, sex VARCHAR(30), mostlike VARCHAR(30), lastview VARCHAR(30), totalcost INT, localts as LOCALTIMESTAMP ) WITH( 'connector' = 'mysql-cdc', 'hostname' = '172.16.2.118', 'port' = '3306', 'username' = 'root', 'password' = 'Huawei@123', 'database-name' = 'hudi', 'table-name' = 'hudisource' ); ``` ![](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202112/30/113158lhwky3cqjso4bgzd.png) - 在sql client创建kafka目的表 ``` CREATE TABLE huditableout( uid INT, uname VARCHAR(32), age INT, sex VARCHAR(30), mostlike VARCHAR(30), lastview VARCHAR(30), totalcost INT, localts TIMESTAMP ) WITH( 'connector' = 'kafka', 'topic' = 'changelog_json_format_test', 'properties.bootstrap.servers' = '172.16.9.116:21005', 'properties.group.id' = 'example', 'scan.startup.mode' = 'latest-offset', 'format' = 'changelog-json' ); ``` ![](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202112/30/113221uc2xlkjhkztaernm.png) - 在sql client创建数据写入 ``` insert into huditableout select uid, uname, age, sex, mostlike, lastview, totalcost, localts from MYSQL_MATERIAL_INFO; ``` ![](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202112/30/113246b8juakcy8etsxaov.png) - 在mysql源库中测试数据的增删改查,然后使用kafka消费查看changelog-json格式的结果 ![](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202112/30/1133087o4i91nfn4zpguje.png)
  • [赋能学习] 华为FusionInsight MRS Flink客户端配置
    # 华为FusionInsight MRS Flink客户端配置 ## 场景说明 使用华为FusionInsight MRS的Flink组件进行开发工作时,需要了解如何配置Flink客户端。本文将介绍如何进行该配置 ## 前提条件 已安装FusionInsight MRS客户端,比如在/opt/hadoopclient路径 ## 操作步骤 - 下载用户认证文件并上传至客户端/opt/hadoopclient/Flink/flink/conf ![](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202112/28/172158yqjasfckgpcn8zto.png) 并配置/opt/hadoopclient/Flink/flink/conf/flink-conf.yaml文件中的认证内容跟上述下载信息匹配 ![](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202112/28/172222qurcedofkkrdzuxe.png) 注意:配置的值和冒号之间要有一个空格 - 生成cookie密钥 先加载环境变量: source /opt/hadoopclient/bigdata_env 完成认证: kinit poc 登录客户端路径: /opt/hadoopclient/Flink/flink/bin 执行: sh generate_keystore.sh 密码可填:123456 ![](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202112/28/172248nsqlyhzuckpwecdt.png) 上述该步骤会在/opt/hadoopclient/Flink/flink/conf路径中生成配置文件flink.keystore以及flink.truststore - 配置/opt/hadoopclient/Flink/flink/conf/flink-conf.yaml文件 ![](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202112/28/172310rzzbd5ff0i7quytr.png) 注意:配置flink.keystore以及flink.truststore文件的路径要是相对路径,并且配置的值和冒号之间要有一个空格 - 使用如下命令启动flink session ``` cd /opt/hadoopclient/Flink/flink ./bin/yarn-session.sh -t conf/ ``` ![](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202112/28/172331suwrklktrf3vkmdz.png) ![](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202112/28/1723524vllqamj7lsrx6k6.png)
总条数:206 到第
上滑加载中