• [技术干货] 华为云 FusionInsight 湖仓一体解决方案
      伴随5G、大数据、AI、IoT的飞速发展,数据呈现大规模、多样性的极速增长,为了应对多变的业务诉求,政企客户对数据处理分析的实时性和融合性提出了更高的要求,“湖仓一体”的概念应运而生,它打破数据湖与数仓间的壁垒,使得割裂数据融合统一,减少数据分析中的搬迁,实现统一的数据管理。  早在2020年5月份的华为全球分析师大会上,华为云CTO张宇昕提出了“湖仓一体”概念,在随后的华为云与计算城市峰会上,“湖仓一体”理念跟随华为云FusionInsight智能数据湖在南京、深圳、西安、重庆等地均有呈现,在刚结束的HC2020上,张宇昕在发布新一代智能数据湖华为云FusionInsight时再次提到了湖仓一体理念。那我们就来看看湖仓一体的来世今生。数据湖和数据仓库的发展历程和挑战  早在1990年,比尔·恩门(Bill Inmon)提出了数据仓库,主要是将组织内信息系统联机事务处理(OLTP)常年累积的大量资料,按数据仓库特有的资料储存架构进行联机分析处理(OLAP)、数据挖掘(Data Mining)等分析,帮助决策者快速有效地从大量资料中分析出有价值的资讯,以利决策制定及快速响应外在环境变化,帮助构建商业智能(BI)。  大约十年前,企业开始构建数据湖来应对大数据时代,它通常把所有的企业数据统一存储,既包括源系统中的原始副本,也包括转换后的数据,比如那些用于报表, 可视化, 数据分析和机器学习的数据。  纵观数据湖与数据仓库的技术发展,不难发现两者有着各自的优劣,具体表现如下:  企业在进行系统架构设计选型时,需要从具体的分析场景出发,单一的模式已经无法满足企业发展的业务诉求,集中表现在以下两个痛点:  数据湖主要以离线批量计算为主,因为不支持数据仓库的数据管理能力,难以提高数据质量;数据入湖时效差不支持实时更新,数据无法强一致性;主题建模不友好,无法直接历史拉链建模;同时交互分析通常将数据搬迁到数据仓库平台,造成分析链路长,数据冗余存储;批&流等场景融合不够,无法满足企业的海量数据处理诉求。  数据仓库满足不了非结构化数据的分析需求,性价比不高;同时仓&湖间难以互联互通,数据协同效率较低,无法支持跨平台透明访问,形成了事实上的数据孤岛,找数困难;缺乏全局数据视图,不同平台接口差异和不同开发管理工具,造成用户开发使用复杂,数据分别管理维护代价高体验差。数据湖和数据仓库正在从两条技术演进路线走向融合  综上,数据湖和数据仓库在企业数据分析场景分别承担一湖一仓的重要角色,形成了完整的数据分析生态系统,上述企业场景面临的2个关键痛点也在驱动数据湖和数据仓库在技术演进上走向融合:  第一个融合方向是基于Hadoop体系的数据湖向数据仓库能力扩展,湖中建仓,从DataLake进化到LakeHouse。LakeHouse结合了数据湖和数据仓库特点,直接在用于数据湖的低成本存储上实现与数据仓库中类似的数据结构和数据管理功能。目前业界已经涌现了一些LakeHouse产品,如Netflix开源Iceberg、Uber开源Hudi、Databricks的 DeltaLake。  以目前生态发展迅速的Apache Hudi为例:统一数据存储,分布式存储不同应用所需的各种类型数据;数仓模式执行和治理,实现事务&更新机制,保证数据完整性和一致性,具有健壮的治理&审计机制;支持各种分析引擎,统一数据存储通过开放和标准化的存储格式(如Parquet),提供API以便各类工具和引擎(包括机器学习和Python / R库)直接有效地访问数据。  虽然LakeHouse并不能完全替代数据仓库,但通过增强性能,支持实时入湖、建模、交互分析等场景,将在企业分析环境中发挥更大作用。  第二个融合方向是数据湖和数据仓库协同起来向湖仓一体的融合分析架构发展,随着企业数据量快速增长,不仅是结构化数据,也有非结构化数据,同时提出了对搜索/机器学习更多的能力要求,使得原来数仓技术不能够有效的处理复杂场景,为此需扩展原有系统,引入Hadoop大数据平台实现新类型数据、新业务场景的支持。在这个背景下由Gartner在2011年提出逻辑数据仓库的概念,预测企业数据分析倾向于转向一种更加逻辑化的架构,利用分布式处理、数据虚拟化以及元数据管理等技术,实现逻辑统一物理分开的协同体系。  湖仓一体可以认为是逻辑数据仓库架构理念下针对Hadoop数据湖和MPPDB数据仓库的融合架构的最好诠释,数据对用户将完全实现虚拟化,以逻辑统一的数据分析系统为企业提供数据分析服务:  用户使用层面提供统一元数据管理和数据视图,实现全局数据可见可查,支持标准统一访问接口简化用户开发,提供统一开发和治理的工具体系。  平台层面Hadoop与MPPDB具备数据共享和跨库分析能力,支持互联互通、计算下推、协同计算,实现数据多平台之间透明流动。华为云FusionInsight湖仓一体解决方案参考架构  华为云FusionInsight智能数据湖涵盖了分布式存储、大数据、数据仓库、数据治理等,融合了上述两个技术演进方向,为企业用户提供云原生湖仓一体解决方案,整体的参考架构如下:  下面一起来看看:数据存储层:  通过OBS统一管理湖&仓的存储底座,将存储在EC(Erasure Code纠错码)、可靠性方面的优势融入进了大数据生态:云原生架构领先:  基于云原生架构的OBS存储,具有高带宽,大并发,分布式元数据等特征,因此相同成本的华为存算分离的湖仓一体化集群,数据读写性能领先业界30%。存储计算分离有效降低TCO:  支持大比例EC, 副本数从3最低可降低至1.09,TCO下降20%+。  统一元数据管理实现湖仓共享存储资源池:通过独立的Data Lake Catalog提供统一元数据管理,兼容Hive Metastore接口,可以无缝对接各类大数据组件。实现针对同一份元数据定义支持各类场景、对象、文件、大数据等不同协议间的数据共享,让数据仓库、数据湖、图引擎、AI等多种计算引擎共享统一的数据存储池。此方案不仅消除了孤立系统中的数据副本,还使得客户可以按照业务按需使用计算存储资源,不仅降低了CAPEX,还简化了运维,从而达成最佳TCO。同时,Data Lake Catalog开放接口,支持和第三方的计算引擎层、数据治理层对接。计算引擎层:  把事务能力引入数据湖,通过HetuEngine标准SQL实现跨域多源统一访问,湖&仓数据互通协同计算,数据免搬迁:CarbonData & Hudi数据实时入湖,实现数据湖事务能力:  企业内部许多数据管道通常会并发读写数据,我们通过CarbonData& Hudi数据存储引擎实现数据实时、增量更新,数据T+0实时入湖,大幅缩短传统T+1、T+2时延;引入的增量处理框架,实现了数据湖事务能力,支持入湖过程中的Update/Delete等。HetuEngine支持跨源跨域统一SQL访问,简单易用:  用户层基于统一的标准SQL接口,对接多个数据源(HDFS, HBase, DWS等),提供秒级交互式访问,满足各种统计分析、多表Join关联等,让分析建模人员数据分析更容易,降低访问门槛。HetuEngine & DWS-Express打破数据墙,数据免搬迁创新更敏捷:  支持数据湖与数据仓库间的数据互联互通、跨平台协同计算,数据免搬迁。HetuEngine在湖内基于统一数据目录,实现高并发,高性能的交互式查询,基于一份数据进行批、流、交互式融合分析,贴源加工、整合关联、主题加工等都在湖内,数据不出湖,分析链路短,加速业务创新;用户可使用DWS-Express提供由成百上千节点组成的加速集群,对存储在OBS上的海量数据进行在线分析,相比本地托管集群,效率提升数百倍。自研Superior调度器支持单集群2万+节点规模,业界最佳:  在一个集群内,通过华为自研的Superior调度器支持各种工作负载统一调度,包括数据科学、机器学习以及SQL和分析,调度速率达35万Container/s,资源利用率达90%+,大幅降低企业投入成本。数据冷热分级存储实现更高效的全生命周期管理:  DWS具备与OBS的双向互通的能力,既能直接读取OBS上的海量历史数据,也能够直接写入数据到OBS。通过这个特性,我们可以对企业中的海量数据进行更加高效的全生命周期管理,分析中经常使用到的热/温数据存放在DWS中,较少使用的冷数据存放到OBS中,兼顾企业对分析性能和存储经济性的诉求。无缝衔接AI挖掘更多数据价值:  深度优化一站式开发平台ModelArts&分布式图计算引擎GES提高开发效率。提供基于数据湖的AI训练推理能力,减少数据搬迁次数,基于100+机器学习算子和NLP算法,实现海量数据快速价值挖掘,满足场景预测、自然语言处理及企业知识图谱等应用; 让GES更快捷地为金融等场景提供关系网络分析等服务。运营管理层:  通过DAYU实现了湖&仓统一的数据集成、开发、目录、治理、开放服务等的运营管理:数据集成:  实现多源异构数据高效入湖,支持批/流/实时数据多种方式接入。其中,批量数据迁移基于分布式计算框架,利用并行化处理技术,支持用户稳定高效地对海量数据进行移动,实现不停服数据迁移,快速构建所需的数据架构;流和实时数据接入每小时可从数十万种数据源(例如日志和定位追踪事件、网站点击流、社交媒体源等)中连续捕获、传送和存储数TB数据。数据开发:  提供一站式敏捷数据开发平台,提供可视化的图形开发界面、丰富的数据开发类型(脚本开发和作业开发)、全托管的作业调度和运维监控能力,内置行业数据处理pipeline,一键式开发,全流程可视化,支持多人在线协同开发,支持管理多种大数据云服务,极大地降低了用户使用大数据的门槛,帮助用户快速构建数据湖数据处理中心。数据治理:  为企业提供数据体系标准和数据规范定义的方法论,统一数据语言和数据建模;为普通业务人员提供高效、准确的数据搜索工具,高效找到数据;提供技术元数据与业务元数据的关联,业务人员快速读懂数据;为数据提供有效的质量管控和评估手段,数据可信质量高。数据开放:  为数据湖搭建统一的数据服务总线,帮助企业统一管理对内对外的API服务,支撑业务主题/画像/指标的访问、查询和检索,提升数据消费体验和效率;支持100+开放API,拥有10+行业模板,使能行业ISV快速集成,助力客户数据标准资产沉淀。综上所述  正是在三层架构都打通了湖仓的技术壁垒,我们才看到了真正的湖仓一体:  数据存储层基于云原生领先架构,存算分离有效降低TCO,统一元数据管理实现湖仓共享存储资源池,针对同一份元数据定义支持各种场景,提供API方便各类工具和引擎(包括机器学习、Python、R等)直接有效地访问数据,这是实现湖仓一体的一个关键点;  计算引擎层为数据湖增加了事务能力提升了数据质量;利用HetuEngine通过标准SQL访问跨域多源数据,实现湖&仓数据关联分析协同计算,简单易用; 打破数据墙,在湖内基于统一数据目录,可基于数据湖实现融合分析&AI训练推理,减少数据搬迁,实现海量数据快速价值挖掘。  运营管理层则提供统一的数据开发和治理环境,具备安全管理功能,支持多引擎任务统一开发和编排,数据统一建模和质量监测,实现湖仓一致的开发治理体验。未来展望  华为云FusionInsight智能数据湖基于客户需求和技术演进趋势持续创新,为企业客户提供湖仓一体解决方案,致力于打造业界最佳的数据底座,让企业业务的创新更敏捷,业务洞察更准确,加速释放数据价值,和数据使能协同更好地服务千行万业!————————————————
  • [行业动态] 华为云FusionInsight助力太保跨多版本升级业务0中断
            2021年4月21日,中国太平洋保险集团联合华为云完成了全球首例大数据集群跨多版本的大数据集群滚动升级,突破传统方案需离线停机多次升级模式,一次性将核心现网集群版本由FusionInsight HD C70升级到FusionInsight MRS 8.0.2,横跨C80、6.5.1两个版本,同时完成了大数据集群从物理机向云服务的模式转变,实现该案例在金融同业首例突破,树立同业新标杆。经过为期两周的升级实施过程操作,实现太保上层业务无感的平滑滚动升级,全程集群作业无中断、性能无影响。本次跨版本滚动升级的成功对金融科技领域意义重大,标志着中国太平洋保险为金融同业树立了大数据服务跨多版本升级、业务连续性和可持续演进的新建设标杆。一、项目背景        中国太平洋保险集团从2017年选择华为云FusionInsight构建保险大数据平台。随着太保与华为云合作的持续深入,其内部主要业务系统都已使用华为云大数据平台。但是早期各业务系统都建设了独立的大数据集群,数据无法互通,存在数据冗余,且多集群造成维护难问题。截止升级前已建设18套大数据集群,以FusionInsight HD C70版本为主。        随着太保业务的高速发展,对大数据平台的统一管理、数据共享、升级演进有了新的诉求,希望将现网18套生产集群进行统一升级和归并,同时面向未来提供大数据集群可持续演进的能力。        为此,太保联合华为云,决定将现有18套大数据集群,由FusionInsight HD C70版本统一升级到MRS8.0,升级的主要目标:通过对原集群升级归并,统一为一套大集群,通过资源整合,提高资源利用率;统一到MRS平台版本资源监控更完善,定位问题更准确;升级到云平台,可以按需灵活调配资源,实现可演进的湖仓一体架构,扩展其他高阶服务。二、项目内容2.1 技术挑战        太保大数据集群按需部署了HBase、Hive、HDFS、ZooKeeper、YARN、Oozie、Hue、Spark等各类组件。        此外,集群中每日有上万作业的执行,也为无感知的滚动升级加大了难度。主要挑战有以下几点:Hadoop组件内核由X到3.X的跨大版本升级中,社区仅提供了HDFS的滚动升级能力,YARN的社区原生目标版本由于与原版本协议不同,无法支持滚动升级;社区原生版本的HDFS在升级过程中,删除的文件并不会物理删除,而是移动到trash目录,这一处理对大容量集群的滚动升级造成存储资源压力,阻碍了剩余信息保护,如果不能及时清理会导致爆盘问题;Hive组件内核由X到3.X的跨大版本升级中,由于元数据前后格式不兼容、API前后版本有变化、部分语法不兼容等问题,导致社区原生版本无法支持滚动升级;HBase组件内核由X到2.X的跨大版本升级中,API前后版本存在较大的变化,导致社区原生版本无法支持滚动升级;每日上万任务量,滚动升级期间如何保障平稳运行,尤其是损益分析、减值测算等核心场景;600+节点的大数据集群环境下,需要确保在升级过程中突发状况,快速应对硬件(磁盘、内存等)故障,不影响升级;70+业务系统,数百个业务在此集群上运行,滚动升级过程中需要保证每一个业务运行不受损。2.2 技术保障        滚动升级就是借助于FusionInsight MRS的高可用机制、主备模式、多副本机制、机架策略等在不影响集群整体业务的情况下,一次升级/重启部分节点。循环滚动,直至集群所有节点升级到新版本。        下图为已HDFS组件滚动升级示例:        为应对上述技术挑战项目组建了滚动升级小组,由社区PMC、社区Commiter、版本Developer构成,主要执行了以下技术保障:依托协议同步、元数据映射转换、API封装转换等方式,解决了社区协议不同、元数据格式不同、API变化等导致的兼容性问题,保障了滚动升级过程中低版本的组件客户端的正常使用;针对HDFS社区新版本升级过程中的文件未删除问题,额外实现了trash目录自动清理,将逻辑删除转换为物理删除,并增补了旧版本定期清理trash目录的工具。确保了基础设施资源利用的有效性,降低存储成本;针对组件升级前后性能状况、升级时长、升级过程中和事后可能出现的瓶颈点等问题,做了相应架构调整及优化,助力实现滚动升级的全局可控、全程无感、全面无误;运维管理方面,项目组针对性的研发了升级管理服务界面,可以端到端、分步骤地完成滚动升级,便于查看滚动升级状态,实现组件级控制。为了降低在升级过程中对关键任务服务连续性的影响,项目实现了按升级批次暂停的功能,有助于在关键作业或者作业高峰时段,通过暂停升级进行风险规避,确保业务无影响。此外,为避免各种突发事件中断升级进程,项目实现了故障节点隔离能力,在故障发生时,可以跳过对应节点的升级动作,保障了故障处理和升级的同步进行。2.3 组织保障        项目启动后,成立了以太保相关领导为项目经理,以华为交付和研发、太保的研发和运维为成员的联合项目组。本次升级面向的应用部门多达20+,平台涉及业务数量多且复杂。为保证滚动升级成功且整个过程中业务要做到0中断,在升级前、中、后的6个月里由华为方主导,客户各个业务部门紧密配合,项目组制定了周密的组织保障制度。太保升级项目组织保障升级前准备阶段:在项目组整体协调和华为的研发支撑下,完成了70+应用代码改造及验证,并输出测试报告;为充分识别风险,华为主动提供测试环境硬件资源,项目组联合各应用部门,进行了3次升级演练的联合测试;为达成升级前置条件,华为专家调研指导,有效的进行了集群小文件合并、客户端整改、集群多次巡检、升级方案的反复评审改进等升级前准备工作;升级过程保障:在升级过程的两周期间,华为安排研发、方案等专家现场保障。华为协同太保联合项目组制定了24小时排班保障、联合项目组和应用部门间的信息反馈及沟通(滚动升级中每组件升级完都需业务验证及确认)、升级操作的联合项目组授权、升级操作的录屏监控等制度;升级后观察:滚动升级完成后,联合项目组协调各应用部门进行应用业务验证,且已全部输出业务运行正常报告。后华为项目组后续持续观察两周时间,确认平台及应用运行正常后进行了本次升级提交。三、总结与展望        太平洋保险联合华为公司完成的本次金融业首家大数据集群跨多版本的滚动升级,实现了上层业务无感知、全程集群作业无中断、性能无影响,切实保障了客户的核心利益,也树立了金融同业新标杆。        随着数字化技术的不断迭代升级,将改变传统保险运营模式,未来主要会呈现出以下三个方向的变革:实现从大数到小数,加强风险数字刻画,从过去的大数概率到小数更加敏锐的感知,将从根本上改变传统的运营模式;从实体到虚拟,数据已是重要的生产资料,通过海量数据识别和评估新型资产的风险,将成为保险业的核心能力;从保险到治理,数字化将提升保险公司自身风险管理能力,将更多的参与到国家、城市的风险治理当中,逐步从损失补偿到风险管理和治理。        面向未来,太平洋保险将携手华为持续创新,不断完善风险生态,贯彻"以客户需求为导向"的战略,建设"专注保险主业,价值持续增长,具有国际竞争力的一流保险金融服务集团"。更多精彩文章:https://bbs.huaweicloud.com/forum/thread-66105-1-1.html 
  • [问题求助] 【fusioninsight.elasticsearch 产品】
    微服务分布式情况如何实现统一认证写在网关服务中还是?
  • [其他] 【fusioninsight.elasticsearch 产品】
    1,现在要做业务迁移  把之前自己的es业务逻辑 全部都放到华为云的es上2,现有业务使用得是spring data 封装的ElasticsearchRepository工具类操作es3,如果切换为华为的es,需要修改逻辑代码吗  所有ElasticsearchRepository操作变成PreBuiltHWTransportClient这种操作方式吗?4,如果不改代码  华为的 认证模块 应该如何添加
  • [维护宝典] FusionInsight Kafka创建Topic失败原因及解决方案
    一、 无权限创建Topic会报错“ERROR org.apache.zookeeper.KeeperException$NoAuthException: KeeperErrorCode = NoAuth for /config/topics/topicName。解决办法是使用具体kafkaadmin权限的用户。二、 Quota限制创建Topic会报错“Nodes number exceed quota limit for /config/topics/topicName”。解决办法是: 检查Kafka全部配置中Quota配置quota.number是否是250000,如果不是改为此值。同步zk配置。FusionInsight Manager页面“集群->Zookeeper->更多->同步配置”,同步配置操作每5分钟执行一次,最多等5分钟,zk客户端执行listquota /kafka查看quota的count值是否为250000。zk客户端执行操作方法如下: 进入FI客户端(例如/opt/hadoopclient) 执行命令source bigdata_env 执行命令kinit 用户名(普通模式跳过) 执行sh -server zk业务IP:24002 三、 副本个数大于正常节点数创建Topic会报错“ERROR org.apache.kafka.common.errors.InvalidReplicationFactorException: Replication factor: X larger than available brokers: X”解决办法是:解决异常节点问题或减少副本数。四、 客户端版本低客户端是低版本而服务端是高版本时,创建Topic可能不会报错但是查看topic的describe信息时leader为none。原因是zk上报没有权限访问“/brokers/topics/topicName”目录,此目录下无法创建partitions目录。解决办法是:使用与服务端对应的客户端版本。
  • [行业动态] 华为云FusionInsight智能数据湖加速政企数字化转型
           2021年6月18日,华为云TechWave全球技术峰会(人工智能&数据)在上海举行,以“创新普惠”为主题,分享技术创新与行业实践。华为云大力投入数据、人工智能领域,发布数据和AI系列新品,加速千行百业智能升级。华为Cloud BU副总裁、全球Marketing与销售服务总裁石冀琳发表主题演讲       华为Cloud BU副总裁、全球Marketing与销售服务总裁石冀琳出席并发表了《创新普惠,加速千行百业智能升级》的主题演讲。石冀琳表示:“企业实现全面云化、全栈智能的三大关键是:首先是全面拥抱云原生,加速云上创新,打造企业数字化转型、智能升级的底座;其次是围绕数据全生命周期技术创新,激发数据潜能,让数据成为新的生产要素;最后是释放AI生产力,使能全业务、全流程创新,打造企业智能升级的核心能力。”华为云架构与技术规划部部长朱海培发表主题演讲       华为云架构与技术规划部部长朱海培出席并发表了《云原生2.0,让云无处不在,让智能无所不及》的主题演讲。朱海培表示:“华为云FusionInsight智能数据湖解决方案提供湖仓一体的统一数据平台,包含MRS云原生数据湖、DWS数据仓库、DGC数据湖治理中心、DLI数据湖探索、ModelArts推理平台、TICS可信智能计算等云服务。通过底层统一数据存储,实现全局一份数据,通过对象存储物理数据,全局一份数据无需搬迁数据;分析计算,多引擎弹性计算,一个平台多引擎支持批处理、流处理、交互式查询等;统一元数据管理,全局一个视图,实现全局统一元数据管理,像管理代码一样管理数据。       在峰会上由太平洋保险客户发表《数字化提升保险风险治理能力》主题演讲,云计算、大数据等技术支撑风险生态建设,推动保险业务产品的转型和重塑,全面实现数字化和数智化的运营模式。太平洋保险在大数据平台的创新实践       中国太平洋财产保险基于华为云FusionInsight大数据平台,整合客户信息、运营服务资源和气象数据,搭建起气象灾害的风控信息化平台,并逐步深化大数据应用,延伸到其他风险领域打造了风险管理的数字化产品“风险雷达”,不断提升非车险业务风险评估、灾害预防和客户全生命周期风险管理、风险大数据等风险管理能力;在个客风控平台方面,打通承保理赔数据,形成客户的风控画像,结合经营风险,及时的进行干预,避免经营风险的发生。华为云FusionInsight MRS解决方案架构师发表主题演讲       华为云FusionInsight MRS解决方案架构师在数据使能分论坛上发表《MRS云原生数据湖,推动大数据分析从离线走向实时》的主题演讲。当前,大数据云化部署是主流趋势,政企客户需要充分利用云技术使得大数据所需资源弹性、灵活的使用。MRS云原生数据湖可让客户在一个架构实现离线数据湖、实时数据湖、逻辑数据湖三种数据湖,用于离线分析、实时分析、数仓集市、交互查询、实时检索、多模分析、数据接入治理、图计算等海量数据分析场景,助力政企客户实现一企一湖、一城一湖,业务洞见更准,价值兑现更快!离线数据湖使客户在一个平台下实现AI、BI、交互式查询等多场景分析;实时数据湖使大数据分析从离线走向实时,通过Hudi实现数据增量更新,从传统Append 到 Upsert,数据实时更新,数据价值释放从T+1转变为T+0;通过Clickhouse毫秒级的OLAP分析能力,实现数据分析不出湖,解决了传统数据来回搬迁、数据冗余的问题;逻辑数据湖通过HetuEngine实现跨湖、跨仓、跨云协同分析,突破地理限制,打破数据“墙”;       同时,MRS云原生数据湖还提供IoTDB时序数据库、DGC数据湖治理中心等能力。IoTDB实现一份数据兼容全场景,一套引擎打通云边端、一套框架集成云边端;DGC实现数据统一入湖、统一数据服务,让开发者轻松驾驭数据集成、规范、开发、质量、资产、安全、开放服务全流程。       在2020年IDC MarketScape评估中,FusionInsight处于市场份额和技术实力双领先,在2021年Frost&Sullivan评估中,FusionInsight在创新、成长及基础能力全面领先国内大数据厂商。华为云FusionInsight持续投入10年+,坚持与世界同行,在开源社区先后开放CarbonData和openLooKeng等组件,携手800+合作伙伴,服务于全球60+国家和地区3000+政企客户,已广泛应用于政府、金融、运营商、大企业等行业。更多精彩文章:https://bbs.huaweicloud.com/forum/thread-66105-1-1.html 
  • [二次开发] 【FusionInsight -es产品】jar 包获取不到
    这个jar包如何获取?
  • [问题求助] 【fusioninsight.elasticsearch 产品】
    按照上述方式做了样例代码测试,跑通之后遇到几个问题  望详解1,部署项目上线的时候 conf 文件放到哪里(是否所有涉及到es的微服务项目都需要安全认证----这里应该是要单独在创建一个项目来做权限认证把)2,现有es使用的是ElasticsearchRepository 1.ElasticsearchRepository 使用的是com.springframework下的包,而样例代码使用的是华为封装的包com.huawei是不是要把所有业务代码移植成华为的这种写法?小白一枚 望详解
  • [基础组件] 【fusioninsight.elasticsearch产品】
    功能模块】fusioninsight.elasticsearch 【操作步骤&问题现象】1、样例代码跑通了2、现在要做业务迁移  把之前自己的es业务逻辑 全部都放到华为云的es上3,以前的添加方式, 通过ElasticsearchRepository工具类 直接保存list 4,看了文档没有操作list的方式 ,使用华为的这个工具 应该怎么操作list
  • [ElasticSearch] 【FusionInsight-es】测试样例代码问题
    【功能模块】测试样例代码问题【操作步骤&问题现象】1、linux上跑出现问题2,需要替换成自己的索引吗?如果是 样例代码中是不是都要替换【截图信息】测试样例代码问题
  • [集成开发] Spring集成访问FusionInsight
    Spring官方没有对接hbase和hive的样例,有对接kafka ES的样例本样例提供 spring 集成hbase client ,hive jdbc client以及carbon jdbc client集成样例,仅供参考,业务开发需要考虑更安全可靠的场景,业务代码需要进行完善1.hive是SQL大部分是使用MapReduce进行批处理,意味着执行一条SQL可能需要很久,而我们无论创建单链接和并发链接,可能都不够用,这时就需要严格控制SQL的并发执行条数,样例中提供了使用druid连接池访问hive,hive连接池不能无限扩大,虽然说metastore连接数最大是600,考虑到不止这一个终端执行SQL,这个值建议在100以下,至于如何控制并发执行的SQL条数小于连接池最大大小以及控制服务端并发执行对hiveserver内存的需求,业务需要将这点考虑进去2.druid连接池对于hadoop支持的不是很友好,使用spark自带jdbc jar包 hive-jdbc-1.2.1.spark_2.3.2 的会影响部分功能使用,也就是说如果hive也使用此jar包同样会受到影响,具体可能的错误如下:此ERROR意思是不支持类似oracle SQL中获取字段的大小,但是此报错不影响SQL执行功能(具体需要各个场景都进行验证一遍),可以考虑使用下面两种方法完善1)对于连接池理解深刻的话可以自己开发一套连接池,这样就可以完善此场景了2)也可以对对druid代码进行完善,修改代码,重新编译,这个error可以完全只输出warn日志3)如果仅仅是集成单独访问hive的场景,可以使用hive-jdbc-3.1版本3.在连接hbase和HDFS过程可能会遇到下列报错1)这个需要添加依赖包hadoop-plugin,如果使用其他代理类可能不会碰到这个问题2)如果碰到下列问题说明需要将hadoop-hdfs-client包添加进入依赖,这也是hadoop2.7到hadoop 3.1的变化,包分离开了
  • [业务报错] 【故障】FusionInsight Manager系统报错连接数据库失败,failed to read the database
    一.问题现象FusionInsight Manager系统报错连接数据库失败,failed to read the database;这里要注意,Manger系统有自己独立的数据库用来存储oms系统的数据,区别于后台MPPDB数据库二.问题分析手动连接oms的数据库,验证是否可以连接成功,本案例的验证结果为连接失败连接方式:使用omm用户,在主oms节点登录OMS数据库:gsql -p 20015 -U omm -W ChangeMe@123456查询oms状态,发现41节点是主,42节点是备,但是oms数据库在41上连不通,在42上可以连通根据以上信息,可以确定oms主备切换时,没有切换完整,oms数据库组件没有切到主节点。三.问题解决手动切换oms主备,并检查,保证切换完整,问题解决在主oms上关闭服务:/opt/huawei/Bigdata/om-server/om/sbin/stop-oms.sh等待对端升主后,重新拉起:/opt/huawei/Bigdata/om-server/om/sbin/start-oms.sh
  • [其他] FusionInsight hetu 在查询CarbonData表时报错,问hetu是否支持CarbonData表
    【操作步骤&问题现象】版本 8.1.0hetu 部件版本 1.0.1spark中查hetu连接hive catlog查询报错如下
  • [行业动态] 华为云FusionInsight湖仓一体,加速金融行业数字化转型升级
    6月3日至4日,华为智慧金融峰会2021在上海成功举办,峰会以“数智金融、升级有道”为主题,汇聚金融行业领军人物,共话大数据前沿技术,探讨金融行业数字化转型之道。    在本次金融峰会中华为云联合FusionInsight智能数据湖的伙伴发布一系列云原生2.0金融大数据解决方案,发展共创共享共赢的金融生态。其中,华为云联合北明软件发布保险集团统一数据平台联合解决方案,依托FusionInsight实现数据资产化、共享化、服务化的统一建设,助力保险集团数字化转型;华为云联合Kyligence发布大数据OLAP联合解决方案,基于FusionInsight助力客户快速发掘海量数据业务价值,驱动金融高效商业决策。华为云数据使能,加速金融数据资产化在“华为云数据使能,加速金融数据资产化”分论坛上,华为云FusionInsight携手工商银行、北明软件等客户与伙伴共同分享金融数据解决方案创新与实践,包含工商银行大数据体验演进历程及规划,华为云FusionInsight分享金融行业智能数据湖创新与实践,北明软件分享保险集团统一数据平台建设实践等议题。工商银行大数据平台产品经理袁一在演讲中表示,工商银行携手华为云FusionInsight智能数据湖持续创新探索,让工行大数据平台持续演进,通过滚动升级,业务无中断;通过大数据存算分离,使全局数据统一存储,上层架构更灵活;通过HetuEngine提升全行13000名分析师即时BI体验,形成集技术、数据、服务于一体的大数据服务体系,不断提升工行金融服务实体经济能力,倾力打造服务于经济高质量发展的数字工行。(工商银行大数据平台产品经理袁一演讲)华为云FusionInsight总经理杨志勇讲到,华为云FusionInsight智能数据湖提供湖仓一体化的现代数仓平台,客户可因地适宜设计自己的湖仓一体化数据架构,从单一离线跑批走向实时,T+0供数加速业务创新,让开发者轻松驾驭数据。目前已在工行、招行等大型金融企业成功实践,极大提升了用户体验。在2020年IDC MarketScape和2021年Frost&Sullivan评估中,FusionInsight多项指标领先国内大数据厂商。(华为云FusionInsight总经理杨志勇演讲)北明软件副总裁张翼表示,北明软件依托华为云FusionInsight智能数据湖,通过“湖仓一体化、流批一体化、数据服务化”的平台架构思想,构建保险集团统一数据平台,实现数据价值发现和提升,助力保险集团数字化转型。(北明软件副总裁张翼演讲)        金融行业是数字化转型的先行者,在不断的探索与创新中,FusionInsight将提供前沿湖仓一体技术,深度结合金融业应用场景,助力金融机构构建一企一湖、一城一湖,业务洞见更准,价值兑现更快!        在金融领域,华为云 FusionInsight已在工商银行、建设银行、招商银行等银行、证券、保险行业广泛应用。工商银行使用FusionInsight湖仓一体解决方案,实现金融数据湖与金融数仓的高效协同,提升全行13000+分析师即时BI体验。金融业存在很多场景需跨多部门进行数据协同,但往往需要数小时甚至数天。通过HetuEngine数据虚拟化引擎,实现跨湖跨仓秒级协同分析,数据免搬迁;提供统一SQL接口简化用数,使金融业务上线缩短到天级。       目前,华为云FusionInsight智能数据湖携手800+生态伙伴,已服务于60多个国家3000+客户,广泛应用于政务、金融、运营商、制造、交通、能源等行业。更多精彩文章:https://bbs.huaweicloud.com/forum/thread-66105-1-1.html
  • [运维管理] FusionInsight HD 8.1.0 Hetu版本1.0.0 GaussDB 8.0.0.1版本
    【操作步骤&问题现象】Hetu连接GaussdDB 数据源在多表关联场景下速度快于本身GaussDB 1.在默认不添加catlog自定义配置情况下描述下为什么?2.在添加parallel-read-enabled,postgresql.allow.filter-pushdown自定义配置下描述为什么?
总条数:132 到第
上滑加载中