FusionInsight_标签_开发者

博客(344)
视频(57)
论坛(203)
云声(0)
代码示例(0)

[基础组件] 【fusioninsight.elasticsearch产品】

功能模块】fusioninsight.elasticsearch 【操作步骤&问题现象】1、样例代码跑通了2、现在要做业务迁移把之前自己的es业务逻辑全部都放到华为云的es上3，以前的添加方式，通过ElasticsearchRepository工具类直接保存list 4，看了文档没有操作list的方式，使用华为的这个工具应该怎么操作list

cc01 发表于2021-06-24 15:52:17 2021-06-24 15:52:17 最后回复 cc01 2021-06-25 13:31:43
4584 4

Elasticsearch FusionInsight
[ElasticSea...] 【FusionInsight-es】测试样例代码问题

【功能模块】测试样例代码问题【操作步骤&问题现象】1、linux上跑出现问题2，需要替换成自己的索引吗？如果是样例代码中是不是都要替换【截图信息】测试样例代码问题

cc01 发表于2021-06-24 11:53:46 2021-06-24 11:53:46 最后回复一枚核桃 2021-06-24 14:40:07
4680 1

Elasticsearch FusionInsight
[集成开发] Spring集成访问FusionInsight

Spring官方没有对接hbase和hive的样例，有对接kafka ES的样例本样例提供 spring 集成hbase client ，hive jdbc client以及carbon jdbc client集成样例，仅供参考，业务开发需要考虑更安全可靠的场景，业务代码需要进行完善1.hive是SQL大部分是使用MapReduce进行批处理，意味着执行一条SQL可能需要很久，而我们无论创建单链接和并发链接，可能都不够用，这时就需要严格控制SQL的并发执行条数，样例中提供了使用druid连接池访问hive，hive连接池不能无限扩大，虽然说metastore连接数最大是600，考虑到不止这一个终端执行SQL,这个值建议在100以下，至于如何控制并发执行的SQL条数小于连接池最大大小以及控制服务端并发执行对hiveserver内存的需求，业务需要将这点考虑进去2.druid连接池对于hadoop支持的不是很友好，使用spark自带jdbc jar包 hive-jdbc-1.2.1.spark_2.3.2 的会影响部分功能使用，也就是说如果hive也使用此jar包同样会受到影响，具体可能的错误如下：此ERROR意思是不支持类似oracle SQL中获取字段的大小，但是此报错不影响SQL执行功能（具体需要各个场景都进行验证一遍），可以考虑使用下面两种方法完善1）对于连接池理解深刻的话可以自己开发一套连接池，这样就可以完善此场景了2）也可以对对druid代码进行完善，修改代码，重新编译，这个error可以完全只输出warn日志3）如果仅仅是集成单独访问hive的场景，可以使用hive-jdbc-3.1版本3.在连接hbase和HDFS过程可能会遇到下列报错1）这个需要添加依赖包hadoop-plugin，如果使用其他代理类可能不会碰到这个问题2）如果碰到下列问题说明需要将hadoop-hdfs-client包添加进入依赖，这也是hadoop2.7到hadoop 3.1的变化，包分离开了

阿帕车 发表于2021-06-20 11:30:20 2021-06-20 11:30:20 最后回复阿帕车 2021-06-20 11:30:20
4459 0

FusionInsight Spring
[其他] 【故障】FusionInsight Manager系统报错连接数据库失败，failed to read the database

一.问题现象FusionInsight Manager系统报错连接数据库失败，failed to read the database；这里要注意，Manger系统有自己独立的数据库用来存储oms系统的数据，区别于后台MPPDB数据库二.问题分析手动连接oms的数据库，验证是否可以连接成功，本案例的验证结果为连接失败连接方式：使用omm用户，在主oms节点登录OMS数据库：gsql -p 20015 -U omm -W ChangeMe@123456查询oms状态，发现41节点是主，42节点是备，但是oms数据库在41上连不通，在42上可以连通根据以上信息，可以确定oms主备切换时，没有切换完整，oms数据库组件没有切到主节点。三.问题解决手动切换oms主备，并检查，保证切换完整，问题解决在主oms上关闭服务：/opt/huawei/Bigdata/om-server/om/sbin/stop-oms.sh等待对端升主后，重新拉起：/opt/huawei/Bigdata/om-server/om/sbin/start-oms.sh

配音师 发表于2021-06-19 17:35:37 2021-06-19 17:35:37 最后回复匿名用户群体 2021-06-30 10:50:51
2281 3

FusionInsight 数据库
[其他] FusionInsight hetu 在查询CarbonData表时报错，问hetu是否支持CarbonData表

【操作步骤&问题现象】版本 8.1.0hetu 部件版本 1.0.1spark中查hetu连接hive catlog查询报错如下

pack 发表于2021-06-08 11:32:20 2021-06-08 11:32:20 最后回复 null1 2021-06-08 14:54:06
4885 3

FusionInsight
[技术干货] 华为云 FusionInsight 湖仓一体解决方案

　　伴随5G、大数据、AI、IoT的飞速发展，数据呈现大规模、多样性的极速增长，为了应对多变的业务诉求，政企客户对数据处理分析的实时性和融合性提出了更高的要求，“湖仓一体”的概念应运而生，它打破数据湖与数仓间的壁垒，使得割裂数据融合统一，减少数据分析中的搬迁，实现统一的数据管理。　　早在2020年5月份的华为全球分析师大会上，华为云CTO张宇昕提出了“湖仓一体”概念，在随后的华为云与计算城市峰会上，“湖仓一体”理念跟随华为云FusionInsight智能数据湖在南京、深圳、西安、重庆等地均有呈现，在刚结束的HC2020上，张宇昕在发布新一代智能数据湖华为云FusionInsight时再次提到了湖仓一体理念。那我们就来看看湖仓一体的来世今生。数据湖和数据仓库的发展历程和挑战　　早在1990年，比尔·恩门（Bill Inmon）提出了数据仓库，主要是将组织内信息系统联机事务处理(OLTP)常年累积的大量资料，按数据仓库特有的资料储存架构进行联机分析处理(OLAP)、数据挖掘(Data Mining)等分析，帮助决策者快速有效地从大量资料中分析出有价值的资讯，以利决策制定及快速响应外在环境变化，帮助构建商业智能(BI)。　　大约十年前，企业开始构建数据湖来应对大数据时代，它通常把所有的企业数据统一存储，既包括源系统中的原始副本，也包括转换后的数据，比如那些用于报表, 可视化, 数据分析和机器学习的数据。　　纵观数据湖与数据仓库的技术发展，不难发现两者有着各自的优劣，具体表现如下：　　企业在进行系统架构设计选型时，需要从具体的分析场景出发，单一的模式已经无法满足企业发展的业务诉求，集中表现在以下两个痛点：　　数据湖主要以离线批量计算为主，因为不支持数据仓库的数据管理能力，难以提高数据质量；数据入湖时效差不支持实时更新，数据无法强一致性；主题建模不友好，无法直接历史拉链建模；同时交互分析通常将数据搬迁到数据仓库平台，造成分析链路长，数据冗余存储；批&流等场景融合不够，无法满足企业的海量数据处理诉求。　　数据仓库满足不了非结构化数据的分析需求，性价比不高；同时仓&湖间难以互联互通，数据协同效率较低，无法支持跨平台透明访问，形成了事实上的数据孤岛，找数困难；缺乏全局数据视图，不同平台接口差异和不同开发管理工具，造成用户开发使用复杂，数据分别管理维护代价高体验差。数据湖和数据仓库正在从两条技术演进路线走向融合　　综上，数据湖和数据仓库在企业数据分析场景分别承担一湖一仓的重要角色，形成了完整的数据分析生态系统，上述企业场景面临的2个关键痛点也在驱动数据湖和数据仓库在技术演进上走向融合：　　第一个融合方向是基于Hadoop体系的数据湖向数据仓库能力扩展，湖中建仓，从DataLake进化到LakeHouse。LakeHouse结合了数据湖和数据仓库特点，直接在用于数据湖的低成本存储上实现与数据仓库中类似的数据结构和数据管理功能。目前业界已经涌现了一些LakeHouse产品，如Netflix开源Iceberg、Uber开源Hudi、Databricks的 DeltaLake。　　以目前生态发展迅速的Apache Hudi为例：统一数据存储，分布式存储不同应用所需的各种类型数据；数仓模式执行和治理，实现事务&更新机制，保证数据完整性和一致性，具有健壮的治理&审计机制；支持各种分析引擎，统一数据存储通过开放和标准化的存储格式（如Parquet），提供API以便各类工具和引擎（包括机器学习和Python / R库）直接有效地访问数据。　　虽然LakeHouse并不能完全替代数据仓库，但通过增强性能，支持实时入湖、建模、交互分析等场景，将在企业分析环境中发挥更大作用。　　第二个融合方向是数据湖和数据仓库协同起来向湖仓一体的融合分析架构发展，随着企业数据量快速增长，不仅是结构化数据，也有非结构化数据，同时提出了对搜索/机器学习更多的能力要求，使得原来数仓技术不能够有效的处理复杂场景，为此需扩展原有系统，引入Hadoop大数据平台实现新类型数据、新业务场景的支持。在这个背景下由Gartner在2011年提出逻辑数据仓库的概念，预测企业数据分析倾向于转向一种更加逻辑化的架构，利用分布式处理、数据虚拟化以及元数据管理等技术，实现逻辑统一物理分开的协同体系。　　湖仓一体可以认为是逻辑数据仓库架构理念下针对Hadoop数据湖和MPPDB数据仓库的融合架构的最好诠释，数据对用户将完全实现虚拟化，以逻辑统一的数据分析系统为企业提供数据分析服务：　　用户使用层面提供统一元数据管理和数据视图，实现全局数据可见可查，支持标准统一访问接口简化用户开发，提供统一开发和治理的工具体系。　　平台层面Hadoop与MPPDB具备数据共享和跨库分析能力，支持互联互通、计算下推、协同计算，实现数据多平台之间透明流动。华为云FusionInsight湖仓一体解决方案参考架构　　华为云FusionInsight智能数据湖涵盖了分布式存储、大数据、数据仓库、数据治理等，融合了上述两个技术演进方向，为企业用户提供云原生湖仓一体解决方案，整体的参考架构如下：　　下面一起来看看：数据存储层：　　通过OBS统一管理湖&仓的存储底座，将存储在EC（Erasure Code纠错码）、可靠性方面的优势融入进了大数据生态：云原生架构领先：　　基于云原生架构的OBS存储，具有高带宽，大并发，分布式元数据等特征，因此相同成本的华为存算分离的湖仓一体化集群，数据读写性能领先业界30%。存储计算分离有效降低TCO：　　支持大比例EC, 副本数从3最低可降低至1.09，TCO下降20%+。　　统一元数据管理实现湖仓共享存储资源池：通过独立的Data Lake Catalog提供统一元数据管理，兼容Hive Metastore接口，可以无缝对接各类大数据组件。实现针对同一份元数据定义支持各类场景、对象、文件、大数据等不同协议间的数据共享，让数据仓库、数据湖、图引擎、AI等多种计算引擎共享统一的数据存储池。此方案不仅消除了孤立系统中的数据副本，还使得客户可以按照业务按需使用计算存储资源，不仅降低了CAPEX，还简化了运维，从而达成最佳TCO。同时，Data Lake Catalog开放接口，支持和第三方的计算引擎层、数据治理层对接。计算引擎层：　　把事务能力引入数据湖，通过HetuEngine标准SQL实现跨域多源统一访问，湖&仓数据互通协同计算，数据免搬迁：CarbonData & Hudi数据实时入湖，实现数据湖事务能力：　　企业内部许多数据管道通常会并发读写数据，我们通过CarbonData& Hudi数据存储引擎实现数据实时、增量更新，数据T+0实时入湖，大幅缩短传统T+1、T+2时延；引入的增量处理框架，实现了数据湖事务能力，支持入湖过程中的Update/Delete等。HetuEngine支持跨源跨域统一SQL访问，简单易用：　　用户层基于统一的标准SQL接口，对接多个数据源（HDFS, HBase, DWS等），提供秒级交互式访问，满足各种统计分析、多表Join关联等，让分析建模人员数据分析更容易，降低访问门槛。HetuEngine & DWS-Express打破数据墙，数据免搬迁创新更敏捷：　　支持数据湖与数据仓库间的数据互联互通、跨平台协同计算，数据免搬迁。HetuEngine在湖内基于统一数据目录，实现高并发，高性能的交互式查询，基于一份数据进行批、流、交互式融合分析，贴源加工、整合关联、主题加工等都在湖内，数据不出湖，分析链路短，加速业务创新；用户可使用DWS-Express提供由成百上千节点组成的加速集群，对存储在OBS上的海量数据进行在线分析，相比本地托管集群，效率提升数百倍。自研Superior调度器支持单集群2万+节点规模，业界最佳：　　在一个集群内，通过华为自研的Superior调度器支持各种工作负载统一调度，包括数据科学、机器学习以及SQL和分析，调度速率达35万Container/s，资源利用率达90%+，大幅降低企业投入成本。数据冷热分级存储实现更高效的全生命周期管理：　　DWS具备与OBS的双向互通的能力，既能直接读取OBS上的海量历史数据，也能够直接写入数据到OBS。通过这个特性，我们可以对企业中的海量数据进行更加高效的全生命周期管理，分析中经常使用到的热/温数据存放在DWS中，较少使用的冷数据存放到OBS中，兼顾企业对分析性能和存储经济性的诉求。无缝衔接AI挖掘更多数据价值：　　深度优化一站式开发平台ModelArts&分布式图计算引擎GES提高开发效率。提供基于数据湖的AI训练推理能力，减少数据搬迁次数，基于100+机器学习算子和NLP算法，实现海量数据快速价值挖掘，满足场景预测、自然语言处理及企业知识图谱等应用；让GES更快捷地为金融等场景提供关系网络分析等服务。运营管理层：　　通过DAYU实现了湖&仓统一的数据集成、开发、目录、治理、开放服务等的运营管理：数据集成：　　实现多源异构数据高效入湖，支持批/流/实时数据多种方式接入。其中，批量数据迁移基于分布式计算框架，利用并行化处理技术，支持用户稳定高效地对海量数据进行移动，实现不停服数据迁移，快速构建所需的数据架构；流和实时数据接入每小时可从数十万种数据源（例如日志和定位追踪事件、网站点击流、社交媒体源等）中连续捕获、传送和存储数TB数据。数据开发：　　提供一站式敏捷数据开发平台，提供可视化的图形开发界面、丰富的数据开发类型（脚本开发和作业开发）、全托管的作业调度和运维监控能力，内置行业数据处理pipeline，一键式开发，全流程可视化，支持多人在线协同开发，支持管理多种大数据云服务，极大地降低了用户使用大数据的门槛，帮助用户快速构建数据湖数据处理中心。数据治理：　　为企业提供数据体系标准和数据规范定义的方法论，统一数据语言和数据建模；为普通业务人员提供高效、准确的数据搜索工具，高效找到数据；提供技术元数据与业务元数据的关联，业务人员快速读懂数据；为数据提供有效的质量管控和评估手段，数据可信质量高。数据开放：　　为数据湖搭建统一的数据服务总线，帮助企业统一管理对内对外的API服务，支撑业务主题/画像/指标的访问、查询和检索，提升数据消费体验和效率；支持100+开放API，拥有10+行业模板，使能行业ISV快速集成，助力客户数据标准资产沉淀。综上所述　　正是在三层架构都打通了湖仓的技术壁垒，我们才看到了真正的湖仓一体：　　数据存储层基于云原生领先架构，存算分离有效降低TCO，统一元数据管理实现湖仓共享存储资源池，针对同一份元数据定义支持各种场景，提供API方便各类工具和引擎（包括机器学习、Python、R等）直接有效地访问数据，这是实现湖仓一体的一个关键点；　　计算引擎层为数据湖增加了事务能力提升了数据质量；利用HetuEngine通过标准SQL访问跨域多源数据，实现湖&仓数据关联分析协同计算，简单易用; 打破数据墙，在湖内基于统一数据目录，可基于数据湖实现融合分析&AI训练推理，减少数据搬迁，实现海量数据快速价值挖掘。　　运营管理层则提供统一的数据开发和治理环境，具备安全管理功能，支持多引擎任务统一开发和编排，数据统一建模和质量监测，实现湖仓一致的开发治理体验。未来展望　　华为云FusionInsight智能数据湖基于客户需求和技术演进趋势持续创新，为企业客户提供湖仓一体解决方案，致力于打造业界最佳的数据底座，让企业业务的创新更敏捷，业务洞察更准确，加速释放数据价值，和数据使能协同更好地服务千行万业！————————————————

学习怪 发表于2021-06-07 14:09:49 2021-06-07 14:09:49 最后回复学习怪 2021-06-07 14:09:49
4233 0

FusionInsight
[行业动态] 华为云FusionInsight湖仓一体，加速金融行业数字化转型升级

6月3日至4日，华为智慧金融峰会2021在上海成功举办，峰会以“数智金融、升级有道”为主题，汇聚金融行业领军人物，共话大数据前沿技术，探讨金融行业数字化转型之道。在本次金融峰会中华为云联合FusionInsight智能数据湖的伙伴发布一系列云原生2.0金融大数据解决方案，发展共创共享共赢的金融生态。其中，华为云联合北明软件发布保险集团统一数据平台联合解决方案，依托FusionInsight实现数据资产化、共享化、服务化的统一建设，助力保险集团数字化转型；华为云联合Kyligence发布大数据OLAP联合解决方案，基于FusionInsight助力客户快速发掘海量数据业务价值，驱动金融高效商业决策。华为云数据使能，加速金融数据资产化在“华为云数据使能，加速金融数据资产化”分论坛上，华为云FusionInsight携手工商银行、北明软件等客户与伙伴共同分享金融数据解决方案创新与实践，包含工商银行大数据体验演进历程及规划，华为云FusionInsight分享金融行业智能数据湖创新与实践，北明软件分享保险集团统一数据平台建设实践等议题。工商银行大数据平台产品经理袁一在演讲中表示，工商银行携手华为云FusionInsight智能数据湖持续创新探索，让工行大数据平台持续演进，通过滚动升级，业务无中断；通过大数据存算分离，使全局数据统一存储，上层架构更灵活；通过HetuEngine提升全行13000名分析师即时BI体验，形成集技术、数据、服务于一体的大数据服务体系，不断提升工行金融服务实体经济能力，倾力打造服务于经济高质量发展的数字工行。（工商银行大数据平台产品经理袁一演讲）华为云FusionInsight总经理杨志勇讲到，华为云FusionInsight智能数据湖提供湖仓一体化的现代数仓平台，客户可因地适宜设计自己的湖仓一体化数据架构，从单一离线跑批走向实时，T+0供数加速业务创新，让开发者轻松驾驭数据。目前已在工行、招行等大型金融企业成功实践，极大提升了用户体验。在2020年IDC MarketScape和2021年Frost&Sullivan评估中，FusionInsight多项指标领先国内大数据厂商。（华为云FusionInsight总经理杨志勇演讲）北明软件副总裁张翼表示，北明软件依托华为云FusionInsight智能数据湖，通过“湖仓一体化、流批一体化、数据服务化”的平台架构思想，构建保险集团统一数据平台，实现数据价值发现和提升，助力保险集团数字化转型。（北明软件副总裁张翼演讲）金融行业是数字化转型的先行者，在不断的探索与创新中，FusionInsight将提供前沿湖仓一体技术，深度结合金融业应用场景，助力金融机构构建一企一湖、一城一湖，业务洞见更准，价值兑现更快！在金融领域，华为云 FusionInsight已在工商银行、建设银行、招商银行等银行、证券、保险行业广泛应用。工商银行使用FusionInsight湖仓一体解决方案，实现金融数据湖与金融数仓的高效协同，提升全行13000+分析师即时BI体验。金融业存在很多场景需跨多部门进行数据协同，但往往需要数小时甚至数天。通过HetuEngine数据虚拟化引擎，实现跨湖跨仓秒级协同分析，数据免搬迁；提供统一SQL接口简化用数，使金融业务上线缩短到天级。目前，华为云FusionInsight智能数据湖携手800+生态伙伴，已服务于60多个国家3000+客户，广泛应用于政务、金融、运营商、制造、交通、能源等行业。更多精彩文章：https://bbs.huaweicloud.com/forum/thread-66105-1-1.html

沙漏 发表于2021-06-05 12:27:49 2021-06-05 12:27:49 最后回复沙漏 2021-06-05 12:27:49
2002 0

金融专区人工智能 FusionInsight 大数据
[运维管理] FusionInsight HD 8.1.0 Hetu版本1.0.0 GaussDB 8.0.0.1版本

【操作步骤&问题现象】Hetu连接GaussdDB 数据源在多表关联场景下速度快于本身GaussDB 1.在默认不添加catlog自定义配置情况下描述下为什么？2.在添加parallel-read-enabled,postgresql.allow.filter-pushdown自定义配置下描述为什么？

pack 发表于2021-06-01 08:57:09 2021-06-01 08:57:09 最后回复 kliu2620 2021-06-01 11:39:48
4712 4

云数据仓库 GaussDB(DWS) FusionInsight
[运维管理] FusionInsight hetu 在连接gaussdb catlog数据源drop表时报错 disabled

【操作步骤&问题现象】版本 8.1.0hetu 部件版本 1.0.1drop表时报错 drop table is disabled in this catalog同时对于各个catlog数据源支持程度是否有说明文档？

pack 发表于2021-05-27 18:50:23 2021-05-27 18:50:23 最后回复 pack 2021-05-28 10:18:27
3561 4

云数据仓库 GaussDB(DWS) FusionInsight
[环境搭建] 求救！GaussDB200 单机部署使用fusioninsight manager搭建集群时找不到主机

大大们，GaussDB A搭建集群时修改了ssh的默认端口22，然后manager安装成功之后，用fusioninsight manager搭建集群，显示找不到主机，能帮忙看看可能什么原因吗？个人认为是端口的问题，修改完能该的配置文件重新安装了一下，但是还是不行，不知道是什么原因FusionInsight_SetupTool/preinstall/tools/cluster/lib/remote.shFusionInsight_SetupTool/preinstall/tools/cluster/cluster.iniFusionInsight_SetupTool/preinstall/script/function/remote.shFusionInsight_SetupTool/preinstall/script/function/005.check_ini.shFusionInsight_SetupTool/upgrade/func/constants.sh

Liofeng 发表于2021-05-24 13:54:24 2021-05-24 13:54:24 最后回复匿名用户群体 2021-06-28 19:13:07
7636 9

云数据仓库 GaussDB(DWS) FusionInsight
[问题求助] 【XXX产品】【XXX功能】一句话描述问题

熬夜学习的熊 发表于2021-05-21 17:19:34 2021-05-21 17:19:34 最后回复熬夜学习的熊 2021-05-22 13:10:19
2852 3

FusionInsight
[行业动态] 一架构三湖，解密华为云FusionInsight MRS组件新特性

5月20日，华为云FusionInsight MRS产品经理在“华为云TechWave云原生2.0专题日”上发表《华为云FusionInsight MRS，一个架构实现三种数据湖》的主题演讲，分享了智能数据时代的数据湖发展趋势、MRS云原生数据湖技术创新实现一个架构构建离线、实时、逻辑三种数据湖，以及业务实践中的成功案例等。进入智能数据时代，业界建设数据湖的十大共识经过数十年的快速发展，大数据处理技术已日渐成熟，围绕数据仓库、数据湖衍生技术多如繁星，业界在多年的探索之中，也对未来数据湖形态有了十个重要共识，湖仓一体成为智能数据湖的首选架构。为应对智能数据时代对大数据技术提出的新挑战，华为云FusionInsight MRS云原生数据湖进行全面升级，引入了Hudi、ClickHouse热门组件，加强了自研的HetuEngine虚拟化引擎，同时新增IoTDB时序处理的能力，拓展数据使能应用的边界。华为云FusionInsight MRS云原生数据湖华为云FusionInsight MRS云原生数据湖为政企客户提供湖仓一体、云原生的数据湖解决方案，构建一个架构可持续演进的离线、实时、逻辑三种数据湖，支撑政企客户全量数据的实时分析、离线分析、交互查询、实时检索、多模分析、数据仓库、数据接入和治理等大数据应用场景，使政企客户高效用数、简化用数，助力政企客户实现一企一湖、一城一湖，业务洞见更准，价值兑现更快。离线数据湖：提供交互式、BI、AI等多个计算引擎，采用OBS实现存算分离，使得云原生数据湖的架构更灵活。支持单集群2万+节点的超大规模，通过集群联邦，可支持10万+规模。支持滚动升级，保障关键业务升级不中断。实时数据湖：通过Hudi支持ACID数据实时增量入湖、ClickHouse毫秒级OLAP分析等构建实时更新处理能力，使得供数时效从T+1到T+0。逻辑数据湖：HetuEngine提供跨湖、跨仓、跨云的协同分析，实现湖仓一体，减少80%数据搬迁，协同分析提效50倍。一架构三湖新特性，覆盖数据分析全流程Hudi：增量实时入湖，实现数据入湖时效快、开发易、性能高、资源利用率更高传统数据湖不支持数据更新，导致数据采用T+1离线处理模式，完全无法满足灵活多变的业务诉求，针对数据时效性问题，华为云FusionInsight MRS云原生数据湖引入Hudi。 Hudi可以支持数据更新、数据删除，还有ACID保证，保证数据实时入湖更新操作。它提供多种视图，包括读优化视图、增量视图、实时视图，可以对不同的分析应用提供不同的视图，基于这些技术可轻松实现增量表、拉链表，镜像表这些数据存储模型。引入Hudi后，带来四大显著效果：数据时效更快：在业务系统，通过CDC的系统实现分钟级数据入湖，数据时效性从T+1到T+0。处理性能更高：面对数据有删除、更新的场景下，传统采用Hive更新方式，仅处理一行数据也可能需要对整个表，至少要对整个分区进行处理，引入Hudi后处理效率提升10倍+。开发更简单：对于开发人员来说，传统数据入湖不支持更新或者删除，开发人员需新建临时表，将数据处理后再进行覆盖，对同一个任务可能需要写很多代码去完成，有了Hudi的加持之后，做一个数据更新的操作就跟使用数据库一样简单，单条语句即可完成。资源利用率更高：传统T+1的模式并不是24小时跑任务，而是在晚上进行批量加工，早上出报表，整个处理过程中，计算高峰期仅晚上跑批的时间，而资源却是按照高峰期的计算需求来配比，导致白天的资源利用不足，引入Hudi后，数据实时采集入湖，把入湖处理的工作分散到全天的过程，实际上把整个资源消耗的高峰和低峰抹平掉。某金融客户基于Hudi构建数据湖，数据入湖时延降至分钟级，且白天资源利用率提升2倍+，数据处理效率提升50%，开发人员通过单条语句即可完成开发，简化开发难度。ClickHouse：实时OLAP引擎，实现报表全自助高性价比的实时分析传统的OLAP引擎因其处理能力有限，数据一般按照专题或者主题进行组织后再与BI工具对接，导致BI用户和提供数据的数据工程师脱节。比如BI用户有一个新的需求，所需的数据没有在专题集市中，需要将需求给到数据工程师，以便开发相应的ETL任务，这个过程往往需要部门间协调，时间周期长，协作效益低。现在，华为云FusionInsight MRS云原生数据湖可以将所有明细数据以大宽表的形式加载ClickHouse，BI用户可以基于ClickHouse大宽表进行自助分析，对数据工程师供数要求少，甚至在面对大部分新需求时，无需重新供数，开发效率和BI报表上线率都会得到极大提升。同时，ClickHouse在一张表里的数据分析可达毫秒级。基于ClickHouse实现自助BI在华为内部实践也获得了很好的效果。华为集团HIS数据湖原来基于传统OLAP引擎建模，受限于开发效率，几年才上线了几十个报表。在引入Clickhouse后，三个月时间开发上线了400+报表，业务上线效率提升50倍。目前，华为内部ClickHouse的整体使用规模已经达到2000+节点，数据量规模达10+PB，日增数据量100TB。HetuEngine：数据虚拟化引擎，突破地理限制，打破数据“墙” 伴随企业发展与数字化转型的需求，企业业务越来越复杂，创新需求越来越高。单系**立工作难以满足业务的变化需求，企业内可能同时存在多个湖、多个仓、多个系统，但传统方案烟囱式建设，湖仓之间、多引擎之间无直接的互联互通能力，需要通过ETL数据来回搬迁，造成数据流转链路长，数据多份冗余，产生数据孤岛。系统多份数据冗余也难以保证数据的一致性和可靠性。为了让数据使用更简单，跨湖协同更容易，解决湖仓数据割裂的问题，华为推出了数据虚拟化引擎HetuEngine，实现跨湖、跨仓和云上、云下、多云协同分析的能力，突破地理限制，打破数据“墙”，跨湖协同分析效率提升50倍，跨仓协同分析减少80%的系统间数据搬迁同步，分析性能从分钟级提升至秒级。金融某行通过引入HetuEngine数据虚拟化引擎，在数据湖查询分析方面该行提升了并发能力，仅1/5的资源即可支持45并发，峰值并发最大达200QPS，平均时延优化到8秒；在湖仓协同分析方面，通过HetuEngine打通数据湖与数仓间的数据壁垒，湖仓协同分析性能从分钟级提升至秒级，同时减少80%的系统间数据搬迁同步，大大提升数据治理效率。IoTDB：时序数据库，云边端协同轻松构建时序数据集市时序数据具备两大特点：在端、边、云都有处理，时序数据采集后不需要更新。传统时序处理方案中，在端、边、云采用不同的技术栈，异构的技术栈必将带来数据处理的复杂性。清华大学开发的时序数据库IoTDB（又称时序引擎），通过统一的时序数据文件格式TsFile，实现一份数据兼容全场景，一套引擎打通云边端、一套框架集成云边端。华为跟清华大学保持紧密的合作，最新发布的IoTDB集群版本，就是华为与清华主导开发的一个版本。在上海、成都、重庆等城市均已采用IoTDB管理地铁监控数据，原本144辆列车需要9台服务器，现在仅需一个IoTDB实例即可满足要求，测点的采样时延也从原来的500ms降至200ms，日增4140亿数据点管理，大大提升资源利用率。结语目前，华为云FusionInsight MRS云原生数据湖携手800+生态伙伴，已服务于3000+政企客户，广泛应用于公用事业、金融、运营商、能源、医疗、制造、交通等行业。更多精彩文章：https://bbs.huaweicloud.com/forum/thread-66105-1-1.html

沙漏 发表于2021-05-21 09:23:30 2021-05-21 09:23:30 最后回复沙漏 2021-05-21 09:23:30
2323 0

FusionInsight MapReduce
[其他] 【fusioninsight hd】对接【bi】

【功能模块】【操作步骤&问题现象】1、能连接，也能够查询单张表的数据，只有在使用bi的数据库管理功能的时候会报错，这个功能就是查询某个schema下的所有表名，都是通过jdbc方式查询的2、【截图信息】【日志信息】（可选，上传日志内容或者附件）

寳軍bigdata 发表于2021-05-20 11:56:26 2021-05-20 11:56:26 最后回复一枚核桃 2021-05-21 09:03:55
5101 2

FusionInsight
[维护宝典] FusionInsight Kafka删除Topic失败原因及解决方案

一、无权限创建Topic会报错“ERROR kafka.admin.AdminOperationException: Error while deleting topic topicName解决办法是使用具有kafkaadmin权限的用户。二、“topic.enable”配置为falseFusionInsight Manager页面“集群->Kafka->配置->全部配置”查看Kafka服务端delete.topic.enable参数配置。如果参数设置为false，改为true后保存并重启kafka服务。三、节点异常或节点磁盘下线或数据目录异常1. 节点异常FusionInsight Manager页面“集群->Kafka->实例”查看各个实例状态是否是良好。2. 磁盘下线FusionInsight Manager有没有“数据目录状态异常”的告警。Topic副本所在节点server.log日志中搜“offline”关键字和“checkpoint file”关键字查看磁盘是否下线或因checkpoint文件问题没有上线。搜“cannot allocate memory”关键字查看是否内存不足导致。搜“No space left”关键字查看是否磁盘写满。注意：出现“数据目录状态异常”的告警后，只有重启告警节点才可以使磁盘重新上线。3. 数据目录权限异常节点上Kafka数据目录（一般是“/srv/BigData/kafka/dataX/kafka-logs”）目录权限是否正常。四、删除后又自动创建TopicFusionInsight Manager页面“集群->Kafka”查看controller所在主机节点，此节点上Kafka日志目录中查看controller.log，如果日志中有“Deletion of topic topicName successfully completed”和“New topics: [Set(topicName)]”说明topic又被自动创建。五、Controller未执行删除如果controller.log日志中只有“Starting topic deletion”日志而未打印具体的执行成功或失败的日志，可尝试切controller，步骤如下：1. 进FI客户端（例如/opt/hadoopclient）2. 执行zkCli.sh -server zk业务IP：24002/kafka3. 执行get /controller4. 若获取到controller信息，执行deleteall /controller和get /controller。

Summer_ 发表于2021-05-18 09:44:21 2021-05-18 09:44:21 最后回复 Summer_ 2021-05-18 09:44:21
3746 0

FusionInsight Kafka
[问题求助] smartbi v95怎么对接FusionInsight Hetu

如题，寻求smartbi v95对接FusionInsight Hetu的操作步骤。

kuan 发表于2021-05-15 11:24:13 2021-05-15 11:24:13 最后回复晋红轻 2021-06-08 10:12:21
3564 3

FusionInsight

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript