FusionInsight_标签_开发者

博客(340)
视频(57)
论坛(202)
云声(0)
代码示例(0)

[赋能学习] 华为云FusionInsight MRS培训系列课程-特性篇

1.华为云原生数据湖MRS关键技术介绍2.优势poc用例最佳实践2.1. MRS多租户介绍及操作实践2.2 MRS TPC-DS 测试工具操作实践2.3 MRS Ranger介绍及操作实践

晋红轻 发表于2021-08-12 10:29:20 2021-08-12 10:29:20 最后回复晋红轻 2021-08-12 10:29:20
1377 0

FusionInsight MapReduce
[环境搭建] FusionInsight MRS 安装

【功能模块】 FusionInsight MRS 安装安装报错。在192上操作时报错【操作步骤&问题现象】也可以在192上具体查看下。对外浮动IP om_float_ip = 可以随意填吗？还是要填写真是的? 这三台机器上有设置浮动IP吗？还是操作时自行设置？对外时钟NTP服务器可为空吗？PPT和文档上的内容很多，能不能针对这个3台服务器，整理一个可以具体操作的安装步骤文档？这样更方便上级操作。【截图信息】【日志信息】（可选，上传日志内容或者附件）

YZHX 发表于2021-08-11 17:36:21 2021-08-11 17:36:21 最后回复晋红轻 2021-08-12 16:42:28
4129 2

FusionInsight MapReduce
[赋能学习] FusionInsight MRS TPC-DS工具使用

## 准备条件 1.集群已经安装完成并正常运行。 2.已经在集群Manager平台上为测试任务添加了一个人机用户，属组为hive、hadoop，supergroup，主组为supergroup。假设用户名为developuser，用户认证成功。 ``` cd /opt/hadoopclient/ source bigdata_env kinit developuser ``` 3.集群中Hive服务及依赖服务正常。 4.Yarn上提交任务的资源配置参数可以根据实际环境情况做调整。修改Yarn配置： yarn.nodemanager.resource.cpu-vcores 可分配给container的CPU核数。 yarn.nodemanager.resource.memory-mb 表示该节点上YARN可使用的物理内存总量，默认为8192，单位MB。建议配置成节点物理内存总量的75%-90%。若该节点有其他业务的常驻进程，请降低此参数值给该进程预留足够运行资源。客户端软件已经正确安装到客户端节点上。 ## 开始使用 1.获取mrs-test-demo.zip测试工具，请登录support.huawei.com直接搜索包名，注意对应版本，这里选用3.1.1版本。将工具包解压，选择hive_tpcds_tools_performence，上传到安装客户端的服务器/opt目录下。工具具体路径为 /opt/mrs-test-demo/basic-pack/hive_tpcds_tools_performence 2.修改权限（注意权限修改切勿将整个opt目录下的权限修改掉） ``` cd /opt/mrs-test-demo chmod -R 770 * ``` 3.准备tpcds造数工具，登录路径/opt/mrs-test-demo/basic-pack/hive_tpcds_tools_performence/tpcds-gen使用idea工具打开该路径的源码，编译工程，得到tpcds-gen-1.0-SNAPSHOT.jar, 存放路径为/opt/mrs-test-demo/basic-pack/hive_tpcds_tools_performence/tpcds-gen/target。并且检查该路径下是否有lib目录包，里面为其他的依赖工具。 4.进入客户端安装目录，初始化环境变量。 ``` source /opt/hadoopclient/bigdata_env kinit developuser ``` 5.执行造数据脚本，造数据过程中需要等待的具体时间由当前环境的配置决定（数据量可以自行调整根据环境需求，本次执行2G。）。 ``` cd /opt/mrs-test-demo/basic-pack/hive_tpcds_tools_performence sh tpcds-setup-hive.sh 2 orc /opt/hadoopclient/ developuser 321@iewauH /tmp/hivedata ``` ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202108/10/163911ih1izbfwqk25fafe.png) 6.查询hdfs上生成的数据及需要测试的Hive表数。 ``` hdfs dfs -du -h /user/hive/warehouse/tpcds_bin_partitioned_orc_2.db/ ``` ![tu6.PNG](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202108/10/164804neo76op3kykiu3aj.png) 7.进入到sqlAll目录下将需要的sql复制到sample-queries-tpcds目录下，如备注中的基线指标sql。 ``` cd /opt/mrs-test-demo/basic-pack/hive_tpcds_tools_performence/sqlAll cp query41.sql query43.sql ../sample-queries-tpcds ``` 8.在/opt/mrs-test-demo/basic-pack/hive_tpcds_tools_performence目录下执行运行脚本。 ``` ./tpcds-run-hive.sh 2 orc /opt/hadoopclient/ developuser 321@iewauH ``` ![tu8.PNG](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202108/10/164815vnp11gmlepzneu6y.png) 9.时间统计脚本统计时间sql_time.sh，脚本内容如下 ``` #!/bin/bash BASE_DIR=$1 num=0.0 for logfile in ${BASE_DIR}/*.log do result=`grep -Rns "selected (" $logfile | tail -1 | grep -Eo '[(](.*)[) seconds]' | grep -Eo '[0-9]+[.]*[0-9]+'` if [ -z $result ]; then continue; fi echo "****${logfile##*/} ${result}s****" num=$(echo "$num + $result"|bc) done echo "total cost time:${num}s" ``` 使用如下启动脚本 `sh sql_time.sh /opt/mrs-test-demo/basic-pack/hive_tpcds_tools_performence/log/tpcds_bin_partitioned_orc_2/querylog` ![tu9.PNG](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202108/10/164832oyzyeicjeqgybqtp.png)

晋红轻 发表于2021-08-10 14:25:57 2021-08-10 14:25:57 最后回复晋红轻 2021-08-10 14:25:57
1887 0

FusionInsight MapReduce
[其他问题] 问题求助 Identifier doesn't match expected value 906

下载最新的认证文件后依旧认证失败，修过过服务器时间后提示时钟未同步，求解决方案。

不爱吃苹果 发表于2021-08-09 16:45:43 2021-08-09 16:45:43 最后回复一枚核桃 2021-08-10 09:53:21
4814 4

MapReduce服务 MRS 华为云Stack FusionInsight
[技术干货] 华为云 FusionInsight 湖仓一体解决方案

　　伴随5G、大数据、AI、IoT的飞速发展，数据呈现大规模、多样性的极速增长，为了应对多变的业务诉求，政企客户对数据处理分析的实时性和融合性提出了更高的要求，“湖仓一体”的概念应运而生，它打破数据湖与数仓间的壁垒，使得割裂数据融合统一，减少数据分析中的搬迁，实现统一的数据管理。　　早在2020年5月份的华为全球分析师大会上，华为云CTO张宇昕提出了“湖仓一体”概念，在随后的华为云与计算城市峰会上，“湖仓一体”理念跟随华为云FusionInsight智能数据湖在南京、深圳、西安、重庆等地均有呈现，在刚结束的HC2020上，张宇昕在发布新一代智能数据湖华为云FusionInsight时再次提到了湖仓一体理念。那我们就来看看湖仓一体的来世今生。数据湖和数据仓库的发展历程和挑战　　早在1990年，比尔·恩门（Bill Inmon）提出了数据仓库，主要是将组织内信息系统联机事务处理(OLTP)常年累积的大量资料，按数据仓库特有的资料储存架构进行联机分析处理(OLAP)、数据挖掘(Data Mining)等分析，帮助决策者快速有效地从大量资料中分析出有价值的资讯，以利决策制定及快速响应外在环境变化，帮助构建商业智能(BI)。　　大约十年前，企业开始构建数据湖来应对大数据时代，它通常把所有的企业数据统一存储，既包括源系统中的原始副本，也包括转换后的数据，比如那些用于报表, 可视化, 数据分析和机器学习的数据。　　纵观数据湖与数据仓库的技术发展，不难发现两者有着各自的优劣，具体表现如下：　　企业在进行系统架构设计选型时，需要从具体的分析场景出发，单一的模式已经无法满足企业发展的业务诉求，集中表现在以下两个痛点：　　数据湖主要以离线批量计算为主，因为不支持数据仓库的数据管理能力，难以提高数据质量；数据入湖时效差不支持实时更新，数据无法强一致性；主题建模不友好，无法直接历史拉链建模；同时交互分析通常将数据搬迁到数据仓库平台，造成分析链路长，数据冗余存储；批&流等场景融合不够，无法满足企业的海量数据处理诉求。　　数据仓库满足不了非结构化数据的分析需求，性价比不高；同时仓&湖间难以互联互通，数据协同效率较低，无法支持跨平台透明访问，形成了事实上的数据孤岛，找数困难；缺乏全局数据视图，不同平台接口差异和不同开发管理工具，造成用户开发使用复杂，数据分别管理维护代价高体验差。数据湖和数据仓库正在从两条技术演进路线走向融合　　综上，数据湖和数据仓库在企业数据分析场景分别承担一湖一仓的重要角色，形成了完整的数据分析生态系统，上述企业场景面临的2个关键痛点也在驱动数据湖和数据仓库在技术演进上走向融合：　　第一个融合方向是基于Hadoop体系的数据湖向数据仓库能力扩展，湖中建仓，从DataLake进化到LakeHouse。LakeHouse结合了数据湖和数据仓库特点，直接在用于数据湖的低成本存储上实现与数据仓库中类似的数据结构和数据管理功能。目前业界已经涌现了一些LakeHouse产品，如Netflix开源Iceberg、Uber开源Hudi、Databricks的 DeltaLake。　　以目前生态发展迅速的Apache Hudi为例：统一数据存储，分布式存储不同应用所需的各种类型数据；数仓模式执行和治理，实现事务&更新机制，保证数据完整性和一致性，具有健壮的治理&审计机制；支持各种分析引擎，统一数据存储通过开放和标准化的存储格式（如Parquet），提供API以便各类工具和引擎（包括机器学习和Python / R库）直接有效地访问数据。　　虽然LakeHouse并不能完全替代数据仓库，但通过增强性能，支持实时入湖、建模、交互分析等场景，将在企业分析环境中发挥更大作用。　　第二个融合方向是数据湖和数据仓库协同起来向湖仓一体的融合分析架构发展，随着企业数据量快速增长，不仅是结构化数据，也有非结构化数据，同时提出了对搜索/机器学习更多的能力要求，使得原来数仓技术不能够有效的处理复杂场景，为此需扩展原有系统，引入Hadoop大数据平台实现新类型数据、新业务场景的支持。在这个背景下由Gartner在2011年提出逻辑数据仓库的概念，预测企业数据分析倾向于转向一种更加逻辑化的架构，利用分布式处理、数据虚拟化以及元数据管理等技术，实现逻辑统一物理分开的协同体系。　　湖仓一体可以认为是逻辑数据仓库架构理念下针对Hadoop数据湖和MPPDB数据仓库的融合架构的最好诠释，数据对用户将完全实现虚拟化，以逻辑统一的数据分析系统为企业提供数据分析服务：　　用户使用层面提供统一元数据管理和数据视图，实现全局数据可见可查，支持标准统一访问接口简化用户开发，提供统一开发和治理的工具体系。　　平台层面Hadoop与MPPDB具备数据共享和跨库分析能力，支持互联互通、计算下推、协同计算，实现数据多平台之间透明流动。华为云FusionInsight湖仓一体解决方案参考架构　　华为云FusionInsight智能数据湖涵盖了分布式存储、大数据、数据仓库、数据治理等，融合了上述两个技术演进方向，为企业用户提供云原生湖仓一体解决方案，整体的参考架构如下：　　下面一起来看看：数据存储层：　　通过OBS统一管理湖&仓的存储底座，将存储在EC（Erasure Code纠错码）、可靠性方面的优势融入进了大数据生态：云原生架构领先：　　基于云原生架构的OBS存储，具有高带宽，大并发，分布式元数据等特征，因此相同成本的华为存算分离的湖仓一体化集群，数据读写性能领先业界30%。存储计算分离有效降低TCO：　　支持大比例EC, 副本数从3最低可降低至1.09，TCO下降20%+。　　统一元数据管理实现湖仓共享存储资源池：通过独立的Data Lake Catalog提供统一元数据管理，兼容Hive Metastore接口，可以无缝对接各类大数据组件。实现针对同一份元数据定义支持各类场景、对象、文件、大数据等不同协议间的数据共享，让数据仓库、数据湖、图引擎、AI等多种计算引擎共享统一的数据存储池。此方案不仅消除了孤立系统中的数据副本，还使得客户可以按照业务按需使用计算存储资源，不仅降低了CAPEX，还简化了运维，从而达成最佳TCO。同时，Data Lake Catalog开放接口，支持和第三方的计算引擎层、数据治理层对接。计算引擎层：　　把事务能力引入数据湖，通过HetuEngine标准SQL实现跨域多源统一访问，湖&仓数据互通协同计算，数据免搬迁：CarbonData & Hudi数据实时入湖，实现数据湖事务能力：　　企业内部许多数据管道通常会并发读写数据，我们通过CarbonData& Hudi数据存储引擎实现数据实时、增量更新，数据T+0实时入湖，大幅缩短传统T+1、T+2时延；引入的增量处理框架，实现了数据湖事务能力，支持入湖过程中的Update/Delete等。HetuEngine支持跨源跨域统一SQL访问，简单易用：　　用户层基于统一的标准SQL接口，对接多个数据源（HDFS, HBase, DWS等），提供秒级交互式访问，满足各种统计分析、多表Join关联等，让分析建模人员数据分析更容易，降低访问门槛。HetuEngine & DWS-Express打破数据墙，数据免搬迁创新更敏捷：　　支持数据湖与数据仓库间的数据互联互通、跨平台协同计算，数据免搬迁。HetuEngine在湖内基于统一数据目录，实现高并发，高性能的交互式查询，基于一份数据进行批、流、交互式融合分析，贴源加工、整合关联、主题加工等都在湖内，数据不出湖，分析链路短，加速业务创新；用户可使用DWS-Express提供由成百上千节点组成的加速集群，对存储在OBS上的海量数据进行在线分析，相比本地托管集群，效率提升数百倍。自研Superior调度器支持单集群2万+节点规模，业界最佳：　　在一个集群内，通过华为自研的Superior调度器支持各种工作负载统一调度，包括数据科学、机器学习以及SQL和分析，调度速率达35万Container/s，资源利用率达90%+，大幅降低企业投入成本。数据冷热分级存储实现更高效的全生命周期管理：　　DWS具备与OBS的双向互通的能力，既能直接读取OBS上的海量历史数据，也能够直接写入数据到OBS。通过这个特性，我们可以对企业中的海量数据进行更加高效的全生命周期管理，分析中经常使用到的热/温数据存放在DWS中，较少使用的冷数据存放到OBS中，兼顾企业对分析性能和存储经济性的诉求。无缝衔接AI挖掘更多数据价值：　　深度优化一站式开发平台ModelArts&分布式图计算引擎GES提高开发效率。提供基于数据湖的AI训练推理能力，减少数据搬迁次数，基于100+机器学习算子和NLP算法，实现海量数据快速价值挖掘，满足场景预测、自然语言处理及企业知识图谱等应用；让GES更快捷地为金融等场景提供关系网络分析等服务。运营管理层：　　通过DAYU实现了湖&仓统一的数据集成、开发、目录、治理、开放服务等的运营管理：数据集成：　　实现多源异构数据高效入湖，支持批/流/实时数据多种方式接入。其中，批量数据迁移基于分布式计算框架，利用并行化处理技术，支持用户稳定高效地对海量数据进行移动，实现不停服数据迁移，快速构建所需的数据架构；流和实时数据接入每小时可从数十万种数据源（例如日志和定位追踪事件、网站点击流、社交媒体源等）中连续捕获、传送和存储数TB数据。数据开发：　　提供一站式敏捷数据开发平台，提供可视化的图形开发界面、丰富的数据开发类型（脚本开发和作业开发）、全托管的作业调度和运维监控能力，内置行业数据处理pipeline，一键式开发，全流程可视化，支持多人在线协同开发，支持管理多种大数据云服务，极大地降低了用户使用大数据的门槛，帮助用户快速构建数据湖数据处理中心。数据治理：　　为企业提供数据体系标准和数据规范定义的方法论，统一数据语言和数据建模；为普通业务人员提供高效、准确的数据搜索工具，高效找到数据；提供技术元数据与业务元数据的关联，业务人员快速读懂数据；为数据提供有效的质量管控和评估手段，数据可信质量高。数据开放：　　为数据湖搭建统一的数据服务总线，帮助企业统一管理对内对外的API服务，支撑业务主题/画像/指标的访问、查询和检索，提升数据消费体验和效率；支持100+开放API，拥有10+行业模板，使能行业ISV快速集成，助力客户数据标准资产沉淀。综上所述　　正是在三层架构都打通了湖仓的技术壁垒，我们才看到了真正的湖仓一体：　　数据存储层基于云原生领先架构，存算分离有效降低TCO，统一元数据管理实现湖仓共享存储资源池，针对同一份元数据定义支持各种场景，提供API方便各类工具和引擎（包括机器学习、Python、R等）直接有效地访问数据，这是实现湖仓一体的一个关键点；　　计算引擎层为数据湖增加了事务能力提升了数据质量；利用HetuEngine通过标准SQL访问跨域多源数据，实现湖&仓数据关联分析协同计算，简单易用; 打破数据墙，在湖内基于统一数据目录，可基于数据湖实现融合分析&AI训练推理，减少数据搬迁，实现海量数据快速价值挖掘。　　运营管理层则提供统一的数据开发和治理环境，具备安全管理功能，支持多引擎任务统一开发和编排，数据统一建模和质量监测，实现湖仓一致的开发治理体验。未来展望　　华为云FusionInsight智能数据湖基于客户需求和技术演进趋势持续创新，为企业客户提供湖仓一体解决方案，致力于打造业界最佳的数据底座，让企业业务的创新更敏捷，业务洞察更准确，加速释放数据价值，和数据使能协同更好地服务千行万业！　　　　

学习怪 发表于2021-08-09 14:32:11 2021-08-09 14:32:11 最后回复学习怪 2021-08-09 14:32:11
3618 0

FusionInsight
[解决方案] Spring-kafka对接华为FusionInsight Kafka 报没有方法错误

【功能模块】开发环境集群版本：6.5.1【操作步骤&问题现象】1、参考文档：Spring-kafka对接华为FusionInsight Kafka样例2、按照参考文档操作，测试时报没有方法错误【截图信息】pom文件：运行日志：【日志信息】（可选，上传日志内容或者附件）

tmtmtm1 发表于2021-08-04 18:52:53 2021-08-04 18:52:53 最后回复 tmtmtm1 2021-08-05 13:03:49
4134 5

FusionInsight Kafka Spring
[运维管理] 请问哪里可以下载FusionInsight6.5的扩容模板

请问哪里可以下载FusionInsight6.5的扩容模板？在填加主机时有选项使用模板添加？

yumingde 发表于2021-08-04 13:39:30 2021-08-04 13:39:30 最后回复 yumingde 2021-08-04 14:11:02
3481 2

FusionInsight
[行业动态] 华为云FusionInsight携手国家级大数据实验室，探索时序数据库IoTDB

7月30日，在华为云TechWave数据使能专题日上，华为云FusionInsight技术专家宋秉华博士携手清华大学软件学院院长、大数据系统软件国家工程实验室执行主任王建民教授发表演讲，共同分享了华为云FusionInsight技术团队携手国家级大数据实验室，探索时序数据库IoTDB。华为云FusionInsight技术专家宋秉华博士清华大学软件学院院长、大数据系统软件国家工程实验室执行主任王建民教授传统时序数据库面临的痛点与挑战随着物联网的飞速发展，工业领域中的设备、机器、传感器产生海量数据，例如物联网设备的温度、湿度、速度、压力、电压、电流以及证券买入卖出价等，且这些数值还将随着时间演进而不断变化，传统数据库在对这些带时间标签（按照时间的顺序变化，即时间序列化）的数据进行存储、查询、分析等处理操作时捉襟见肘，通用数据库无法满足所有需求、海量时序数据存储查询慢、工业级时序数据库产品需要高可用、存储成本居高不下、使用难等问题。IoTDB一套引擎打通云边端 IoTDB是由清华大学软件学院发起主导、华为深度参与的轻量级、高性能时间序列数据库，该项目于2018年11月正式开源，支持物联网数据收集、存储、查询与分析一体化的数据管理，支持“云-边-端”一体化部署与集成，适用于高端装备管理、工厂设备管理、高速网联设备管理等多种工业应用场景。IoTDB时序数据库聚焦海量杂时序数据的处理，具有“专、快、稳、省、易”五大特点，解决通用数据库和列式数据库在超大规模复杂时序场景的功能短板和性能瓶颈，轻松应对海量负责时间序列数据的处理，并能实现一套引擎打通云边端的时序数据分析。专，IoTDB总结了过去十年来在工业应用中遇到的典型需求，如千万级超大规模测点处理、乱序处理、多序列对齐、序列分割、子序列匹配、旋转门压缩、降采样存储等专业场景，有针对性地设计了TsFile专业时序存储格式和tLSM时序处理算法，解决了通用数据库在超大规模复杂时序场景的功能短板和性能瓶颈；快，时序数据库面临的场景要求数据采集频率高、每秒上万次采集，数据存储周期长，时间跨度大，IoTDB可实现单台服务器千万级数据秒级写入，十亿量级数据毫秒级聚合检索；稳，工业级的时序数据库产品需要具备高可用的基本保障，才能达到商用的要求，IoTDB创新性研究了国际内外的算法，通过对等分布式架构、双层多Raft协议、边云节点同步双活等机制实现高可用，满足7*24小时的零故障运行；省，成熟的工业时序数据库产品，存储成本在时间序列里占很大的比例，IoTDB解决工业客户对IT成本的敏感性，针对性的做了高压缩比算法，包括有损压缩和无损压缩，针对不同场景做自动识别，实现全量数据的低成本持久存储；易，产品的易用性是成熟商用产品的基础指标，IoTDB采用类SQL语句，降低客户使用成本，同时为客户提供查询、存储、分析全生命周期的一体化解决方案，降低客户使用门槛。IoTDB开源探索软件创新之路：产学研用目前，IoTDB已在众多应用场景中进行了落地实践。例如，全国多个城市采用IoTDB管理地铁监控数据，在传统时序处理方案中，端、边、云采用不同的技术栈，异构的技术栈带来数据处理的复杂性，原本需要13台服务器完成的业务场景，目前仅需一台IoTDB服务器就可解决，测点的采样时延也从原来的500ms降至200ms，日增4140亿数据点管理，有效提升资源利用率。 IoTDB时序数据库不仅解决了海量复杂时间序列数据的处理，同时也为软件创新探索出新的模式。王建民教授在演讲中提到：“未来，清华大学将依托大数据国家工程实验室，持续与华为为代表的大批优秀企业，探索产学研用的中国软件创新之路，实现企业与组织、代码与代码的丝丝相扣，让我们共同期待即将发布的MRS IoTDB时序数据库。”华为云FusionInsight MRS一架构三湖释放海量数据价值 MRS IoTDB是华为云FusionInsight MRS云原生数据湖中的时序数据库组件，近期将在FusionInsight8.1.0版本重磅推出高性能企业级时序数据库。华为云FusionInsight MRS可让客户在一个架构实现离线数据湖、实时数据湖、逻辑数据湖三种数据湖和集市能力，实现海量数据接入、治理、存储、分析和多模计算等场景，助力政企客户实现一企一湖、一城一湖，业务洞见更准，价值兑现更快。目前，华为云FusionInsight MRS云原生数据湖携手800+生态伙伴，已服务于3000+政企客户，广泛应用于政务、金融、运营商、能源、医疗、制造、交通等行业。更多精彩文章：https://bbs.huaweicloud.com/forum/thread-66105-1-1.html

沙漏 发表于2021-07-30 20:41:58 2021-07-30 20:41:58 最后回复沙漏 2021-07-30 20:41:58
1787 0

IoT FusionInsight 数据库大数据
[赋能学习] 华为云FusionInsight相关峰会活动视频汇总

华为云FusionInsight相关峰会活动视频汇总华为全联接2021（2021.09.23-25）主题演讲回看地址：链接专题演讲回看地址链接华为云FusionInsight版本新能力解读（00:00:04）工商银行携手华为云FusionInsight共建大数据体系（00:11:20）华傲数据携手华为云FusionInsight构建政务三算一景方案（00:27:20）东华博泰携手华为云FusionInsight打造能源大数据方案（00:38:10）交通银行携手华为云FusionInsight，加速建设数字化新交行（00:07:07）链接清华大学携手华为云FusionInsight共筑软件创新体系（00:21:16）链接永洪BI携手华为云FusionInsight，让数据分析更敏捷（00:11:35）链接华为云TechWave数据使能专题日（2021.07.30）数据分论坛视频回看地址（FusionInsight智能数据湖、MRS一架构三湖、IoTDB时序数据库-00:30:10）：链接华为云TechWave全球技术峰会-上海站（2021.06.18）主题演讲回看地址：链接数据分论坛视频回看地址（MRS一架构三湖-00:42:30）：链接2021华为智慧金融峰会（2021.06.04）主题演讲回看地址：链接数据分论坛视频回看地址（00:32:30 工商银行大数据规划，01:02:39 金融行业智能数据湖创新与探索，01:26:03 北明软件保险集团统一数据平台方案）：链接华为云TechWave云原生2.0专题日（2021.05.20）主题演讲回看地址（MRS一架构三湖）：链接华为云开发者大会2021（Cloud）（2021.04.24）主题演讲回看地址：链接千级节点的大数据集群如何无业务中断升级：链接跨源、跨域场景下如何实现海量数据分钟级分析：链接华为云TechWave全球技术峰会-深圳站（2021.04.08）主题演讲回看地址：链接华为云TechWave大数据专题日（2020.08.31）主题演讲回看地址：链接华为云FusionInsight系列文章：https://bbs.huaweicloud.com/forum/thread-66105-1-1.html

沙漏 发表于2021-07-21 17:37:43 2021-07-21 17:37:43 最后回复云上有未来 2021-07-23 14:26:54
5445 1

视频 FusionInsight
[二次开发] FusionInsight MRS是否有提供二次开发的Demo

【功能模块】二次开发【操作步骤&问题现象】FusionInsight MRS是否有提供二次开发的Demo【截图信息】【日志信息】（可选，上传日志内容或者附件）

FirewaII 发表于2021-07-16 11:31:37 2021-07-16 11:31:37 最后回复一枚核桃 2021-07-16 17:39:48
3783 2

FusionInsight MapReduce
[基础组件] FusionInsight MRS里面包含Tez组件吗？

项目中需要使用Tez组件，请问FusionInsight MRS里面包含Tez组件吗？

FirewaII 发表于2021-07-15 17:05:52 2021-07-15 17:05:52 最后回复一枚核桃 2021-07-16 17:41:41
3273 2

FusionInsight MapReduce
[行业动态] 华为云FusionInsight助力太保跨多版本升级业务0中断

2021年4月21日，中国太平洋保险集团联合华为云完成了全球首例大数据集群跨多版本的大数据集群滚动升级，突破传统方案需离线停机多次升级模式，一次性将核心现网集群版本由FusionInsight HD C70升级到FusionInsight MRS 8.0.2，横跨C80、6.5.1两个版本，同时完成了大数据集群从物理机向云服务的模式转变，实现该案例在金融同业首例突破，树立同业新标杆。经过为期两周的升级实施过程操作，实现太保上层业务无感的平滑滚动升级，全程集群作业无中断、性能无影响。本次跨版本滚动升级的成功对金融科技领域意义重大，标志着中国太平洋保险为金融同业树立了大数据服务跨多版本升级、业务连续性和可持续演进的新建设标杆。一、项目背景中国太平洋保险集团从2017年选择华为云FusionInsight构建保险大数据平台。随着太保与华为云合作的持续深入，其内部主要业务系统都已使用华为云大数据平台。但是早期各业务系统都建设了独立的大数据集群，数据无法互通，存在数据冗余，且多集群造成维护难问题。截止升级前已建设18套大数据集群，以FusionInsight HD C70版本为主。随着太保业务的高速发展，对大数据平台的统一管理、数据共享、升级演进有了新的诉求，希望将现网18套生产集群进行统一升级和归并，同时面向未来提供大数据集群可持续演进的能力。为此，太保联合华为云，决定将现有18套大数据集群，由FusionInsight HD C70版本统一升级到MRS8.0，升级的主要目标：通过对原集群升级归并，统一为一套大集群，通过资源整合，提高资源利用率；统一到MRS平台版本资源监控更完善，定位问题更准确；升级到云平台，可以按需灵活调配资源，实现可演进的湖仓一体架构，扩展其他高阶服务。二、项目内容2.1 技术挑战太保大数据集群按需部署了HBase、Hive、HDFS、ZooKeeper、YARN、Oozie、Hue、Spark等各类组件。此外，集群中每日有上万作业的执行，也为无感知的滚动升级加大了难度。主要挑战有以下几点：Hadoop组件内核由X到3.X的跨大版本升级中，社区仅提供了HDFS的滚动升级能力，YARN的社区原生目标版本由于与原版本协议不同，无法支持滚动升级；社区原生版本的HDFS在升级过程中，删除的文件并不会物理删除，而是移动到trash目录，这一处理对大容量集群的滚动升级造成存储资源压力，阻碍了剩余信息保护，如果不能及时清理会导致爆盘问题；Hive组件内核由X到3.X的跨大版本升级中，由于元数据前后格式不兼容、API前后版本有变化、部分语法不兼容等问题，导致社区原生版本无法支持滚动升级；HBase组件内核由X到2.X的跨大版本升级中，API前后版本存在较大的变化，导致社区原生版本无法支持滚动升级；每日上万任务量，滚动升级期间如何保障平稳运行，尤其是损益分析、减值测算等核心场景；600+节点的大数据集群环境下，需要确保在升级过程中突发状况，快速应对硬件（磁盘、内存等）故障，不影响升级；70+业务系统，数百个业务在此集群上运行，滚动升级过程中需要保证每一个业务运行不受损。2.2 技术保障滚动升级就是借助于FusionInsight MRS的高可用机制、主备模式、多副本机制、机架策略等在不影响集群整体业务的情况下，一次升级/重启部分节点。循环滚动，直至集群所有节点升级到新版本。下图为已HDFS组件滚动升级示例：为应对上述技术挑战项目组建了滚动升级小组，由社区PMC、社区Commiter、版本Developer构成，主要执行了以下技术保障：依托协议同步、元数据映射转换、API封装转换等方式，解决了社区协议不同、元数据格式不同、API变化等导致的兼容性问题，保障了滚动升级过程中低版本的组件客户端的正常使用；针对HDFS社区新版本升级过程中的文件未删除问题，额外实现了trash目录自动清理，将逻辑删除转换为物理删除，并增补了旧版本定期清理trash目录的工具。确保了基础设施资源利用的有效性，降低存储成本；针对组件升级前后性能状况、升级时长、升级过程中和事后可能出现的瓶颈点等问题，做了相应架构调整及优化，助力实现滚动升级的全局可控、全程无感、全面无误；运维管理方面，项目组针对性的研发了升级管理服务界面，可以端到端、分步骤地完成滚动升级，便于查看滚动升级状态，实现组件级控制。为了降低在升级过程中对关键任务服务连续性的影响，项目实现了按升级批次暂停的功能，有助于在关键作业或者作业高峰时段，通过暂停升级进行风险规避，确保业务无影响。此外，为避免各种突发事件中断升级进程，项目实现了故障节点隔离能力，在故障发生时，可以跳过对应节点的升级动作，保障了故障处理和升级的同步进行。2.3 组织保障项目启动后，成立了以太保相关领导为项目经理，以华为交付和研发、太保的研发和运维为成员的联合项目组。本次升级面向的应用部门多达20+，平台涉及业务数量多且复杂。为保证滚动升级成功且整个过程中业务要做到0中断，在升级前、中、后的6个月里由华为方主导，客户各个业务部门紧密配合，项目组制定了周密的组织保障制度。太保升级项目组织保障升级前准备阶段：在项目组整体协调和华为的研发支撑下，完成了70+应用代码改造及验证，并输出测试报告；为充分识别风险，华为主动提供测试环境硬件资源，项目组联合各应用部门，进行了3次升级演练的联合测试；为达成升级前置条件，华为专家调研指导，有效的进行了集群小文件合并、客户端整改、集群多次巡检、升级方案的反复评审改进等升级前准备工作；升级过程保障：在升级过程的两周期间，华为安排研发、方案等专家现场保障。华为协同太保联合项目组制定了24小时排班保障、联合项目组和应用部门间的信息反馈及沟通（滚动升级中每组件升级完都需业务验证及确认）、升级操作的联合项目组授权、升级操作的录屏监控等制度；升级后观察：滚动升级完成后，联合项目组协调各应用部门进行应用业务验证，且已全部输出业务运行正常报告。后华为项目组后续持续观察两周时间，确认平台及应用运行正常后进行了本次升级提交。三、总结与展望太平洋保险联合华为公司完成的本次金融业首家大数据集群跨多版本的滚动升级，实现了上层业务无感知、全程集群作业无中断、性能无影响，切实保障了客户的核心利益，也树立了金融同业新标杆。随着数字化技术的不断迭代升级，将改变传统保险运营模式，未来主要会呈现出以下三个方向的变革：实现从大数到小数，加强风险数字刻画，从过去的大数概率到小数更加敏锐的感知，将从根本上改变传统的运营模式；从实体到虚拟，数据已是重要的生产资料，通过海量数据识别和评估新型资产的风险，将成为保险业的核心能力；从保险到治理，数字化将提升保险公司自身风险管理能力，将更多的参与到国家、城市的风险治理当中，逐步从损失补偿到风险管理和治理。面向未来，太平洋保险将携手华为持续创新，不断完善风险生态，贯彻"以客户需求为导向"的战略，建设"专注保险主业，价值持续增长，具有国际竞争力的一流保险金融服务集团"。更多精彩文章：https://bbs.huaweicloud.com/forum/thread-66105-1-1.html

沙漏 发表于2021-07-05 10:53:11 2021-07-05 10:53:11 最后回复沙漏 2021-07-05 10:53:11
2470 0

FusionInsight 大数据
[互动交流] 【fusioninsight.elasticsearch 产品】

微服务分布式情况如何实现统一认证写在网关服务中还是？

cc01 发表于2021-06-30 13:48:12 2021-06-30 13:48:12 最后回复晋红轻 2021-06-30 16:02:09
3070 2

Elasticsearch FusionInsight
[其他] 【fusioninsight.elasticsearch 产品】

1，现在要做业务迁移把之前自己的es业务逻辑全部都放到华为云的es上2，现有业务使用得是spring data 封装的ElasticsearchRepository工具类操作es3，如果切换为华为的es，需要修改逻辑代码吗所有ElasticsearchRepository操作变成PreBuiltHWTransportClient这种操作方式吗?4，如果不改代码华为的认证模块应该如何添加

cc01 发表于2021-06-28 20:04:27 2021-06-28 20:04:27 最后回复好运莲莲 2021-06-29 15:13:58
5136 2

Elasticsearch FusionInsight
[维护宝典] FusionInsight Kafka创建Topic失败原因及解决方案

一、无权限创建Topic会报错“ERROR org.apache.zookeeper.KeeperException$NoAuthException: KeeperErrorCode = NoAuth for /config/topics/topicName。解决办法是使用具体kafkaadmin权限的用户。二、 Quota限制创建Topic会报错“Nodes number exceed quota limit for /config/topics/topicName”。解决办法是：检查Kafka全部配置中Quota配置quota.number是否是250000，如果不是改为此值。同步zk配置。FusionInsight Manager页面“集群->Zookeeper->更多->同步配置”，同步配置操作每5分钟执行一次，最多等5分钟，zk客户端执行listquota /kafka查看quota的count值是否为250000。zk客户端执行操作方法如下：进入FI客户端（例如/opt/hadoopclient）执行命令source bigdata_env执行命令kinit 用户名（普通模式跳过）执行sh -server zk业务IP:24002三、副本个数大于正常节点数创建Topic会报错“ERROR org.apache.kafka.common.errors.InvalidReplicationFactorException: Replication factor: X larger than available brokers: X”解决办法是：解决异常节点问题或减少副本数。四、客户端版本低客户端是低版本而服务端是高版本时，创建Topic可能不会报错但是查看topic的describe信息时leader为none。原因是zk上报没有权限访问“/brokers/topics/topicName”目录，此目录下无法创建partitions目录。解决办法是：使用与服务端对应的客户端版本。

Summer_ 发表于2021-06-28 17:33:51 2021-06-28 17:33:51 最后回复 Summer_ 2021-06-28 17:33:51
4799 0

FusionInsight Kafka

上滑加载中

推荐直播

码道新技能，AI 新生产力——从自动视频生成到开源项目解析
2026/04/08 周三 19:00-21:00

童得力-华为云开发者生态运营总监/何文强-无人机企业AI提效负责人

本次华为云码道 Skill 实战活动，聚焦两大 AI 开发场景：通过实战教学，带你打造 AI 编程自动生成视频 Skill，并实现对 GitHub 热门开源项目的智能知识抽取，手把手掌握 Skill 开发全流程，用 AI 提升研发效率与内容生产力。
回顾中
华为云码道：零代码股票智能决策平台全功能实战
2026/04/18 周六 10:00-12:00

秦拳德-中软国际教育卓越研究院研究员、华为云金牌讲师、云原生技术专家

利用Tushare接口获取实时行情数据，采用Transformer算法进行时序预测与涨跌分析，并集成DeepSeek API提供智能解读。同时，项目深度结合华为云CodeArts（码道）的代码智能体能力，实现代码一键推送至云端代码仓库，建立起高效、可协作的团队开发新范式。开发者可快速上手，从零打造功能完整的个股筛选、智能分析与风险管控产品。
回顾中
华为云码道全新升级，多会话并行与多智能体协作
2026/05/08 周五 19:00-21:00

王一男-华为云码道产品专家；张嘉冉-华为云码道工程师；胡琦-华为云HCDE；程诗杰-华为云HCDG

华为云码道4月份版本全新升级，此次直播深度解读4月份产品特性，通过“特性解读+实操演示+实战案例+设计创新”的组合，全方位展现码道在多会话并行与多智能体协作方面的能力，赋能开发者提升效率
即将直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript