FusionInsight_标签_开发者

博客(344)
视频(57)
论坛(203)
云声(0)
代码示例(0)

[问题求助] 如何通过FI平台的版本号确定依赖jar包的版本号

官方的样例代码里依赖的版本是这样的格式2.2.3-hw-ei-302002看不出来jar包版本与平台版本的关系正常来说应该是跟cdh一样要下对应平台版本的jar包吧？那得知平台版本号之后应该怎么确认jar包版本号呢比如说我现在平台的版本号是6.5.1，平台内hbase的版本号是1.3.1，那二次开发时对应依赖jar包的版本应该是什么

匿名用户 发表于2022-09-01 09:45:44 2022-09-01 09:45:44 最后回复一枚核桃 2022-09-01 11:12:13
125 2

Maven FusionInsight
[问题求助] 华为maven仓库下载相应包的源码失败

10:12 Cannot download sources Sources not found for: org.apache.spark:spark-hive_2.11:2.4.5-hw-ei-302002

匿名用户 发表于2022-08-29 10:16:24 2022-08-29 10:16:24 最后回复晋红轻 2022-08-29 14:18:35
69 2

FusionInsight 大数据
[问题求助] 通过Yarn提交Yarn任务报错 Protocol message end-group tag did not match expected tag.

大佬们好，我们再对接华为大数据平台【FusionInsight Manager】时出现了一下问题问题描述：我们设计的Yarn任务提交设计以下几个步骤：检测 Yarn执行资源是否充足【成功】QueueInfo queueInfo = yarnClient.getQueueInfo(amClientContext.getQueueName());设置yarn运行相关信息【成功】//部分代码 appContext.setApplicationName(amClientContext.getAppName()); appContext.setAttemptFailuresValidityInterval(20000); Set tags = new HashSet<>(1); tags.add("ddmp"); appContext.setApplicationTags(tags); ApplicationId appId = appContext.getApplicationId();上传待运行的任务至HDFS 【成功】以下是部分代码，上传资源，包括设置yarn执行相关的环境变量，将AppMaster任务信息设置好/** * 添加一个本地资源到远程 * * @param fs 文件系统 * @param fileSrcPath 要上传的文件 * @param fileName 文件名 * @param appId 应用id * @param localResources 本地文件资源映射 * @param resources 文件资源 ,有时候我们并没有实际的资源信息，只有一个类似于命令操作，如果我们想将该命令生成一个文件并上传，就可以将该命令写在这里 * @throws IOException 异常信息 */ private void addToLocalResources(String appName, FileSystem fs, String fileSrcPath, String fileName, String appId, Map localResources, String resources) throws IOException { //获取要上传的目录路径 String suffix = appName + "/" + appId + "/" + fileName; Path dst = new Path(fs.getHomeDirectory(), suffix); //当要上传的文件不存在的时候尝试将 resources 文件写入到一个目录中 if (fileSrcPath == null) { FSDataOutputStream ostream = null; try { //赋予可读,可写,可执行的权限 ostream = FileSystem.create(fs, dst, new FsPermission((short) 456)); ostream.writeUTF(resources); } finally { IOUtils.closeStream(ostream); } } else { //将要上传的文件拷贝到对应的目录中 fs.copyFromLocalFile(new Path(fileSrcPath), dst); } //获取刚刚上传的文件的状态 FileStatus scFileStatus = fs.getFileStatus(dst); //创建一个本地资源映射 hdfs URI uri = dst.toUri(); URL url = URL.fromURI(uri); long len = scFileStatus.getLen(); long modificationTime = scFileStatus.getModificationTime(); LocalResource scRsrc = LocalResource.newInstance(url, LocalResourceType.FILE, LocalResourceVisibility.APPLICATION, len, modificationTime); //放入到资源映射中 localResources.put(fileName, scRsrc); }提交AppMaster任务到Yarn引擎【失败】// 为应用程序主机设置容器启动上下文 ContainerLaunchContext amContainer = ContainerLaunchContext.newInstance(localResourceMap, env, commands, null, null, null); //权限处理 securityCheck(amContainer, amClientContext); //将容器设置进上下文对象 appContext.setAMContainerSpec(amContainer); //配置任务优先级状态 Priority pri = Priority.newInstance(0); appContext.setPriority(pri); //配置队列名称 appContext.setQueue(amClientContext.getQueueName()); yarnRunCallHook.doMessage("任务准备完成，开始提交任务！"); yarnClient.submitApplication(appContext);程序再运行到 yarnClient.submitApplication(appContext); 时执行卡住，通过日志观察，出现一下日志：48833 [main] INFO org.apache.hadoop.io.retry.RetryInvocationHandler - com.google.protobuf.InvalidProtocolBufferException: Protocol message end-group tag did not match expected tag., while invoking ApplicationClientProtocolPBClientImpl.getApplicationReport over 27. Trying to failover immediately. 48833 [main] INFO org.apache.hadoop.yarn.client.ConfiguredRMFailoverProxyProvider - Failing over to 28 49849 [main] INFO org.apache.hadoop.io.retry.RetryInvocationHandler - java.net.ConnectException: Call From DESKTOP-BTSFCSH/10.0.55.152 to 10-0-120-162:26004 failed on connection exception: java.net.ConnectException: Connection refused: no further information; For more details see: http://wiki.apache.org/hadoop/ConnectionRefused, while invoking ApplicationClientProtocolPBClientImpl.getApplicationReport over 28 after 1 failover attempts. Trying to failover after sleeping for 35465ms. 85315 [main] INFO org.apache.hadoop.yarn.client.ConfiguredRMFailoverProxyProvider - Failing over to 27 85366 [main] INFO org.apache.hadoop.io.retry.RetryInvocationHandler - com.google.protobuf.InvalidProtocolBufferException: Protocol message end-group tag did not match expected tag., while invoking ApplicationClientProtocolPBClientImpl.getApplicationReport over 27 after 2 failover attempts. Trying to failover after sleeping for 30581ms.请重点关注 Protocol message end-group tag did not match expected tag. 连接主节点的时候，出现协议不一致的问题连接信息如下：fs.defaultFS=hdfs://hacluster yarn.resourcemanager.address.27=10-0-120-161:26004 yarn.resourcemanager.address.28=10-0-120-162:26004 yarn.resourcemanager.ha.rm-ids=27,28 dfs.client.failover.proxy.provider.hacluster=org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider yarn.resourcemanager.scheduler.address.28=10-0-120-162:26002 dfs.nameservices=hacluster yarn.resourcemanager.scheduler.address.27=10-0-120-161:26002 dfs.namenode.rpc-address.hacluster.14=10-0-120-161:25000 dfs.namenode.rpc-address.hacluster.15=10-0-120-162:25000 yarn.resourcemanager.ha.enabled=true yarn.resourcemanager.recovery.enabled=true yarn.log-aggregation-enable=true dfs.ha.namenodes.hacluster=14,15 yarn.http.policy=HTTPS_ONLYFusionInsight Manager 已经开启Kereros,再本次提交中，kerberos认证已经通过以上配置信息来自于 FusionInsight Manager 配置，确认端口信息等无误！以下是引入的Maven依赖 3.1.1 1.3.1 3.1.0 8 8 org.apache.hadoop hadoop-common ${hadoop.version} org.apache.hadoop hadoop-client ${hadoop.version} org.apache.hadoop hadoop-mapreduce-client-app ${hadoop.version} org.apache.hadoop hadoop-mapreduce-client-common ${hadoop.version} org.apache.hadoop hadoop-mapreduce-client-core ${hadoop.version} org.apache.hbase hbase-client ${hbase.version} org.apache.hbase hbase-common ${hbase.version} org.apache.hbase hbase-protocol ${hbase.version} org.apache.hbase hbase-server ${hbase.version} org.apache.hive hive-jdbc ${hive.version} org.apache.hive hive-service ${hive.version} 上述依赖，模仿华为云大数据平台客户端案例的依赖！

yd_282967238 发表于2022-08-20 16:04:27 2022-08-20 16:04:27 最后回复 Bubbly 2022-08-24 10:59:22
275 7

Hadoop Yarn FusionInsight 大数据
[维护宝典] 华为云FusionInsight MRS运维系列课程

推荐学习顺序：请知：编号顺序相同的可并行学习；知识图谱：课程链接：组件名称组件介绍链接Manager华为FusionInsight HD是一个分布式数据处理系统，对外提供大容量的数据存储、查询和分析能力基础知识安装教程运维知识HBaseHBase是一个开源的非关系型分布式数据库（NoSQL），它参考了谷歌的BigTable建模，实现的编程语言为 Java。它是Apache软件基金会的Hadoop项目的一部分，运行于HDFS文件系统之上，为 Hadoop 提供类似于BigTable 规模的服务。基础串讲+运维知识最佳实践KafkaKafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。该项目的目标是为处理实时数据提供一个统一、高吞吐、低延迟的平台。基础串讲+运维知识最佳实践HiveHive 是一个架构在 Hadoop 之上的数据仓库基础工具，它可以处理结构化和半结构化数据，它使得查询和分析存储在 Hadoop 上的数据变得非常方便基础串讲+运维知识最佳实践SparkApache Spark 是一种用于大数据工作负载的分布式开源处理系统。它使用内存中缓存和优化的查询执行方式，可针对任何规模的数据进行快速分析查询。基础串讲+运维知识最佳实践FlinkApache Flink 是一个框架和分布式处理引擎，用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行，并能以内存速度和任意规模进行计算。基础串讲+运维知识最佳实践

Bigdata Go! 发表于2022-08-15 10:38:10 2022-08-15 10:38:10 最后回复马生 2023-03-24 10:12:49
1949 5

MapReduce服务 MRS HBase Hadoop FusionInsight 大数据
[赋能学习] 为什么我下载文档全是锁，显示我是普通用户，请问怎样才能下载fusionInsight相关软件和文档

为什么我下载文档全是锁，显示我是普通用户，请问怎样才能下载fusionInsight相关软件和文档

yd_225725146 发表于2022-07-14 11:18:44 2022-07-14 11:18:44 最后回复一枚核桃 2022-07-14 14:42:40
356 1

FusionInsight
[行业动态] FusionInsight 使用费用是怎样的，可以离线部署吗

FusionInsight 使用费用是怎样的，可以离线部署吗，又相关资费介绍吗

yd_225725146 发表于2022-07-14 11:13:27 2022-07-14 11:13:27 最后回复一枚核桃 2022-07-14 14:40:10
332 1

FusionInsight
[行业动态] 上千节点无中断升级，华为云FusionInsight是如何做到的？

金融领域的反欺诈、精准营销等大量的业务场景对服务连续性要求高，7*24小时不能中断，为了保持业务的连续性和技术引领，一个超大规模、高效率、可持续发展的数据底座显得尤为重要，而不中断业务的滚动升级能力则成为最硬核的衡量指标，中国最佳零售银行，金融数据湖上千节点滚动升级，2万多个业务正常运行，这背后的奥秘究竟是什么?今天让我们深入了解一下……作为“中国最佳零售银行”，某股份制银行一直将客户体验放在首位。近年来，该行以轻型银行为战略目标，打造以数据作为关键战略资产的未来银行，通过引入华为云FusionInsight建设全行统一的金融数据湖，汇聚各渠道业务数据，实现全行数据资源共享，用于探索新的客户体验和商业模式。当前，该行金融数据湖规模达到千余节点，承载了行内上万应用，支撑反欺诈、智慧营销等重要业务场景，日均处理数万大数据作业。随着该行不断深入使用大数据技术，逐步支撑行内关键金融业务，对于整个数据湖平台的服务连续性要求也越来越高，一方面行内金融数据湖要紧跟技术潮流不断升级革新，一方面要求支撑行内外业务的数据湖能够7*24小时不中断服务。然而传统的方案需要断电重启，显然不能满足行内业务连续性保障的要求；同时在金融数据湖升级过程中，对于数据湖这种复杂系统来讲，传统升级方案如果碰到突发的故障，容易导致整个升级动作中断重来，为平稳升级带来极大地挑战。近期，该行采用FusionInsight MRS云原生数据湖滚动升级能力，实现行内大数据平台的成功滚动升级，升级过程中金融数据湖承载的行内2万+应用正常运行，实现两个“不中断”：业务不中断数据湖承载了成千上万的任务作业，在升级过程中，关键的数据分析服务要能够不间断地支撑上层业务，这就导致升级和使用存在着矛盾冲突；MRS具有循环滚动升级能力，一次升级少量节点，循环滚动，直至整个集群的所有节点升级到新版本；同时，为了降低升级对关键任务SLA的影响，MRS还提供滚动升级暂停能力，在任务高峰时段或关键任务执行时，可以保障关键任务正常平稳运行。分批次升级示意图进度不中断数据湖是一个复杂系统，由服务器、存储、网络、软件等组成，在升级时经常会碰到突发事件，如磁盘故障、网络拥塞问题。在大数据平台升级过程中，部署人员需要应对各种突发事件，如磁盘故障、网络拥塞等多种异常场景，客户要求不中断升级。MRS提供故障节点隔离能力，在故障发生时，可以跳过该节点的升级动作，让故障处理和集群升级有序进行。滚动升级不仅是一个升级动作，更是一个系统工程。该行携手华为云FusionInsight MRS云原生数据湖，从兼容性、可靠性、工具自动化、保障团队等多方面入手，注重细节，实现了行内大数据平台架构的平滑演进，升级过程行内用户无感知，保障上层业务平稳运行。MRS目前已通过中国信通院3万+大集群评测，还可以通过集群联邦扩展到10万+大集群。除此之外，还为大规模集群提供超级调度器Superior，资源调度效率是开源大数据的30倍+，能够让整个集群的资源利用率最高达到90%+。截止目前，华为云FusionInsight已先后帮助国有大行、股份制银行、城商农信行，运营商如广东移动、浙江移动等客户实现平滑升级，顺利完成累计60000多节点的无风险升级，让3000+政企客户技术永新，业务永远在线。在本次升级过程中，某股份制银行成功上线了最新版本的华为云FusionInsight MRS云原生数据湖，并在新集群上提供如HetuEngine、 ClickHouse、Hudi等新组件，为项目管理、反欺诈、BI报表等业务创新提供有力技术支撑。在整个升级期间，行内数万名数据分析师毫无感觉，同事模型平台、先机平台、反欺诈平台等关键业务应用平滑运行无中断，为进一步行内实现湖仓一体目标，深度使用FusionInsight奠定良好基础。

沙漏 发表于2022-07-11 09:24:46 2022-07-11 09:24:46 最后回复沙漏 2022-07-11 09:24:46
238 0

FusionInsight 大数据
[问题求助] fusioninsight opensource flink sql 作业

fusioninsight opensource flink 1.12 sql 作业中，怎么把kafka的数据接进来写入postgres中，尝试好多，一直sql校验失败。查资料没有示例

bigdata的AI 发表于2022-06-08 12:59:49 2022-06-08 12:59:49 最后回复黄生 2022-06-12 11:03:39
757 5

Flink FusionInsight SQL
[问题求助] FusionInsight 做主备HA检测时，备节点能ha替代主，但是主节点一直无法启动oms.sh也无法启动HA

已重装

Bert2021 发表于2022-05-30 16:16:23 2022-05-30 16:16:23 最后回复 Bert2021 2022-06-01 13:13:06
663 5

云容灾 FusionInsight
[知识分享] HDFS 细粒度锁优化，FusionInsight MRS有妙招

本文分享自华为云社区《[FusionInsight MRS HDFS 细粒度锁优化实践](https://bbs.huaweicloud.com/blogs/353362?utm_source=csdn&utm_medium=bbs-ex&utm_campaign=ei&utm_content=content)》，作者：pippo。 # 背景 HDFS依赖NameNode作为其元数据服务。NameNode将整个命名空间信息保存在内存中提供服务。读取请求（getBlockLocations、listStatus、getFileInfo）等从内存中获取信息。写请求（mkdir、create、addBlock）更新内存状态，并将日志事务写入到日志服务（QJM）。 HDFS NameNode的性能决定了整个Hadoop集群的可扩展性。命名空间性能的改进对于进一步扩展Hadoop集群至关重要。 - Apache HDFS 整体架构如下： ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20225/27/1653615824071691620.png) - Apache HDFS 交互信息如下： ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20225/27/1653615845153231628.png) # 痛点 HDFS NameNode的写操作的性能受全局命名空间系统锁的限制。每个写操作都会获取锁并保留锁，直到该操作执行完成。这样可以防止写入操作的并发执行，即使它们是完全独立的，例如命名空间中的对象不相交部分。 # 什么是Fine Grained Locking（FGL） FGL【细粒度锁】的主要目的是通过在独立命名空间分区上用多个并发锁替换全局锁，允许写入操作的并发。 # 当前状态 HDFS设计思路为一次写，多次读。读操作使用共享锁，写操作使用独占锁。由于HDFS NameNode元数据被设计为单个内存空间中的命名空间树，因此树的任何级别的写操作都会阻塞其它写操作，直到当前写操作完成。虽然写是一次，但是当涉及大量并发读/写操作时，这就会影响整体性能。在HDFS NameNode中，内存中的元数据有三种不同的数据结构： - INodeMap: inodeid -> INode - BlocksMap: blockid -> Blocks - DataNodeMap: datanodeId -> DataNodeInfo INodeMap结构中包含inodeid到INode的映射，在整个Namespace目录树种存在两种不同类型的INode数据结构：INodeDirectory和INodeFile。其中INodeDirectory标识的是目录树中的目录，INodeFile标识的是目录树中的文件。 BlocksMap结构中包含blockid到BlockInfo的映射。每一个INodeFile都会包含数量不同的Block，具体数量由文件大小以及每个Block大小来决定，这些Block按照所在文件的先后顺序组成BlockInfo数组，BlockInfo维护的是Block的元数据；通过blockid可以快速定位Block。 DataNodeMap结果包含datanodeid到DataNodeInfo的映射。当集群启动过程中，通过机架感知逐步建立起整个集群的机架拓扑结构，一般在NameNode的生命周期内不会发生大变化。通过INodeMap和BlocksMap共同标识存储在HDFS中的每个文件及其块的信息。随着文件数量的增加，此数据结构大小也会随之增加，并对单个全局锁的性能产生很大影响。下面我们采用简单的文件目录树结构来演示现有的单一全局锁在文件系统的缺点。 ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20225/27/1653615920936272267.png) HDFS NameNode 内存目录树结构如上图所示，/D11/D21/D31/F2 和 /D12/D24/D38/F16是不相交的文件，即有不同的父节点和祖父节点。可以看到F2和F16是两个独立的文件，对其中一个文件的任何操作都不应该影响另一个文件。 # 设计如前所述，HDFS NameNode将文件信息和元数据结构在内存中保存为一个目录树结构。当修改任意两个独立的文件时，第二次操作需要等到第一次操作完成并释放锁。释放锁以后，只有第二个操作获取锁后才能继续修改文件系统。类似的，后续操作也会阻塞，直到第二次操作释放锁。在下面的例子中，我们考虑2个文件并发写入（创建、删除、追加。。。）操作。F2和F16是文件系统下的2个独立文件（具有不同的父节点和祖父节点）。在将内容追加到F2时，F16也可以同时进行修改。但是由于整个目录树全局对象锁，对F16的操作必须等对F2的操作完成后才能执行。代替全局锁，可以将锁分布在一组名为“分区”的文件中，每个分区都可以有自己的锁。现在F2属于分区-1，F16属于分区-2。F2文件操作可以通过获取分区-1的锁来进行修改，F16文件操作可以通过获取分区-2的锁来进行修改。和以前一样，需要先获取全局锁，然后搜索每个文件属于哪个分区。找到分区后，获取分区锁并释放全局锁。因此全局锁并不会完全被删除。相反，通过减少全局锁时间跨度，一旦释放全局锁，则其它写操作可以获取全局锁并继续获取分区锁来进行文件操作。 ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20225/27/1653615954378433039.png) 分区的数量如何决定？如果有效的定义分区从而获得更高的吞吐量？默认情况下，分区大小为65K，溢出系数为1.8。一旦分区达到溢出条件，将会创建新分区并加入到分区列表中。理想情况下，可以拥有等于NameNode可用CPU核数的分区数，过多的分区数量将会使得CPU过载，而过少的分区数量无法充分利用CPU。 # 实现引入新的数据结构-PartitionedGSet，它保存命名空间创建的所有分区信息。PartitionEntry是一个分区的对象结构。LatchLock是新引入的锁，用于控制两级锁--顶层锁和子锁。 # PartitionedGSet PartitionedGSet是一个两级层次结构。第一层RangeMap定义了INode的范围，并将它们映射到相应的分区中。分区构成了层次结构的第二级，每个分区存储属于指定范围的INode信息。为了根据键值查找INode，需要首先在RangeMap中找到对应键值的范围，然后在对应的RangeSet，使用哈希值获取到对应的INode。 ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20225/27/1653615992450186918.png) HDFS NameNode 两级层次结构 RangeGSet的容量有一定的阈值。当达到阈值后，将创建新的RangeGSet。空的或者未充分利用的RangeGSet由后台RangeMonitor守护程序来进行垃圾回收。 HDFS NameNode启动时，根据镜像中的INode数量计算合理的初始分区数。同时还需要考虑CPU核数，因为将分区数量提高到远超CPU核数并不会增加系统的并行性。 - 动态分区：分区的大小有限，可以像平衡树一样可以进行分裂和合并。 - 单个分区：只有一个分区，且只有一个与之相对应的锁，并且应和全局锁类似。这适用于小型集群或写入负载比较轻的集群。 - 静态分区：有一个固定的RangeMap，不添加或者合并现有分区。这适用于分区均匀增长的文件系统。而且这将消除锁定RangeMap的要求，允许并行使用锁。 # Latch Lock RangeMap与RangeGSet分别有单独的锁。Latch Lock是一种锁模式，其中首先获取RangeMap的锁，以查找与给定INode键对应的范围，然后获取与分区对应的RangeGSet的锁，同时释放RangeMap锁。这样针对任何其它范围的下一个操作都可以开始并发执行。在RangeMap上持有锁类似于全局锁。目录删除、重命名、递归创建目录等几个操作可能需要锁定多个RangeGSet。这要确保当前HDFS语义所要求的操作的原子性。例如，如果重命名将文件从一个目录移动到另一个目录，则必须锁定包含文件、源和目标目录的RangeMap，以便使重命名成为原子。此锁定模式的一个理想优化是允许某些操作的Latch Lock与其他操作的全局锁结合使用。 # INode Keys HDFS中的每个目录和文件都有一个唯一的INode，即使文件被重命名或者移动到其它位置，该INode会保持不变。INode键是以文件INode本身结尾，前面包含父INode的固定长度序列。 Key Definition: key(f) = selfId是文件的INodeId，pId是父目录的INodeId，ppId是父目录的父目录的INodeId。INode键的这种表达不仅保证了同级，同时也保证了表亲（相同祖父节点）在大多数情况下被分区到相同的范围中。这些键基于INodeId而非文件名，允许简单的文件和目录进行重命名，称为就地重命名，而无需重新进行分区。 # 效果经过测试验证使用和不使用FGL功能性能，在主要写入操作情况下，吞吐量平均提高了25%左右。 ## 详细性能对比使用Hadoop NN Benchmarking工具（NNThroughputBenchmark）来验证NameNode的性能。每个写入API验证并观察到平均25%的性能提升。有很少一部分轻微或者没有提升的API，分析并发现这些API均是轻量级API，因此没有太大的提升。 NNThroughputBenchmark是用于NameNode性能基准测试工具。该工具提供了非常基本的API调用，比如创建文件，创建目录、删除。在这个基础上进行了增强，从而能够支持所有写入API，并能够捕获使用和不使用FGL的版本的性能数据。用于测试的数据集：线程数 1000、文件数 1000000、每个目录文件数 40。 # 写入调用频率高的API ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20225/27/1653616077867487794.png) # 其它内部写API ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20225/27/1653616090511168604.png) # 常用读取API：通过完整的FGL实现，读取API也有很好的性能提升。 ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20225/27/1653616112137858409.png) # 运行基准测试工具的命令： ./hadoop org.apache.hadoop.hdfs.server.namenode.NNThroughputBenchmark -fs file:/// -op create -threads 200 -files 1000000 -filesPerDir 40 –close ./hadoop org.apache.hadoop.hdfs.server.namenode.NNThroughputBenchmark -fs hdfs:x.x.x.x:dddd/hacluster -op create -threads 200 -files 1000000 -filesPerDir 40 -close # 参考与FGL相关的社区讨论 Hadoop Meetup Jan 2019 — HDFS Scalability and Consistent Reads from Standby Node, which covers Three-Stage Scalability Plan. Slides 21–25 社区中跟踪与NameNode可扩展性相关的其它Jira HDFS-5453. Support fine grain locking in FSNamesystem HDFS-5477. Block manager as a service HDFS-8286. Scaling out the namespace using KV store HDFS-14703. Namenode Fine Grained Locking (design inspired us to implement it fully) # 总结华为云FusionInsight MRS云原生数据湖为政企客户提供湖仓一体、云原生的数据湖解决方案，构建一个架构可持续演进的离线、实时、逻辑三种数据湖，支撑政企客户全量数据的实时分析、离线分析、交互查询、实时检索、多模分析、数据仓库、数据接入和治理等大数据应用场景。华为云FusionInsight MRS通过FGL对HDFS NameNode锁机制进行优化，有效提升了NameNode的读写吞吐量，从而能够支持更多数据，更多业务请求访问，从而更好的支撑政企客户高效用数，业务洞见更准，价值兑现更快。

双倍芝士。 发表于2022-05-27 09:49:41 2022-05-27 09:49:41 最后回复双倍芝士。 2022-05-27 09:49:41
242 0

Hadoop FusionInsight MapReduce
[问题求助] FusionInsight 重装DWS 时，preinstall error version is lower than

【【日志信息】（可选，上传日志内容或者附件）

Bert2021 发表于2022-05-10 21:31:15 2022-05-10 21:31:15 最后回复胡辣汤 2022-05-12 09:58:00
641 7

云数据仓库 GaussDB(DWS) FusionInsight
[问题求助] fusioninsight 主管理节点ntp启动成功，备用节点的ntp启动失败

证书还没到期，systemctl status ntpd也能看到ntp服务正常启动ntp状态信息每次都是主机和备机只能装上一个，另外一个就报ntp超时的错误

学习DWS的小白 发表于2022-05-06 15:47:28 2022-05-06 15:47:28 最后回复学习DWS的小白 2022-05-07 11:13:47
665 3

NTP FusionInsight
[问题求助] 【FusionInsight产品6.5.1】【LoaderServer功能】LoaderServer重启后服务显示404

【功能模块】 loaderserver【操作步骤&问题现象】1、做完重启了FI集群，今天发现Loader WebUI，ResourceManager WebUI点进去之后显示404【截图信息】【日志信息】（可选，上传日志内容或者附件）

p00557943 发表于2022-03-10 11:29:25 2022-03-10 11:29:25 最后回复 p00557943 2022-03-10 19:10:31
741 2

FusionInsight
[生态对接] Kibana-oss 6.7.1对接 FusionInsight Elasticsearch6.7.1

【功能模块】FusionInsight Elasticsearch 6.7.1Kibana 6.7.1linux系统为7.x x86【操作步骤&问题现象】1、按照https://bbs.huaweicloud.com/forum/thread-66788-1-1.html这篇文章的步骤，kibana连接es, 日志报错如下：{"type":"log","@timestamp":"2022-02-23T02:16:25Z","tags":["warning","elasticsearch","admin"],"pid":8726,"message":"Unable to revive connection: http://x.x.x.x:24100/"}2、打开浏览器，访问kibana,http://x.x.x.x:5601,报错如下：Kibana server is not ready yet【截图信息】有谁知道这个问题怎么解决吗？【日志信息】（可选，上传日志内容或者附件）

大海11 发表于2022-02-23 10:31:45 2022-02-23 10:31:45 最后回复大海11 2022-02-25 15:39:52
1304 2

Elasticsearch FusionInsight
[行业动态] 华为云FusionInsight连续三次获得第一加速释放数据要素价值

近日，IDC发布《中国大数据平台市场研究报告，2021 H1》，华为云FusionInsight智能数据湖已连续三次获得大数据平台市场份额第一。基于超过10年服务于政务、金融、运营商、大企业、互联网等行业客户的实践经验，华为云FusionInsight智能数据湖通过不断的技术创新为客户提供业界领先的云原生、湖仓一体解决方案。如今，数据已经与土地、劳动力、资本、技术并称为五种要素，数据不仅是一种产业或应用，更是国家发展的战略性、基础性资源。未来，数据要素市场空间巨大，通过驱动关键大数据技术和开源技术的不断创新发展，培育数据要素市场，打造新型数字产业，到2025年大数据产业规模将达到3万亿。大数据产业快速发展，已成为支撑经济社会发展的优势产业。华为云FusionInsight智能数据湖不断深入客户场景，提供大数据轻咨询专业服务，加速释放各行各业数据要素价值。在政务领域，华为云FusionInsight智能数据湖已为部委、各省市客户，提供领先的大数据云服务产品组合。2021年，华为云携手华傲数据，基于FusionInsight联合打造“三算一景”的政务大数据治理解决方案：华为云提供大数据所需的“算力”，基于各委办局的海量数据资源，即“算料”，通过数据治理的模型不断打磨数据 “算法”，贯穿包括一网统管、一网通办、一屏尽览等“应用场景”。在“一秒七办”方案中，实现政务数据服务的自动匹配、自动填表、自动证明、自动核对、自动审批、自动评审、自动响应，让业务场景纵向高效畅通；结合大数据、区块链、AI技术，横向扩宽业务范围，实现跨部门、跨层级的互联互通，让“数据多跑路，群众少跑腿”。在金融领域，近年来工商银行、交通银行、杭州银行等银行、保险、证券客户携手华为云FusionInsight智能数据湖共建金融大数据体系。其中在工商银行已建成同业最大的大数据单集群，总规模达4000+节点，支撑行内外200+应用。工行的风险控制、损益预查询等关键业务也逐步接入大数据平台。在交互查询场景，该行通过MRS HetuEngine数据虚拟化引擎，分析提效50倍，提升全行13000名分析师即时BI新体验，并已面向全行推广。在运营商领域，随着移动互联网、IoTDB等技术的迅猛发展，运营商已深入支撑各行各业的大数据应用。广东移动基于华为云FusionInsight智能数据湖，联合政企客户共同打造智慧电网、智慧交通、智慧港口、高清视频等系列标杆应用，实现对内业务支撑、对外应用赋能，建成服务于超过1.3亿移动用户的大数据平台。在互联网领域，华为云在互联网大数据市场同样突飞猛进，在公有云上也建立了专属Region，为客户上云提供便利，使得像梦饷集团、T3出行这样的大型互联网客户纷纷转向华为云。梦饷集团依托MRS云原生数据湖，使用DLI数据湖探索和数据仓库作为基础数据处理层，支持离线、实时、交互式场景，并无缝对接AI引擎，实现智能推荐与搜索，释放数据价值，驱动梦饷集团全场景业务的数字化与智能化升级。在大企业领域，制造、生产、服务型企业越来越重视大数据，不断提升区域统筹能力，提高服务水平。在电力能源、生产制造、交通城轨等领域，越来越多的企业采用云边端的方式协同计算海量数据，支撑业务创新。华为云MRS携手清华大学打造专、快、易、稳、省的IoTDB时序库，覆盖海量高频，且具有时序特点的时序数据分析，一份数据兼容云边端全场景。同时，随着我国提出“双碳”的战略目标，在2021年东华博泰携手华为云FusionInsight，实现以数据为源力核，平台为运力核，应用为创力核，体系为内力核，生态为汇力核，打造“五核聚一”的数字化运营架构，为能源行业提供大数据创新解决方案，共建智慧能源生态圈。越来越多的政务、金融、运营商、互联网、大企业客户，优选华为云FusionInsight智能数据湖构建大数据体系，在数字化转型过程中实现业务的高质量可持续发展。客户需要企业级+安全+高效的大数据平台科技为社会发展提供的源动力，推动了机械化、电气化、自动化和信息化，到如今的智能化。在智能化阶段，数据成为“新石油”，为经济社会发展提供取之不尽用之不竭的“原材料”，这一点是数据要素有别于其他资源的重要特征。越来越多的客户越来越重视数据资产，同时大多数客户在建设大数据平台时要求，不仅要满足当下业务发展需要，还要支撑其未来发展战略目标，进而对大数据底层技术平台提出了更高的要求，需具备如下特点：特点一：企业级，可持续演进各行业的大数据平台已承载了海量数据和关键业务场景，如金融实时风控业务场景，对于业务连续性要求高，需7*24小时不中断；华为云FusionInsight智能数据湖提供单集群6万+节点大规模滚动升级能力，确保关键业务升级“0”中断。特点二：安全可靠，放心使用数据资产安全是大数据平台建设的必备要素。华为云FusionInsight智能数据湖经过超过10年不断打磨，已服务于60多个国家超过3000个客户，深入行业场景化实践，理解客户业务场景化诉求，因为懂行业、懂数据，所以“敬畏”数据。在平台安全方面，FusionInsight围绕数据全生命周期，构筑可信的安全体系，让未经授权的访问者“进不来、看不到、拿不走、赖不掉、用不了、坏不了”以及多平面网络物理隔离，防止数据意外泄露；在数据共享、融合分析等场景，DGC数据湖治理中心除了提供全链路数据治理能力，还提供分层分级的数据安全开放管理，使得客户在不断提高数据要素质量的同时，还能安全地共享数据；在跨地域、跨部门、跨业务的协同安全计算场景中，FusionInsight还提供TICS可信智能计算服务，提供深度协同优化联邦训练和全同态加密，让跨部门、跨层级数据协同分析“可用不可见”，加速数据要素市场化流通，并获得权威机构包括信通院、金标委的多项认证。时至今日，大数据平台重要性已不言而喻，FusionInsight可以让数据“坏不了”,实现数据备份、跨AZ（可用区）容灾、异地容灾的全场景覆盖，进一步保障业务连续性。特点三：高效易用，不断创新工业革命实现了从“马车”到“火车”的重要改变，资源的挖掘、开采与提炼不断解放了生产力，人们的工作效率得以不断提升。在效率方面，大数据平台建设呈现云原生化趋势，结合容器等虚拟化技术，实现大数据计算所需资源的快速上线，从传统建设耗时数月降至数分钟。在数据供应时效性方面，传统大数据方案批量接入，全量更新，T+1式天级供数，无法满足上层业务的灵活变化；华为云FusionInsight MRS提供自研CDL引擎，配合Hudi+Flink+ClickHouse方案，实时接入，增量更新，PB级数据毫秒级自助分析，结合自研RTD实时决策引擎，实现海量数据从接入到决策的全链路实时数据湖，让数据时效从T+1走向T+0，高效释放海量数据价值。“湖仓一体”+“轻咨询”，打通大数据的“任督二脉”近十年，大数据技术发展迅猛，“湖仓一体”已是数据湖建设的首选架构，其通过统一的数据存储，让数据在湖内流动，减少数据搬迁和冗余，最终实现一份数据支持多工作负载。早在2020年5月，华为云在全球分析师大会上提出“湖仓一体”概念，华为云FusionInsight智能数据湖提供云原生数据湖服务和云数据仓库服务，湖仓既可以灵活按需部署，也可以融合演进到湖仓一体的架构，并基于云原生存储实现存算分离架构，使得数据在底层统一存储，统一元数据，计算与存储资源灵活扩容，采用1.2副本替换传统 3副本方案，让资源利用率提高2倍+。在“全局一份数据”基础之上，FusionInsight提供自研数据虚拟化引擎HetuEngine，其具有自动学习、自动感知、自动优化等智能化特点，上层通过SQL操作大数据，降低技术使用门槛，让海量数据跨域高效、跨源易用，协同分析提效50倍。同时还能让客户在一个架构上实现离线、实时、逻辑三种数据湖和数仓集市，解决传统大数据平台存在的烟囱式建设，湖仓割裂，数据来回搬迁等问题。华为云FusionInsight还为客户提供大数据轻咨询服务，从大数据平台顶层设计规划，到大数据场景化业务构建，甚至包括客户的大数据业务上线运维，提供端到端的专业服务，使能客户，加速客户的数据供给能力。大平台、大市场、大机遇本次华为云FusionInsight智能数据湖在《IDC中国大数据平台市场研究报告，2021H1》获得市场第一，得益于其超过10年持续深入客户业务场景，通过不断地技术创新，为客户提供领先的智能数据湖解决方案。这已是FusionInsight连续三次蝉联中国大数据市场第一，之前分别在IDC《中国大数据平台市场研究，2020》取得2019年市场份额第一，在《IDC MarketScape：中国大数据管理平台厂商评估，2020》报告中获得2020年市场份额第一。独行快、众行远。开放的平台已广泛被政务、金融、运营商、互联网、大企业所使用。华为云FusionInsight智能数据湖坚定开放路线，先后开放CarbonData和openLooKeng，联合世界顶级高校如清华大学持续探索中国软件创新之路，引领全球大数据技术不断发展。华为云FusionInsight将持续联合800+合作伙伴，为客户提供领先的大数据解决方案，在大平台、大市场、大机遇的历史时刻，共同谱写新型数字产业新篇章。更多精彩文章：https://bbs.huaweicloud.com/forum/thread-66105-1-1.html

沙漏 发表于2022-01-26 18:01:54 2022-01-26 18:01:54 最后回复沙漏 2022-01-26 18:01:54
1801 0

FusionInsight 大数据

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript