• [最佳实践] 收集kafka-root.log查看每个broker节点的磁盘IO
    kafka-root.log 位于broker实例所在节点的路径:/var/log/Bigdata/kafka/broker下,该日志里面会统计每分钟kafka磁盘io的使用率,打印信息如下:可以通过Linux命令批量检查一个或者整个集群的io使用情况。         (1)查询一个broker节点的io使用情况,并且过滤掉0.0x的低磁盘使用率数据。登录到其中一个broker节点的后台目录/var/log/Bigdata/kafka/broker,执行以下命令cat kafka-root.* |   grep "Collect topic partition" | awk -F'is:' '{print $2}' | awk -F',' '{print $1}' | grep –v "0.0"(2) 查询整个集群所有broker节点的io使用情况,并且过滤掉0.0x的低磁盘使用率数据。通过前台将对应时间段的kafka日志全部收集回来在本地全部解压缩后,在根目录下全部查询,zgrep ioUsage ./根目录kafka的目录*/var/log/Bigdata/kafka/broker/kafka-root.* | grep "Collect topic partition" | awk -F'topic info' '{print $1}' | awk '{print $1 " " $2 " " $15}' | grep -v "0.0"例如:如下根目录下kafka的目录名称为n-kafka-* 那么命令为zgrep "ioUsage" ./n-kafka-*/var/log/Bigdata/kafka/broker/kafka-root.* | grep "Collect topic partition" | awk -F'topic info' '{print $1}' | awk '{print $1" "$2 " " $15}' | grep -v "0.0"得出的结果如下:如果以上的结果持续出现0.8~1.0的数值,说明磁盘io在80%~100%之间,磁盘可能存在异常注意:在8.0版本后ioUsage的数据信息被调整为了DEBUG,如果需要该数据需要手动调整broker节点的log4j日志。调整方式如下:1,登录到每个broker节点的/opt/huawei/Bigdata/FusionInsight_Current/*_*_Broker/etc目录下2,打开log4j.properties文件vim log4j.properties3,在最后一行追加log4j.logger.com.huawei.kafka.PartitionStatusMetrics=DEBUG,rootAppender
  • [最佳实践] 使用了raid方式部署,定期开启PR巡检,导致磁盘IO下降
    PR巡检是RAID卡的一个特性,它会周期性的定时巡检磁盘,对数据进行检查校验,以防出错,但是在巡检的时候会导致磁盘读写性能下降。Raid卡缓存写策略,建议使用WB模式,WB:在配置界面中一般体现为“Write Back”等字样。使用此策略后,需要向虚拟磁盘写数据时,会直接写入Cache中,当写入的数据积累到一定程度,RAID卡才将数据刷新到虚拟磁盘,这样不但实现了批量写入,而且提升了数据写入的速度。当控制器Cache收到所有的传输数据后,将给主机返回数据传输完成信号。要使用该策略,要求RAID卡支持数据掉电保护功能,且如果此时超级电容异常,可能导致数据丢失。WT:在配置界面中一般体现为“Write Through”等字样。使用此策略后,RAID卡向虚拟磁盘直接写入数据,不经过Cache。当磁盘子系统接收到所有传输数据后,控制器将给主机返回数据传输完成信号。此策略缺点是写入速度较低。排查方式:针对以上两种场景,均有明显的磁盘IO升高的情况,建议通过3.3章节对kafka-root.log进行检查。如果kafka集群的磁盘部署使用了raid5建议硬件侧关闭PR巡检。开启WB模式
  • [其他] 使用了与服务端版本不一致的客户端,并且开启了数据压缩带来的问题
    数据压缩是kafka解决空间问题和超大数据问题关键场景,例如:当kafka的磁盘空间不足时,可以使用数据压缩,来节省磁盘空间的使用。当生产端需要向kafka集群发送大量的超大数据(大于1M的数据)时可以通过开启压缩模式来减少传输过程中带来的网络消耗。压缩模式开启有一定的要求,为什么会这样,先看kafka压缩的原理:Kafka服务端使用的topic最终压缩模式(由compression.type决定)为producer。这也就意味着,开启压缩后存在kafka中的数据类型其实本质就是一个压缩包。如下图:     图:客户端与kafka服务端版本一致的存储方式如果客户端与kafka服务端版本不一致会怎样?再看下面的图。                                             图:客户端与kafka服务端版本不一致的存储方式客户端使用的kafka-client-xxxx.jar版本要与服务端的版本不一致时,在kafka的服务端会出现,对数据的“解压缩,再压缩”的过程。这个流程会非常损耗CPU,并且可能会造成kafka的GC超时从而导致kafka集群性能下降。排查方式:如果节点CPU使用率超过80%,或者有kafka的GC时间超过阈值的告警。或者查看异常的broker节点的监控曲线:如果这个节点的GC时间长时间达到了秒级,说明GC不正常。给kafka进程打一个jstack,如果jstack中出现gzip, snappy,lz4,zstd,说明有开启压缩,例如开启了GZIP。解决方案:建议客户升级客户端,保持和服务端一致使用低版本客户端时,禁用压缩
  • [问题求助] MRS312是否支持以下内容
    1.SAPHANA对接 2.大数据组件中HDFS、Hive可用通过S3文件系统接口访问S3存储 3.大数据平台支持异构集群部署,在集群中存在不同硬件规格的服务器,允许在CPU类型,内存大小、硬盘数量与容量等方面有差异
  • [问题求助] FusionInsigh HD如何写外部HBase
    FusionInsight HD安全模式下,需要认证,但是有时候需要任务跑在FusionInsight上,写到外部的非认证HBase集群,此时就会出现zk一直无法连接的问题。虽然后面通过去掉zk认证的相关参数,可以对接外部集群,但是对接FusionInsightHD又出现了问题Spark程序大致如下public List read(List list) { Configuration conf; if (isFusion) { JavaSparkContext jsc = new JavaSparkContext(getSparkSession().sparkContext()); conf = HBaseConfiguration.create(jsc.hadoopConfiguration()); try { // 设置zk服务器端认证信息 String krb5Conf = System.getProperty(LoginUtil.JAVA_SECURITY_KRB5_CONF_KEY); String keytab = System.getProperty("spark.yarn.keytab"); String principal = System.getProperty("spark.yarn.principal"); // zk认证和hadoop认证 logger.info("HBaseReader zk principal:{},keytab:{},krb5Conf:{}", new String[]{hadoopPrincipal, keytab, krb5Conf}); LoginUtil.setJaasConf(LoginUtil.ZOOKEEPER_DEFAULT_LOGIN_CONTEXT_NAME, principal, keytab); LoginUtil.setZookeeperServerPrincipal(LoginUtil.ZOOKEEPER_DEFAULT_SERVER_PRINCIPAL); logger.info("HBaseReader hadoop principal:{},keytab:{},krb5Conf:{}", new String[]{principal, keytab, krb5Conf}); LoginUtil.login(principal, keytab, krb5Conf, conf); } catch (Exception e) { logger.error("HBaseReader cannot login", e); throw new RuntimeException("HBaseReader login fail"); } } else { conf = new Configuration(); System.setProperty("zookeeper.sasl.client", "false"); System.clearProperty("java.security.auth.login.config"); System.clearProperty("zookeeper.server.principal"); } conf.set("hbase.zookeeper.quorum", zkServers); conf.set("hbase.zookeeper.property.clientPort", zkPort); conf.set(TableInputFormat.INPUT_TABLE, tableName); conf = addAdditionConfig(conf); JavaPairRDD rdd = new JavaSparkContext(this.getSparkSession().sparkContext()) .newAPIHadoopRDD(conf, TableInputFormat.class, ImmutableBytesWritable.class, Result.class ); JavaRDD rddRow = null; boolean useDefaultConfig = nodeMapping.getMatrix() == null || nodeMapping.getMatrix().length <= 0; if (useDefaultConfig) { rddRow = rdd.mapPartitions(new HBaseResultToRow(rowKeyAlias)); } else { Map> aliasFamilyQualifierMap = new HashMap<>(); for (String[] strings : nodeMapping.getMatrix()) { aliasFamilyQualifierMap.put(strings[2], new Tuple2(strings[0], strings[1])); } rddRow = rdd.mapPartitions(new HBaseResultToRow(aliasFamilyQualifierMap, rowKeyAlias)); } // ..... more }这个就很迷,明明已经 Login success!!!!!!!!!!!!!! 但是HBase访问还是报错2022-10-18 15:55:17,506 | ERROR | [htable-pool2-t1] | SASL authentication failed. The most likely cause is missing or invalid credentials. Consider 'kinit'. | org.apache.hadoop.hbase.ipc.RpcClientImpl$Connection$1.run(RpcClientImpl.java:687) javax.security.sasl.SaslException: GSS initiate failed [Caused by GSSException: No valid credentials provided (Mechanism level: Failed to find any Kerberos tgt)] at com.sun.security.sasl.gsskerb.GssKrb5Client.evaluateChallenge(GssKrb5Client.java:211) at org.apache.hadoop.hbase.security.HBaseSaslRpcClient.saslConnect(HBaseSaslRpcClient.java:169) at org.apache.hadoop.hbase.ipc.RpcClientImpl$Connection.setupSaslConnection(RpcClientImpl.java:620) at org.apache.hadoop.hbase.ipc.RpcClientImpl$Connection.access$700(RpcClientImpl.java:165) at org.apache.hadoop.hbase.ipc.RpcClientImpl$Connection$2.run(RpcClientImpl.java:750) at org.apache.hadoop.hbase.ipc.RpcClientImpl$Connection$2.run(RpcClientImpl.java:747) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:422) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1729) at org.apache.hadoop.hbase.ipc.RpcClientImpl$Connection.setupIOstreams(RpcClientImpl.java:747) at org.apache.hadoop.hbase.ipc.RpcClientImpl$Connection.writeRequest(RpcClientImpl.java:950) at org.apache.hadoop.hbase.ipc.RpcClientImpl$Connection.tracedWriteRequest(RpcClientImpl.java:914) at org.apache.hadoop.hbase.ipc.RpcClientImpl.call(RpcClientImpl.java:1288) at org.apache.hadoop.hbase.ipc.AbstractRpcClient.callBlockingMethod(AbstractRpcClient.java:227) at org.apache.hadoop.hbase.ipc.AbstractRpcClient$BlockingRpcChannelImplementation.callBlockingMethod(AbstractRpcClient.java:336) at org.apache.hadoop.hbase.protobuf.generated.ClientProtos$ClientService$BlockingStub.scan(ClientProtos.java:35518) at org.apache.hadoop.hbase.client.ScannerCallable.openScanner(ScannerCallable.java:404) at org.apache.hadoop.hbase.client.ScannerCallable.call(ScannerCallable.java:211) at org.apache.hadoop.hbase.client.ScannerCallable.call(ScannerCallable.java:65) at org.apache.hadoop.hbase.client.RpcRetryingCaller.callWithoutRetries(RpcRetryingCaller.java:218) at org.apache.hadoop.hbase.client.ScannerCallableWithReplicas$RetryingRPC.call(ScannerCallableWithReplicas.java:398) at org.apache.hadoop.hbase.client.ScannerCallableWithReplicas$RetryingRPC.call(ScannerCallableWithReplicas.java:372) at org.apache.hadoop.hbase.client.RpcRetryingCaller.callWithRetries(RpcRetryingCaller.java:139) at org.apache.hadoop.hbase.client.ResultBoundedCompletionService$QueueingFuture.run(ResultBoundedCompletionService.java:79) at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624) at java.lang.Thread.run(Thread.java:748)
  • 在线文档有问题啊,华为FushionSphere OpenStack应该是FusionSphere OpenStack吧
    什么是OpenStack?OpenStack能做什么? - 华为 (huawei.com)原文:华为FushionSphere OpenStack简介应该是:FusionSphere OpenStack文中多处有问题。
  • [教程指导] 应用MRS引导操作自动化安装livy样例脚本及其使用指导
    操作场景Apache Livy 是一个可以通过 REST 接口与 Spark 集群进行交互的服务,它可以提交 Spark 作业或者 Spark 代码片段,同步或者异步的进行结果检索以及 Spark Context 上下文管理。了解更多请访问livy官网http://livy.incubator.apache.org/。本指导旨在介绍,如何在创建集群时添加引导操作,利用shell脚本自动化地在MRS集群master节点安装livy。使用限制在创建集群时使用只在master节点安装livy创建集群时需要赋予集群默认委托MRS_ECS_DEFAULT_AGENCY,赋予集群节点权限从OBS对象桶中下载livy安装包只适用于MRS普通集群,开启kerberos认证的安全集群暂不适用前提条件对MRS集群引导操作功能有一定了解,具体可以参见链接引导操作简介、通过引导操作安装第三方软件、引导操作脚本样例文后所附引导操作脚本bootstrap-livy.sh已上传到OBS桶某路径下,本指导存放脚本的OBS桶路径以"obs://qianyu-xg/"为例。livy安装包已下载,并上传到OBS桶某路径下,附livy安装包官方下载链接livy-download。本指导存放livy安装包的OBS桶路径以"obs://qianyu-xg/pack/"为例,livy安装包名以"apache-livy-0.7.1-incubating-bin.zip"为例操作步骤1、如下图所示,使用自定义购买方式购买MRS集群:2、如下图,在高级配置阶段,点选引导操作添加按钮:3、如下图所示,填写引导操作相关参数,具体参数内容见如下描述描述:名称:该引导操作名称,默认bootstrap_0,可不做修改脚本路径:bootstrap-livy.sh在OBS对象桶上存放的全路径,obs://qianyu-xg/bootstrap-livy.sh参数:bootstrap-livy.sh的脚本入参,第一个为livy安装包存放路径,obs://qianyu-xg/pack/,第二个为livy安装包全名,apache-livy-0.7.1-incubating-bin.zip 执行节点:只选择master节点,active master可以不开启执行时机:组件首次启动后失败操作:继续4、以上操作结束后,点选确定,完成引导操作添加:5、集群创建完成后,使用EIP访问livy web ui,浏览器中输入 http://${manager_eip}:8998/ 访问附:引导脚本bootstrap-livy.sh#!/bin/bash -exBUCKET_PATH=$1ZIP_FILE=$2LIVY_DIR=`basename $ZIP_FILE .zip`DOWNLOAD_DIR=/tmpAPPLICATION_DIR=/home/ommecho "=====================Set env====================="if [ ! -f /opt/Bigdata/client/bigdata_env ] ; then echo "Skip master3" exit 0fisource /opt/Bigdata/client/bigdata_envecho "=====================Download and unpack install package====================="cd $DOWNLOAD_DIRhdfs dfs -get $BUCKET_PATH/$ZIP_FILE ./$ZIP_FILEif [ ! -f ./$ZIP_FILE ] ; then echo "Failed to download $ZIP_FILE" return 1fi echo "Succeeded to download $ZIP_FILE"cd $APPLICATION_DIRunzip -d $APPLICATION_DIR $DOWNLOAD_DIR/$ZIP_FILE echo "=====================Configure livy====================="cd $APPLICATION_DIR/$LIVY_DIRcp conf/livy.conf.template conf/livy.confecho "livy.spark.master = yarn" >> conf/livy.confecho "livy.spark.deploy-mode = cluster" >> conf/livy.confecho "=====================Start livy====================="bin/livy-server start > /home/omm/livy.out
  • [问题求助] 写spark代码进行二次开发的时候,还需要往SparkConf里set相关的配置项目吗
    我看了官方的demo代码,在hive to hbase项目代码里,只设置了appName,其余的全部没有设置,是可以自动读取hive-site.xml等配置文件吗?huaweicloud-mrs-example/SparkHivetoHbase.java at mrs-3.0.2 · huaweicloud/huaweicloud-mrs-example (github.com)这是我举例的代码连接这个是代码中读取hive表数据的代码片段 SparkConf conf = new SparkConf().setAppName("SparkHivetoHbase"); JavaSparkContext jsc = new JavaSparkContext(conf); HiveContext sqlContext = new org.apache.spark.sql.hive.HiveContext(jsc); Dataset dataFrame = sqlContext.sql("select name, account from person");如果在代码中需要设置的话我有一个问题,hive默认的元数据服务是DBService,那hive.metastore.uris这一项应该怎么配置
  • [问题求助] 三个节点的情况下FusionInsight HD空间占用有多少
    我需要通过虚拟机搭建一个3节点的FI集群,看到简单安装的教程说每个节点需要300G,但是我的硬盘没有这么大,所以我想知道最小安装需要多少空间,每个文件夹存储空间分配。这只是我的测试集群,只用于开发,测试数据可能500M都没有。
  • [问题求助] 【问题求助】HCS810 MapReduce服务扩容DN节点/srv/BigData/hadoop/data2目录后,发现数据不是分布存放到不同目录,而像是同时下发
    HCS810 MapReduce服务扩容DN节点/srv/BigData/hadoop/data2目录后,发现数据不是分布存放到不同目录,而像是同时下发
  • [问题求助] 如何通过FI平台的版本号确定依赖jar包的版本号
    官方的样例代码里依赖的版本是这样的格式2.2.3-hw-ei-302002看不出来jar包版本与平台版本的关系正常来说应该是跟cdh一样要下对应平台版本的jar包吧?那得知平台版本号之后应该怎么确认jar包版本号呢比如说我现在平台的版本号是6.5.1,平台内hbase的版本号是1.3.1,那二次开发时对应依赖jar包的版本应该是什么
  • [问题求助] 华为maven仓库下载相应包的源码失败
    10:12    Cannot download sources             Sources not found for:             org.apache.spark:spark-hive_2.11:2.4.5-hw-ei-302002
  • [问题求助] 通过Yarn提交Yarn任务 报错 Protocol message end-group tag did not match expected tag.
    大佬们好,我们再对接华为大数据平台【FusionInsight Manager】时出现了一下问题问题描述:我们设计的Yarn任务提交设计以下几个步骤:检测 Yarn执行资源是否充足   【成功】QueueInfo queueInfo = yarnClient.getQueueInfo(amClientContext.getQueueName());设置yarn运行相关信息【成功】//部分代码 appContext.setApplicationName(amClientContext.getAppName()); appContext.setAttemptFailuresValidityInterval(20000); Set tags = new HashSet<>(1); tags.add("ddmp"); appContext.setApplicationTags(tags); ApplicationId appId = appContext.getApplicationId();上传待运行的任务至HDFS 【成功】 以下是部分代码,上传资源,包括设置yarn执行相关的环境变量,将AppMaster任务信息设置好/** * 添加一个本地资源到远程 * * @param fs 文件系统 * @param fileSrcPath 要上传的文件 * @param fileName 文件名 * @param appId 应用id * @param localResources 本地文件资源映射 * @param resources 文件资源 ,有时候我们并没有实际的资源信息,只有一个类似于命令操作,如果我们想将该命令生成一个文件并上传,就可以将该命令写在这里 * @throws IOException 异常信息 */ private void addToLocalResources(String appName, FileSystem fs, String fileSrcPath, String fileName, String appId, Map localResources, String resources) throws IOException { //获取要上传的目录路径 String suffix = appName + "/" + appId + "/" + fileName; Path dst = new Path(fs.getHomeDirectory(), suffix); //当要上传的文件不存在的时候 尝试将 resources 文件写入到一个目录中 if (fileSrcPath == null) { FSDataOutputStream ostream = null; try { //赋予 可读,可写,可执行的权限 ostream = FileSystem.create(fs, dst, new FsPermission((short) 456)); ostream.writeUTF(resources); } finally { IOUtils.closeStream(ostream); } } else { //将要上传的文件拷贝到对应的目录中 fs.copyFromLocalFile(new Path(fileSrcPath), dst); } //获取刚刚上传的文件的状态 FileStatus scFileStatus = fs.getFileStatus(dst); //创建一个本地资源映射 hdfs URI uri = dst.toUri(); URL url = URL.fromURI(uri); long len = scFileStatus.getLen(); long modificationTime = scFileStatus.getModificationTime(); LocalResource scRsrc = LocalResource.newInstance(url, LocalResourceType.FILE, LocalResourceVisibility.APPLICATION, len, modificationTime); //放入到资源映射中 localResources.put(fileName, scRsrc); }提交AppMaster任务到Yarn引擎 【失败】// 为应用程序主机设置容器启动上下文 ContainerLaunchContext amContainer = ContainerLaunchContext.newInstance(localResourceMap, env, commands, null, null, null); //权限处理 securityCheck(amContainer, amClientContext); //将容器设置进上下文对象 appContext.setAMContainerSpec(amContainer); //配置任务优先级状态 Priority pri = Priority.newInstance(0); appContext.setPriority(pri); //配置队列名称 appContext.setQueue(amClientContext.getQueueName()); yarnRunCallHook.doMessage("任务准备完成,开始提交任务!"); yarnClient.submitApplication(appContext);程序再运行到 yarnClient.submitApplication(appContext); 时执行卡住,通过日志观察,出现一下日志:48833 [main] INFO org.apache.hadoop.io.retry.RetryInvocationHandler - com.google.protobuf.InvalidProtocolBufferException: Protocol message end-group tag did not match expected tag., while invoking ApplicationClientProtocolPBClientImpl.getApplicationReport over 27. Trying to failover immediately. 48833 [main] INFO org.apache.hadoop.yarn.client.ConfiguredRMFailoverProxyProvider - Failing over to 28 49849 [main] INFO org.apache.hadoop.io.retry.RetryInvocationHandler - java.net.ConnectException: Call From DESKTOP-BTSFCSH/10.0.55.152 to 10-0-120-162:26004 failed on connection exception: java.net.ConnectException: Connection refused: no further information; For more details see: http://wiki.apache.org/hadoop/ConnectionRefused, while invoking ApplicationClientProtocolPBClientImpl.getApplicationReport over 28 after 1 failover attempts. Trying to failover after sleeping for 35465ms. 85315 [main] INFO org.apache.hadoop.yarn.client.ConfiguredRMFailoverProxyProvider - Failing over to 27 85366 [main] INFO org.apache.hadoop.io.retry.RetryInvocationHandler - com.google.protobuf.InvalidProtocolBufferException: Protocol message end-group tag did not match expected tag., while invoking ApplicationClientProtocolPBClientImpl.getApplicationReport over 27 after 2 failover attempts. Trying to failover after sleeping for 30581ms.请重点关注 Protocol message end-group tag did not match expected tag. 连接主节点的时候,出现协议不一致的问题连接信息如下:fs.defaultFS=hdfs://hacluster yarn.resourcemanager.address.27=10-0-120-161:26004 yarn.resourcemanager.address.28=10-0-120-162:26004 yarn.resourcemanager.ha.rm-ids=27,28 dfs.client.failover.proxy.provider.hacluster=org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider yarn.resourcemanager.scheduler.address.28=10-0-120-162:26002 dfs.nameservices=hacluster yarn.resourcemanager.scheduler.address.27=10-0-120-161:26002 dfs.namenode.rpc-address.hacluster.14=10-0-120-161:25000 dfs.namenode.rpc-address.hacluster.15=10-0-120-162:25000 yarn.resourcemanager.ha.enabled=true yarn.resourcemanager.recovery.enabled=true yarn.log-aggregation-enable=true dfs.ha.namenodes.hacluster=14,15 yarn.http.policy=HTTPS_ONLYFusionInsight Manager 已经开启Kereros,再本次提交中,kerberos认证已经通过 以上配置信息来自于 FusionInsight Manager 配置,确认端口信息等无误!以下是引入的Maven依赖 3.1.1 1.3.1 3.1.0 8 8 org.apache.hadoop hadoop-common ${hadoop.version} org.apache.hadoop hadoop-client ${hadoop.version} org.apache.hadoop hadoop-mapreduce-client-app ${hadoop.version} org.apache.hadoop hadoop-mapreduce-client-common ${hadoop.version} org.apache.hadoop hadoop-mapreduce-client-core ${hadoop.version} org.apache.hbase hbase-client ${hbase.version} org.apache.hbase hbase-common ${hbase.version} org.apache.hbase hbase-protocol ${hbase.version} org.apache.hbase hbase-server ${hbase.version} org.apache.hive hive-jdbc ${hive.version} org.apache.hive hive-service ${hive.version} 上述依赖,模仿华为云大数据平台 客户端案例的依赖!
  • [维护宝典] 华为云FusionInsight MRS运维系列课程
    推荐学习顺序:请知:编号顺序相同的可并行学习;知识图谱:课程链接:组件名称组件介绍链接Manager华为FusionInsight HD是一个分布式数据处理系统,对外提供大容量的数据存储、查询和分析能力基础知识安装教程运维知识HBaseHBase是一个开源的非关系型分布式数据库(NoSQL),它参考了谷歌的BigTable建模,实现的编程语言为 Java。它是Apache软件基金会的Hadoop项目的一部分,运行于HDFS文件系统之上,为 Hadoop 提供类似于BigTable 规模的服务。基础串讲+运维知识最佳实践KafkaKafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。 该项目的目标是为处理实时数据提供一个统一、高吞吐、低延迟的平台。基础串讲+运维知识最佳实践HiveHive 是一个架构在 Hadoop 之上的数据仓库基础工具,它可以处理结构化和半结构化数据,它使得查询和分析存储在 Hadoop 上的数据变得非常方便基础串讲+运维知识最佳实践SparkApache Spark 是一种用于大数据工作负载的分布式开源处理系统。它使用内存中缓存和优化的查询执行方式,可针对任何规模的数据进行快速分析查询。基础串讲+运维知识最佳实践FlinkApache Flink 是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。基础串讲+运维知识最佳实践
  • [赋能学习] 为什么我下载文档全是锁,显示我是普通用户,请问怎样才能下载fusionInsight相关软件和文档
    为什么我下载文档全是锁,显示我是普通用户,请问怎样才能下载fusionInsight相关软件和文档
总条数:206 到第
上滑加载中