- 摘要... 5一、引言... 61.1 研究背景和意义... 61.2 系统亮点... 61.3 主要贡献... 7二、相关技术和理论... 82.1 推荐系统的发展历程和研究现状... 82.2 推荐算法的分类及其优缺点... 82.3 物品协同过滤算法的原理和应用... 92.4 Hadoop框架的架构、特点和应用场景... 102.4.1 Hadoop的架构... 102.4.2 Ha... 摘要... 5一、引言... 61.1 研究背景和意义... 61.2 系统亮点... 61.3 主要贡献... 7二、相关技术和理论... 82.1 推荐系统的发展历程和研究现状... 82.2 推荐算法的分类及其优缺点... 82.3 物品协同过滤算法的原理和应用... 92.4 Hadoop框架的架构、特点和应用场景... 102.4.1 Hadoop的架构... 102.4.2 Ha...
- MRS1.9.2安装Flume客户端并且对接Kafka到HDFS MRS1.9.2安装Flume客户端并且对接Kafka到HDFS
- kafka的粘性分区特性是在kafka的2.0版本以后提出的,旨在提升生产者发送数据的调度性能,笔者在生产环境使用过程中发现了一个致命的问题并在此处分享 kafka的粘性分区特性是在kafka的2.0版本以后提出的,旨在提升生产者发送数据的调度性能,笔者在生产环境使用过程中发现了一个致命的问题并在此处分享
- 在分布式系统中负载均衡是一个非常重要的功能,Apache HBase通常通过Region的数量实现负载均衡,StochasticLoadBalancer将不仅仅考虑Region数量,还会考虑Region负载、表负载、数据本地化、MemStore大小、Storefile大小等。本文将展开分析HBase负载均衡中StochasticLoadBalancer相关内容。 在分布式系统中负载均衡是一个非常重要的功能,Apache HBase通常通过Region的数量实现负载均衡,StochasticLoadBalancer将不仅仅考虑Region数量,还会考虑Region负载、表负载、数据本地化、MemStore大小、Storefile大小等。本文将展开分析HBase负载均衡中StochasticLoadBalancer相关内容。
- 本文主要介绍pyflink实现自定义SourceFunction的两种方法 本文主要介绍pyflink实现自定义SourceFunction的两种方法
- 拉链表是缓慢变化维的一种实现形式,是数据仓库的常用数据模型。基于传统大数据需要全量覆盖写的模式进行,基于Hudi的能力,实现方案会更加简单,性能更优。 拉链表是缓慢变化维的一种实现形式,是数据仓库的常用数据模型。基于传统大数据需要全量覆盖写的模式进行,基于Hudi的能力,实现方案会更加简单,性能更优。
- 华为云FusionInsight MRS通过FGL对HDFS NameNode锁机制进行优化,有效提升了NameNode的读写吞吐量,从而能够支持更多数据,更多业务请求访问,从而更好的支撑政企客户高效用数,业务洞见更准,价值兑现更快。 华为云FusionInsight MRS通过FGL对HDFS NameNode锁机制进行优化,有效提升了NameNode的读写吞吐量,从而能够支持更多数据,更多业务请求访问,从而更好的支撑政企客户高效用数,业务洞见更准,价值兑现更快。
- hbck2使用hbase hbck -help:hbck帮助,执行后反馈输出hbck的帮助文档。没太多有效信息,主要就是说hbase2.x里面不再支持hbck1。使用hbase hbck -j /opt/hbase-hbck2-1.1.0.jar --help 输出帮助信息。bypass[OPTIONS]<PID>…参数说明:中止指定的Procedure任务。当一个Procedure任务长... hbck2使用hbase hbck -help:hbck帮助,执行后反馈输出hbck的帮助文档。没太多有效信息,主要就是说hbase2.x里面不再支持hbck1。使用hbase hbck -j /opt/hbase-hbck2-1.1.0.jar --help 输出帮助信息。bypass[OPTIONS]<PID>…参数说明:中止指定的Procedure任务。当一个Procedure任务长...
- HBaseFsck(hbck)是一种命令行工具,可检查region一致性和表完整性问题并修复损坏。目前HBCK工具有两个版本,HBCK1和HBCK2。两个版本的HBCK工具在设计上已经发生的非常大的变化,在使用方式上也有比较大的差异,两个版本的工具只能使用在对应的内核版本上,无法混用。hbck1(6.5.1版本及以前)hbck1主要用于在hbase1.x版本进行检查or修复。常用命令:-fi... HBaseFsck(hbck)是一种命令行工具,可检查region一致性和表完整性问题并修复损坏。目前HBCK工具有两个版本,HBCK1和HBCK2。两个版本的HBCK工具在设计上已经发生的非常大的变化,在使用方式上也有比较大的差异,两个版本的工具只能使用在对应的内核版本上,无法混用。hbck1(6.5.1版本及以前)hbck1主要用于在hbase1.x版本进行检查or修复。常用命令:-fi...
- MRS后台容器命令查看MRS后台部署服务mrsapigw和mrsdeployer容器信息,及容器常见操作命令。ServiceOM页面查询EICommon-Region-Master。登录任意节点,执行K8S命令。容器状态:kubectl get pods -n mrs -owide进入容器:kubectl exec -ti -n mrs 容器名称 bash删除容器:kubectl delet... MRS后台容器命令查看MRS后台部署服务mrsapigw和mrsdeployer容器信息,及容器常见操作命令。ServiceOM页面查询EICommon-Region-Master。登录任意节点,执行K8S命令。容器状态:kubectl get pods -n mrs -owide进入容器:kubectl exec -ti -n mrs 容器名称 bash删除容器:kubectl delet...
- 大数据时代的技术特点导致一个企业的数据分散存储在不同组件甚至不同地域的不同组件之中,为企业数据的高效使用带来挑战。数据虚拟化技术使应用在不关心数据源的数据格式及物理存储位置的情况下以一种统一的方式获取和使用整个组织中所有的数据。华为云原生数据湖MRS HetuEngine就是一款优秀的数据虚拟化引擎,并在众多企业的数字化转型过程中落地实践。 大数据时代的技术特点导致一个企业的数据分散存储在不同组件甚至不同地域的不同组件之中,为企业数据的高效使用带来挑战。数据虚拟化技术使应用在不关心数据源的数据格式及物理存储位置的情况下以一种统一的方式获取和使用整个组织中所有的数据。华为云原生数据湖MRS HetuEngine就是一款优秀的数据虚拟化引擎,并在众多企业的数字化转型过程中落地实践。
- 随着时代发展,数据变得更加开放、共享,客户的业务也面临着多元化处理,原有的集群亟待扩容,另外,推到原有小规模集群的烟囱建设,打造一体化数据湖的诉求也越来越迫切。在这一背景下,原本上千规模的集群已经远远无法满足客户的业务诉求,于是,迫切需要建设上万规模的数据湖。 而上万规模的数据湖如何在进行实验室进行功能、性能、可靠性等方面的测试,也成为我们研发团队需要考虑的问题。 ... 随着时代发展,数据变得更加开放、共享,客户的业务也面临着多元化处理,原有的集群亟待扩容,另外,推到原有小规模集群的烟囱建设,打造一体化数据湖的诉求也越来越迫切。在这一背景下,原本上千规模的集群已经远远无法满足客户的业务诉求,于是,迫切需要建设上万规模的数据湖。 而上万规模的数据湖如何在进行实验室进行功能、性能、可靠性等方面的测试,也成为我们研发团队需要考虑的问题。 ...
- MRS集群默认会带上Python2.7.5和Python3.8.0两个版本的Python。默认使用的是Python2.7.5。但是有时候我们希望使用的是我们指定的Python版本来运行pyspark任务,因此需要自行上传对应的Python版本包。由于Python较依赖环境,不同环境编译出来的Python版本可能并不通用。 MRS集群默认会带上Python2.7.5和Python3.8.0两个版本的Python。默认使用的是Python2.7.5。但是有时候我们希望使用的是我们指定的Python版本来运行pyspark任务,因此需要自行上传对应的Python版本包。由于Python较依赖环境,不同环境编译出来的Python版本可能并不通用。
- Hudi是数据湖的文件组织层,对Parquet格式文件进行管理提供数据湖能力,支持多种计算引擎,提供IUD接口,在 HDFS/OBS的数据集上提供了插入更新和增量拉取的流原语。图1 Hudi基本架构Hudi特性 ACID事务能力,支持实时入湖和批量入湖。 多种视图能力(读优化视图/增量视图/实时视图),支持快速数据分析。 MVCC设计,支持数据版本回溯。 自动管理文件大小和布局,以优化查询性... Hudi是数据湖的文件组织层,对Parquet格式文件进行管理提供数据湖能力,支持多种计算引擎,提供IUD接口,在 HDFS/OBS的数据集上提供了插入更新和增量拉取的流原语。图1 Hudi基本架构Hudi特性 ACID事务能力,支持实时入湖和批量入湖。 多种视图能力(读优化视图/增量视图/实时视图),支持快速数据分析。 MVCC设计,支持数据版本回溯。 自动管理文件大小和布局,以优化查询性...
- 在上节云计算行业应用—大数据@音视频(一)中,我们探讨了随着企业业务发展和产生消费数据量级的增加,大数据技术不断打破原有极限,相关技术不断演进,新的大数据架构层出不穷。本节我们将深入大数据行业应用,从上节讨论到的数据湖出发,结合音视频行业相关业务场景和相关大数据架构,更进一步的理解大数据技术和华为云相关服务的应用。1. 数据湖基本架构 数据湖是伴随企业业余和数据... 在上节云计算行业应用—大数据@音视频(一)中,我们探讨了随着企业业务发展和产生消费数据量级的增加,大数据技术不断打破原有极限,相关技术不断演进,新的大数据架构层出不穷。本节我们将深入大数据行业应用,从上节讨论到的数据湖出发,结合音视频行业相关业务场景和相关大数据架构,更进一步的理解大数据技术和华为云相关服务的应用。1. 数据湖基本架构 数据湖是伴随企业业余和数据...
上滑加载中
推荐直播
-
Ascend C算子编程之旅:基础入门篇
2024/11/22 周五 16:00-17:30
莫老师 昇腾CANN专家
介绍Ascend C算子基本概念、异构计算架构CANN和Ascend C基本概述,以及Ascend C快速入门,夯实Ascend C算子编程基础
回顾中 -
深入解析:华为全栈AI解决方案与云智能开放能力
2024/11/22 周五 18:20-20:20
Alex 华为云学堂技术讲师
本期直播我们将重点为大家介绍华为全栈全场景AI解决方案以和华为云企业智能AI开放能力。旨在帮助开发者深入理解华为AI解决方案,并能够更加熟练地运用这些技术。通过洞悉华为解决方案,了解人工智能完整生态链条的构造。
回顾中 -
华为云DataArts+DWS助力企业数据治理一站式解决方案及应用实践
2024/11/27 周三 16:30-18:00
Walter.chi 华为云数据治理DTSE技术布道师
想知道数据治理项目中,数据主题域如何合理划分?数据标准及主数据标准如何制定?数仓分层模型如何合理规划?华为云DataArts+DWS助力企业数据治理项目一站式解决方案和应用实践告诉您答案!本期将从数据趋势、数据治理方案、数据治理规划及落地,案例分享四个方面来助力企业数据治理项目合理咨询规划及顺利实施。
去报名
热门标签