- Seatunnel集群的搭建依赖于Hadoop提供的Yarn组件,本文将介绍通过Hadoop和Flink搭建SeaTunnel集群。 Seatunnel集群的搭建依赖于Hadoop提供的Yarn组件,本文将介绍通过Hadoop和Flink搭建SeaTunnel集群。
- Hadoop学习——简介篇 Hadoop学习——简介篇
- 离线数仓之Kerberos基本使用及问题记录 离线数仓之Kerberos基本使用及问题记录
- 大数据技术之Hadoop系统前言传统的系统已无法处理结构多变的大数据,而高性能硬件和专用服务器价格昂贵且不灵活,Hadoop因此应运而生。Hadoop使用互连的廉价商业硬件,通过数百甚至数千个低成本服务器协同工作,可有效存储和处理大量数据。一、大数据概念最早提出“大数据”这一概念的是全球知名咨询公司麦肯锡,它是这样定义大数据的:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件... 大数据技术之Hadoop系统前言传统的系统已无法处理结构多变的大数据,而高性能硬件和专用服务器价格昂贵且不灵活,Hadoop因此应运而生。Hadoop使用互连的廉价商业硬件,通过数百甚至数千个低成本服务器协同工作,可有效存储和处理大量数据。一、大数据概念最早提出“大数据”这一概念的是全球知名咨询公司麦肯锡,它是这样定义大数据的:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件...
- 要想深入的学习Hadoop数据分析技术,首要的任务是必须要将hadoop集群环境搭建起来,可以将hadoop简化地想象成一个小软件,通过在各个物理节点上安装这个小软件,然后将其运行起来,就是一个hadoop分布式集群了。说来简单,但是应该怎么做呢?不急,本文的主要目的就是让新手看了之后也能够亲自动手实施这些过程。由于本人资金不充裕,只能通过虚拟机来实施模拟集群环境,虽然说是虚机模拟,但是在虚... 要想深入的学习Hadoop数据分析技术,首要的任务是必须要将hadoop集群环境搭建起来,可以将hadoop简化地想象成一个小软件,通过在各个物理节点上安装这个小软件,然后将其运行起来,就是一个hadoop分布式集群了。说来简单,但是应该怎么做呢?不急,本文的主要目的就是让新手看了之后也能够亲自动手实施这些过程。由于本人资金不充裕,只能通过虚拟机来实施模拟集群环境,虽然说是虚机模拟,但是在虚...
- hive是基于Hadoop的一个数据仓库工具,常用来对数据仓库进行数据统计分析。其中包括我们大家都知道的通过类似SQL语句实现快速MapReduce统计,将数据进行提取、转化、加载。 我眼中的Hive-你眼中的了? hive是基于Hadoop的一个数据仓库工具,常用来对数据仓库进行数据统计分析。其中包括我们大家都知道的通过类似SQL语句实现快速MapReduce统计,将数据进行提取、转化、加载。 我眼中的Hive-你眼中的了?
- Hadoop优化核心高频面试题一、Mapreduce 跑的慢的原因?Mapreduce 程序效率的瓶颈在于两点:1、计算机性能CPU、内存、磁盘健康、网络2、I/O 操作优化数据倾斜map和reduce数设置不合理reduce等待过久小文件过多大量的不可分块的超大文件spill次数过多merge次数过多等二、Mapreduce优化方法1、数据输入1.1、合并小文件:在执行mr任务前将小文件... Hadoop优化核心高频面试题一、Mapreduce 跑的慢的原因?Mapreduce 程序效率的瓶颈在于两点:1、计算机性能CPU、内存、磁盘健康、网络2、I/O 操作优化数据倾斜map和reduce数设置不合理reduce等待过久小文件过多大量的不可分块的超大文件spill次数过多merge次数过多等二、Mapreduce优化方法1、数据输入1.1、合并小文件:在执行mr任务前将小文件...
- Hadoop优化核心高频面试题一、Mapreduce 跑的慢的原因?Mapreduce 程序效率的瓶颈在于两点:1、计算机性能CPU、内存、磁盘健康、网络2、I/O 操作优化数据倾斜map和reduce数设置不合理reduce等待过久小文件过多大量的不可分块的超大文件spill次数过多merge次数过多等二、Mapreduce优化方法1、数据输入1.1、合并小文件:在执行mr任务前将小文件... Hadoop优化核心高频面试题一、Mapreduce 跑的慢的原因?Mapreduce 程序效率的瓶颈在于两点:1、计算机性能CPU、内存、磁盘健康、网络2、I/O 操作优化数据倾斜map和reduce数设置不合理reduce等待过久小文件过多大量的不可分块的超大文件spill次数过多merge次数过多等二、Mapreduce优化方法1、数据输入1.1、合并小文件:在执行mr任务前将小文件...
- Yarn核心高频面试题一、简述Hadoop1与Hadoop2的架构异同加入了yarn解决了资源调度的问题。加入了对zookeeper的支持实现比较可靠的高可用。二、为什么会产生yarn,它解决了什么问题,有什么优势?Yarn最主要的功能就是解决运行的用户程序与yarn框架完全解耦。Yarn上可以运行各种类型的分布式运算程序(mapreduce只是其中的一种),比如mapreduce、sto... Yarn核心高频面试题一、简述Hadoop1与Hadoop2的架构异同加入了yarn解决了资源调度的问题。加入了对zookeeper的支持实现比较可靠的高可用。二、为什么会产生yarn,它解决了什么问题,有什么优势?Yarn最主要的功能就是解决运行的用户程序与yarn框架完全解耦。Yarn上可以运行各种类型的分布式运算程序(mapreduce只是其中的一种),比如mapreduce、sto...
- [Kafka eagle](https://www.kafka-eagle.org/) 是一款分布式、高可用的kafka监控软件,提供丰富的kafka监控指标,例如:Kafka集群的Broker数、Topic数、Consumer数、Topic LogSize Top10、Topic Capacity Top10、Lag挤压情况,CPU/Memory监控等。 [Kafka eagle](https://www.kafka-eagle.org/) 是一款分布式、高可用的kafka监控软件,提供丰富的kafka监控指标,例如:Kafka集群的Broker数、Topic数、Consumer数、Topic LogSize Top10、Topic Capacity Top10、Lag挤压情况,CPU/Memory监控等。
- 本文是《Flink on Yarn三部曲》系列的第二篇,前面已经为部署做好了准备,现在可以一起来部署和启动Yarn环境了 本文是《Flink on Yarn三部曲》系列的第二篇,前面已经为部署做好了准备,现在可以一起来部署和启动Yarn环境了
- theme: smartblue持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第12天,点击查看活动详情 实时读取流数据的步骤 原始数据实时ETL任务分析 Hive 将HDFS数据映射到Hive表需要指定的HDFS的目录回忆如何映射HDFS数据到Hive表中① 创建表 create external table maynor_src (…) row formate... theme: smartblue持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第12天,点击查看活动详情 实时读取流数据的步骤 原始数据实时ETL任务分析 Hive 将HDFS数据映射到Hive表需要指定的HDFS的目录回忆如何映射HDFS数据到Hive表中① 创建表 create external table maynor_src (…) row formate...
- theme: smartblue持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第9天,点击查看活动详情 1. 原始数据实时ETL任务HBase调优 1.1 数据写入hbase优化上一节写入数据,一条条数据put到表中,对于大量数据的写入,效率极低,因此针对此项进行优化使用hbase客户端写缓存进行批量写入数据到hbase中hbase客户端写缓存对象:Buffer... theme: smartblue持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第9天,点击查看活动详情 1. 原始数据实时ETL任务HBase调优 1.1 数据写入hbase优化上一节写入数据,一条条数据put到表中,对于大量数据的写入,效率极低,因此针对此项进行优化使用hbase客户端写缓存进行批量写入数据到hbase中hbase客户端写缓存对象:Buffer...
- 1.MapReduce计算模型介绍 1.1.理解MapReduce思想 1.2.Hadoop MapReduce设计构思 2.官方MapReduce示例 2.1.示例1:评估圆周率π(PI) 2.2.示例2:单词词频统计WordCount 3.MapReduce Python接口接入 3.1.前言 3.3.程序执行 1.MapReduce计算模型介绍 1.1.理解MapReduce思想 1.2.Hadoop MapReduce设计构思 2.官方MapReduce示例 2.1.示例1:评估圆周率π(PI) 2.2.示例2:单词词频统计WordCount 3.MapReduce Python接口接入 3.1.前言 3.3.程序执行
- theme: smartblue持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第6天,点击查看活动详情 1 实时ETL开发的核心逻辑 1 自定义方法解析json数据读取kafka数据后,对原始数据解析,筛选出解析成功的数据,并把数据转换对象,便于后续逻辑操作。自定义解析json数据为对象://TODO 7)将json字符串解析成对象SingleOutputStr... theme: smartblue持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第6天,点击查看活动详情 1 实时ETL开发的核心逻辑 1 自定义方法解析json数据读取kafka数据后,对原始数据解析,筛选出解析成功的数据,并把数据转换对象,便于后续逻辑操作。自定义解析json数据为对象://TODO 7)将json字符串解析成对象SingleOutputStr...
上滑加载中
推荐直播
-
Ascend C算子编程之旅:基础入门篇
2024/11/22 周五 16:00-17:30
莫老师 昇腾CANN专家
介绍Ascend C算子基本概念、异构计算架构CANN和Ascend C基本概述,以及Ascend C快速入门,夯实Ascend C算子编程基础
回顾中 -
深入解析:华为全栈AI解决方案与云智能开放能力
2024/11/22 周五 18:20-20:20
Alex 华为云学堂技术讲师
本期直播我们将重点为大家介绍华为全栈全场景AI解决方案以和华为云企业智能AI开放能力。旨在帮助开发者深入理解华为AI解决方案,并能够更加熟练地运用这些技术。通过洞悉华为解决方案,了解人工智能完整生态链条的构造。
回顾中 -
华为云DataArts+DWS助力企业数据治理一站式解决方案及应用实践
2024/11/27 周三 16:30-18:00
Walter.chi 华为云数据治理DTSE技术布道师
想知道数据治理项目中,数据主题域如何合理划分?数据标准及主数据标准如何制定?数仓分层模型如何合理规划?华为云DataArts+DWS助力企业数据治理项目一站式解决方案和应用实践告诉您答案!本期将从数据趋势、数据治理方案、数据治理规划及落地,案例分享四个方面来助力企业数据治理项目合理咨询规划及顺利实施。
去报名
热门标签