Hadoop_标签_开发者_华为云

博客(764)
视频(1)
论坛(103)
云声(0)
代码示例(0)

【云计算技术】基于 Hadoop 的音乐推荐系统
本文介绍了基于Hadoop的音乐推荐系统的实现原理和背景。随着互联网的发展和音乐流媒体服务的普及，用户面临选择困难和信息过载的问题。为解决这一问题，音乐推荐系统应运而生。然而，音乐推荐系统面临着挑战，包括庞大的音乐数据量和计算复杂度。为了解决这些问题，该项目采用基于Hadoop的分布式计算框架，通过存储音乐数据在Hadoop分布式文件系统（HDFS）中，并利用Hadoop的MapReduce等计算

yd_224184977
发表于2023-11-19 17:07:57
7144 0 0

7.1k 0 0

本文介绍了基于Hadoop的音乐推荐系统的实现原理和背景。随着互联网的发展和音乐流媒体服务的普及，用户面临选择困难和信息过载的问题。为解决这一问题，音乐推荐系统应运而生。然而，音乐推荐系统面临着挑战，包括庞大的音乐数据量和计算复杂度。为了解决这些问题，该项目采用基于Hadoop的分布式计算框架，通过存储音乐数据在Hadoop分布式文件系统（HDFS）中，并利用Hadoop的MapReduce等计算
Hadoop 云计算推荐系统
Hadoop快速入门——第一章、认识Hadoop与创建伪分布式模式(Hadoop3.1.3版本配置)
目录操作位置上传压缩包解压及修改文件夹名称免密配置将秘钥拷贝到本机Java环境配置与Hadoop环境配置执行脚本修改hadoop配置文件1、修改hadoop-env.sh2、修改yarn-env.sh3、修改core-site.xml4、修改hdfs-site.xml5、修改mapred-site.xml6、修改yarn-site.xmlhadoop初始化配置启动Hadoop服务访问服务操...

红目香薰
发表于2023-10-31 14:51:20
4661 0 0

4.6k 0 0

目录操作位置上传压缩包解压及修改文件夹名称免密配置将秘钥拷贝到本机Java环境配置与Hadoop环境配置执行脚本修改hadoop配置文件1、修改hadoop-env.sh2、修改yarn-env.sh3、修改core-site.xml4、修改hdfs-site.xml5、修改mapred-site.xml6、修改yarn-site.xmlhadoop初始化配置启动Hadoop服务访问服务操...
Hadoop XML 分布式
大数据Flink进阶（十）：Flink集群部署
Flink集群部署Flink的安装和部署主要分为本地（单机）模式和集群模式，其中本地模式只需直接解压就可以使用，不用修改任何参数，一般在做一些简单测试的时候使用。本地模式在这里不再赘述。集群部署模式主要包含Standalone、Hadoop Yarn 、Kubernetes等，Flink可以借助以上资源管理器来实现分布式计算，目前企业使用最多的是Flink 基于Hadoop Yarn资源管理...

Lansonli
发表于2023-04-09 22:24:54
9132 0 0

9.1k 0 0

Flink集群部署Flink的安装和部署主要分为本地（单机）模式和集群模式，其中本地模式只需直接解压就可以使用，不用修改任何参数，一般在做一些简单测试的时候使用。本地模式在这里不再赘述。集群部署模式主要包含Standalone、Hadoop Yarn 、Kubernetes等，Flink可以借助以上资源管理器来实现分布式计算，目前企业使用最多的是Flink 基于Hadoop Yarn资源管理...
Flink Hadoop 大数据
Seatunnel 2.3.0集群搭建（结合Hadoop+Flink）
Seatunnel集群的搭建依赖于Hadoop提供的Yarn组件，本文将介绍通过Hadoop和Flink搭建SeaTunnel集群。

ludihu
发表于2023-02-20 10:57:22
16515 0 1

16.5k 0 1

Seatunnel集群的搭建依赖于Hadoop提供的Yarn组件，本文将介绍通过Hadoop和Flink搭建SeaTunnel集群。
Flink Hadoop 分布式
Hadoop学习——简介篇
Hadoop学习——简介篇

WHYBIGDATA
发表于2023-02-19 08:38:49
3288 0 0

3.2k 0 0

Hadoop学习——简介篇
Hadoop 大数据机器学习
离线数仓之Kerberos基本使用及问题记录
离线数仓之Kerberos基本使用及问题记录

WHYBIGDATA
发表于2023-01-12 15:39:28
7022 0 0

7.0k 0 0

离线数仓之Kerberos基本使用及问题记录
Hadoop Kerberos 大数据
Hadoop概述
大数据技术之Hadoop系统前言传统的系统已无法处理结构多变的大数据，而高性能硬件和专用服务器价格昂贵且不灵活，Hadoop因此应运而生。Hadoop使用互连的廉价商业硬件，通过数百甚至数千个低成本服务器协同工作，可有效存储和处理大量数据。一、大数据概念最早提出“大数据”这一概念的是全球知名咨询公司麦肯锡，它是这样定义大数据的：一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件...

Smy1121
发表于2022-12-30 15:27:46
4582 0 0

4.5k 0 0

大数据技术之Hadoop系统前言传统的系统已无法处理结构多变的大数据，而高性能硬件和专用服务器价格昂贵且不灵活，Hadoop因此应运而生。Hadoop使用互连的廉价商业硬件，通过数百甚至数千个低成本服务器协同工作，可有效存储和处理大量数据。一、大数据概念最早提出“大数据”这一概念的是全球知名咨询公司麦肯锡，它是这样定义大数据的：一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件...
Hadoop 大数据
hadoop完全分布式集群安装
要想深入的学习Hadoop数据分析技术，首要的任务是必须要将hadoop集群环境搭建起来，可以将hadoop简化地想象成一个小软件，通过在各个物理节点上安装这个小软件，然后将其运行起来，就是一个hadoop分布式集群了。说来简单，但是应该怎么做呢？不急，本文的主要目的就是让新手看了之后也能够亲自动手实施这些过程。由于本人资金不充裕，只能通过虚拟机来实施模拟集群环境，虽然说是虚机模拟，但是在虚...

TT-千叶
发表于2022-12-23 09:43:22
3125 0 0

3.1k 0 0

要想深入的学习Hadoop数据分析技术，首要的任务是必须要将hadoop集群环境搭建起来，可以将hadoop简化地想象成一个小软件，通过在各个物理节点上安装这个小软件，然后将其运行起来，就是一个hadoop分布式集群了。说来简单，但是应该怎么做呢？不急，本文的主要目的就是让新手看了之后也能够亲自动手实施这些过程。由于本人资金不充裕，只能通过虚拟机来实施模拟集群环境，虽然说是虚机模拟，但是在虚...
Hadoop 分布式
我眼中的Hive-你眼中的了?
hive是基于Hadoop的一个数据仓库工具，常用来对数据仓库进行数据统计分析。其中包括我们大家都知道的通过类似SQL语句实现快速MapReduce统计，将数据进行提取、转化、加载。我眼中的Hive-你眼中的了?

风一样的美男子
发表于2022-12-18 12:17:31
10323 0 1

10.3k 0 1

hive是基于Hadoop的一个数据仓库工具，常用来对数据仓库进行数据统计分析。其中包括我们大家都知道的通过类似SQL语句实现快速MapReduce统计，将数据进行提取、转化、加载。我眼中的Hive-你眼中的了?
Hadoop Hive 数据挖掘
大数据面试题（五）：Hadoop优化核心高频面试题
Hadoop优化核心高频面试题一、Mapreduce 跑的慢的原因？Mapreduce 程序效率的瓶颈在于两点：1、计算机性能CPU、内存、磁盘健康、网络2、I/O 操作优化数据倾斜map和reduce数设置不合理reduce等待过久小文件过多大量的不可分块的超大文件spill次数过多merge次数过多等二、Mapreduce优化方法1、数据输入1.1、合并小文件：在执行mr任务前将小文件...

Lansonli
发表于2022-12-14 14:04:50
5119 0 0

5.1k 0 0

Hadoop优化核心高频面试题一、Mapreduce 跑的慢的原因？Mapreduce 程序效率的瓶颈在于两点：1、计算机性能CPU、内存、磁盘健康、网络2、I/O 操作优化数据倾斜map和reduce数设置不合理reduce等待过久小文件过多大量的不可分块的超大文件spill次数过多merge次数过多等二、Mapreduce优化方法1、数据输入1.1、合并小文件：在执行mr任务前将小文件...
Hadoop MapReduce 大数据
大数据面试题（五）：Hadoop优化核心高频面试题
Hadoop优化核心高频面试题一、Mapreduce 跑的慢的原因？Mapreduce 程序效率的瓶颈在于两点：1、计算机性能CPU、内存、磁盘健康、网络2、I/O 操作优化数据倾斜map和reduce数设置不合理reduce等待过久小文件过多大量的不可分块的超大文件spill次数过多merge次数过多等二、Mapreduce优化方法1、数据输入1.1、合并小文件：在执行mr任务前将小文件...

Lansonli
发表于2022-12-12 21:47:24
5014 0 1

5.0k 0 1

Hadoop优化核心高频面试题一、Mapreduce 跑的慢的原因？Mapreduce 程序效率的瓶颈在于两点：1、计算机性能CPU、内存、磁盘健康、网络2、I/O 操作优化数据倾斜map和reduce数设置不合理reduce等待过久小文件过多大量的不可分块的超大文件spill次数过多merge次数过多等二、Mapreduce优化方法1、数据输入1.1、合并小文件：在执行mr任务前将小文件...
Hadoop MapReduce 大数据
大数据面试题（四）：Yarn核心高频面试题
Yarn核心高频面试题一、简述Hadoop1与Hadoop2的架构异同加入了yarn解决了资源调度的问题。加入了对zookeeper的支持实现比较可靠的高可用。二、为什么会产生yarn，它解决了什么问题，有什么优势？Yarn最主要的功能就是解决运行的用户程序与yarn框架完全解耦。Yarn上可以运行各种类型的分布式运算程序（mapreduce只是其中的一种），比如mapreduce、sto...

Lansonli
发表于2022-12-12 21:44:30
5705 0 0

5.7k 0 0

Yarn核心高频面试题一、简述Hadoop1与Hadoop2的架构异同加入了yarn解决了资源调度的问题。加入了对zookeeper的支持实现比较可靠的高可用。二、为什么会产生yarn，它解决了什么问题，有什么优势？Yarn最主要的功能就是解决运行的用户程序与yarn框架完全解耦。Yarn上可以运行各种类型的分布式运算程序（mapreduce只是其中的一种），比如mapreduce、sto...
Hadoop Yarn 大数据
KAFKA EAGLE 监控MRS kafka之操作实践
[Kafka eagle](https://www.kafka-eagle.org/) 是一款分布式、高可用的kafka监控软件，提供丰富的kafka监控指标，例如：Kafka集群的Broker数、Topic数、Consumer数、Topic LogSize Top10、Topic Capacity Top10、Lag挤压情况，CPU/Memory监控等。

啊喔YeYe
发表于2022-12-06 20:33:20
12119 1 2

12.1k 1 2

[Kafka eagle](https://www.kafka-eagle.org/) 是一款分布式、高可用的kafka监控软件，提供丰富的kafka监控指标，例如：Kafka集群的Broker数、Topic数、Consumer数、Topic LogSize Top10、Topic Capacity Top10、Lag挤压情况，CPU/Memory监控等。
Hadoop MapReduce
Flink on Yarn三部曲之二：部署和设置
本文是《Flink on Yarn三部曲》系列的第二篇，前面已经为部署做好了准备，现在可以一起来部署和启动Yarn环境了

程序员欣宸
发表于2022-12-03 15:17:36
5648 0 0

5.6k 0 0

本文是《Flink on Yarn三部曲》系列的第二篇，前面已经为部署做好了准备，现在可以一起来部署和启动Yarn环境了
Flink Hadoop Yarn
实时即未来，大数据项目车联网之车辆数据统计意义分析（12）
theme: smartblue持续创作，加速成长！这是我参与「掘金日新计划 · 10 月更文挑战」的第12天，点击查看活动详情实时读取流数据的步骤原始数据实时ETL任务分析 Hive 将HDFS数据映射到Hive表需要指定的HDFS的目录回忆如何映射HDFS数据到Hive表中① 创建表 create external table maynor_src (…) row formate...

Maynor学长
发表于2022-10-31 12:30:51
5513 0 0

5.5k 0 0

theme: smartblue持续创作，加速成长！这是我参与「掘金日新计划 · 10 月更文挑战」的第12天，点击查看活动详情实时读取流数据的步骤原始数据实时ETL任务分析 Hive 将HDFS数据映射到Hive表需要指定的HDFS的目录回忆如何映射HDFS数据到Hive表中① 创建表 create external table maynor_src (…) row formate...
Hadoop HBase 数据库

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript