大数据_标签_开发者_华为云

博客(3.2k)
视频(24)
论坛(0)
云声(0)
代码示例(0)

大数据处理中的数据倾斜问题及其解决方案：以Apache Spark为例
在当今数据驱动的时代，大数据处理技术如Apache Spark已经成为企业数据湖和数据分析的核心组件。然而，在处理海量数据时，数据倾斜问题成为了一个难以忽视的挑战，它不仅会显著降低数据处理效率，甚至可能导致任务失败。本文将深入探讨数据倾斜的概念、产生原因、识别方法，并通过一个现实案例分析，介绍如何在Apache Spark中有效解决数据倾斜问题，辅以代码示例，帮助读者在实践中应对这一挑战。数...

周周的奇妙编程
发表于2024-06-10 00:27:30
6706 0 0

6.7k 0 0

在当今数据驱动的时代，大数据处理技术如Apache Spark已经成为企业数据湖和数据分析的核心组件。然而，在处理海量数据时，数据倾斜问题成为了一个难以忽视的挑战，它不仅会显著降低数据处理效率，甚至可能导致任务失败。本文将深入探讨数据倾斜的概念、产生原因、识别方法，并通过一个现实案例分析，介绍如何在Apache Spark中有效解决数据倾斜问题，辅以代码示例，帮助读者在实践中应对这一挑战。数...
Apache spark 大数据
4个最受欢迎的大数据可视化工具
想像阅读书本一样阅读数据流？这只有在电影中才有可能发生。在现实世界中，企业必须使用数据可视化工具来读取原始数据的趋势和模式。大数据可视化是进行各种大数据分析解决的最重要组成部分之一。一旦原始数据流被以图像形式表示时，以此做决策就变得容易多了。为了满足并超越客户的期望，大数据可视化工具应该具备这些特征：能够处理不同种类型的传入数据能够应用不同种类的过滤器来调整结果能够在分析过程中与数据集...

SHQ1874009
发表于2024-06-03 10:37:35
2344 0 0

2.3k 0 0

想像阅读书本一样阅读数据流？这只有在电影中才有可能发生。在现实世界中，企业必须使用数据可视化工具来读取原始数据的趋势和模式。大数据可视化是进行各种大数据分析解决的最重要组成部分之一。一旦原始数据流被以图像形式表示时，以此做决策就变得容易多了。为了满足并超越客户的期望，大数据可视化工具应该具备这些特征：能够处理不同种类型的传入数据能够应用不同种类的过滤器来调整结果能够在分析过程中与数据集...
大数据数据可视化
大数据解决方案FAQ-华为云大数据主要计算服务对比(MRS、DLI、DWS、CSS)
　MRSDLIDWSCSS简述半托管式Hadoop全家桶，包含hadoop core、hive、spark、flink、kafka、hbase等主要hadoop生态组件。Hadoop生态Serverless化批(Spark)/流(Flink)/交互式(Presto)融合的云原生大数据处理分析服务。高性能关系型分布式数据仓库。基于开源ES自研改进的搜索服务对标服务/产品A1EMRAthena/...

服务伙伴知识管理社区
发表于2024-05-15 15:54:24
9561 0 0

9.5k 0 0

　MRSDLIDWSCSS简述半托管式Hadoop全家桶，包含hadoop core、hive、spark、flink、kafka、hbase等主要hadoop生态组件。Hadoop生态Serverless化批(Spark)/流(Flink)/交互式(Presto)融合的云原生大数据处理分析服务。高性能关系型分布式数据仓库。基于开源ES自研改进的搜索服务对标服务/产品A1EMRAthena/...
MapReduce 大数据数据湖探索 DLI
大数据解决方案-方案设计类FAQ
【网络类】从友商搬到华为云需要拉专线，专线的时延和成本怎么保障答：选择从最近的Region拉专线，将时延控制在ms级别不影响正常的使用，带宽的成本可以被存算分离的成本优势cover 【资源类】如何保证AZ内资源充足答：华为云的资源有多种形式来保障可用度，比如AZ内会设置阈值，使用率达到阈值后会进行扩容，始终保持AZ的可用资源在一定范围，可供客户使用；同时，如果AZ的可用空间预计已经不能支持...

服务伙伴知识管理社区
发表于2024-05-15 15:39:48
3611 0 0

3.6k 0 0

【网络类】从友商搬到华为云需要拉专线，专线的时延和成本怎么保障答：选择从最近的Region拉专线，将时延控制在ms级别不影响正常的使用，带宽的成本可以被存算分离的成本优势cover 【资源类】如何保证AZ内资源充足答：华为云的资源有多种形式来保障可用度，比如AZ内会设置阈值，使用率达到阈值后会进行扩容，始终保持AZ的可用资源在一定范围，可供客户使用；同时，如果AZ的可用空间预计已经不能支持...
大数据
大数据解决方案-通用类FAQ
【通用】华为云在大数据社区、内核的投入如何？答：华为有100+人（大部分在印度）专门在社区，发华为的内核版本，提交华为的特性功能，这部分人员专职社区贡献。因此华为在hadoop及其生态社区的贡献一直居于国内首位。【数据采集&接入】在华为云上，关系数据库实时同步到hadoop的hive表里用什么方案？答：一般使用DRS+DMS（Kafka云服务）+MRS-Flink. DRS...

服务伙伴知识管理社区
发表于2024-05-15 11:17:13
4883 0 0

4.8k 0 0

【通用】华为云在大数据社区、内核的投入如何？答：华为有100+人（大部分在印度）专门在社区，发华为的内核版本，提交华为的特性功能，这部分人员专职社区贡献。因此华为在hadoop及其生态社区的贡献一直居于国内首位。【数据采集&接入】在华为云上，关系数据库实时同步到hadoop的hive表里用什么方案？答：一般使用DRS+DMS（Kafka云服务）+MRS-Flink. DRS...
大数据数据库
大数据解决方案-数据治理专业服务类FAQ
如何把数据治理的方法论贯彻到公司的各个部门？答：1、首先数据治理是需要是一个自顶向下的推动，也就是公司的一把手需要明确数据治理的战略，这样才好推动 2、成立数据管理部这样的虚拟组织，来拉通各个部门进行统一的数据管理和标准建设 3、对于有自己独特需求或难以拉通的部门，可以考虑从统一的数据平台取数给他，他们自己进行数据分析和应用，但不能污染公司级统一的数据中台。如何来...

服务伙伴知识管理社区
发表于2024-05-15 10:56:25
1949 0 0

1.9k 0 0

如何把数据治理的方法论贯彻到公司的各个部门？答：1、首先数据治理是需要是一个自顶向下的推动，也就是公司的一把手需要明确数据治理的战略，这样才好推动 2、成立数据管理部这样的虚拟组织，来拉通各个部门进行统一的数据管理和标准建设 3、对于有自己独特需求或难以拉通的部门，可以考虑从统一的数据平台取数给他，他们自己进行数据分析和应用，但不能污染公司级统一的数据中台。如何来...
大数据
大数据解决方案-大数据服务类FAQ（CarbonData）
CarbonData是什么？跟存算分离有关系吗？CarbonData可对接多引擎是什么意思？答：carbondata则首先是一种数据格式，它对标的是parquet、orc这样的大数据领域常用文件格式，至于它存储的地方可以是本地盘hdfs，也可以是存算分离的OBS。 carbondata其次也是指基于这种格式之上的一套数据存储引擎（其实就是一堆jar包），它强绑定的是spark生态...

服务伙伴知识管理社区
发表于2024-05-14 17:41:10
2163 0 0

2.1k 0 0

CarbonData是什么？跟存算分离有关系吗？CarbonData可对接多引擎是什么意思？答：carbondata则首先是一种数据格式，它对标的是parquet、orc这样的大数据领域常用文件格式，至于它存储的地方可以是本地盘hdfs，也可以是存算分离的OBS。 carbondata其次也是指基于这种格式之上的一套数据存储引擎（其实就是一堆jar包），它强绑定的是spark生态...
大数据
大数据解决方案-LakeHouse数据湖方案类FAQ（基础问题）
hudi的高并发查询能力不足,怎么办？答：lookup直接点查hudi,hudi并发量不够,可以通过在hudi前加入Gaussdb数据库,将原本hudi中,频繁更新,业务复杂,高并发查询的表放入其中查询hudi的cow表和row怎么选？答：cow表是写放大,写入是性能压力比较大,mor是读放大在读取新数据放在log上在读得过程中与老数据进行合并,写性能不受影响hudi选择mor表,主键太多会...

服务伙伴知识管理社区
发表于2024-05-14 16:37:38
1671 0 0

1.6k 0 0

hudi的高并发查询能力不足,怎么办？答：lookup直接点查hudi,hudi并发量不够,可以通过在hudi前加入Gaussdb数据库,将原本hudi中,频繁更新,业务复杂,高并发查询的表放入其中查询hudi的cow表和row怎么选？答：cow表是写放大,写入是性能压力比较大,mor是读放大在读取新数据放在log上在读得过程中与老数据进行合并,写性能不受影响hudi选择mor表,主键太多会...
大数据
大数据解决方案-存算分离方案类FAQ（基础问题）
什么是存算分离大数据？华为云存算分离方案相对于传统本地盘方案有什么优势？存算分离能节省多少成本？用了存算分离方案是不是必须使用华为

服务伙伴知识管理社区
发表于2024-05-14 15:52:14
7505 0 0

7.5k 0 0

什么是存算分离大数据？华为云存算分离方案相对于传统本地盘方案有什么优势？存算分离能节省多少成本？用了存算分离方案是不是必须使用华为
Hadoop 大数据
《吊打面试官》- 大数据工程师50道中大厂面试真题保姆级详解
《吊打面试官》- 大数据工程师50道中大厂面试真题保姆级详解

Byyyi耀
发表于2024-05-06 10:52:39
6681 0 0

6.6k 0 0

《吊打面试官》- 大数据工程师50道中大厂面试真题保姆级详解
Hadoop spark 大数据
Kylin使用心得：从入门到进阶的探索之旅
Apache Kylin，作为一款开源的大数据分析平台，以其独特的预计算技术，为用户提供亚秒级的OLAP查询体验。无论是数据分析师还是大数据工程师，掌握Kylin的使用技巧，都将极大地提升数据洞察力和决策效率。本文将从Kylin的基本概念出发，深入解析其工作原理，分享我在使用过程中的常见问题及解决方案，同时附上实战代码示例，帮助你更有效地驾驭这一强大的分析工具。 Kylin核心概念与原理 1...

超梦
发表于2024-05-02 14:08:01
3562 0 0

3.5k 0 0

Apache Kylin，作为一款开源的大数据分析平台，以其独特的预计算技术，为用户提供亚秒级的OLAP查询体验。无论是数据分析师还是大数据工程师，掌握Kylin的使用技巧，都将极大地提升数据洞察力和决策效率。本文将从Kylin的基本概念出发，深入解析其工作原理，分享我在使用过程中的常见问题及解决方案，同时附上实战代码示例，帮助你更有效地驾驭这一强大的分析工具。 Kylin核心概念与原理 1...
Apache Kylin 大数据
大数据组件之Storm简介
在大数据处理领域，Apache Storm是一个实时计算系统，专为处理海量数据流而设计。它提供了分布式、容错、高可用的实时计算解决方案，让开发者能够轻松构建复杂的数据处理管道。本文将深入浅出地介绍Storm的核心概念、工作原理、常见问题及其解决方案，并通过一个简单的代码示例来展示如何使用Storm进行实时数据处理。核心概念与原理 1. Topology（拓扑）在Storm中，一个Topol...

超梦
发表于2024-05-02 13:52:31
3280 0 0

3.2k 0 0

在大数据处理领域，Apache Storm是一个实时计算系统，专为处理海量数据流而设计。它提供了分布式、容错、高可用的实时计算解决方案，让开发者能够轻松构建复杂的数据处理管道。本文将深入浅出地介绍Storm的核心概念、工作原理、常见问题及其解决方案，并通过一个简单的代码示例来展示如何使用Storm进行实时数据处理。核心概念与原理 1. Topology（拓扑）在Storm中，一个Topol...
Apache storm 大数据
Java进阶-JINQ详解与使用
本文详细介绍了JINQ（Java Integrated Query），一种强化Java中数据查询能力的库，提供类SQL的查询语法和类型安全的操作。文章首先解释了JINQ的基本功能和应用，随后通过具体示例展示了如何使用JINQ进行数据过滤、投影、连接、分组等操作。接着，与Java Stream API、Google Guava等其他热门集合处理包进行了比较，突出了JINQ的类型安全和查询直观性。

Damon小智
发表于2024-04-30 00:40:16
3719 0 0

3.7k 0 0

本文详细介绍了JINQ（Java Integrated Query），一种强化Java中数据查询能力的库，提供类SQL的查询语法和类型安全的操作。文章首先解释了JINQ的基本功能和应用，随后通过具体示例展示了如何使用JINQ进行数据过滤、投影、连接、分组等操作。接着，与Java Stream API、Google Guava等其他热门集合处理包进行了比较，突出了JINQ的类型安全和查询直观性。
Java LINQ SQL 大数据面向对象编程
Java进阶-Java Stream API的使用
本文全面介绍了 Java Stream API 的概念、功能以及如何在 Java 中有效地使用它进行集合和数据流的处理。通过详细解释和示例，文章展示了 Java Stream API 在简化代码、提高效率以及支持函数式编程方面的优势。文中还比较了 Java Stream API 与其他集合处理库的异同，强调了其在现代 Java 开发中的重要性和实用性。

Damon小智
发表于2024-04-28 23:57:31
2101 0 0

2.1k 0 0

本文全面介绍了 Java Stream API 的概念、功能以及如何在 Java 中有效地使用它进行集合和数据流的处理。通过详细解释和示例，文章展示了 Java Stream API 在简化代码、提高效率以及支持函数式编程方面的优势。文中还比较了 Java Stream API 与其他集合处理库的异同，强调了其在现代 Java 开发中的重要性和实用性。
API Java 大数据
北美区域一个标准参考网格系统，覆盖整个研究区域，囊括北美东部
ABoVE: Study Domain and Standard Reference Grids, Version 2简介文件修订日期：2023-08-23数据集版本: 2.1摘要北极-北方脆弱性实验（ABoVE）开发了两种标准化空间数据产品，以加快研究活动的协调，促进数据的互操作性。ABoVE 研究域包括美国阿拉斯加的北极和北方地区，以及北美加拿大的西部省份。在该域内指定了核心和扩展研...

此星光明
发表于2024-04-05 10:46:29
3285 0 0

3.2k 0 0

ABoVE: Study Domain and Standard Reference Grids, Version 2简介文件修订日期：2023-08-23数据集版本: 2.1摘要北极-北方脆弱性实验（ABoVE）开发了两种标准化空间数据产品，以加快研究活动的协调，促进数据的互操作性。ABoVE 研究域包括美国阿拉斯加的北极和北方地区，以及北美加拿大的西部省份。在该域内指定了核心和扩展研...
云计算大数据数据库机器学习遥感

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript