- 在诞生之初,Trino是为了填补当时 Facebook 内部实时查询和 ETL 处理之间的空白。Trino的核心目标就是提供交互式查询,也就是我们常说的 Ad-Hoc Query,很多公司都使用它作为 OLAP 计算引擎。近年来业务场景越来越复杂,除了交互式查询场景,很多公司也需要兼顾批处理作业,技术大佬们开始思考如何用Trino来进行大数据集的批加工处理。 在诞生之初,Trino是为了填补当时 Facebook 内部实时查询和 ETL 处理之间的空白。Trino的核心目标就是提供交互式查询,也就是我们常说的 Ad-Hoc Query,很多公司都使用它作为 OLAP 计算引擎。近年来业务场景越来越复杂,除了交互式查询场景,很多公司也需要兼顾批处理作业,技术大佬们开始思考如何用Trino来进行大数据集的批加工处理。
- https://bbs.huaweicloud.com/blogs/281649一文介绍了HBase的启动基本流程以及部分MTTR优化实践。本文在该文章的基础上主要介绍了一些华为云在HBase 2.x内核所做的一些MTTR优化实践。 https://bbs.huaweicloud.com/blogs/281649一文介绍了HBase的启动基本流程以及部分MTTR优化实践。本文在该文章的基础上主要介绍了一些华为云在HBase 2.x内核所做的一些MTTR优化实践。
- kafka的粘性分区特性是在kafka的2.0版本以后提出的,旨在提升生产者发送数据的调度性能,笔者在生产环境使用过程中发现了一个致命的问题并在此处分享 kafka的粘性分区特性是在kafka的2.0版本以后提出的,旨在提升生产者发送数据的调度性能,笔者在生产环境使用过程中发现了一个致命的问题并在此处分享
- 数据压缩是kafka解决空间问题和超大数据问题关键场景,例如:当kafka的磁盘空间不足时,可以使用数据压缩,来节省磁盘空间的使用。当生产端需要向kafka集群发送大量的超大数据(大于1M的数据)时可以通过开启压缩模式来减少传输过程中带来的网络消耗。压缩模式开启有一定的要求,为什么会这样,先看kafka压缩的原理:Kafka服务端使用的topic最终压缩模式(由compression.typ... 数据压缩是kafka解决空间问题和超大数据问题关键场景,例如:当kafka的磁盘空间不足时,可以使用数据压缩,来节省磁盘空间的使用。当生产端需要向kafka集群发送大量的超大数据(大于1M的数据)时可以通过开启压缩模式来减少传输过程中带来的网络消耗。压缩模式开启有一定的要求,为什么会这样,先看kafka压缩的原理:Kafka服务端使用的topic最终压缩模式(由compression.typ...
- 在分布式系统中负载均衡是一个非常重要的功能,Apache HBase通常通过Region的数量实现负载均衡,StochasticLoadBalancer将不仅仅考虑Region数量,还会考虑Region负载、表负载、数据本地化、MemStore大小、Storefile大小等。本文将展开分析HBase负载均衡中StochasticLoadBalancer相关内容。 在分布式系统中负载均衡是一个非常重要的功能,Apache HBase通常通过Region的数量实现负载均衡,StochasticLoadBalancer将不仅仅考虑Region数量,还会考虑Region负载、表负载、数据本地化、MemStore大小、Storefile大小等。本文将展开分析HBase负载均衡中StochasticLoadBalancer相关内容。
- FusionInsight Manager的WEB UI运行在Tomcat上,Manager作为MRS的集群管理界面,其重要性不言而喻,一旦Tomcat出现故障,管理界面将不可用。因此监控Tomcat的JVM进程是有必要的,当再次出现类似的Tomcat异常情况时可以提前预知。Manager作为MRS集群的监控,自身的进程并没有可视化的监控界面。本文介绍一种通过JMX方式监控Tomcat进程。 FusionInsight Manager的WEB UI运行在Tomcat上,Manager作为MRS的集群管理界面,其重要性不言而喻,一旦Tomcat出现故障,管理界面将不可用。因此监控Tomcat的JVM进程是有必要的,当再次出现类似的Tomcat异常情况时可以提前预知。Manager作为MRS集群的监控,自身的进程并没有可视化的监控界面。本文介绍一种通过JMX方式监控Tomcat进程。
- 最近在处理一些现网问题时,发现好几例因为建表或者rowkey设计不合理导致的性能问题。这类问题往往在测试环境因为压力不够或者数据量过小,不易被发现。但是一旦部署到生产环境再去解决,代价往往会非常大。 根据对HBase用户对了解,往往存在如下误解: 我之前使用MySql没听说要做什么预分区; HBase对region有自动分裂的能力,为什么要做预分区? 最近在处理一些现网问题时,发现好几例因为建表或者rowkey设计不合理导致的性能问题。这类问题往往在测试环境因为压力不够或者数据量过小,不易被发现。但是一旦部署到生产环境再去解决,代价往往会非常大。 根据对HBase用户对了解,往往存在如下误解: 我之前使用MySql没听说要做什么预分区; HBase对region有自动分裂的能力,为什么要做预分区?
- kafka性能维度标准:6.5.1版本之后kafka生产者的性能基线标准如何判断一个kafka集群是否已经处于性能瓶颈,通常的判断条件有如下几点:维度1:磁盘IO读写磁盘性能是kafka重要的参数指标,如果磁盘IO到达性能瓶颈会直接导致业务故障。Kafka读写性能跟磁盘IO之间的关系计算如下:举例:假设磁盘IO的上限为100M/s,数据大小为8k,假设在topic仅设置为单副本的情况下,理论... kafka性能维度标准:6.5.1版本之后kafka生产者的性能基线标准如何判断一个kafka集群是否已经处于性能瓶颈,通常的判断条件有如下几点:维度1:磁盘IO读写磁盘性能是kafka重要的参数指标,如果磁盘IO到达性能瓶颈会直接导致业务故障。Kafka读写性能跟磁盘IO之间的关系计算如下:举例:假设磁盘IO的上限为100M/s,数据大小为8k,假设在topic仅设置为单副本的情况下,理论...
- 拉链表是缓慢变化维的一种实现形式,是数据仓库的常用数据模型。基于传统大数据需要全量覆盖写的模式进行,基于Hudi的能力,实现方案会更加简单,性能更优。 拉链表是缓慢变化维的一种实现形式,是数据仓库的常用数据模型。基于传统大数据需要全量覆盖写的模式进行,基于Hudi的能力,实现方案会更加简单,性能更优。
- 华为云FusionInsight MRS通过FGL对HDFS NameNode锁机制进行优化,有效提升了NameNode的读写吞吐量,从而能够支持更多数据,更多业务请求访问,从而更好的支撑政企客户高效用数,业务洞见更准,价值兑现更快。 华为云FusionInsight MRS通过FGL对HDFS NameNode锁机制进行优化,有效提升了NameNode的读写吞吐量,从而能够支持更多数据,更多业务请求访问,从而更好的支撑政企客户高效用数,业务洞见更准,价值兑现更快。
- hbck2使用hbase hbck -help:hbck帮助,执行后反馈输出hbck的帮助文档。没太多有效信息,主要就是说hbase2.x里面不再支持hbck1。使用hbase hbck -j /opt/hbase-hbck2-1.1.0.jar --help 输出帮助信息。bypass[OPTIONS]<PID>…参数说明:中止指定的Procedure任务。当一个Procedure任务长... hbck2使用hbase hbck -help:hbck帮助,执行后反馈输出hbck的帮助文档。没太多有效信息,主要就是说hbase2.x里面不再支持hbck1。使用hbase hbck -j /opt/hbase-hbck2-1.1.0.jar --help 输出帮助信息。bypass[OPTIONS]<PID>…参数说明:中止指定的Procedure任务。当一个Procedure任务长...
- HBaseFsck(hbck)是一种命令行工具,可检查region一致性和表完整性问题并修复损坏。目前HBCK工具有两个版本,HBCK1和HBCK2。两个版本的HBCK工具在设计上已经发生的非常大的变化,在使用方式上也有比较大的差异,两个版本的工具只能使用在对应的内核版本上,无法混用。hbck1(6.5.1版本及以前)hbck1主要用于在hbase1.x版本进行检查or修复。常用命令:-fi... HBaseFsck(hbck)是一种命令行工具,可检查region一致性和表完整性问题并修复损坏。目前HBCK工具有两个版本,HBCK1和HBCK2。两个版本的HBCK工具在设计上已经发生的非常大的变化,在使用方式上也有比较大的差异,两个版本的工具只能使用在对应的内核版本上,无法混用。hbck1(6.5.1版本及以前)hbck1主要用于在hbase1.x版本进行检查or修复。常用命令:-fi...
- 特性背景1. 实际场景需要支持JDBC客户端跨网络域访问HetuEngine服务端2. 多数据中心的数据互联互通和数据安全管理,是制约数据融合创新,挖掘数据价值的主要矛盾。华为云FusionInsight提供 HetuEngine,将物理分散的数据中心,编织为统一的超级计算网格,让客户告别数据 ETL来回搬迁数据的历史,从单数据湖靠人,迈向安全、高效、智能的跨湖融合与创新特性功能说明1、 ... 特性背景1. 实际场景需要支持JDBC客户端跨网络域访问HetuEngine服务端2. 多数据中心的数据互联互通和数据安全管理,是制约数据融合创新,挖掘数据价值的主要矛盾。华为云FusionInsight提供 HetuEngine,将物理分散的数据中心,编织为统一的超级计算网格,让客户告别数据 ETL来回搬迁数据的历史,从单数据湖靠人,迈向安全、高效、智能的跨湖融合与创新特性功能说明1、 ...
- 特性背景传统JDBC或者copymanager方式对GaussDB进行数据写入时,数据都是经过GaussDB的Coordinator节点进入集群,会对coordinator节点带来较大压力,并且存在性能瓶颈。因此HetuEngine使用MDE特性来解决这类问题。在使用HetuEngine向GaussDB写入数据时(包含CREATE TABLE AS SELECT和INSERT INTO SE... 特性背景传统JDBC或者copymanager方式对GaussDB进行数据写入时,数据都是经过GaussDB的Coordinator节点进入集群,会对coordinator节点带来较大压力,并且存在性能瓶颈。因此HetuEngine使用MDE特性来解决这类问题。在使用HetuEngine向GaussDB写入数据时(包含CREATE TABLE AS SELECT和INSERT INTO SE...
- 一. 什么是Schema演进?Schema演进是指保持表的数据不变,对表的schema进行变换,包括列的位置变更,新增删除列或者列的数据类型变更,查询引擎能正确地处理这些数据与表schema不一致的变更。 二.HetuEngine哪些表支持Schema演进? COW表的schema变更支持MOR表的RT表的schema变更支持MOR表的RO表的schema变更支持 三.HetuEng... 一. 什么是Schema演进?Schema演进是指保持表的数据不变,对表的schema进行变换,包括列的位置变更,新增删除列或者列的数据类型变更,查询引擎能正确地处理这些数据与表schema不一致的变更。 二.HetuEngine哪些表支持Schema演进? COW表的schema变更支持MOR表的RT表的schema变更支持MOR表的RO表的schema变更支持 三.HetuEng...
上滑加载中
推荐直播
-
Skill 构建 × 智能创作:基于华为云码道的 AI 内容生产提效方案2026/03/25 周三 19:00-20:00
余伟,华为云软件研发工程师/万邵业(万少),华为云HCDE开发者专家
本次直播带来两大实战:华为云码道 Skill-Creator 手把手搭建专属知识库 Skill;如何用码道提效 OpenClaw 小说文本,打造从大纲到成稿的 AI 原创小说全链路。技术干货 + OPC创作思路,一次讲透!
回顾中 -
码道新技能,AI 新生产力——从自动视频生成到开源项目解析2026/04/08 周三 19:00-21:00
童得力-华为云开发者生态运营总监/何文强-无人机企业AI提效负责人
本次华为云码道 Skill 实战活动,聚焦两大 AI 开发场景:通过实战教学,带你打造 AI 编程自动生成视频 Skill,并实现对 GitHub 热门开源项目的智能知识抽取,手把手掌握 Skill 开发全流程,用 AI 提升研发效率与内容生产力。
回顾中 -
华为云码道:零代码股票智能决策平台全功能实战2026/04/18 周六 10:00-12:00
秦拳德-中软国际教育卓越研究院研究员、华为云金牌讲师、云原生技术专家
利用Tushare接口获取实时行情数据,采用Transformer算法进行时序预测与涨跌分析,并集成DeepSeek API提供智能解读。同时,项目深度结合华为云CodeArts(码道)的代码智能体能力,实现代码一键推送至云端代码仓库,建立起高效、可协作的团队开发新范式。开发者可快速上手,从零打造功能完整的个股筛选、智能分析与风险管控产品。
回顾中
热门标签