• [分享交流] 大数据未来发展趋势大家怎么看
    大数据未来发展趋势大家怎么看
  • [技术干货] 大数据干货合集(2025年7月)
    云原生架构的优势cid:link_0向量化执行引擎cid:link_1执行器cid:link_2向量化执行引擎的性能cid:link_3GaussDB(DWS)演化cid:link_4数据湖和数据仓库cid:link_5湖仓一体的优势cid:link_6基于DWS的湖仓一体方案构建cid:link_7华为云数仓DWS备份恢复cid:link_8DWS集群架构cid:link_9备份恢复问题定位分析方法cid:link_10华为云数仓DWS三重高可用保障业务不中断cid:link_11GaussDB(DWS),共筑数据高可靠新防线cid:link_12Navicat Premiu工具cid:link_13华为云DataArtshttps://bbs.huaweicloud.com/forum/thread-0201189222493693052-1-1.html
  • [技术干货] 华为云DataArts
    华为云DataArts数据治理生产线具备湖仓一体能力并提供完整的数据分析云服务组合:有单集群最大支持6万+节点的MRS云原生数据湖服务、数智融合的全托管Serverless数据湖探索服务DLI、金融行业全球最大的商用部署云数据仓库GaussDB(DWS)服务,DLI/MRS/DWS既可以灵活按需部署,也可以基于HetuEngine提供跨湖跨仓、跨域的协同分析能力,通过数据虚拟化技术融合演进到湖仓一体,减少80%数据搬迁,跨源跨域协同分析提效10倍。华为云湖仓一体架构基于DataArts打造,满足公有云、混合云、边缘等场景灵活部署诉求,架构云原生升级,支持容器部署资源弹性提升5倍,同时公有云提供全托管、Serverless云原生版本,支持用户按需使用、按量计费、免运维,效率提升3倍以上。当前华为云湖仓一体也已经融合了华为云DataArts Studio一站式数据治理开发平台、GES万亿级图引擎、TICS可信数据流通等服务,通过LakeFormation统一元数据和统一数据安全,让数据湖解决方案构建更加容易,数据流动更加高效。在湖仓一体Lakehouse架构基础上,华为云DataArts增强了流批一体能力,即数据秒级实时入湖,实时增量更新,实时数据读取,一份数据在统一的数据格式上支持实时、准实时、离线数据加工,高效支撑业务从T+1到T+0实时化,大大提升用户体验。同时DataArts Studio提供了一键数据入湖工具,一套平台支持批、流、CDC增量等场景数据联动入湖,提供可视化流批一体作业开发调度平台,内置低代码开发能力,集成作业监控,完善的批流全链路数据治理,让流批作业轻松上线。
  • [技术干货] Navicat Premiu工具
    自Navicat Premium 17.1.3版本起,使用Windows平台的用户可通过Navicat Premium更为直观的图形化界面管理GaussDB(DWS)数据仓库,轻松完成从SQL查询编辑、数据操作、数据库设计管理、商业智能BI到协同合作的全过程,极大地降低了数据库操作的复杂度与技术门槛。华为云GaussDB(DWS)一直致力于完善生态体系构建,为用户提供最佳的使用体验。Navicat作为全球领先的数据库管理软件的供应商,因其广泛的数据库兼容、丰富的功能特性以及轻松创建、管理、维护数据库能力,成为数据库开发者的首选。未来,华为云数据仓库GaussDB(DWS)与Navicat将继续深化合作,探索更多实用的功能与技术,为用户带来更加卓越的数据仓库管理体验。华为云数据仓库GaussDB(DWS)是一款基于华为云基础架构和平台的在线数据分析处理数据库,提供即开即用、可扩展且完全托管的分析型数据库服务,兼容ANSI/ISO标准的SQL92、SQL99和SQL 2003语法,同时兼容Oracle/Teradata/MySQL等数据库生态,为各行业PB级海量大数据分析提供有竞争力的解决方案。此次Navicat成功实现对GaussDB(DWS)的原生兼容,众多GaussDB(DWS)开发者功不可没。正是因为大家对GaussDB(DWS)满怀热忱,才促成了这一里程碑式的发布。在此,我们衷心地向每一位参与其中的开发者表达最深切的感激之情!同时,我们欢迎更多开发者加入我们,共同推动Navicat对GaussDB(DWS)支持功能的持续完善。
  • [技术干货] GaussDB(DWS),共筑数据高可靠新防线
    在金融科技日新月异的今天,数据安全与业务连续性成为金融机构面临的重要挑战。温州银行历来重视数据的安全与业务的连续性,持续在积极寻求与业界领先的科技伙伴合作,以加速自身的数字化转型进程。华为云GaussDB(DWS)作为业界领先的数据仓库,凭借其高性能、高扩展性、高可用性的卓越特性,在金融行业赢得了广泛赞誉。在数据安全与业务连续性方面,华为云GaussDB(DWS)更是实现了重大突破,通过三重高可用机制,确保数据不丢失、误删可找回、过载可防控,同时提供细粒度容灾方案,以1/N的成本实现了低成本的透明容灾,极大地降低了灾备集群的投资成本,提高了资源利用效率。通过华为云GaussDB(DWS)的引入,温州银行的数据管理系统可靠性实现了进一步的飞跃,为守护数据安全、释放数据价值提供了多一重的保障。1.智能分析与洞察:华为云GaussDB(DWS)深度融合大数据与AI技术,实现对海量数据的快速处理与智能分析,释放更多数据价值。2.自动化运维管理:华为云GaussDB(DWS)具备智能化的运维管理功能,能够自动完成数据加载、检测、告警等任务,大幅降低运维复杂度与人力成本。用户可以更专注于业务创新,而无需为繁琐的运维工作分心。3.超强安全保障:针对金融行业对数据安全的严格要求,华为云GaussDB(DWS)提供了多层次的安全防护体系。从数据加密、访问控制到安全审计等多个维度保障数据的安全性与合规性,提供坚实的数据保护屏障。
  • [技术干货] 华为云数仓DWS三重高可用保障业务不中断
    DWS的三重高可用保障方案,覆盖AZ内、同Region跨AZ以及跨Region三个关键维度,同时兼顾部署搭建成本,确保在任何极端情况下,企业的业务都能持续运行,数据安全无忧。AZ内高可用方案支持同AZ部署集群,集群故障客户无感。同Region跨AZ高可用方案支持跨AZ部署集群,集群故障客户无感。支持细粒度备份恢复:满足核心数据备份需求,支持单表误删后的表级恢复,支持数据克隆到异构集群,备份范围可灵活选择,灾备成本更低。支持集群级备份恢复:满足全量数据备份需求,全场景覆盖,维护省心。跨Region高可用方案支持细粒度容灾:满足核心数据容灾需求,备集群容灾表持续可读,备集群非容灾表可读可写,支持主备集群DN数N:1部署,支持表级/schema级配置容灾,容灾范围可配置,容灾成本更低。支持集群级容灾:满足全量数据容灾需求,主备集群DN数1:1部署,全场景覆盖,维护省心。DWS的三重高可用保障方案,不仅是对抗机房火灾等物理威胁的利器,更是应对各种复杂数据灾难场景的全面解决方案。在数据为王的时代,业务连续性是发展的基石,因此DWS始终致力于为企业提供最可靠、最高效的数据可靠性保护,让企业在数字化转型的征途中,无惧风雨,稳健前行!
  • [技术干货] 备份恢复问题定位分析方法
    备份恢复相关日志日志是查看代码运行状态和错误定位的重要文件,我们可根据报错信息,并在对应日志中找到有关信息,进一步排查故障。HC/HCS/HCSO集群管控面调用日志: 沙箱外 /home/Ruby/log/cloud-dws-deploy.log管控面归档日志:沙箱外 /home/Ruby/archivelog内核日志:沙箱内 /var/chroot/DWS/manager/backup/log。若备份命令中没有直接指定--logging-path参数,则在沙箱内查看$GAUSSLOG/roach/obs日志沙箱内 cd $GAUSSLOG/bin/gs_obsvi gs_obs.run.log查看对应的报错日志,此处注意的是obs日志需要到具体出错节点上查看问题定位STEP1:找到roach日志存放路径STEP2:检查controller日志信息(vim $GAUSSLOG/roach/controller/roach_controller_current.log)STEP3:如果controller日志不包含具体错误信息,检查agent日志可以获得更详细信息STEP4:检查agent日志信息(vim $GAUSSLOG/roach/agent/roach_agent_current.log)STEP5:检查故障节点agent日志信息(vim $GAUSSLOG/roach/agent/roach_agent_current.log)
  • [技术干货] DWS集群架构
    事务一致性:备份集恢复后的事务状态和备份时相同备份恢复保证一致性:离线备份:数据库停止后,对数据进行转储,此时备份集恢复可以恢复到数据库停止的状态;在线备份:使用数据+XLog日志的方法,即基础数据+备份过程中数据的修改(XLOG)生成备份集,恢复到备份结束的时间点。数据转储GaussDB(DWS)数据库提供支持对接多种介质转储数据的备份恢复方案。介质就是备份集存放的位置:DISK:将数据压缩后转储到本地磁盘;OBS: 对象存储系统,HC/HCS/HCSO默认的介质,GaussDB(DWS)支持在管控面备份到OBS;XBSA协议:对于满足XBSA协议的厂商的通称,该协议是通用的备份协议,类似厂家NBU,X8000。集群级全量备份,支持手动创建和自动创建,自动创建根据用户配置的策略自动触发,默认每周日执行一次。以上是手动创建集群级全量备份。集群级增量备份,不支持手动创建,只支持自动创建。根据配置的策略自动触发,默认每8小时触发一次。备份时间、备份周期均支持配置。Schema级备份,只支持手动创建。可选择DB下的指定schema进行备份,可多选。Schema级备份支持全量备份、增量备份两种模式。细粒度表级恢复,根据细粒度备份集中的表列表,可选择单表/多表恢复,支持恢复到当前DB相同schema和相同table,即覆盖原表;也支持恢复到其他表名称。支持从全量备份集恢复单表、支持从schema备份集恢复单表。支持恢复全量备份集、支持恢复增量备份集。
  • [技术干货] 华为云数仓DWS备份恢复
    在数据为王的大数据时代,企业的核心竞争力日益依赖于数据的完整性与可靠性。然而,面对数据丢失或误操作的潜在风险,如何确保业务连续性,避免经济损失,成为每个企业必须直面的挑战。华为云数仓DWS,提供高可靠的备份容灾解决方案,为企业用数安全保驾护航。因为各类原因,原始数据丢失或由于误操作导致的数据受损的事件时有发生。如果没有数据备份,数据的损坏、丢失将会造成巨大的经济损失。定期将数据进行备份,则当灾难发生时,就可以利用之前的备份数据进行恢复,从而最小化损失。同时数据备份恢复也是国家政策法规的要求,所以数据备份和恢复工作是一项不可忽视的系统工作。备份恢复在保证数据高可用方面起到巨大作用,其具体应用场景有如下几种:‌(1)数据恢复‌通过备份和恢复机制,可以在数据丢失或损坏时迅速恢复数据,确保数据的完整性和安全性。这有助于减少数据损失,保护业务连续性,避免因数据丢失或损坏导致的业务中断和客户信任度的下降‌。‌(2)数据备份定期备份数据可以防止数据丢失或损坏,无论是由于硬件故障、病毒攻击还是其他不可抗力因素。备份数据还可以用于数据迁移和更换设备,简化数据迁移过程,减少风险和麻烦‌。‌(3)故障处理备份和恢复机制可以用于故障处理和错误排查,提高数据库的稳定性和可用性。在发生故障时,可以通过恢复备份数据快速解决问题,恢复正常运行‌。‌(4)满足合规要求‌对于某些行业,如金融、医疗等,备份数据是符合合规要求的一项必要操作。这些行业的合规要求可能规定了数据备份的频率和方法,以确保数据的安全性和可靠性‌。(5)‌快速回滚到恢复点‌备份文件通常包含多个版本的数据,可以选择回滚到之前某个特定时间点的数据,以避免错误操作或数据损坏对业务造成进一步影响‌。‌恢复特定文件或数据‌:数据备份和恢复还可以帮助用户恢复特定的文件或数据,而无需恢复整个系统或数据库‌。
  • [技术干货] 基于DWS的湖仓一体方案构建
    湖仓一体可以定义为由数据湖和数据仓库组合构建的现代数据平台。更具体地说,湖仓一体拥有数据湖的非结构化数据的灵活存储特性,以及数据仓库的管理功能和工具,然后战略性地将两者作为一个更大的系统一起实施。华为云DWS湖仓一体方案通过集成DWS高性能云数据仓库和其他云原生服务,实现了数据的统一存储、管理和分析。该方案旨在帮助企业从传统的大数据和数仓方案向“一湖+多样集市+数据智能”分层建设演进,实现数据的全面整合和价值最大化。DWS凭借优异的架构优势和性能在获得业界的诸多认可,金融、互联网、零售等多个行业的用户已基于DWS构建湖仓一体方案。在技术方面DWS具有以下优势:统一元数据管理,无缝访问数据湖DWS对接元数据服务,Hive MetaStore、Lake Formation元数据管理,可直接访问数据湖的数据表定义,与开源数据无缝对接,无需创建外表,自动感知DLL变化。DWS支持主要的开源数据格式有ORC,、Parquet、Hudi、Carbon、CSV。其中对于Sql on Hudi,可进行增量查询及导入方式,既支持实时链路的增量分析,也可以支持离线链路的批量分析。湖仓融合DWS支持查询数据湖和数据仓库内的任意数据,体验一致。高效获取外表数据,进行批量计算,内外表数据join,可将数据直接写回数据湖,无需额外数据中转拷贝。跨集群数据互访打通不同数据系统、不同集群间的数据共享和跨库分析的能力,支持跨集群互访、集群间数据互联互通、计算下推、协同计算,实现数据多平台之间透明流动。DWS多VW支持基于一份数据的实时、批量、交互式SQL查询,负载完全隔离,并发线性扩展。通过元数据和数据共享,实现一份数据的异构计算引擎的多样计算。具有极致查询性能在对大量数据进行复杂的查询和分析时,通过多种手段提升访问外表性能,多层缓存(内存cache、disk cache)、分区剪枝、多层过滤下推,以及DWS的物化视图功能预先计算和存储这些查询的结果,大幅提高查询性能。
  • [技术干货] 湖仓一体的优势
    数据仓库和数据湖各有其优缺点,企业在选择时应根据自身需求和实际情况进行权衡。对于需要处理大量结构化数据并进行复杂分析的企业来说,数据仓库可能更合适;而对于需要存储大量原始数据并希望灵活地进行数据分析的企业来说,数据湖可能更合适。但数据湖和数据仓库的分离使用在大数据管理和分析中可能带来一系列问题。这些问题主要涉及到数据的整合性、管理复杂性、性能瓶颈以及数据价值的释放等方面。1 数据孤岛当数据湖和数据仓库分离时,不同系统间的数据难以实现无缝集成,形成数据孤岛。这导致企业在进行综合数据分析时,需要跨越多个系统获取数据,增加了数据整合的难度和成本。2 运维难度大, 权限管理困难分离的系统需要分别进行运维和管理,增加了IT团队的工作量和复杂性。同时,不同系统间的依赖关系也可能导致运维过程中的冲突和故障。3 性能瓶颈及其带来的数据价值释放受限问题分离的系统可能无法充分利用彼此的计算和存储资源,导致数据处理效率低下。例如,当数据仓库需要处理大量数据时,可能无法及时从数据湖中获取所需的数据,从而影响分析结果的时效性。分离的系统可能无法提供统一的查询接口和优化策略,导致查询性能受限。用户可能需要在不同的系统间切换以获取完整的数据视图,增加了查询的复杂性和时间成本。由于数据处理和查询性能的限制,企业可能无法及时获取准确的数据分析结果,导致业务决策滞后。在快速变化的市场环境中,这种滞后可能使企业错失商机或面临更大的风险。分离的数据湖与数据仓库无法提供全面的数据分析能力,限制了企业对数据价值的深入挖掘。例如,数据仓库可能擅长处理结构化数据,但无法有效处理数据湖中的非结构化数据。而数据湖虽然能够存储各种类型的数据,但缺乏高效的数据分析工具和算法。那如果融合数据湖和数据仓库的优势,那是不是就可以提供一个更具性价比更有优势的解决方案?基于这个问题,湖仓一体便应运而生。
  • [技术干货] 数据湖和数据仓库
    数据湖是什么数据湖是一个大型数据存储和处理系统,其核心特点在于能够存储和处理各种类型和格式的数据,包括结构化数据、半结构化数据和非结构化数据。数据湖在存储数据时通常保持数据的原始格式,无需进行结构化处理,保留了数据的完整性和原始性。常见的数据湖架构主要包含OBS/HDFS等构成的存储层、元数据平台、Hive/Spark/Flink等数据处理框架等主要组件。数据仓库是什么数据仓库是一种不同于数据湖的存储库,数据仓库存储经过处理和结构化的数据,为特定目的维护,并以特定的格式存储。数据仓库要求严格的结构化数据模式,以保证数据的一致性和准确性。它是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持经营管理中的决策制定过程。它被视为商业智能(BI)的核心组件,通过提供全面、大量的数据存储来有效支持高层决策分析。数据仓库在业务分析、决策支持、数据挖掘等方面广泛应用。二者联系两者的最终目标都是为了支持数据驱动的决策,通过对数据的有效管理和处理,帮助企业从数据中挖掘价值。无论是数据湖还是数据仓库,都是企业数据架构的重要组成部分,旨在解决数据分散、难以利用的问题,为业务分析、报表生成、机器学习等场景提供数据支持。
  • [技术干货] GaussDB(DWS)演化
    在第一代向量化引擎之后,GaussDB(DWS)演化出具有更高性能的向量化引擎:Sonic向量化引擎和Turbo向量化引擎。GaussDB(DWS)为了OLAP执行性能提升,在列存 + 向量化执行引擎、批量计算的路上不断演进:Stream算子 + 分布式执行框架,支持数据在多节点间流动SMP,节点内多线程并行,充分利用空闲硬件资源LLVM技术,全新的代码生成框架,JIT(just in time)编译器,消除tuple deform瓶颈Sonic向量化引擎,对HashAgg、HashJoin算子进一步向量化,根据每列不同类型实现不同Array来对数据做计算新一代Turbo向量化引擎,对大部分算子做进一步向量化,在Sonic引擎的基础上,新增了Null优化、大整数优化、Stream优化、Sort优化等,进一步提升了性能。向量化引擎的执行算子类似于行执行引擎,包含控制算子、扫描算子、物化算子和连接算子。同样会使用节点表示,继承于行执行节点,执行流程采用递归方式。主要包含的节点有:CStoreScan(顺序扫描),CStoreIndexScan(索引扫描),CStoreIndexHeapScan(利用Bitmap获取元组),VecMaterial(物化),VecSort(排序),VecHashJoin(向量化哈希连接)等。
  • [技术干货] 向量化执行引擎的性能
    行执行器的问题是:CPU大部分处理在遍历Plan Tree过程,而不是真正处理数据,CPU有效利用率低。列存表独有的应用场景,需要配套的向量化引擎,才能真正发挥其在OLAP场景下提升性能的优势。因此,列执行器的改造基本思路为:一次处理一列数据。和行执行器一样,向量化执行引擎调度器,遵循Pipeline模式,但每次处理及在算子间传递数据为一次一个Batch(即1000行数据),CPU命中率提高,IO读操作减少。列存表的某些场景不支持向量化执行引擎,譬如:string_to_array、listagg、string_agg等。GaussDB(DWS)具有将两套行列引擎自动切换的能力。针对列存数据,如果只有行引擎,通常需要将列数据重构成元组tuple给执行引擎逐行处理。Tuple deform过程影响列存数据查询处理的性能。对比行列存引擎对同一表达式x*(1-y)计算的性能,可以看到列存引擎的Cstore Scan算子相比行存引擎的Seq Scan算子,耗时减少了85%。向量计算的特点是:一次计算多个值,减少函数调用和上下文切换,尽量利用CPU的缓存以及向量化执行指令提高性能。向量化执行引擎的性能优势:一次一Batch,读取更多数据,减少IO读次数。由于Batch中记录数多,相应的CPU的cache命中率提升。Pipeline模式执行过程中的函数调用次数减少。与列存表配套,减少tuple deform,即列存数据重构tuple的时间开销。
  • [技术干货] 执行器
    执行器是优化器与存储引擎的交互枢纽。以优化器生成的执行计划树为输入,从存储引擎访问数据,并按照计划,操作各种执行算子,从而实现数据的处理。采用Pipeline模式, 行执行器一次一tuple,列执行器一次一batch。上层驱动下层,使得数据在执行树上流动。提供各种数据处理的执行算子。展示了自上而下的控制流和自下而上的数据流。执行器的执行过程可分为这三个步骤:执行器初始化:构造执行器全局状态信息estate、递归遍历计划树各节点,初始化其执行状态信息planstate执行器的执行:行引擎和向量化引擎入口独立开,从计划树根节点开始,递归遍历到叶节点获取一个tuple/batch,经过逐层节点算子的处理,返回一个结果tuple/batch,直到再无tuple/batch。执行器的清理:回收执行器全局状态信息,清理各plan node的执行状态。