大数据_标签_开发者

博客(11.6k)
视频(24)
论坛(0)
云声(0)
代码示例(0)

[案例分享] 一起学Spark（扩展）

SparkSQLSpark SQL与Spark Core的关系Spark SQL凌驾于Spark Core之上，它依赖于Spark Core提供的执行引擎来完成计算任务。在开发过程中，使用DataFrame API编写的应用程序会先被Spark SQL处理。Spark SQL会解析用户的查询，生成逻辑执行计划，并通过Catalyst优化器进行优化。优化后的逻辑执行计划会被转换为物理执行计划，并最终交付给Spark Core进行执行。因此，Spark SQL可以看作是一个优化引擎，它负责将用户的高级查询转换为高效的可执行计划。而Spark Core则是执行这些计划的底层引擎，它提供了分布式计算的核心功能，确保任务能够在集群中高效地执行。代码例子import org.apache.spark.sql.SparkSession object SparkSQLExample { def main(args: Array[String]): Unit = { // 创建SparkSession，这是SparkSQL的入口点 val spark = SparkSession.builder() .appName("SparkSQLExample") .master("local[*]") .getOrCreate() // 读取数据源到DataFrame val df = spark.read.format("csv") .option("header", "true") .load("path/to/your/csv/file.csv") // 使用SQL查询DataFrame df.createOrReplaceTempView("myTable") val resultDF = spark.sql("SELECT * FROM myTable WHERE column1 > 10") // 显示查询结果 resultDF.show() // 停止SparkSession spark.stop() } }相关概念介绍DataFrame：是SparkSQL中的一个分布式数据集，它提供了一个强类型、领域特定的方式去描述结构化数据。DataFrame可以看作是一个二维表格，有行和列，并且每列都有名称和类型。DataFrame支持丰富的函数式操作（如map、flatMap、filter等）以及SQL操作。RDD (Resilient Distributed Dataset)：是Spark中最基础的数据结构，表示一个不可变、可分区、里面的元素可并行计算的集合。RDD提供了低级别的API，用于操作分布式数据。DataFrame和DataSet都是基于RDD构建的，但它们提供了更高层次、更类型安全的API。SparkContext：是Spark应用程序的入口点，它连接了Spark集群，允许你创建RDD、广播变量等。在Spark 2.x及以后的版本中，建议使用SparkSession代替SparkContext，因为SparkSession封装了SparkContext的功能，并增加了对SparkSQL和DataFrame的支持。SparkSession：是Spark 2.0引入的新概念，是Spark应用程序的单一入口点，用来初始化SparkContext的功能，并提供了一个统一的方式来加载DataFrame和DataSet。SparkSession内部封装了SparkContext，并提供了对SQLContext和HiveContext的访问。SparkSQL的执行流程解析SQL：用户提交的SQL语句首先被解析成一个逻辑计划（Logical Plan）。优化逻辑计划：SparkSQL的查询优化器会尝试对逻辑计划进行优化，以提高查询性能。生成物理计划：优化后的逻辑计划被转换为物理计划（Physical Plan），这是一个可以直接在集群上执行的计划。执行物理计划：物理计划被发送到集群的节点上执行，并返回结果。SparkSQL的优势统一的数据处理接口：SparkSQL提供了SQL、DataFrame和DataSet等多种方式来处理数据，使得用户可以根据需要选择最适合的接口。性能优化：SparkSQL使用Catalyst优化器对查询进行优化，可以自动执行一些常见的优化策略，如谓词下推、列式裁剪等。支持多种数据源：SparkSQL支持多种数据源，如Parquet、JSON、Hive等，用户可以方便地读取和写入各种格式的数据。与Spark生态系统的集成：SparkSQL是Spark生态系统的一部分，可以与其他Spark组件（如Spark Streaming、MLlib等）无缝集成，实现一站式的大数据处理。语言支持Spark支持的主要开发语言：Scala：Scala是Spark的首选编程语言，因为Spark本身是用Scala编写的。Scala与Spark的结合非常紧密，API设计与Spark高度契合，使得Scala在Spark中具有天然的优势。Java：Java也是一种常见的编程语言，可用于编写Spark应用程序。Spark提供了Java API，允许开发人员使用Java编写Spark应用程序。Python：Spark提供了Python API，使Python开发人员能够使用Python编写Spark应用程序。Python在数据分析和机器学习领域非常流行，因此Python API使得Python用户能够轻松地与Spark集成。R：Spark还支持R编程语言，因为它提供了R API。这使得R用户可以在Spark中进行大规模数据分析和处理。SQL：Spark提供了Spark SQL，允许用户使用SQL查询结构化数据。这对于数据库管理员和SQL开发人员来说是一种自然的方式来处理数据。除此之外，在 Apache Spark 3.4 中，Spark Connect 引入了解耦的客户端-服务器 ,同时也有对其他语言的支持如：apache/spark-connect-go

pengbyte 发表于2024-06-13 09:57:18 2024-06-13 09:57:18 最后回复 pengbyte 0
34 0

大数据
[案例分享] 一起学Spark（基础）

概述spark是一个大数据处理框架，最初由加州大学伯克利分校的AMPLab开发，并于2010年开源。它使用Scala语言进行实现，是一种基于内存的快速、通用的大数据分析、处理引擎。Spark提供了大量的库，包括Spark SQL用于结构化数据处理，MLlib用于机器学习，GraphX用于图处理，以及Spark Streaming用于实时数据流处理。Spark的主要特点包括：速度快：Spark基于内存计算，相较于Hadoop的MapReduce模型，其处理速度可以快上数十倍。易用性：Spark支持使用多种编程语言，包括Scala、Java、Python和R，使得开发者可以更加灵活地选择自己熟悉的编程语言。通用性：Spark提供了全面的大数据处理功能，包括批处理、交互式查询、实时流处理、机器学习和图计算。兼容性：Spark可以运行在Hadoop集群上，并且可以访问包括HDFS、Cassandra、HBase、Hive等在内的各种数据源。与Hadoop区别与选择 Spark基于内存进行计算，因此其性能通常比Hadoop更高。Spark可以将中间处理结果数据存储到内存中，从而大大提高了数据处理的速度。然而，这也带来了一个问题，即Spark对内存的需求较大，可能会导致内存溢出的情况。为了解决这个问题，可以增加硬件资源，或者使用缓存和检查点等技术，将内存中的内容部分放入到磁盘中，虽然这可能会稍微降低性能。适合复杂业务快速处理。 Hadoop的内存使用则相对较为传统。在Hadoop中，可以通过配置Mapper的内存大小来进行内存管理。合理的内存设置可以提高作业的执行效率和稳定性。然而，由于Hadoop主要基于磁盘进行计算，因此在处理大规模数据时，其性能可能会受到一定的限制。适合一次性任务批处理。 Spark和Hadoop适用于不同的场景，更像其MapReduce的角色。MapReduce更稳定，Spark通常可以达到MapReduce的几十倍速度。实际工作中，Spark和Hadoop深度结合一起使用。Spark支持on yarn同时源端目标端都可以使用HDFS。核心模块Spark Core：这是Spark最基本与最核心的功能模块，为其他Spark功能模块提供了核心层的支撑。它包含了Spark的基本运行时框架，提供了任务调度、内存管理、错误恢复等基本功能。Spark SQL：这个模块用于处理结构化数据，并提供了用于查询结构化数据的组件。用户可以使用SQL或Hive来查询数据，同时Spark SQL还支持ANSI SQL（即标准的结构化查询语言），并且可以在运行时自适配执行计划。Spark MLlib：这是Spark提供的一个机器学习算法库，不仅提供了模型评估、数据导入等额外的功能，还提供了一些更底层的机器学习原语。Spark Streaming：这个模块是Spark平台上针对实时数据进行流式计算的组件，提供了丰富的处理数据流的API，支持从多个数据源实时读取数据，并可以通过微批处理方式进行数据处理。Spark GraphX：这是Spark面向图计算提供的框架与算法库，提供了图处理的API和算法，支持大规模图数据的处理。RDDSpark任务在执行时，会读取输入数据加载到内存中，转换为RDD。RDD（Resillient Distributed Dataset 弹性分布式数据集）是Spark的核心抽象。特点：弹性：RDD数据默认情况下被存放在内存中，资源不足时会写入磁盘分布式：RDD是抽象的元素集合，会被存放在不同的集群节点上并行执行容错性:RDD是高可用的，因为节点故障导致分区数据丢失会通过自己的数据来源重新计算分区数据运行模式Standalone模式：Standalone模式是Spark自带的一种集群部署方式，它允许用户在集群中独立地运行Spark应用程序，而无需依赖其他资源管理器。在Standalone模式下，Spark集群由一个Master节点和多个Worker节点组成。Master节点负责接收客户端提交的作业，并分配任务给Worker节点执行。Worker节点负责执行任务，并将结果返回给Master节点。Standalone模式的优点在于它简单易用，无需额外的配置和管理，适合开发人员快速测试代码。此外，由于Standalone模式是Spark自带的，因此与其他系统（如Hadoop）的集成度较低，可以减少依赖和复杂性。然而，Standalone模式通常只适用于小规模或中等规模的集群，对于大型集群可能需要考虑其他更高级的资源管理器。Spark on YARN模式：Spark on YARN模式是将Spark应用程序部署在Hadoop YARN集群上运行的一种方式。YARN是Hadoop的一个资源管理器，它负责集群资源的分配和管理。在Spark on YARN模式下，Spark应用程序作为YARN的一个应用程序运行，并通过YARN的调度器来获取集群资源。Spark on YARN模式有两种运行模式：Cluster模式和Client模式。在Cluster模式下，Driver进程在YARN的ApplicationMaster中运行，并与ResourceManager进行通信以获取资源。在Client模式下，Driver进程在提交任务的客户端机器上运行，并与ResourceManager进行通信以获取资源。Spark on YARN模式的优点在于它可以充分利用YARN的资源管理和调度能力，更好地管理和分配集群资源。此外，由于YARN是Hadoop的组件之一，因此Spark on YARN模式可以更好地与Hadoop生态系统中的其他组件（如HDFS、Hive等）进行集成，实际工作中一般都会用这种模式。调度系统5 个主要步骤：将 DAG 拆分为不同的运行阶段 Stages；创建分布式任务 Tasks 和任务组 TaskSet；获取集群内可用硬件资源情况；按照调度规则决定优先调度哪些任务 / 组；依序将分布式任务分发到执行器 Executor；Spark 调度系统的核心职责是：先将用户构建的 DAG 转化为分布式任务，结合分布式集群资源的可用性，基于调度规则依序把分布式任务分发到执行器 Executors；Spark 调度系统的核心原则是：尽可能地让数据呆在原地、保持不动，同时尽可能地把承载计算任务的代码分发到离数据最近的地方（Executors 或计算节点），从而最大限度地降低分布式系统中的网络开销。算子在Spark中，算子（Operators）是用于执行数据处理和计算的重要组件。它们主要分为两大类：Transformation（转换算子）和Action（执行算子）。Transformation（转换算子）：Transformation是Spark中的一类算子，它们将一个RDD（弹性分布式数据集）转换成另一个RDD。Transformation操作是延迟执行的，也就是说，当执行一个Transformation操作时，并不会立即计算结果，而是会生成一个新的RDD，这个新的RDD记录了如何从前一个RDD中计算得出。只有当遇到Action操作时，Spark才会真正开始计算整个作业链（从最初的RDD到最终的RDD）。Transformation算子有很多，比如：map：将RDD中的每个元素通过指定的函数进行转换，并返回一个新的RDD。filter：根据指定的条件过滤RDD中的元素，并返回一个新的RDD。flatMap：将RDD中的每个元素通过指定的函数进行转换，并将结果展平成一个新的RDD。union：将两个RDD合并成一个新的RDD。join：根据指定的key将两个RDD进行连接，并返回一个新的RDD。Action（执行算子）：Action是Spark中的另一类算子，它们会触发Spark提交作业（Job），并将数据输出到Spark系统外部或返回一个值给Driver程序。与Transformation不同，Action操作会立即触发计算。Action算子也有很多，比如：reduce：对RDD中的所有元素进行聚合操作，并返回一个最终的结果。collect：将RDD中的所有元素收集到一个数组中，并返回给Driver程序。count：返回RDD中的元素个数。saveAsTextFile：将RDD中的数据保存到文本文件中。saveAsParquetFile：将RDD中的数据保存为Parquet格式的文件。需要注意的是，Transformation和Action是Spark RDD API中的核心概念，它们共同构成了Spark数据处理和计算的基石。合理利用Spark的lazy特性即只有遇到action算子才会触发执行操作，避免产生过多的中间结果。

pengbyte 发表于2024-06-13 09:54:22 2024-06-13 09:54:22 最后回复 pengbyte 0
31 0

大数据
[热门活动] 【数据库专题直播有奖提问】DTSE Tech Talk 技术直播 NO.61：看直播提问题赢华为云定制T恤、华为云定制Polo衫等好礼！

中奖结果公示感谢各位小伙伴参与本次活动，欢迎关注华为云DTSE Tech Talk 技术直播更多活动~本次活动获奖名单如下：请@Sakura、于7月8日前在此问卷中反馈您的中奖邮寄信息~直播简介【直播主题】智能优化揭秘 - GaussDB数据库查询重写的自动挖掘与生成【直播时间】2024年6月26日 16:30-18:00【直播专家】王肇国上海交通大学软件学院副院长Ethan 华为云数据库 DTSE技术布道师【直播简介】在数据库世界里，查询重写是提升性能的关键环节。现有系统依赖人工发现重写规则，过程缓慢且费时。而WeTune的诞生，彻底改变了这一现状！WeTune是一种革命性工具，能自动发现新重写规则，通过枚举和验证等效查询计划，大幅优化查询性能。加入我们的直播，共同探索数据库查询优化的前沿技术，见证性能提升的神奇瞬间！活动介绍【互动方式】直播前您可以在本帖留下您疑惑的问题，专家会在直播时为您解答。直播后您可以继续在本帖留言，与专家互动交流。我们会在全部活动结束后对参与互动的用户进行评选。【活动时间】即日起—2024年6月27日【奖励说明】评奖规则：活动1：直播期间在直播间提出与直播内容相关的问题，对专家评选为优质问题的开发者进行奖励。奖品：华为云定制T恤活动2：在本帖提出与直播内容相关的问题，由专家在所有互动贴中选出最优问题贴的开发者进行奖励。奖品：华为云定制Polo衫更多直播活动直播互动有礼：官网直播间发口令“华为云 DTSE”抽华为云定制雨伞等好礼。【注意事项】1、所有参与活动的问题，如发现为复用他人内容或直播间中重复内容，则取消获奖资格。2、为保证您顺利领取活动奖品，请您在活动公示奖项后2个工作日内私信提前填写奖品收货信息，如您没有填写，视为自动放弃奖励。3、活动奖项公示时间截止2024年6月29日，如未反馈邮寄信息视为弃奖。本次活动奖品将于奖项公示后30个工作日内统一发出，请您耐心等待。4、活动期间同类子活动每个ID（同一姓名/电话/收货地址）只能获奖一次，若重复则中奖资格顺延至下一位合格开发者，仅一次顺延。5、如活动奖品出现没有库存的情况，华为云工作人员将会替换等价值的奖品，获奖者不同意此规则视为放弃奖品。6、其他事宜请参考【华为云社区常规活动规则】。

云小宅 发表于2024-06-11 11:21:19 2024-06-11 11:21:19 最后回复 yd_247497629 2024-07-05 11:22:59
312 11

网络技术云数据库 GaussDB 算法大数据数据库
[大数据类] profile的sqoop地址对的，但是一直显示-bash: sqoop: command not found

profile 这是sqoop 路径这是测试sqoop是否安装成功所返回的

yd_218418027 发表于2024-04-12 17:21:26 2024-04-12 17:21:26 最后回复赫塔穆勒 2024-04-28 10:50:35
221 3

sqoop Hadoop Hive Yarn 大数据
[技术干货] 大数据干货合集（2024年3月）

性能调优是应用迁移或开发过程中的关键步骤，同时也在整个项目实施过程中占据很大的份量，在很多实施步骤中都需要进行考虑。主要介绍数据库级别的性能调优思路和总体策略，助力GaussDB DWS使用者深谙调优精髓，更好地完成应用实施过程中的各项调优任务。 GaussDB处理的操作类型https://bbs.huaweicloud.com/forum/thread-02104147168146295005-1-1.htmlGaussDB(DWS)性能调优https://bbs.huaweicloud.com/forum/thread-0277147168588691003-1-1.htmlGaussDB(DWS)性能调优系列实战篇https://bbs.huaweicloud.com/forum/thread-02109147168854691008-1-1.htmlGaussDB(DWS)性能调优系列实战篇之十八般武艺https://bbs.huaweicloud.com/forum/thread-0274147169085248005-1-1.htmlGaussDB(DWS)执行算子介绍https://bbs.huaweicloud.com/forum/thread-02109147169299951009-1-1.htmlGaussDB(DWS)之EXPLAIN用法介绍https://bbs.huaweicloud.com/forum/thread-02127147169513665006-1-1.htmlGaussDB(DWS)性能调优系列之query执行流程https://bbs.huaweicloud.com/forum/thread-02104147173806654006-1-1.htmlGaussDB(DWS)性能调优系列之CBO模型https://bbs.huaweicloud.com/forum/thread-0274147174087244007-1-1.htmlGaussDB(DWS)性能调优系列之如何生成统计信息https://bbs.huaweicloud.com/forum/thread-0207147174219702008-1-1.htmlGaussDB(DWS)性能调优系列之什么时候收集统计信息https://bbs.huaweicloud.com/forum/thread-0277147174333643005-1-1.htmlGaussDB(DWS)性能调优系列基础篇之衍化至繁之分布式计划详解https://bbs.huaweicloud.com/forum/thread-02104147175009699007-1-1.htmlGaussDB(DWS)性能调优系列实战篇之SQL识别https://bbs.huaweicloud.com/forum/thread-02109147175614711011-1-1.htmlGaussDB(DWS)性能调优系列实战篇之表定义https://bbs.huaweicloud.com/forum/thread-0296147175801701007-1-1.htmlGaussDB(DWS)之数据分布方式设计https://bbs.huaweicloud.com/forum/thread-0296147176521895008-1-1.htmlGaussDB(DWS)之SQL改写https://bbs.huaweicloud.com/forum/thread-0277147176883052006-1-1.html

小强鼓掌 发表于2024-03-30 18:45:57 2024-03-30 18:45:57 最后回复小强鼓掌 0
21 0

大数据
[技术干货] GaussDB(DWS)之SQL改写------转载

数据库的应用中，充斥着坏味道的SQL，非常影响查询的性能。坏味道SQL，即由于开发者写的随意，导致执行性能较差，需要通过优化SQL语句进行调优的SQL。在GaussDB(DWS)分布式场景下，相对于单机环境，将出现更多的坏味道SQL语句。本文将系统介绍在GaussDB(DWS)系统中影响性能的坏味道SQL及SQL模式，帮助大家能够从原理层面尽快识别这些坏味道SQL，在调优过程中及时发现问题，进行整改。从大的方面来看，主要包含不支持下推导致的坏味道、不支持重分布导致的坏味道、数据类型转换导致的坏味道、全局性操作导致的坏味道、NestLoop类低效运算导致的坏味道和冗余操作导致的坏味道。本文将介绍每一类坏味道的原因，以及如何进行SQL改写及调优。在GaussDB(DWS)分布式场景下，数据运算应该全部下推到DN上执行，才能获得比较好的性能收益。但对于某些场景，数据必须在CN上执行，导致语句无法全部下推到DN运算，会导致两个主要的瓶颈点：（1）只有基表扫描在DN执行，需要将大量数据传输到CN上，网络开销增大。（2）原先可以在DN上分布式执行的数据，均由CN单个执行，瓶颈加大。通常情况下，我们不支持不下推函数、复合类型、复杂语法及组合（例如：某些场景的with recursive语法，rollup函数+多count(distinct)语法）的下推，所以应该尽量避免在语句中使用以上元素。在客户场景中，经常遇到函数不能下推导致的问题，本篇博文重点以函数下推为例，讲述如何解决类似的问题。如下图计划所示，在语句中包含了不支持下推的函数unship_func()，导致整个计划不能下推，计划中出现“_REMOTE_TABLE_QUERY_”的字样，即会出现上述的瓶颈问题。遇到类似问题，需要根据具体应用场景，为函数设置合理的下推属性，使其可以下推。以上两个属性可以通过系统表pg_proc的provalitile和proshippable字段查询。目前GaussDB以CN/DN行为是否一致作为下推标准，支持大部分immutable和stable函数的下推，以及特定场景少量volatile函数的下推。对于用户自定义函数，由于数据库无法知晓函数的行为，因为不知道函数的属性，因为默认是volatile和unshippable的。包含对应函数的语句将无法下推到DN执行。用户可以根据函数的行为，判断返回结果是否恒定，以及是否可以下推，设置对应的属性。具体的设置方法为：（1）如果函数的返回结果是恒定的，比如数字计算函数，日期计算函数，则可以为其设置immutable属性。（2）如果函数中使用了数据表，且数据表均是复制表的只读操作且不涉及事务操作（所以DN数据均相同，可以下推到一个DN上执行），则可以为其设置shippable属性。其余情况则还是不能下推，如果错误设置，会引发不可预知错误，因此需要慎重设置。转载：https://mp.weixin.qq.com/s/Jy27HVRIIuEXddrifXFlFw

小强鼓掌 发表于2024-03-30 18:28:03 2024-03-30 18:28:03 最后回复小强鼓掌 0
29 0

大数据
[技术干货] GaussDB(DWS)之数据分布方式设计-----转载

GaussDB(DWS)的MPP架构，天然支持通过散列的方式进行水平分表，将业务数据表的元组打散存储到各个数据节点(DataNode)上，通过并行利用各个数据节点的IO能力提升数据扫描的效率。为了优化高频关联小表的查询性能，GuassDB(DWS)支持复制的数据分布方式。表的分布方式取决于表的业务属性，事实表一般数据量较大，且数据增加或者变化很频繁，建议使用散列分布；维度表数据量较小，且数据一般不会变化，只有定期更新操作，建议使用复制分布。散列分布是按照某种散列规则，把表数据map到指定的数据节点(DataNode)上进行存储的方式。散列分布可以利用各个节点的IO资源，提升各个数据节点的IO能力。GaussDB(DWS)中采用hash的散列策略，按照表定义时指定的分布列组合，对一条记录的某一个或几个字段进行hash运算后，生成对应的hash值，然后根据DN实例与哈希值的映射关系获得该元组的目标存储位置。对于散列分布的表，分布列的选择非常重要。当分布列选择合理时，Hash散列策略可以大大减小计算节点之间的数据交互，大幅提升查询性能；但是当hash分布列选择不合理时，会导致数据倾斜(某个或者某些DataNode的数据量严重超过其它DataNode的数据量)，因为短板效应导致集群的有效容量下降。散列主要使用于客户业务表，这些表有数据量大、数据量逐渐增加的特征，适用散列分布可以有效的提升表查询性能。复制分布(replication)策略将表中的全量数据在集群的每一个DN实例上保留一份。在关联操作中复制表可以避免数据重分布操作，减小网络开销，同时减少了plan segment(每个plan segment都会起对应的线程)的个数；但是复制分布策略会导致比较严重的数据冗余，因此只有小表才适合复制分布策略。实际生产上只有小数据量、查询频繁、更新(DELETE/INSERT/UFPATE)很少的表(基本都是维度表)才会定义replication分布策略。Hash分布表的分布列选取至关重要，需要满足以下原则：a) 列值应比较离散，以便数据能够均匀分布到各个DN分布列值分布不均匀会导致数据在数据节点分布不均匀(某些DataNode上数据量大，某些DataNode上数据量小)，这会导致不同DataNode上数据扫面的计算量不均衡，从而拖慢整个表扫描的性能；同时会因为部分DataNode的磁盘容量提前爆满，集群只读，导致集群有效容量下降。通常情况下使用表的主键列或者唯一索引列作为表的分布列是一个不错的选择b) 考虑选择查询中的连接条件为分布列GaussDB(DWS)的散列策略是hash，根据GaussDB(DWS)的分布式查询框架，当两表等值关联(join)列刚好是表的分布列时(如果分布列是多列，那么要求所有列都存在等值关联条件)，join任务可以不再数据重分布的情况下直接Join，这样可以省去数据重分布的时间开销和网络资源开销，从而提升查询计算性能。c) 在满足前面两条原则的情况下尽量不要选取存在常量等值filter的列GaussDB(DWS)会协调节点(Coordinator)上进行任务规划，此时会根据表的过滤条件(Filter)进行扫面操作剪枝优化，以较小IO资源开销。如果表dwcjk的分布列是zqdh，且表dwcjk扫描时存在Filter条件zqdh=’000001’，而根据散列策略zqdh=’000001’的值都分布在数据节点DN1上，那么协调节点(Coordinator)上进行任务规划时会对dwcjk表的扫描操作进行剪枝(指定只有在数据节点DN1对表dwcjk进行数据扫描操作)。这样对于表扫描的实际压力会值落在节点DN1，导致不同数据节点的IO压力不均衡。注意此策略主要适用于统计分析类的重查询场景，对于详单查询等以点查为主要场景的查询类业务，在满足前两个约束的前提下，可以优选存在常量等值Filter约束列作为分布列。因为这种场景在数据节点上使用索引加速查询，查询耗时往往以ms或者几十ms计，通过剪枝把查询任务map到具体的某个数据节点上执行，节省无效操作(不用连接到所有的数据节点上操作)，同时也会大大的提高并发能力。GaussDB(DWS)的列存储格式的表不支持主键和唯一约束，行存储格式表支持主键和唯一约束。但是存储格式表的主键和唯一约束的创建存在严格约束：分布列的集合是主键列或者索引列的子集。多个列作为分布列时，分布列的顺序会影响数据分布，即同一条记录在distribute by hash(col1, col2)方式下，跟在distribute by hash(col2, col1)分布方式下可能会map到不同的DataNode上进行存储。GaussDB(DWS)对分布列的个数没有限制，但是建议分布列的个数尽量少，一方面可以减小数据map到不同DN的计算开销，同时也可以更好的全匹配join条件，提升查询性能。转载：https://mp.weixin.qq.com/s/DgKx4kZngASQyOytn7Ve1w

小强鼓掌 发表于2024-03-30 18:22:02 2024-03-30 18:22:02 最后回复小强鼓掌 0
39 0

大数据
[技术干货] GaussDB(DWS)性能调优系列实战篇之表定义------转载

GaussDB(DWS)是企业级的大规模并行处理关系型数据库，采用采用Shared-nothing架构的MPP(Massive Parallel Processing)系统，支持PB级别数据量的处理，适用于详单查询、数据仓库、混合负载和大数据分析等场景。Shared-nothing架构天然支持数据打散分布到各个数据节点(DataNode)以及多节点协同计算机制，同时这种机制对表定义涉及提出了更高的诉求，表定义会直接影响集群的有效容量以及业务查询性能。本文从产品架构、功能实现以及业务特征的角度阐述GaussDB(DWS)的中表定义需要关注的一些关键因素。1、存储方式设计 GaussDB(DWS)支持行存储(row-based storage)和列存储(column-based storage)两种存储方式，这两种存储格式分别适用不同的业务场景。通常来讲典型的点查询为主的场景推荐使用行存储，典型的统计分析型业务推荐使用列存储。行存储模式下，一条数据的所有列组合在一起称之为一个tuple多个tuple组成一个page，所有的page构成表的数据文件。pages是行存数据存取的最小单元，一个page默认8KB。page的基本结构如下：行存储模式下，所有数据列集中存储在一个tuple中，所以行存储的更新(UPDATE)、删除(DELETE)、索引点查性能较好，但是当查询列只涉及所有列的很少一部分的时候，所有列的数据也都会被读取，导致大量的无效IO，因此推荐比较简单点查场景或者存在频繁的数据更新的业务采用行存储。列存储下把数据表中的每一列单独存储，每个列的 6w条数据组成一个CU，每个列的所有的CU构成一个列的数据文件，每个列都会有单独的数据文件。CU的基本结构如下：列数据之间具有更高的相似度，所以列存储的压缩性能更好。当只查询少量列且查询数据量较大时，列存储的IO性能收益很明显。因为数据分列存储，导致更新(UPDATE)、删除(DELETE)、索引点查性的时候需要访问或者刷新更多的文件，导致大量的随机IO；因此相比行存储，列存储的更新、删除、索引点查询的性能较差。同时列存储天然的可以跟向量化执行引擎对接，在表关联、汇聚等重计算场景下可以使用向量化执行引擎提升计算性能，因此统计分析等重IO和重计算型业务推荐使用列存储。表的存储类型是表定义设计的第一步，客户业务属性是表的存储类型的决定性因素。根据以上我们对行存储和列存储原理的介绍，重查询分析(大量的多表关联、group by操作)场景推荐使用使用列存表，典型的有数仓场景；以点查询为主的场景推荐使用行存表，典型的有详单查询场景。GaussDB(DWS)支持单个database中同时存储行存储和列存储类型的表，以更好的支持混合负载场景。转载：https://mp.weixin.qq.com/s/DgKx4kZngASQyOytn7Ve1w

小强鼓掌 发表于2024-03-30 18:10:02 2024-03-30 18:10:02 最后回复小强鼓掌 0
18 0

大数据
[技术干货] GaussDB(DWS)性能调优系列实战篇之SQL识别------转载

多列/单列统计信息未收集优化器依赖于表的统计信息来生成合理的执行计划。如果没有及时对表中各列收集统计信息，可能会影响优化器的判断，从而生成较差的执行计划。如果生成计划时发现某个表的单列或多列统计信息未收集，warning字段会给出如下告警信息：Statistic Not Collect:schemaname.tablename(column name list) 此外，如果表格的统计信息已收集过（执行过analyze），但是距离上次analyze时间较远，表格内容发生了很大变化，可能使优化器依赖的统计信息不准，无法生成最优的查询计划。针对这种情况，可以用pg_total_autovac_tuples系统函数查询表格中自从上次分析以来发生变化的元组的数量。如果数量较大，最好执行一下analyze以使优化器获得最新的统计信息。◇SQL未下推执行计划中的算子，如果能下推到DN节点执行，则只能在CN上执行。因为CN的数量远小于DN，大量操作堆积在CN上执行，会影响整体性能。如果遇到不能下推的函数或语法，warning字段会给出如下告警信息：SQL is not plan-shipping, reason : %s◇Hash连接大表做内表如果发现在进行Hash连接时使用了大表作为内表，会给出如下告警信息：PlanNode[%d] Large Table is INNER in HashJoin \"%s\"目前“大表”的标准是平均每个DN上的行数大于100，000，并且内表行数是外表行数的10倍以上。◇大表等值连接使用NestLoop 如果发现对大表做等值连接时使用了NestLoop方式，会给出如下告警信息：PlanNode[%d] Large Table with Equal-Condition use Nestloop\"%s\"目前大表等值连接的判断标准是内表和外表中行数最大者大于DN的数量乘以100，000。◇数据倾斜数据在DN之间分布不均匀，可导致数据较多的节点成为性能瓶颈。如果发现数据倾斜严重，会给出如下告警信息：PlanNode[%d] DataSkew:\"%s\", min_dn_tuples:%.0f, max_dn_tuples:%.0f目前数据倾斜的判断标准是DN中行数最多者是最少者的10倍以上，且最多者大于100,000。◇代价估算不准确 GaussDB在执行SQL语句过程中会统计实际付出的代价，并与之前估计的代价比较。如果优化器对代价的估算与实际的偏差很大，则很可能生成一个非最优化的计划。如果发现代价估计不准确，会给出如下告警信息："PlanNode[%d] Inaccurate Estimation-Rows: \"%s\" A-Rows:%.0f, E-Rows:%.0f目前的代价由计划节点返回行数来衡量，如果平均每个DN上实际/估计返回行数大于100,000，并且二者相差10倍以上，则认定为代价估算不准。◇Broadcast量过大 Broadcast主要适合小表。对于大表来说，通常采用Hash+重分布（Redistribute）的方式效率更高。如果发现计划中有大表被广播的环节，会给出如下告警信息：PlanNode[%d] Large Table in Broadcast \"%s\"目前对大表广播的认定标准为平均广播到每个DN上的数据行数大于100,000。◇索引设置不合理如果对索引的使用不合理，比如应该采用索引扫描的地方却采用了顺序扫描，或者应该采用顺序扫描的地方却采用了索引扫描，可能会导致性能低下。索引扫描的价值在于减少数据读取量，因此认为索引扫描过滤掉的行数越多越好。如果采用索引扫描，但输出行数/扫描总行数>1/1000，并且输出行数>10000（对于行存表）或>100（对于列存表），则会给出如下告警信息：PlanNode[%d] Indexscan is not properly used:\"%s\", output:%.0f, filtered:%.0f, rate:%.5f顺序扫描适用于过滤的行数占总行数比例不大的情形。如果采用顺序扫描，但输出行数/扫描总行数<=1/1000，并且输出行数<=10000（对于行存表）或<=100（对于列存表），则会给出如下告警信息：PlanNode[%d] Indexscan is ought to be used:\"%s\", output:%.0f, filtered:%.0f, rate:%.5f◇下盘量过大或过早下盘 SQL语句执行过程中，因为内存不足等原因，可能需要将中间结果的全部或一部分转储的磁盘上。下盘可能导致性能低下，应该尽量避免。如果监测到下盘量过大或过早下盘等情况，会给出如下告警信息：• Spill file size large than 256MB• Broadcast size large than 100MB• Early spill• Spill times is greater than 3• Spill on memory adaptive• Hash table conflict 下盘可能是因为缓冲区设置得过小，也可能是因为表的连接顺序或连接方式不合理等原因，要结合具体的SQL进行分析。可以通过改写SQL语句，或者HINT指定连接方式等手段来解决。使用自诊断视图功能，需要将以下变量设成合适的值：▲ use_workload_manager（设成on，默认为on）▲ enable_resource_check（设成on，默认为on）▲ resource_track_level（如果设成query，则收集query级别的信息，如果设成operator，则收集所有信息，如果设成none，则以用户默认的log级别为准）▲ resource_track_cost（设成合适的正整数。为了不影响性能，只有执行代价大于resource_track_cost语句才会被收集。该值越大，收集的语句越少，对性能影响越小；反之越小，收集的语句越多，对性能的影响越大。）执行完一条代价大于resource_track_cost后，诊断信息会存放在内存hash表中，可通过pgxc_wlm_session_history或gs_wlm_session_history视图查看。视图中记录的有效期是3分钟，过期的记录会被系统清理。如果设置enable_resource_record=on，视图中的记录每隔3分钟会被转储到gs_wlm_session_info表中，因此3分钟之前的历史记录可以通过gs_wlm_session_info表或pgxc_wlm_session_info视图查看。转载：https://mp.weixin.qq.com/s/iQpGi2AESU16ED91-7q04g

小强鼓掌 发表于2024-03-30 18:06:55 2024-03-30 18:06:55 最后回复小强鼓掌 0
48 0

大数据
[技术干货] GaussDB(DWS)性能调优系列基础篇之衍化至繁之分布式计划详解------转载

1、分布式架构说到分布式计划就不得不提到数据库的分布式架构，当前数据库分布式架构主要有Shared Nothing和Shared Disk两种： Shared Disk：各处理单元共享数据磁盘系统但私有CPU和Memory资源，可通过增加节点来提高并行处理的能力，扩展能力较好，但是当存储器接口达到饱和的时候，增加节点并不能获得更高的性能。业界代表Oracle Rac。 Shared Nothing：各处理单元都有自己私有的CPU/内存/硬盘等，不存在共享资源，各处理单元之间通过协议通信，并行处理和扩展能力更好。业界代表Teradata。GaussDB(DWS)基于Shared Nothing架构，继承了该架构良好的并行处理和扩展能力，但是也因数据分布存储不共享的特点，计划的生成需要面对数据倾斜、节点间数据交互等常见问题，生成的计划相对复杂。2、分布式计划2.1 计划种类： GaussDB(DWS)中当前主要存在三类分布式计划， FQS(fast query shipping)计划、Stream计划以及Remote-Query计划，其中前两类都可称之为下推计划，执行性能一般较好，而Remote-Query计划是前两类计划都无法生成情况下的最后选择，执行性能一般较差。各类计划介绍如下表，其中CN(Coordinator Node)表示数据库全局SQL解析优化节点又称协调节点，DN(Data Node)表示数据库数据存储节点也是计算单元。计划种类执行原理子场景适用场景 FQS计划 CN直接将原语句下发到DN，各DN单独执行，并将执行结果在CN上进行汇总。整个SQL下发所有DN（典型场景）各DN执行时无数据交互。整个SQL下发单个DN（Lightproxy场景）单DN能完全执行出结果，常见于TP点查场景。 Stream 计划 CN根据原语句生成计划并将计划下发给DN进行执行，各DN执行过程中使用Stream算子进行数据交互。全部计划下发DN执行（全部下推）各DN执行时有数据交互，常见于AP复杂语句场景。部分计划下发DN执行（部分下推）常见于子查询可下推，父查询存在不下推因素场景。 Remote-Query 计划 CN生成计划后，将部分原语句下发到DN，各DN单独执行，执行后将结果发送给CN，CN执行剩余计划。仅当前单场景不满足FQS和STREAM计划的极端场景，性能较差。可能有人会有疑问，既然前面说Remote-Query是性能最差的计划，那为什么还要生成这种计划？主要是因为存在一些因素会导致执行算子无法在分散到各个DN分别执行而只能在CN上来统一执行，否则执行结果会出现错误。这些因素常被称之为不下推因素，最常见的不下推因素有不支持下推的函数和不支持下推的语法。 1）不下推因素之函数数据库函数有两个关键属性provolatile和proshippable共同决定函数是否可以下推，其中provolatile属性的取值范围主要有IMMUTABLE、STABLE、VOLATILE三种： IMMUTABLE：简单来讲，如果一个函数对于同样的输入，一定有相同的输出，那么这类函数就是IMMUTABLE的，例如绝大部分的字符串处理函数。 STABLE：如果一个函数的返回结果在一个SQL语句的调用过程中，结果是相同的，那么他就是STABLE的。例如时间相关的处理函数，这类函数都是STABLE的。 VOLATILE：如果一个函数的返回结果可能随着每一次的调用而返回不同的结果。例如nextval，random这种函数，每次调用结果都是不可预期的。根据属性的介绍可以看到，IMMUTABLE/ STABLE属性的函数是比较稳定的，也就是对于相同的输出，输出的结果比较固定，这类函数分散到不同的DN执行，结果也不会有多大变化，而VOLATILE函数则不行，所以绝大部分的IMMUTABLE/ STABLE属性函数是可以下推的，VOLATILE函数则不能下推，具体下推情况如下表：需要注意的是当我们创建自定义函数时，默认的provolatile属性是volatile的， proshippable属性是false，也就是函数默认不下推，如果希望将函数定义为下推函数一定要清楚的理解这两个属性的含义，否则不能下推的函数下推了会导致执行结果的错误。转载：https://mp.weixin.qq.com/s/c2Dsu-wozD7zacaaiXSknA

小强鼓掌 发表于2024-03-30 17:56:50 2024-03-30 17:56:50 最后回复小强鼓掌 0
11 0

大数据
[技术干货] GaussDB(DWS)性能调优系列之什么时候收集统计信息------转载

大规模数据变化大规模数据导入/UPDATE/DELETE等操作，会导致表数据行数变化，新增的大量数据也会导致数据特征发生大的变化，此时需要对表重新收集统计信息。查询新增数据常见于业务表新增数据查询场景，这个也是收集业务中最常见、最隐蔽的统计信息没有及时更新的问题，这种场景最主要的特征如下存在一个按照时间增长的业务表业务表每天入库新一天的数据数据入库之后查询新增数据进行数据加工分析在最后步骤的数据加工分析时，最长的方法就是使用Filter条件从分区表中筛选数据，如passtime > ‘2020-01-19 00:00:00’ AND pastime < ‘2020-01-20 00:00:00’，假如新增数据入库之后没有做analyze，优化器发现Filter条件中的passtime取值范围超过了统计信息中记录的passtime值的上边界，会把估算满足passtime > ‘2020-01-19 00:00:00’ AND pastime < ‘2020-01-20 00:00:00’的tuple个数为1条，导致估算行数验证失真。

小强鼓掌 发表于2024-03-30 17:45:34 2024-03-30 17:45:34 最后回复小强鼓掌 0
12 0

大数据
[技术干货] GaussDB(DWS)性能调优系列之如何生成统计信息------转载

显式收集统计信息单列统计信息通过如下命令收集单列统计信息： { ANALYZE | ANALYSE } [ VERBOSE ] [ table_name [ ( column_name [, ...] ) ] ]; 如语法描述，我们支持对指定列做统计信息，但是实际上我们很难统计实际业务SQL中到底使用了当前哪些表的列进行了代价估算，因此建议通常情况下对全表收集统计信息。扩展统计信息通过如下命令收集多列统计信息： {ANALYZE | ANALYSE} [ VERBOSE ] table_name (( column_1_name, column_2_name [, ...] )); 需要注意的是，当前只支持在百分比采样模式下生成扩展统计信息，因此在收集扩展统计信息之前请确保GUC参数default_statistics_target为负数提升统计信息质量 analyze是按照随机采样算法从表上采样，根据样本计算表数据特征。采样数可以通过配置参数default_statistics_target进行控制，default_statistics_target取值范围为-100~10000，默认值为100。1）当default_statistics_target > 0时；采样的样本数为300*default_statistics_target，default_statistics_target取值越大，采样的样本也越大，样本占用的内存空间也越大，统计信息计算耗时也越长2）当default_statistics_target < 0时，采样的样本数为 (default_statistics_target)/100*表的总行数，default_statistics_target取值越小，采样的样本也越大。但是default_statistics_target < 0时会把采样数据下盘，不存在样本占用的内存空间的问题，但是因为样本过大，计算耗时长的问题同样存在 default_statistics_target < 0时，实际采样数是(default_statistics_target)/100*表的总行，所以我们又称之为百分比采样。自动收集统计信息当配置参数autoanalyze打开时，查询语句走到优化器发现表不存在统计信息，会自动触发统计信息收集，以满足优化器的需求。以文档的case为列注：只有对统计信息敏感的复杂查询动作(多表关联等操作)的SQL语句执行时才会触发自动收集统计信息；简单查询(比如单点，单表聚合等) 不会触发自动收集统计信息。

小强鼓掌 发表于2024-03-30 17:43:40 2024-03-30 17:43:40 最后回复小强鼓掌 0
12 0

大数据
[技术干货] GaussDB(DWS)性能调优系列之CBO模型------转载

数据库执行SQL语句的时候，会把执行拆分为若干步骤，如下SQL select * from t1 join t2 on t1.a=t2.b where t1.b = 2 and t2.a = 3; 在具体执行的时候会拆分为表扫描和表关联两个主要查询动作。这两个查询动作都存在多种执行方式，比如表扫描均存在SeqScan、IndexScan、IndexOnlyScan、BitmapScan等多种执行方式、表关联存在NestLoop、HashJoin、MergeJoin三种执行方式，那么在具体的业务场景下什么样的查询动作才是代价最小的执行方式，这就是优化器的核心工作。 CBO主要工作原理是通过代价模型(Cost Model)和统计信息估算每种执行方式的代价，然后选择一种执行代价最优的执行方式。这里面代价模型是核心算法逻辑，统计信息是cost计算的数据源，二者配合完成cost计算；如果统计信息缺失，计算时代价模型会使用默认值来计算cost，当然这时cost会跟真实值存在较大偏差，大概率会出现选择非最优执行计划的情况，因此统计信息是CBO模型中 cost计算的数据输入，是CBO最核心的科技之一。

小强鼓掌 发表于2024-03-30 17:41:27 2024-03-30 17:41:27 最后回复小强鼓掌 0
28 0

大数据
[技术干货] GaussDB(DWS)性能调优系列之query执行流程------转载

词法&语法解析按照约定的SQL语句规则，把输入的SQL语句从字符串转化为格式化结构(Stmt)，如果SQL语句存在语法错误，都会在这个环节报错。语义解析语义解析类似一个翻译器，把外部输入的可视化的对象翻译为数据库内部可识别的对象（比如把Stmt中以字符串记录的表名称转化为数据库内部可识别的oid），如果语句存在语义错误(比如查询的表对象不存在)，数据库会在这个环节报错。查询重写根据规则将“语义解析”的输出等价转化为执行上更为优化的结构，比如把查询语句中的视图逐层展开至最低层的表查询。查询优化数据库确认SQL执行方式、生成执行计划的过程查询执行根据执行计划执行SQL并输出结果的过程整个执行流程中，优化器决定了查询语句的具体执行方式，对SQL语句的性能起着关键性的作用。数据库查询优化器分为两类：基于规则的优化器(Rule-Based Optimizer，RBO) 和基于代价的优化器(Cost-Based Optimizer，CBO)。RBO是一种基于规则的优化，对于指定的场景采用指定的执行方式，这种优化模型对数据不敏感；SQL的写法往往会影响执行计划，不了解RBO的细则的人员开发的SQL性能不可控，因此RBO逐渐被抛弃，目前GaussDB等数据库厂商的优化器都是CBO模型。CBO模型是根据SQL语句生成一组可能被使用的执行计划，并估算出每种执行计划的代价，最终选择选择一个代价最小的执行方式。

小强鼓掌 发表于2024-03-30 17:36:47 2024-03-30 17:36:47 最后回复小强鼓掌 0
12 0

大数据
[技术干货] GaussDB(DWS)之EXPLAIN用法介绍

SQL执行计划是一个节点数，显示执一条SQL语句执行时的详细步骤。每一个步骤是一个数据库运算符，也叫作一个执行算子。使用explain命令可以查看优化器为每个查询生成的具体执行计划。EXPLAIN的语法其中，option中COSTS与NODES的默认值为ON，其他参数默认为OFF。说明：EXPLAIN + QUERY并不会真正执行，只会将计划打印出来，指定option中的ANALYZE可以进行实际执行PERFORMANCE 选项默认会将所有的选项置为ON，即显示所有的执行信息。CPU/BUFFER/DETAIL 选项依赖于ANALYZE，只有ANALYZE置为ON的时候，才能使用这几个选项。DETAIL选项用来控制输出，DETAIL 置为ON时，会显示各个DN上具体的执行信息；DATAIL 置为OFF时，显示所有DN的汇总信息，即最大最小值信息。EXPLAIN显示格式GaussDB中提供了两种显示格式（normal/pretty），通过设置参数explain_perf_mode进行控制。其中，normal格式为默认的显示格式。normal格式如下：pretty格式如下：改进后的显示格式，层次清晰，计划包含了plan node id，性能分析会更加简单直接。使用之前可以使用show explain_perf_mode;来查看当前数据库使用的显示风格。同时可以使用set explain_perf_mode=pretty/normal;来设置输出的格式。转载：https://mp.weixin.qq.com/s/UU04YBWVsBkEK_Smfdn6Qg

小强鼓掌 发表于2024-03-30 16:25:14 2024-03-30 16:25:14 最后回复小强鼓掌 0
22 0

大数据

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript