- 随着容器技术的日益成熟,在云上,Docker+K8s的应用部署方式,越来越流行,用户可以使用Dockerfile打包自己的业务镜像,运行在云上,方便快捷地实现自己的业务场景。华为云的数据湖探索服务(简称DLI)提供的自定义镜像功能就很好的支持了这种场景。使用DLI提供的自定义镜像功能提交作业,用户可以依赖DLI提供的spark或者flink基础镜像,使用Dockerfile将作... 随着容器技术的日益成熟,在云上,Docker+K8s的应用部署方式,越来越流行,用户可以使用Dockerfile打包自己的业务镜像,运行在云上,方便快捷地实现自己的业务场景。华为云的数据湖探索服务(简称DLI)提供的自定义镜像功能就很好的支持了这种场景。使用DLI提供的自定义镜像功能提交作业,用户可以依赖DLI提供的spark或者flink基础镜像,使用Dockerfile将作...
- 近几年,人工智能越来越多的应用到人们的生活的各个领域,比如网购、金融、医疗、客服等等,其日渐成熟,离不开大数据的支撑。模型训练需要海量的数据参与,并且之后也需要使用得到的模型进行海量数据的分析与预测,以及模型的实时修正,这些都需要足够的计算资源支撑,云与AI的结合,为海量数据的机器学习提供了一个便利的平台,用户无需自己购买机器搭建计算平台,可以直接使用云上已有的大数据服务进行业务相关的实现。... 近几年,人工智能越来越多的应用到人们的生活的各个领域,比如网购、金融、医疗、客服等等,其日渐成熟,离不开大数据的支撑。模型训练需要海量的数据参与,并且之后也需要使用得到的模型进行海量数据的分析与预测,以及模型的实时修正,这些都需要足够的计算资源支撑,云与AI的结合,为海量数据的机器学习提供了一个便利的平台,用户无需自己购买机器搭建计算平台,可以直接使用云上已有的大数据服务进行业务相关的实现。...
- Spark Hive自定义函数使用解析1. 简介Spark目前支持UDF,UDTF,UDAF三种类型的自定义函数。UDF使用场景:输入一行,返回一个结果,一对一,比如定义一个函数,功能是输入一个IP地址,返回一个对应的省份。UDTF使用场景: 输入一行,返回多行(hive),一对多, 而sparkSQL中没有UDTF, spark中用flatMap即可实现该功能。UDAF: 输入多... Spark Hive自定义函数使用解析1. 简介Spark目前支持UDF,UDTF,UDAF三种类型的自定义函数。UDF使用场景:输入一行,返回一个结果,一对一,比如定义一个函数,功能是输入一个IP地址,返回一个对应的省份。UDTF使用场景: 输入一行,返回多行(hive),一对多, 而sparkSQL中没有UDTF, spark中用flatMap即可实现该功能。UDAF: 输入多...
- Spark目前依赖的基于代价的优化规则,根据估计Plan节点的大小决定优化策略,一定程度上优化了执行计划。 但是表的统计信息不完善时,或者预估的节点大小不精确时,仍然有些场景无法做到最优。AQE能够在此基础上,带来一定的改善。 Spark目前依赖的基于代价的优化规则,根据估计Plan节点的大小决定优化策略,一定程度上优化了执行计划。 但是表的统计信息不完善时,或者预估的节点大小不精确时,仍然有些场景无法做到最优。AQE能够在此基础上,带来一定的改善。
- 随着技术的发展,探索数据价值一直在持续,数据平台技术架构也逐步在进化。华为云针对企业上云与治理提出了一套适用于互联网、金融、游戏、产业云等行业的解决方案,数据上云全场景覆盖,华为云助力企业智能化升级! 随着技术的发展,探索数据价值一直在持续,数据平台技术架构也逐步在进化。华为云针对企业上云与治理提出了一套适用于互联网、金融、游戏、产业云等行业的解决方案,数据上云全场景覆盖,华为云助力企业智能化升级!
- Spark推出Tungsten计划用于提升Spark的性能与资源使用,其中为了消除JVM对象模型和GC代价,提供了UnsafeRow对象类型。它由jvm提供的sun.misc.Unsafe实现,内部存储的是二进制,继承自InternalRow,是SparkSQL中的中间算子的处理和输出数据类型。正是由于UnsafeRow的特殊性,我们发现在某些情况下可能会无法正确序列/持久化该类型,产生数据... Spark推出Tungsten计划用于提升Spark的性能与资源使用,其中为了消除JVM对象模型和GC代价,提供了UnsafeRow对象类型。它由jvm提供的sun.misc.Unsafe实现,内部存储的是二进制,继承自InternalRow,是SparkSQL中的中间算子的处理和输出数据类型。正是由于UnsafeRow的特殊性,我们发现在某些情况下可能会无法正确序列/持久化该类型,产生数据...
- 相信很多研究大数据的都会接触到“数据倾斜”这个令人头疼的问题。那么数据倾斜到底是什么,redis如何避免这类问题,我们一起来揭开它的神秘面纱。 简单的讲,数据倾斜就是我们在计算数据的时候,数据不够分散,大量的数据集中到了一台或者几台机器节点上计算,从而导致这些节点负载多大,而其他节点处于空闲等待中,导致最终整体效率低下。 相信很多研究大数据的都会接触到“数据倾斜”这个令人头疼的问题。那么数据倾斜到底是什么,redis如何避免这类问题,我们一起来揭开它的神秘面纱。 简单的讲,数据倾斜就是我们在计算数据的时候,数据不够分散,大量的数据集中到了一台或者几台机器节点上计算,从而导致这些节点负载多大,而其他节点处于空闲等待中,导致最终整体效率低下。
- Flink入门学习笔记 Flink入门学习笔记
- 数据湖探索软件开发工具包(Data Lake Insight Software Development Kit,简称DLI SDK)对DLI提供的REST API进行封装,客户能够通过SDK快速简便的开发自己的应用,省去了自行封装API的麻烦,很大程度上提高了用户开发效率和减少了开发难度,用户能够使用简单的调用实现一整套业务逻辑,接下来介绍一下如何快速玩转DLI JAVA SDK。 环... 数据湖探索软件开发工具包(Data Lake Insight Software Development Kit,简称DLI SDK)对DLI提供的REST API进行封装,客户能够通过SDK快速简便的开发自己的应用,省去了自行封装API的麻烦,很大程度上提高了用户开发效率和减少了开发难度,用户能够使用简单的调用实现一整套业务逻辑,接下来介绍一下如何快速玩转DLI JAVA SDK。 环...
- 1. DAYU数据血缘实现方案在DAYU平台中,数据血缘是通过在数据开发模块中配置数据处理迁移类型的算子产生的。当前是采集算子静态配置产生的血缘和部分算子实例上的血缘。2. 数据血缘支持的算子类型2.1 SQL类型算子目前支持对DLISQL,DWSSQL,HIVESQL算子的血缘解析,可以支持多SQL解析及列级血缘解析,当语句中有临时表时,会自动在数据资产中创建相关的临时表实体。2.... 1. DAYU数据血缘实现方案在DAYU平台中,数据血缘是通过在数据开发模块中配置数据处理迁移类型的算子产生的。当前是采集算子静态配置产生的血缘和部分算子实例上的血缘。2. 数据血缘支持的算子类型2.1 SQL类型算子目前支持对DLISQL,DWSSQL,HIVESQL算子的血缘解析,可以支持多SQL解析及列级血缘解析,当语句中有临时表时,会自动在数据资产中创建相关的临时表实体。2....
- FusionInsight 8.0 MRS在6月30日发布全新版本,HetuEngine提供高性能交互式查询;支持Flink On Hive,增强批流融合能力;Hive支持Tez引擎,提升任务运行效率;CarbonData提供丰富的索引和物化视图,提升Spark/Hive性能;支持事务ACID,实现全量数据T+0入湖;增强细粒度安全控制,以及提供全新的大数据组件版本,提高各行业大数据应用场景能力 FusionInsight 8.0 MRS在6月30日发布全新版本,HetuEngine提供高性能交互式查询;支持Flink On Hive,增强批流融合能力;Hive支持Tez引擎,提升任务运行效率;CarbonData提供丰富的索引和物化视图,提升Spark/Hive性能;支持事务ACID,实现全量数据T+0入湖;增强细粒度安全控制,以及提供全新的大数据组件版本,提高各行业大数据应用场景能力
- 在华为云的DLF服务(现在叫DAYU数据开发)中,有三种pipeline的调度类型:单次调度、周期调度、事件驱动调度。其中单次调度就是直接运行pipeline,周期调度也比较简单,先定义一个运行时间,然后周期运行pipeline。今天主要介绍一下事件驱动调度。 在华为云的DLF服务(现在叫DAYU数据开发)中,有三种pipeline的调度类型:单次调度、周期调度、事件驱动调度。其中单次调度就是直接运行pipeline,周期调度也比较简单,先定义一个运行时间,然后周期运行pipeline。今天主要介绍一下事件驱动调度。
- 如何花更少的钱,更好地处理业务?这是用户在使用DLI服务之前都会考虑的一个问题。下面介绍一下Data Lake Insight(DLI)服务的计费方式以及规格。DLI计费方式DLI有两种计费方式:按需计费和包周期。按需计费为先使用,后付费的方式,用户先使用资源,每个小时出话单进行扣费。包周期计费分为套餐包和包年包月,订单计费模式为混合模式,用户先根据预期使用量进行预付费,在周期内资源使用量超... 如何花更少的钱,更好地处理业务?这是用户在使用DLI服务之前都会考虑的一个问题。下面介绍一下Data Lake Insight(DLI)服务的计费方式以及规格。DLI计费方式DLI有两种计费方式:按需计费和包周期。按需计费为先使用,后付费的方式,用户先使用资源,每个小时出话单进行扣费。包周期计费分为套餐包和包年包月,订单计费模式为混合模式,用户先根据预期使用量进行预付费,在周期内资源使用量超...
- 脏数据对数据计算的正确性带来了很严重的影响。因此,我们需要探索一种方法,能够实现Spark写入Elasticsearch数据的可靠性与正确性。 脏数据对数据计算的正确性带来了很严重的影响。因此,我们需要探索一种方法,能够实现Spark写入Elasticsearch数据的可靠性与正确性。
- Spark SQL是Spark系统的核心组件,为来自不同数据源、不同格式的数据提供了结构化的视角,让用户可以使用SQL轻松的从数据中获取有价值的信息。DLI服务提供了强大的Spark SQL查询分析能力,并且全面兼容Spark SQL语法。本文将介绍Spark SQL的运行流程,以及过程中的各个重要组成部分。Spark SQL是什么在Spark中,Spark SQL并不仅仅是狭隘的SQL... Spark SQL是Spark系统的核心组件,为来自不同数据源、不同格式的数据提供了结构化的视角,让用户可以使用SQL轻松的从数据中获取有价值的信息。DLI服务提供了强大的Spark SQL查询分析能力,并且全面兼容Spark SQL语法。本文将介绍Spark SQL的运行流程,以及过程中的各个重要组成部分。Spark SQL是什么在Spark中,Spark SQL并不仅仅是狭隘的SQL...
上滑加载中
推荐直播
-
华为云入门必修课:技术精髓知识点精讲
2024/11/07 周四 17:40-19:40
Jackie 华为云资深布道师
本期直播旨在帮开发者了解云的基本概念、云的优势、常见存储服务的原理及使用,掌握ECS的概念、功能、场景和使用等,为你的开发之路奠定坚实理论根基,帮助开发者在云计算领域提升技能,增强职业竞争力。
去报名
热门标签