- 近几年,人工智能越来越多的应用到人们的生活的各个领域,比如网购、金融、医疗、客服等等,其日渐成熟,离不开大数据的支撑。模型训练需要海量的数据参与,并且之后也需要使用得到的模型进行海量数据的分析与预测,以及模型的实时修正,这些都需要足够的计算资源支撑,云与AI的结合,为海量数据的机器学习提供了一个便利的平台,用户无需自己购买机器搭建计算平台,可以直接使用云上已有的大数据服务进行业务相关的实现。... 近几年,人工智能越来越多的应用到人们的生活的各个领域,比如网购、金融、医疗、客服等等,其日渐成熟,离不开大数据的支撑。模型训练需要海量的数据参与,并且之后也需要使用得到的模型进行海量数据的分析与预测,以及模型的实时修正,这些都需要足够的计算资源支撑,云与AI的结合,为海量数据的机器学习提供了一个便利的平台,用户无需自己购买机器搭建计算平台,可以直接使用云上已有的大数据服务进行业务相关的实现。...
- Spark Hive自定义函数使用解析1. 简介Spark目前支持UDF,UDTF,UDAF三种类型的自定义函数。UDF使用场景:输入一行,返回一个结果,一对一,比如定义一个函数,功能是输入一个IP地址,返回一个对应的省份。UDTF使用场景: 输入一行,返回多行(hive),一对多, 而sparkSQL中没有UDTF, spark中用flatMap即可实现该功能。UDAF: 输入多... Spark Hive自定义函数使用解析1. 简介Spark目前支持UDF,UDTF,UDAF三种类型的自定义函数。UDF使用场景:输入一行,返回一个结果,一对一,比如定义一个函数,功能是输入一个IP地址,返回一个对应的省份。UDTF使用场景: 输入一行,返回多行(hive),一对多, 而sparkSQL中没有UDTF, spark中用flatMap即可实现该功能。UDAF: 输入多...
- Spark目前依赖的基于代价的优化规则,根据估计Plan节点的大小决定优化策略,一定程度上优化了执行计划。 但是表的统计信息不完善时,或者预估的节点大小不精确时,仍然有些场景无法做到最优。AQE能够在此基础上,带来一定的改善。 Spark目前依赖的基于代价的优化规则,根据估计Plan节点的大小决定优化策略,一定程度上优化了执行计划。 但是表的统计信息不完善时,或者预估的节点大小不精确时,仍然有些场景无法做到最优。AQE能够在此基础上,带来一定的改善。
- 随着技术的发展,探索数据价值一直在持续,数据平台技术架构也逐步在进化。华为云针对企业上云与治理提出了一套适用于互联网、金融、游戏、产业云等行业的解决方案,数据上云全场景覆盖,华为云助力企业智能化升级! 随着技术的发展,探索数据价值一直在持续,数据平台技术架构也逐步在进化。华为云针对企业上云与治理提出了一套适用于互联网、金融、游戏、产业云等行业的解决方案,数据上云全场景覆盖,华为云助力企业智能化升级!
- Spark推出Tungsten计划用于提升Spark的性能与资源使用,其中为了消除JVM对象模型和GC代价,提供了UnsafeRow对象类型。它由jvm提供的sun.misc.Unsafe实现,内部存储的是二进制,继承自InternalRow,是SparkSQL中的中间算子的处理和输出数据类型。正是由于UnsafeRow的特殊性,我们发现在某些情况下可能会无法正确序列/持久化该类型,产生数据... Spark推出Tungsten计划用于提升Spark的性能与资源使用,其中为了消除JVM对象模型和GC代价,提供了UnsafeRow对象类型。它由jvm提供的sun.misc.Unsafe实现,内部存储的是二进制,继承自InternalRow,是SparkSQL中的中间算子的处理和输出数据类型。正是由于UnsafeRow的特殊性,我们发现在某些情况下可能会无法正确序列/持久化该类型,产生数据...
- 相信很多研究大数据的都会接触到“数据倾斜”这个令人头疼的问题。那么数据倾斜到底是什么,redis如何避免这类问题,我们一起来揭开它的神秘面纱。 简单的讲,数据倾斜就是我们在计算数据的时候,数据不够分散,大量的数据集中到了一台或者几台机器节点上计算,从而导致这些节点负载多大,而其他节点处于空闲等待中,导致最终整体效率低下。 相信很多研究大数据的都会接触到“数据倾斜”这个令人头疼的问题。那么数据倾斜到底是什么,redis如何避免这类问题,我们一起来揭开它的神秘面纱。 简单的讲,数据倾斜就是我们在计算数据的时候,数据不够分散,大量的数据集中到了一台或者几台机器节点上计算,从而导致这些节点负载多大,而其他节点处于空闲等待中,导致最终整体效率低下。
- Flink入门学习笔记 Flink入门学习笔记
- 数据湖探索软件开发工具包(Data Lake Insight Software Development Kit,简称DLI SDK)对DLI提供的REST API进行封装,客户能够通过SDK快速简便的开发自己的应用,省去了自行封装API的麻烦,很大程度上提高了用户开发效率和减少了开发难度,用户能够使用简单的调用实现一整套业务逻辑,接下来介绍一下如何快速玩转DLI JAVA SDK。 环... 数据湖探索软件开发工具包(Data Lake Insight Software Development Kit,简称DLI SDK)对DLI提供的REST API进行封装,客户能够通过SDK快速简便的开发自己的应用,省去了自行封装API的麻烦,很大程度上提高了用户开发效率和减少了开发难度,用户能够使用简单的调用实现一整套业务逻辑,接下来介绍一下如何快速玩转DLI JAVA SDK。 环...
- 1. DAYU数据血缘实现方案在DAYU平台中,数据血缘是通过在数据开发模块中配置数据处理迁移类型的算子产生的。当前是采集算子静态配置产生的血缘和部分算子实例上的血缘。2. 数据血缘支持的算子类型2.1 SQL类型算子目前支持对DLISQL,DWSSQL,HIVESQL算子的血缘解析,可以支持多SQL解析及列级血缘解析,当语句中有临时表时,会自动在数据资产中创建相关的临时表实体。2.... 1. DAYU数据血缘实现方案在DAYU平台中,数据血缘是通过在数据开发模块中配置数据处理迁移类型的算子产生的。当前是采集算子静态配置产生的血缘和部分算子实例上的血缘。2. 数据血缘支持的算子类型2.1 SQL类型算子目前支持对DLISQL,DWSSQL,HIVESQL算子的血缘解析,可以支持多SQL解析及列级血缘解析,当语句中有临时表时,会自动在数据资产中创建相关的临时表实体。2....
- FusionInsight 8.0 MRS在6月30日发布全新版本,HetuEngine提供高性能交互式查询;支持Flink On Hive,增强批流融合能力;Hive支持Tez引擎,提升任务运行效率;CarbonData提供丰富的索引和物化视图,提升Spark/Hive性能;支持事务ACID,实现全量数据T+0入湖;增强细粒度安全控制,以及提供全新的大数据组件版本,提高各行业大数据应用场景能力 FusionInsight 8.0 MRS在6月30日发布全新版本,HetuEngine提供高性能交互式查询;支持Flink On Hive,增强批流融合能力;Hive支持Tez引擎,提升任务运行效率;CarbonData提供丰富的索引和物化视图,提升Spark/Hive性能;支持事务ACID,实现全量数据T+0入湖;增强细粒度安全控制,以及提供全新的大数据组件版本,提高各行业大数据应用场景能力
- 在华为云的DLF服务(现在叫DAYU数据开发)中,有三种pipeline的调度类型:单次调度、周期调度、事件驱动调度。其中单次调度就是直接运行pipeline,周期调度也比较简单,先定义一个运行时间,然后周期运行pipeline。今天主要介绍一下事件驱动调度。 在华为云的DLF服务(现在叫DAYU数据开发)中,有三种pipeline的调度类型:单次调度、周期调度、事件驱动调度。其中单次调度就是直接运行pipeline,周期调度也比较简单,先定义一个运行时间,然后周期运行pipeline。今天主要介绍一下事件驱动调度。
- 如何花更少的钱,更好地处理业务?这是用户在使用DLI服务之前都会考虑的一个问题。下面介绍一下Data Lake Insight(DLI)服务的计费方式以及规格。DLI计费方式DLI有两种计费方式:按需计费和包周期。按需计费为先使用,后付费的方式,用户先使用资源,每个小时出话单进行扣费。包周期计费分为套餐包和包年包月,订单计费模式为混合模式,用户先根据预期使用量进行预付费,在周期内资源使用量超... 如何花更少的钱,更好地处理业务?这是用户在使用DLI服务之前都会考虑的一个问题。下面介绍一下Data Lake Insight(DLI)服务的计费方式以及规格。DLI计费方式DLI有两种计费方式:按需计费和包周期。按需计费为先使用,后付费的方式,用户先使用资源,每个小时出话单进行扣费。包周期计费分为套餐包和包年包月,订单计费模式为混合模式,用户先根据预期使用量进行预付费,在周期内资源使用量超...
- 脏数据对数据计算的正确性带来了很严重的影响。因此,我们需要探索一种方法,能够实现Spark写入Elasticsearch数据的可靠性与正确性。 脏数据对数据计算的正确性带来了很严重的影响。因此,我们需要探索一种方法,能够实现Spark写入Elasticsearch数据的可靠性与正确性。
- Spark SQL是Spark系统的核心组件,为来自不同数据源、不同格式的数据提供了结构化的视角,让用户可以使用SQL轻松的从数据中获取有价值的信息。DLI服务提供了强大的Spark SQL查询分析能力,并且全面兼容Spark SQL语法。本文将介绍Spark SQL的运行流程,以及过程中的各个重要组成部分。Spark SQL是什么在Spark中,Spark SQL并不仅仅是狭隘的SQL... Spark SQL是Spark系统的核心组件,为来自不同数据源、不同格式的数据提供了结构化的视角,让用户可以使用SQL轻松的从数据中获取有价值的信息。DLI服务提供了强大的Spark SQL查询分析能力,并且全面兼容Spark SQL语法。本文将介绍Spark SQL的运行流程,以及过程中的各个重要组成部分。Spark SQL是什么在Spark中,Spark SQL并不仅仅是狭隘的SQL...
- OBS到DLI迁移介绍操作场景数据湖探索(DLI)提供大数据查询服务,本章节介绍使用CDM将OBS的数据迁移到DLI,使用流程如下:前提条件已经开通了OBS和DLI。已经在DLI服务中创建好资源队列、数据库和表。迁移流程1.创建CDM集群登录CDM管理控制台,根据实际情况选择操作:如果您已拥有CDM集群,则直接单击集群后的“作业管理”,继续创建连接即可。如果没有,则单击“购买云数据迁移服务”... OBS到DLI迁移介绍操作场景数据湖探索(DLI)提供大数据查询服务,本章节介绍使用CDM将OBS的数据迁移到DLI,使用流程如下:前提条件已经开通了OBS和DLI。已经在DLI服务中创建好资源队列、数据库和表。迁移流程1.创建CDM集群登录CDM管理控制台,根据实际情况选择操作:如果您已拥有CDM集群,则直接单击集群后的“作业管理”,继续创建连接即可。如果没有,则单击“购买云数据迁移服务”...
上滑加载中
推荐直播
-
Skill 构建 × 智能创作:基于华为云码道的 AI 内容生产提效方案2026/03/25 周三 19:00-20:00
余伟,华为云软件研发工程师/万邵业(万少),华为云HCDE开发者专家
本次直播带来两大实战:华为云码道 Skill-Creator 手把手搭建专属知识库 Skill;如何用码道提效 OpenClaw 小说文本,打造从大纲到成稿的 AI 原创小说全链路。技术干货 + OPC创作思路,一次讲透!
回顾中 -
码道新技能,AI 新生产力——从自动视频生成到开源项目解析2026/04/08 周三 19:00-21:00
童得力-华为云开发者生态运营总监/何文强-无人机企业AI提效负责人
本次华为云码道 Skill 实战活动,聚焦两大 AI 开发场景:通过实战教学,带你打造 AI 编程自动生成视频 Skill,并实现对 GitHub 热门开源项目的智能知识抽取,手把手掌握 Skill 开发全流程,用 AI 提升研发效率与内容生产力。
回顾中 -
华为云码道:零代码股票智能决策平台全功能实战2026/04/18 周六 10:00-12:00
秦拳德-中软国际教育卓越研究院研究员、华为云金牌讲师、云原生技术专家
利用Tushare接口获取实时行情数据,采用Transformer算法进行时序预测与涨跌分析,并集成DeepSeek API提供智能解读。同时,项目深度结合华为云CodeArts(码道)的代码智能体能力,实现代码一键推送至云端代码仓库,建立起高效、可协作的团队开发新范式。开发者可快速上手,从零打造功能完整的个股筛选、智能分析与风险管控产品。
回顾中
热门标签