- 作者: vivo互联网服务器团队-Hao Guangshi 一、背景 字段血缘是在表处理的过程中将字段的处理过程保留下来。为什么会需要字段血缘呢? 有了字段间的血缘关系,便可以知道数据的来源去处,以及字段之间的转换关系,这样对数据的质量,治理有很大的帮助。 Spark SQL 相对于 Hiv... 作者: vivo互联网服务器团队-Hao Guangshi 一、背景 字段血缘是在表处理的过程中将字段的处理过程保留下来。为什么会需要字段血缘呢? 有了字段间的血缘关系,便可以知道数据的来源去处,以及字段之间的转换关系,这样对数据的质量,治理有很大的帮助。 Spark SQL 相对于 Hiv...
- 本期作者 陈昱康 哔哩哔哩技术专家 B站离线平台负责人, 对分布式计算和存储、调度、查询引擎、在线离线混部、高并发等方面有丰富研发和实践经验。 曹佳清 哔哩哔哩资深开发工程师 目前主要关注开源大数据技术,负责B站Spark、Hive相关的建设。 1. 背景介绍 2018年B站基于Hadoop开始搭建离线计算... 本期作者 陈昱康 哔哩哔哩技术专家 B站离线平台负责人, 对分布式计算和存储、调度、查询引擎、在线离线混部、高并发等方面有丰富研发和实践经验。 曹佳清 哔哩哔哩资深开发工程师 目前主要关注开源大数据技术,负责B站Spark、Hive相关的建设。 1. 背景介绍 2018年B站基于Hadoop开始搭建离线计算...
- 关于求解中位数,我们知道在Python中直接有中位数处理函数(mean),比如在Python中求解一个中位数,代码很简单。 Python计算中位数 import numpy as np nums =... 关于求解中位数,我们知道在Python中直接有中位数处理函数(mean),比如在Python中求解一个中位数,代码很简单。 Python计算中位数 import numpy as np nums =...
- 火山引擎的数据质量平台是在多年服务字节跳动今日头条、抖音等业务的过程中打磨出来的。面对今日头条、抖音等不同产品线的复杂数据质量场景,数据质量平台如何满足多样的需求? 本文将介绍火山引擎数据质量平台是如何弥合大数据场景下数据质量校验与计算消耗资源大、校验计算时间长的冲突,并介绍数据质量平台是如何用一套架构框架来满足流批方面的数据质... 火山引擎的数据质量平台是在多年服务字节跳动今日头条、抖音等业务的过程中打磨出来的。面对今日头条、抖音等不同产品线的复杂数据质量场景,数据质量平台如何满足多样的需求? 本文将介绍火山引擎数据质量平台是如何弥合大数据场景下数据质量校验与计算消耗资源大、校验计算时间长的冲突,并介绍数据质量平台是如何用一套架构框架来满足流批方面的数据质...
- 一、写在最前 二、掌握spark的安装与环境配置 三、掌握Ubuntu下的Python的版本管理与第三方的安装 四、掌握windows下Pycharm与Ubuntu的同步连接 五、掌握Spark读... 一、写在最前 二、掌握spark的安装与环境配置 三、掌握Ubuntu下的Python的版本管理与第三方的安装 四、掌握windows下Pycharm与Ubuntu的同步连接 五、掌握Spark读...
- 文章目录 一、问题描述二、解决方案 一、问题描述 在运行某个Pyspark代码时报错如下: Warning: Ignoring non-Spark config property: de... 文章目录 一、问题描述二、解决方案 一、问题描述 在运行某个Pyspark代码时报错如下: Warning: Ignoring non-Spark config property: de...
- 目录 建表语句 原始数据 数据分析 完整代码 分析岗位数据如下要求: 分析不同学历的平均薪资(每个学历的平均估值(最高薪资平均值、最低薪资平均值求平均) 分析不同岗位的平均薪资(求每个学历的平均估值(最高薪资平均值、最低薪资平均值求平均) 分析各公司提供的岗位 建表语句 DROP TABLE I... 目录 建表语句 原始数据 数据分析 完整代码 分析岗位数据如下要求: 分析不同学历的平均薪资(每个学历的平均估值(最高薪资平均值、最低薪资平均值求平均) 分析不同岗位的平均薪资(求每个学历的平均估值(最高薪资平均值、最低薪资平均值求平均) 分析各公司提供的岗位 建表语句 DROP TABLE I...
- 文章目录 Spark与Iceberg整合查询操作 一、DataFrame API加载Iceberg中的数据 二、查询表快照 三、查询表历史 四、查询表data files 五、查询Manifests 六、查询指定快照数据 ... 文章目录 Spark与Iceberg整合查询操作 一、DataFrame API加载Iceberg中的数据 二、查询表快照 三、查询表历史 四、查询表data files 五、查询Manifests 六、查询指定快照数据 ...
- 文章目录 零、IDEA的scala环境配置一、scala特点1.1 面向对象特性1.2 函数式编程1.3 静态类型 二、代码简单测试栗子三、scala trait(特征)四、常见问题4.1 I... 文章目录 零、IDEA的scala环境配置一、scala特点1.1 面向对象特性1.2 函数式编程1.3 静态类型 二、代码简单测试栗子三、scala trait(特征)四、常见问题4.1 I...
- 阶段时间技能输入输出SQL基础8.4-8.81.表关联方法和特性2.常用基础函数3.窗口函数4.常用优化策略5.hive数据存储格式及压缩格式和特点1、hive编程指南2、SQL 必知必会1、学习笔记2、... 阶段时间技能输入输出SQL基础8.4-8.81.表关联方法和特性2.常用基础函数3.窗口函数4.常用优化策略5.hive数据存储格式及压缩格式和特点1、hive编程指南2、SQL 必知必会1、学习笔记2、...
- 输入文件 代码 package example.spark.sql import org.apache.log4j.{Level, Logger}import org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.ap... 输入文件 代码 package example.spark.sql import org.apache.log4j.{Level, Logger}import org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.ap...
- 背景描述: SparkSession对象已经构建完成,但在导入隐式转换 import spark.implicits._ 的时候写不进去,写完就消失了...... 解决: 效果: OK了 背景描述: SparkSession对象已经构建完成,但在导入隐式转换 import spark.implicits._ 的时候写不进去,写完就消失了...... 解决: 效果: OK了
- 文章目录 一、提出任务 二、完成任务 (一)准备数据文件 (二)导入线性回归相关类 (三)读取数据文件得到RDD (四)拆分每行生成新... 文章目录 一、提出任务 二、完成任务 (一)准备数据文件 (二)导入线性回归相关类 (三)读取数据文件得到RDD (四)拆分每行生成新...
- 文章目录 一、提出任务二、完成任务(一)新建Maven项目(二)添加相关依赖和构建插件(三)创建日志属性文件(四)创建计算平均分单例对象(五)本地运行程序,查看结果 三、课后练习任务1、计算平... 文章目录 一、提出任务二、完成任务(一)新建Maven项目(二)添加相关依赖和构建插件(三)创建日志属性文件(四)创建计算平均分单例对象(五)本地运行程序,查看结果 三、课后练习任务1、计算平...
- 文章目录 一、提出任务二、实现思路三、完成任务(一)读取文件,得到RDD(二)倒排,互换RDD中元组的元素顺序(三)倒排后的RDD按键分组(四)取分组后的日期集合最小值,计数为1(五)按键计数,得... 文章目录 一、提出任务二、实现思路三、完成任务(一)读取文件,得到RDD(二)倒排,互换RDD中元组的元素顺序(三)倒排后的RDD按键分组(四)取分组后的日期集合最小值,计数为1(五)按键计数,得...
上滑加载中
推荐直播
-
昇腾AI算法挑战赛-核心算子如何优化?专家带你深度解析2025/11/17 周一 16:00-17:00
王老师 华为算子专家
昇腾AI算法挑战赛进阶赛战鼓催征!本期直播间,我们特邀华为算子专家王老师,为你深度剖析Matmul、wholereducesum等核心算子的底层原理与优化技巧,直击赛题核心。想提升代码效率、冲击更高排名?锁定直播,带你破局!
回顾中 -
AI编码实干派,“码”力全开2026/02/26 周四 15:00-16:30
谈宗玮/于邦旭/丁俊卿/陈云亮/王一男
【中国,深圳,2026年2月26日】,以“AI编码实干派,码力全开”为主题的华为云码道(CodeArts)代码智能体新春发布会在线上成功召开。华为云码道公测版正式发布,为开发者和企业提供具备工程化能力的智能编码解决方案。
回顾中 -
华为云码道-玩转OpenClaw,开启在线养虾模式2026/03/11 周三 19:00-20:00
刘昱,华为云高级工程师/谈心,华为云技术专家/李海仑,上海圭卓智能科技有限公司CEO
OpenClaw 火爆开发者圈,华为云码道最新推出 Skill ——开发者只需输入一句口令,即可部署一个功能完整的「小龙虾」智能体。直播带你玩转华为云码道,玩转OpenClaw
回顾中
热门标签