- 作者: vivo互联网服务器团队-Hao Guangshi 一、背景 字段血缘是在表处理的过程中将字段的处理过程保留下来。为什么会需要字段血缘呢? 有了字段间的血缘关系,便可以知道数据的来源去处,以及字段之间的转换关系,这样对数据的质量,治理有很大的帮助。 Spark SQL 相对于 Hiv... 作者: vivo互联网服务器团队-Hao Guangshi 一、背景 字段血缘是在表处理的过程中将字段的处理过程保留下来。为什么会需要字段血缘呢? 有了字段间的血缘关系,便可以知道数据的来源去处,以及字段之间的转换关系,这样对数据的质量,治理有很大的帮助。 Spark SQL 相对于 Hiv...
- 本期作者 陈昱康 哔哩哔哩技术专家 B站离线平台负责人, 对分布式计算和存储、调度、查询引擎、在线离线混部、高并发等方面有丰富研发和实践经验。 曹佳清 哔哩哔哩资深开发工程师 目前主要关注开源大数据技术,负责B站Spark、Hive相关的建设。 1. 背景介绍 2018年B站基于Hadoop开始搭建离线计算... 本期作者 陈昱康 哔哩哔哩技术专家 B站离线平台负责人, 对分布式计算和存储、调度、查询引擎、在线离线混部、高并发等方面有丰富研发和实践经验。 曹佳清 哔哩哔哩资深开发工程师 目前主要关注开源大数据技术,负责B站Spark、Hive相关的建设。 1. 背景介绍 2018年B站基于Hadoop开始搭建离线计算...
- 关于求解中位数,我们知道在Python中直接有中位数处理函数(mean),比如在Python中求解一个中位数,代码很简单。 Python计算中位数 import numpy as np nums =... 关于求解中位数,我们知道在Python中直接有中位数处理函数(mean),比如在Python中求解一个中位数,代码很简单。 Python计算中位数 import numpy as np nums =...
- 火山引擎的数据质量平台是在多年服务字节跳动今日头条、抖音等业务的过程中打磨出来的。面对今日头条、抖音等不同产品线的复杂数据质量场景,数据质量平台如何满足多样的需求? 本文将介绍火山引擎数据质量平台是如何弥合大数据场景下数据质量校验与计算消耗资源大、校验计算时间长的冲突,并介绍数据质量平台是如何用一套架构框架来满足流批方面的数据质... 火山引擎的数据质量平台是在多年服务字节跳动今日头条、抖音等业务的过程中打磨出来的。面对今日头条、抖音等不同产品线的复杂数据质量场景,数据质量平台如何满足多样的需求? 本文将介绍火山引擎数据质量平台是如何弥合大数据场景下数据质量校验与计算消耗资源大、校验计算时间长的冲突,并介绍数据质量平台是如何用一套架构框架来满足流批方面的数据质...
- 一、写在最前 二、掌握spark的安装与环境配置 三、掌握Ubuntu下的Python的版本管理与第三方的安装 四、掌握windows下Pycharm与Ubuntu的同步连接 五、掌握Spark读... 一、写在最前 二、掌握spark的安装与环境配置 三、掌握Ubuntu下的Python的版本管理与第三方的安装 四、掌握windows下Pycharm与Ubuntu的同步连接 五、掌握Spark读...
- 文章目录 一、问题描述二、解决方案 一、问题描述 在运行某个Pyspark代码时报错如下: Warning: Ignoring non-Spark config property: de... 文章目录 一、问题描述二、解决方案 一、问题描述 在运行某个Pyspark代码时报错如下: Warning: Ignoring non-Spark config property: de...
- 目录 建表语句 原始数据 数据分析 完整代码 分析岗位数据如下要求: 分析不同学历的平均薪资(每个学历的平均估值(最高薪资平均值、最低薪资平均值求平均) 分析不同岗位的平均薪资(求每个学历的平均估值(最高薪资平均值、最低薪资平均值求平均) 分析各公司提供的岗位 建表语句 DROP TABLE I... 目录 建表语句 原始数据 数据分析 完整代码 分析岗位数据如下要求: 分析不同学历的平均薪资(每个学历的平均估值(最高薪资平均值、最低薪资平均值求平均) 分析不同岗位的平均薪资(求每个学历的平均估值(最高薪资平均值、最低薪资平均值求平均) 分析各公司提供的岗位 建表语句 DROP TABLE I...
- 文章目录 Spark与Iceberg整合查询操作 一、DataFrame API加载Iceberg中的数据 二、查询表快照 三、查询表历史 四、查询表data files 五、查询Manifests 六、查询指定快照数据 ... 文章目录 Spark与Iceberg整合查询操作 一、DataFrame API加载Iceberg中的数据 二、查询表快照 三、查询表历史 四、查询表data files 五、查询Manifests 六、查询指定快照数据 ...
- 文章目录 零、IDEA的scala环境配置一、scala特点1.1 面向对象特性1.2 函数式编程1.3 静态类型 二、代码简单测试栗子三、scala trait(特征)四、常见问题4.1 I... 文章目录 零、IDEA的scala环境配置一、scala特点1.1 面向对象特性1.2 函数式编程1.3 静态类型 二、代码简单测试栗子三、scala trait(特征)四、常见问题4.1 I...
- 阶段时间技能输入输出SQL基础8.4-8.81.表关联方法和特性2.常用基础函数3.窗口函数4.常用优化策略5.hive数据存储格式及压缩格式和特点1、hive编程指南2、SQL 必知必会1、学习笔记2、... 阶段时间技能输入输出SQL基础8.4-8.81.表关联方法和特性2.常用基础函数3.窗口函数4.常用优化策略5.hive数据存储格式及压缩格式和特点1、hive编程指南2、SQL 必知必会1、学习笔记2、...
- 输入文件 代码 package example.spark.sql import org.apache.log4j.{Level, Logger}import org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.ap... 输入文件 代码 package example.spark.sql import org.apache.log4j.{Level, Logger}import org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.ap...
- 背景描述: SparkSession对象已经构建完成,但在导入隐式转换 import spark.implicits._ 的时候写不进去,写完就消失了...... 解决: 效果: OK了 背景描述: SparkSession对象已经构建完成,但在导入隐式转换 import spark.implicits._ 的时候写不进去,写完就消失了...... 解决: 效果: OK了
- 文章目录 一、提出任务 二、完成任务 (一)准备数据文件 (二)导入线性回归相关类 (三)读取数据文件得到RDD (四)拆分每行生成新... 文章目录 一、提出任务 二、完成任务 (一)准备数据文件 (二)导入线性回归相关类 (三)读取数据文件得到RDD (四)拆分每行生成新...
- 文章目录 一、提出任务二、完成任务(一)新建Maven项目(二)添加相关依赖和构建插件(三)创建日志属性文件(四)创建计算平均分单例对象(五)本地运行程序,查看结果 三、课后练习任务1、计算平... 文章目录 一、提出任务二、完成任务(一)新建Maven项目(二)添加相关依赖和构建插件(三)创建日志属性文件(四)创建计算平均分单例对象(五)本地运行程序,查看结果 三、课后练习任务1、计算平...
- 文章目录 一、提出任务二、实现思路三、完成任务(一)读取文件,得到RDD(二)倒排,互换RDD中元组的元素顺序(三)倒排后的RDD按键分组(四)取分组后的日期集合最小值,计数为1(五)按键计数,得... 文章目录 一、提出任务二、实现思路三、完成任务(一)读取文件,得到RDD(二)倒排,互换RDD中元组的元素顺序(三)倒排后的RDD按键分组(四)取分组后的日期集合最小值,计数为1(五)按键计数,得...
上滑加载中
推荐直播
-
码道新技能,AI 新生产力——从自动视频生成到开源项目解析2026/04/08 周三 19:00-21:00
童得力-华为云开发者生态运营总监/何文强-无人机企业AI提效负责人
本次华为云码道 Skill 实战活动,聚焦两大 AI 开发场景:通过实战教学,带你打造 AI 编程自动生成视频 Skill,并实现对 GitHub 热门开源项目的智能知识抽取,手把手掌握 Skill 开发全流程,用 AI 提升研发效率与内容生产力。
回顾中 -
华为云码道:零代码股票智能决策平台全功能实战2026/04/18 周六 10:00-12:00
秦拳德-中软国际教育卓越研究院研究员、华为云金牌讲师、云原生技术专家
利用Tushare接口获取实时行情数据,采用Transformer算法进行时序预测与涨跌分析,并集成DeepSeek API提供智能解读。同时,项目深度结合华为云CodeArts(码道)的代码智能体能力,实现代码一键推送至云端代码仓库,建立起高效、可协作的团队开发新范式。开发者可快速上手,从零打造功能完整的个股筛选、智能分析与风险管控产品。
回顾中 -
华为云码道全新升级,多会话并行与多智能体协作2026/05/08 周五 19:00-21:00
王一男-华为云码道产品专家;张嘉冉-华为云码道工程师;胡琦-华为云HCDE;程诗杰-华为云HCDG
华为云码道4月份版本全新升级,此次直播深度解读4月份产品特性,通过“特性解读+实操演示+实战案例+设计创新”的组合,全方位展现码道在多会话并行与多智能体协作方面的能力,赋能开发者提升效率
正在直播
热门标签