大数据_标签_开发者_华为云

博客(3.1k)
视频(24)
论坛(0)
云声(0)
代码示例(0)

大数据解决方案：解决T+0问题
前言虚竹哥今天又来分享干货啦，今天分享一个：大数据解决方案：解决T+0问题。 T+0问题T+0查询是指实时数据查询，数据查询统计时将涉及到最新产生的数据。在数据量不大时，T+0很容易完成，直接基于生产数据库查询就可以了。但是，当数据量积累到一定程度时，在生产库中进行大数据量的查询会消耗过多的数据库资源，严重时会影响交易业务，这就不能接受了，毕竟生产交易是更关键的任务。所以，我们常常会把大量...

小虚竹
发表于2022-10-25 12:49:16
3654 0 0

3.6k 0 0

前言虚竹哥今天又来分享干货啦，今天分享一个：大数据解决方案：解决T+0问题。 T+0问题T+0查询是指实时数据查询，数据查询统计时将涉及到最新产生的数据。在数据量不大时，T+0很容易完成，直接基于生产数据库查询就可以了。但是，当数据量积累到一定程度时，在生产库中进行大数据量的查询会消耗过多的数据库资源，严重时会影响交易业务，这就不能接受了，毕竟生产交易是更关键的任务。所以，我们常常会把大量...
SQL 大数据数据库
设计一个线上压测系统能让我们学习到多少东西？13个问题看你能否搞定
Q: 为什么需要线上压测？A:需要在某些活动、大促前，评估机器扩容数量，验证系统能否有效支撑流量峰值。线下测试环境的机器资源有限，无法完全模拟现网。同时很多配置可能配置不相同，如果没对上导致机器数量估计错误，可能引发重大故事。所以必须要在线上做压测。 Q: 全链路压测和接口压测的区别？A:在特定的业务场景下，将相关的链路完整地串联起来同时施压，尽可能模拟出真实的用户行为。接口A做...

breakDawn
发表于2022-10-23 23:13:56
6165 0 0

6.1k 0 0

Q: 为什么需要线上压测？A:需要在某些活动、大促前，评估机器扩容数量，验证系统能否有效支撑流量峰值。线下测试环境的机器资源有限，无法完全模拟现网。同时很多配置可能配置不相同，如果没对上导致机器数量估计错误，可能引发重大故事。所以必须要在线上做压测。 Q: 全链路压测和接口压测的区别？A:在特定的业务场景下，将相关的链路完整地串联起来同时施压，尽可能模拟出真实的用户行为。接口A做...
EI企业智能 Java 可信智能计算服务 TICS 大数据智能数据
湖仓一体电商项目（十八）：业务实现之编写写入DWD层业务代码
业务实现之编写写入DWD层业务代码一、代码编写Flink读取Kafka topic “KAFKA-ODS-TOPIC” 数据写入Iceberg-DWD层也是复用第一个业务代码，这里只需要在代码中加入写入Iceberg-DWD层代码即可，代码如下：//插入 iceberg - dwd 层会员浏览商品日志信息 :DWD_BROWSELOGtblEnv.executeSql( s""" ...

Lansonli
发表于2022-10-23 06:48:05
3315 0 0

3.3k 0 0

业务实现之编写写入DWD层业务代码一、代码编写Flink读取Kafka topic “KAFKA-ODS-TOPIC” 数据写入Iceberg-DWD层也是复用第一个业务代码，这里只需要在代码中加入写入Iceberg-DWD层代码即可，代码如下：//插入 iceberg - dwd 层会员浏览商品日志信息 :DWD_BROWSELOGtblEnv.executeSql( s""" ...
Hive 大数据数据库自建电商
混合云场景下的隐私计算产品能够做什么？华为云正式发布可信智能计算HCS版本，让我们一睹为快！
可信智能计算服务TICS 配套HCS 8.2.0版本正式发布，将联合伙伴打造端到端的数据可信流通解决方案。产品功能动态联盟管理动态构建可信计算联盟，实现联盟内严格可控的数据使用和监管。邀请云租户作为数据方，动态构建可信计算联盟，实现联盟内严格可控的数据使用和监管。联盟是联邦计算的载体，合作方只有加入联盟才能参与联邦计算。安全的作业管理作业时，数据使用的过程可审计、可追溯。TICS数据集成支持...

breakDawn
发表于2022-10-20 14:48:43
8245 0 0

8.2k 0 0

可信智能计算服务TICS 配套HCS 8.2.0版本正式发布，将联合伙伴打造端到端的数据可信流通解决方案。产品功能动态联盟管理动态构建可信计算联盟，实现联盟内严格可控的数据使用和监管。邀请云租户作为数据方，动态构建可信计算联盟，实现联盟内严格可控的数据使用和监管。联盟是联邦计算的载体，合作方只有加入联盟才能参与联邦计算。安全的作业管理作业时，数据使用的过程可审计、可追溯。TICS数据集成支持...
EI企业智能区块链可信智能计算服务 TICS 大数据智能数据
实时即未来，大数据项目车联网之原始数据实时ELT流式任务流程总结
1 原始数据实时ETL任务分析结果落地 1 Json解析hdfs数据映射hive表（建议）l 用StreamingFileSink方法将正确数据和错误数据写入到对应的HDFS目录中后，需要创建对应的hive表，并关联hdfs数据到hive表中，以实现原始数据实时ETL结果数据落地Hive需求。l 实现步骤:启动 Hive 并启动 Hive 对应的服务n hive脚本：分别创建外部分区表...

Maynor学长
发表于2022-10-20 14:21:02
5829 0 0

5.8k 0 0

1 原始数据实时ETL任务分析结果落地 1 Json解析hdfs数据映射hive表（建议）l 用StreamingFileSink方法将正确数据和错误数据写入到对应的HDFS目录中后，需要创建对应的hive表，并关联hdfs数据到hive表中，以实现原始数据实时ETL结果数据落地Hive需求。l 实现步骤:启动 Hive 并启动 Hive 对应的服务n hive脚本：分别创建外部分区表...
大数据车联网
实时即未来，大数据项目车联网之实时ETL任务消费数据
1 实时ETL任务消费数据 1 消费数据解析逻辑创建流式环境，设置检查点、kafka分区发现、任务重启策略，数据积压根据kafka属性配置创建FlinkKafkaConsumer，消费kafka数据根据kafka数据获得DataStream，进行json解析消费数据中的数据解析逻辑:n 得到解析成功的数据，称为正确数据u 原始文本为一行可成功解析的json格式数据，且数据中存在不可或缺...

Maynor学长
发表于2022-10-20 14:18:52
7759 0 0

7.7k 0 0

1 实时ETL任务消费数据 1 消费数据解析逻辑创建流式环境，设置检查点、kafka分区发现、任务重启策略，数据积压根据kafka属性配置创建FlinkKafkaConsumer，消费kafka数据根据kafka数据获得DataStream，进行json解析消费数据中的数据解析逻辑:n 得到解析成功的数据，称为正确数据u 原始文本为一行可成功解析的json格式数据，且数据中存在不可或缺...
Kafka 大数据车联网
大数据ClickHouse进阶（十九）：ClickHouse字典的数据源
ClickHouse字典的数据源一、文件数据源ClickHouse中的字典还可以映射本地文件数据。操作如下：1、创建本地csv文件在本地创建的csv文件需要放在“/var/lib/ClickHouse/user_files”路径下，在此目录下创建organization.csv文件，写入如下内容：1,"a0001","研发部"2,"a0002","产品部"3,"a0003","数据部"4,"...

Lansonli
发表于2022-10-17 08:10:45
3507 0 0

3.5k 0 0

ClickHouse字典的数据源一、文件数据源ClickHouse中的字典还可以映射本地文件数据。操作如下：1、创建本地csv文件在本地创建的csv文件需要放在“/var/lib/ClickHouse/user_files”路径下，在此目录下创建organization.csv文件，写入如下内容：1,"a0001","研发部"2,"a0002","产品部"3,"a0003","数据部"4,"...
MySQL 大数据
大数据ClickHouse进阶（十八）：数据字典类型
数据字典类型在创建字典表语句中使用“layout”来指定字典的类型，目前扩展字典支持7种类型，分别为flat、hashed、range_hashed、cache、complex_key_hashed、complex_key_cache、ip_trie，不同的字典类型决定了数据在内存中以何种结构组织和存储。扩展字典根据使用时传入的条件不同，可以划分为两类：支持单个数值型条件（条件类型必须是UI...

Lansonli
发表于2022-10-17 08:07:50
3553 0 0

3.5k 0 0

数据字典类型在创建字典表语句中使用“layout”来指定字典的类型，目前扩展字典支持7种类型，分别为flat、hashed、range_hashed、cache、complex_key_hashed、complex_key_cache、ip_trie，不同的字典类型决定了数据在内存中以何种结构组织和存储。扩展字典根据使用时传入的条件不同，可以划分为两类：支持单个数值型条件（条件类型必须是UI...
Python 大数据数据库
大数据ClickHouse进阶（十七）：数据字典查询和删除
数据字典查询一、元数据查询通过system.dictionaries系统表可以查询扩展字典的元数据信息。查询语句如下：select name,type,key,attribute.names,attribute.types,source from system.dictionaries;注意：以上查询字段的意义如下name:字典的名称，使用字典函数时需要通过字典名称访问数据。type:字典所...

Lansonli
发表于2022-10-17 08:03:16
2349 0 0

2.3k 0 0

数据字典查询一、元数据查询通过system.dictionaries系统表可以查询扩展字典的元数据信息。查询语句如下：select name,type,key,attribute.names,attribute.types,source from system.dictionaries;注意：以上查询字段的意义如下name:字典的名称，使用字典函数时需要通过字典名称访问数据。type:字典所...
大数据
大数据ClickHouse进阶（十六）：数据字典创建
数据字典创建一、简单介绍数据字典是ClickHouse提供一种非常简单、实用的存储媒介，他以键值和属性映射的形式定义数据。字典中的数据会主动或者被动加载到内存并支持动态更新。由于字典数据常驻内存的特性，所以非常适合保存常量或经常使用的维度表数据，以避免不必要的JOIN查询。数据字典分为内置与扩展两种形式，内置字典是ClickHouse默认自带的字典，外部字典是用户通过自定义配置实现的字典。...

Lansonli
发表于2022-10-17 08:01:00
3511 0 0

3.5k 0 0

数据字典创建一、简单介绍数据字典是ClickHouse提供一种非常简单、实用的存储媒介，他以键值和属性映射的形式定义数据。字典中的数据会主动或者被动加载到内存并支持动态更新。由于字典数据常驻内存的特性，所以非常适合保存常量或经常使用的维度表数据，以避免不必要的JOIN查询。数据字典分为内置与扩展两种形式，内置字典是ClickHouse默认自带的字典，外部字典是用户通过自定义配置实现的字典。...
大数据
大数据ClickHouse进阶（十三）：ClickHouse的GROUP BY 子句
ClickHouse的GROUP BY子句Group By子句又称聚合查询，与MySQL或者Hive中的使用方式一样，但是需要注意一点在Select查询中如果有聚合查询，例如max,min等，与聚合查询出现的字段一定要出现在Group by中，否则语句报错。ClickHouse中的Group by 还可以配合WITH ROLLUP、WITH CUBE、WITH TOTALS三种修饰符获取额...

Lansonli
发表于2022-10-15 00:53:20
2907 0 0

2.9k 0 0

ClickHouse的GROUP BY子句Group By子句又称聚合查询，与MySQL或者Hive中的使用方式一样，但是需要注意一点在Select查询中如果有聚合查询，例如max,min等，与聚合查询出现的字段一定要出现在Group by中，否则语句报错。ClickHouse中的Group by 还可以配合WITH ROLLUP、WITH CUBE、WITH TOTALS三种修饰符获取额...
大数据
预测模型之灰色预测与BP神经网络预测
灰色预测模型预测题目的套路和思路：年份序列不能通过时间序列分解SSE误差平方和：参考博客：https://www.cnblogs.com/DjangoBlog/p/9575360.html 灰色预测模型（微分方程基础上的，GM(1,1)实质就是一个指数模型）：对灰色系统的一个分析，系统也可以称为数据集，灰色的含义为系统的部分信息已知，部分信息未知。（在一定范围内变化的，与时间有关的灰色过程进...

凉城予梦
发表于2022-10-13 12:37:52
7965 0 0

7.9k 0 0

灰色预测模型预测题目的套路和思路：年份序列不能通过时间序列分解SSE误差平方和：参考博客：https://www.cnblogs.com/DjangoBlog/p/9575360.html 灰色预测模型（微分方程基础上的，GM(1,1)实质就是一个指数模型）：对灰色系统的一个分析，系统也可以称为数据集，灰色的含义为系统的部分信息已知，部分信息未知。（在一定范围内变化的，与时间有关的灰色过程进...
大数据机器学习神经网络
模拟退火算法
模拟退火算法蒙特卡罗模拟算法（解决简单问题）问题如下：1.求一个给定函数的最值问题（函数在[-3,3]内的最大值）蒙特卡罗模拟算法思想：暴力搜索（随机取多个点代入试值，取最值）缺点在于时间复杂度高，时间复杂度越高，求解花费时间越长（例如30个变量）时间复杂度：简单理解就是一个算法或是一个程序在运行时，所消耗的时间（或者代码被执行的总次数）可以参考博客：https://cloud.tencen...

凉城予梦
发表于2022-10-13 12:23:59
9817 0 0

9.8k 0 0

模拟退火算法蒙特卡罗模拟算法（解决简单问题）问题如下：1.求一个给定函数的最值问题（函数在[-3,3]内的最大值）蒙特卡罗模拟算法思想：暴力搜索（随机取多个点代入试值，取最值）缺点在于时间复杂度高，时间复杂度越高，求解花费时间越长（例如30个变量）时间复杂度：简单理解就是一个算法或是一个程序在运行时，所消耗的时间（或者代码被执行的总次数）可以参考博客：https://cloud.tencen...
大数据数据结构机器学习
多重共线性与主成分分析
多重共线性1.什么是多重共线性在进行线性回归分析时，容易出现自变量（解释变量）之间彼此相关的现象，我们称这种现象为多重共线性。（适度的多重共线性不成问题，但当出现严重共线性问题时，会导致分析结果不稳定，出现回归系数的符号与实际情况完全相反的情况。本应该显著的自变量不显著，本不显著的自变量却呈现出显著性，这种情况下就需要消除多重共线性的影响。）2.多重共线性出现的原因前提话：多重共线性问题就是...

凉城予梦
发表于2022-10-12 23:31:36
7084 0 1

7.0k 0 1

多重共线性1.什么是多重共线性在进行线性回归分析时，容易出现自变量（解释变量）之间彼此相关的现象，我们称这种现象为多重共线性。（适度的多重共线性不成问题，但当出现严重共线性问题时，会导致分析结果不稳定，出现回归系数的符号与实际情况完全相反的情况。本应该显著的自变量不显著，本不显著的自变量却呈现出显著性，这种情况下就需要消除多重共线性的影响。）2.多重共线性出现的原因前提话：多重共线性问题就是...
大数据线性回归
标准化与归一化
标准化（去除量纲影响）第一种：Z-Score标准化（用在了主成分分析算法中）简介：Z-Score通过（x-μ）/σ将两组或多组数据转化为无单位的Z-Score分值，使得数据标准统一化，提高了数据可比性，削弱了数据解释性。总结：Z-Score的主要目的就是将不同量级的数据统一转化为同一个量级，统一用计算出的Z-Score值衡量，以保证数据之间的可比性自我理解：Z-Score标准化实际上就是概率...

凉城予梦
发表于2022-10-12 22:51:44
8049 0 0

8.0k 0 0

标准化（去除量纲影响）第一种：Z-Score标准化（用在了主成分分析算法中）简介：Z-Score通过（x-μ）/σ将两组或多组数据转化为无单位的Z-Score分值，使得数据标准统一化，提高了数据可比性，削弱了数据解释性。总结：Z-Score的主要目的就是将不同量级的数据统一转化为同一个量级，统一用计算出的Z-Score值衡量，以保证数据之间的可比性自我理解：Z-Score标准化实际上就是概率...
大数据机器学习

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript