• [技术干货] 《2021年中国数据管理解决方案市场报告》——湖仓协同,赋能数智融合
    湖仓一体进一步取消了用户的选型困难,为用户提供的数据管理平台兼具数据仓库的结构和治理优点与数据湖的扩展性和为机器学习提供的便利性大数据(Big Data)在字面上的理解是海量数据,但这个角度是抽象的。在网络信息时代,大数据产生的客观意义并不在于其宏大的数据规模,而在于如何数据进行专业存储和处理,并从中挖掘和提取所需要的知识价值。技术突破通常来源于市场对产品的实质需求,互联网、云、AI的不断发展与大数据技术融合满足了商业需求。在大数据产业中,降低存储成本、提升计算速度、对数据进行多维度的分析加工、赋能企业利用数据价值,是大数据产业实现盈利的关键,也是大数据技术蓬勃发展的根源。大数据技术的内涵伴随着传统信息技术和数据应用的发展不断演进,而大数据技术体系的核心始终是面向海量数据的存储、计算、处理等基础技术。在大数据技术发展的60多年之间,数据应用经历了互联网、移动互联网蓬勃的发展与需求变革。数据库与数据仓库基于事务分析处理等传统优势依然是当前信息技术的中流砥柱,但也在日益增长的数据复杂度需求以及海量弹性的数据规模面前难以匹配。分布式架构的突破与云计算的兴起奠定了数据湖的概念,湖仓一体则进一步取消了用户的选型困难,为用户提供的数据管理平台兼具数据仓库的结构和治理优点与数据湖的扩展性和为机器学习提供的便利。数据仓库与数据湖作为两个单独的数据管理范式都具备成熟的技术积累,在长期实践中两者以湖+仓的混合架构方式共同存在:数据湖用作对原始数据的提取和处理,同时依赖数据仓库在数据管道的发布。在用户反馈中,湖+仓的混合架构存在着使Hadoop和MPP共存下的数据冗余、两个系统间ETL造成的低时效性、一致性保障及运维等方面的困难。在用户需求的驱动下,数据湖与数据仓库提供商在原本的范式之上向其限制的范围扩展,逐渐形成了“湖上建仓”与“从数仓向湖”的两种“湖仓一体”的成型路径。虽然在底层逻辑中,湖仓一体仍然是一个二元体系,但能够极大帮助用户在其原IT基础之上封装出与需求更紧密的大数据范式,或者直接挂载全托管服务的湖仓一体系统。数据仓库本身以及ETL的性能取决于通信、I/O能力和硬件性能,执行架构则决定了数据仓库的支撑能力数据库侧重OLTP,数据仓库侧重OLAP。数据仓库是传统的关系型数据库如SQL Server、Oracle等,经过严格的数据模型设计或参数调整就可以变成很好的数据仓库实体,而纯粹的数据仓库如Terradata、SybaseIQ若要用来适应OLTP系统则不合适。趋势中,OLAP与OLTP正在走向统一融合成HTAP,数据库对AP分析能力的加强将使数据库与数据仓库的界限将逐渐模糊。Hadoop架构(MapReduce模型)适合海量数据存储查询、批量数据ETL、非结构化数据分析;而MPP架构适合替代现有关系型数据结构下的大数据处理,进行多维度数据分析、数据集市。混搭架构中,MPP处理高质量的结构化数据,同时提供SQL及事务支持。而Hadoop实现半结构化、非结构化数据处理。通过这种混搭方式,自动满足结构化、半结构化、非结构化数据的高效处理的需求,解决了传统数据仓库在海量数据下加载慢、数据查询效率低、难以融合多种异构数据源进行分析的困难。这种打破数据仓库与数据仓库边界的方案已经成为了一种主流架构方式。但在湖仓一体进程中,有更多新兴的架构正在开发和验证,或有新一代的架构在未来将取代MPP-Hadoop架构成为更优的架构方案。数据湖为了实现实时数据处理开发出了多种架构方式,其中最具代表性的是Lambda、Kappa、IOTA架构数据湖从Lambda架构开始完成离线与实时计算的融合,Kappa架构统一了数据口径简化数据冗余。IOTA架构通过边缘下发和统一数据模型取消了ETL,进一步加速了数据湖效率。其他的数据湖架构还有偶数科技自研的Omega架构,由流数据处理系统和实时数仓组成。融合了Lambda架构和Kappa架构处理流数据的优势,增加了实时按需智能和离线按需智能数据处理的能力,以及高效处理可变更数据实时快照的能力。随着数据智能服务认知的流行,厂商如何将数据分析服务与机器学习服务无缝集成,为无AI算法背景的数据研发和分析师等用户提供更加智能易用的产品服务尤为关键数据库、数据仓库、数据湖以及湖仓一体等产品是数据基础设施,如何采用数据分析工具,并且驱动决策,才能转化出数据价值。人工智能和机器学习功能是赋予湖仓一体服务能力创新的重要功能。数据智能(Data Intelligence)即基于大数据,通过AI对海量数据进行处理、分析、挖掘,提取数据中的信息和知识,并通过建立模型寻求现有问题的解决方案以及实现预测等,帮助决策。过去,BI作为统计分析类计算是数据仓库的主要应用场景,预测类计算的AI分析是数据湖的主流应用。随着湖仓一体的成熟化,AI+BI双模式将成为大数据计算分析的重要负载形式。随着大数据技术的持续发展,离线处理与实时处理的融合、数据存储与数据分析的融合,大数据系统的性能瓶颈的突破提供了巨大的数据服务及应用的潜力。相应的,随着数据智能服务认知的流行,厂商如何将数据分析服务与机器学习服务无缝集成,为无AI算法背景的数据研发和分析师等用户提供更加智能易用的产品服务尤为关键,如:(1)通用性:可直接通过SQL进行机器学习模型推理;(2)易用性:提供简易工具实现业务利用已有数据实现机器学习模型训练;(3)透明化:可视化数据准备低代码进行数据清洗转换;(4)智能运维:AIOPS 能力应用在数据平台日常运维。机器学习平台与大数据平台深度融合,融合后的机器学习大数据平台的数据处理速度和自动化水平将提升一代。而要实现机器学习与大数据的融合,根据相关论文,需要满足以下要求:(1)隔离机制:人工智能与大数据之间不发生相互干扰的情况;(2)代码无缝对接:使大数据平台支持机器学习的原生代码;(3)融合框架:数据处理层、赋能层、应用层中,引入数据融合引擎,对数据处理层和赋能层进行深度融合;而要实现机器学习生产效率的提升,需要满足以下要求:(1)全生命周期平台化:覆盖从数据准备、模型构建、模型开发到模型生产的端对端能力;(2)预置机器学习算法和框架:使用户可以直接调用,而无需自行构建;(3)资源快速启动:底层资源即需即用,无需预置,使用统一的计算集群。全无服务器部署的湖仓一体架构是指数据存储、数据查询引擎、数据仓库、数据处理框架、数据目录产品均支持无服务器部署Serverless无服务器部署通过FaaS+BaaS提供服务,允许用户在不构建不运维一个复杂的基础设施的情况下进行开发,运行和管理应用程序。湖仓一体Serverless化后会具备两个优点:使用流程简化向用户提供Serverlesss部署的湖仓一体架构,使用户获得更易用的使用体验,全托管无运维的方式也帮助用户专注于业务本身,而非关心技术逻辑,符合云原生概念。成本灵活优化Serverless部署能够提供按需计费,不需要为等待付费,可以做到更高效的资源利用率。对于使用随时间变化大的企业是更具性价比的。无服务器部署已经成为了头部厂商在湖仓产品系列竞逐的产品特性,用以更好的支持用户需求:(1)亚马逊云通过具备Serverless能力的Redshift+EMR+MSK+Glue+Athena+Amazon Lake Formation实现Serverless全无服务器部署的湖仓一体;(2)华为云Stack+DLI Serverless+FusionInsight MRS+DWS实现Serverless化部署的大数据体系;(3)阿里云的DLA通过核心组件Lakehouse、Serverless Spark、Serverless SQL打造云原生+Serverless+数据库与大数据一体化架构Maxcompute;(4)其他Serverless湖仓产品还有Databricks Serverless SQL、Azure Synapse Analytics Serverless、移动云云原生Lakehouse等。数据管理解决方案厂商需要以用户体验为中心,从数据仓库、数据湖、湖仓方案、IaaS相关等维度持续深耕产品技术在市场用户对数据仓库要求更高的灵活性,并对数据湖要求更高的成长性的背景下,“湖仓一体”概念是业内厂商与用户对未来大数据架构的共同认知。纵然在概念层面具备显著的优势,湖仓一体在实际生产中依然面临由于技术或服务的不成熟而带来的众多问题。潜在用户出于对使用体验与稳定性的担忧、或对替换成熟稳定的原系统的投入产出价值不清晰,而保持谨慎观望。厂商需要以用户体验为中心,从多维度切入持续深耕产品技术。中国数据管理解决方案市场处于稳步增长阶段,竞争主体将根据其在创新能力及成长能力两个维度的表现划分梯队本报告分别通过市场增长指数与创新指数两大主要维度衡量业内优秀厂商竞争实力。增长指数衡量竞争主体在数据管理解决方案增长维度的竞争力,包括:数据存储、数据准备、机器学习分析支撑、湖仓一体整合、多维度多框架数据分析等创新技术或能力;而创新指数则衡量竞争主体在数据管理解决方案的竞争力,位置越靠右侧,数据管理解决方案的兼容性、查询&计算性能表现、灾备安全、服务支持、产业链生态、数据服务场景解决方案等市场增长能力及水平。沙利文联合头豹研究院根据增长指数和创新指数两大评估维度,通过数据存储、数据准备、数据分析支撑、数据分析、流程编排管理、兼容性、性能、灾备建设、服务支持、开源社区与产业链生态及数据服务场景解决方案十一项大指标,对中国数据管理解决方案市场竞争力多因素分层次评估。由“创新指数”和“增长指数” 综合评分,亚马逊云科技、华为云、阿里云、金山云、星环科技、浪潮云位列中国数据管理解决方案市场领导者梯队。亚马逊云科技:亚马逊云科技智能湖仓架构升级,通过Amazon Athena与Amazon Lake Formation打破数据孤岛,构建云中统一的数据治理底座,Amazon SageMaker机器学习全流程组件助力机器学习由实验转为实践,赋能业务人员探索业务敏捷创新。亚马逊云科技凭借专业深入的技术支持服务提供经历全球商业实践的产品和服务,为各行业客户提供各类数据服务场景的成熟解决方案。华为云:华为云FusionInsight MRS智能数据湖,MRS与AI开发平台ModelArts实现数智融合,通过HetuEngine一站式交互式SQL分析引擎实现湖仓协同,提供离线、实时、逻辑三湖一集市的数据架构支撑丰富的业务场景。华为云在大数据领域引领开源坚持开放,联合1000+行业应用生态合作伙伴共建覆盖金融、运营商、互联网、泛政等领域的落地场景解决方案。阿里云:阿里云Maxcompute适配多种数据湖仓案构建湖仓一体最佳实践,具备DB级元数据透视统一开发管理数据,与机器学习平台PAI无缝集成提供超大规模的机器学习处理能力。同时,Maxcompute与Hologres深度集成,为客户提供离线实时一体化的海量云数仓结构。结合开放开发建设和与伙伴生态产品的深度集成,为多行业用户的各种大数据场景提供多维的产品组合。金山云:金山云云原生数据引擎KCDE的统一元数据服务LMS统一湖仓的元数据层,支持构建实时湖、离线湖、分析湖的逻辑数据湖。大数据开发治理平台KDC与机器学习平台KingAI融合,基于统一的数据底座提供一站式数据挖掘服务。金山云以多元产品矩阵构建全域云原生能力,在金融、泛互联网、医疗、公共服务行业广泛覆盖大数据云平台应用解决方案。浪潮云:浪潮云大数据存储与分析IEMR提供多湖多仓关联计算能力,通过数据湖构建IDLF提供湖仓数据协同调用能力,与机器学习平台IMLP深度适配并提供200+预置模型和100+即开即用的行业模型调用能力。浪潮云IEMR具备高安全保障的灾备建设水平,IBP数据产品线可根据业务场景提供个性化产品交付形态,对电信、医疗、金融、政务等行业及其他大型国企提供丰富的场景解决方案和实施经验。星环科技:星环科技大数据基础平台TDH通过提供统一的SQL编译器Transwarp Quark和统一的分布式计算引擎Transwarp Nucleon等打造湖仓一体解决方案,突破传统Hadoop+MPP混合架构实现批流协同、多模融合的特性。星环科技在大数据各流程任务均提供组件化的技术服务和高度解耦的成熟产品,落地案例覆盖了金融、政务、交通、运营商、邮政、医疗、能源等行业。文章来源:弗若斯特沙利文 (如有侵权,请联系删除)
  • [上云精品] 云商店助力慧科 推动校企联合,共育人才发展
    疫情蔓延期间,如何保证高质量“停课不停学”? 随着教育政策的变化与实施推进,人工智能如何助力教育行业发展?如何运用人工智能、大数据等现代信息技术,提升课堂教学质量等,已成为全社会关注的热点。目前人工智能、大数据、云计算、互联网等新一代信息技术正在快速发展,“新型人才热”也在持续升温中。在此背景下,教育回归学校、教学回归课堂成为大势所趋,“人工智能+教育”也成为当前中国教育的重要解题思路。华为云云商店携手伙伴共创共赢,在数字技术支撑平台和培养体系的支撑下研发打造全新服务内容。纸上得来终觉浅,绝知此事要躬行。从课堂走向实践,在实验和实训中还原真实企业环境;共同打造适用于教学、实验、实训等活动的教学服务平台,并且联接人才与市场,赋能新型人才培养。华为云云商店助力教育伙伴慧科,充分发挥差异化优势,为教育领域的管理部门、教育机构、学术机构等提供联合解决方案服务。以云+AI+5G技术的应用,不断促进智慧教育的发展创新,保障高质量新兴技术人才的持续培养输出。一、技术使能,助力高校“产学融合”慧科集团旗下灵鹿实验数字化平台,通过与华为云的技术联合,免费开放人工智能专业方向实验资源,保障高校教师远程教学辅导工作的正常开展。开放的实验包括语音识别、自然语言处理、视觉、Python科学计算、大数据用户行为分析等16个课程的配套173个实验,涵盖优质实践资源、前沿一手行业案例、大厂真实开发环境等,帮助高校教师在疫情期间远程开展在线实验和实践教学。而华为云也在课程内容、企业资源、技术平台三大方面为慧科提供强大的业务支持。-课程:华为各地基地、创新中心对当地的人才需求有较深入了解,帮助慧科快速准确地了解当地客户需求,大幅提升合作效率。-技术:华为自研的人工智能、智能网联、大数据专业课程,结合当下技术前沿,让慧科课程与企业实际需求接轨。-资源:华为云把先进的技术平台SaaS化,更利于慧科把技术引入到教学实践中,培养出符合需求的复合型人才。慧科集团与华为云于2021年中开启全面合作,双方就高等教育和新职业教育领域建立了紧密的合作关系,合作方向包含了智能物联、工业互联网、人工智能、集成电路、大数据、新商科、VR、鲲鹏、智能网联汽车、精益创业、数字孪生等多个方向。 二、华为云云商店助力慧科,提供多场景服务凭借突出的企业服务能力及产品市场竞争力,慧科集团目前已在华为云云商店上线30+产品品类,云商店将继续提供全方位的平台支持与运营赋能,面向产品规划、上市推广及持续运营等多环节,帮助伙伴高效运营。以云商店慧科人才培养服务平台为例,作为一站式综合解决方案,其囊括了丰富的资源及配套实验案例,能够支撑实验室、训练营、项目实战、专业教学及科研等多样化场景,提供实验平台及配套教学实验资源,以及产教融合、专业共建、实战实训、科技赛事、专业认证、政企培训等服务。慧科人才培养服务平台所具备的“一站式、高性能、灵活性、全层次”等优势将为高校提供更加便捷、智慧的教育服务,满足科技背景下的产业人才发展需求。华为云云商店也将继续携手慧科集团,为用户提供丰富、多场景的教育解决方案,为构筑繁荣的教育生态添砖加瓦。三、丰富合作模式,校企共育人才华为与慧科在合作期间,已经在多所院校共建产业学院,推动校企合作共育人才,为助力高校产学融合,提供一体化实训实践解决方案。推出“春雨计划”为满足老师的科研试验需求,减负赋能,慧科集团还在疫情期间推出“春雨计划”,召集百所院校师生免费体验灵鹿试验平台。免费提供10+大厂名师教学经验分享,1V1专属产品使用指导、10+行业实验资源体验、老师+学生免费账号实验资源、免费灵鹿平台云计算服务资源等。在活动过程中,学生以真实的企业项目进行全流程实操,制定目标,搭建团队,分工协作,公开答辩,后期复盘等,在这个过程中将理论和实践经验相结合,加深对专业和未来工作岗位的理解,为日后工作能力的培养打下坚实的基础。 创新赛事举办2020年,由慧科集团主办,华为作为独家合作伙伴的慧科华为人工智能大赛吸引了750多支队伍3000余名学生参赛。慧科华为人工智能大赛入围作品 企业人才培训与此同时,慧科还与华为云开展多项企业人才培训计划,提供企业数字化服务解决方案。通过深入了解企业所需的不同人才需求,培养数字化专业人才、应用人才、管理人才以及领军人物等不同层次的人才,并通过在线训练营、线下工作坊、数字商学院等多种形式开展培训,助力企业搭建数字化人才队伍,加速企业数字化转型步伐。华为与慧科在合作期间,已在多所院校共建产业学院,实现校企合作共育人才。 随着慧科人才培养服务平台上架华为云云商店,面向高等教育、职业教育提供实验平台及配套教学实验资源,并成功登顶云商店6月商品推荐榜(点此回顾),并荣获企业管理推荐榜第一、产品热销榜第二的好成绩。未来,双方将在此良好的合作基础上,进行更广阔和深入的探索,加强合作,加大规模,加快步伐,赋能高校和企业的数字化人才培养。华为云云商店将以“丰富、品质、创新、共赢”为目标,与伙伴携手打造用户首选的企业应用平台,让“上云”更简单。撰文&编辑丨华为云云商店-阿瑾
  • [交流分享] 【悦识鲲鹏系列 第52期】鲲鹏BoostKit大数据OmniData信息图——近数据计算,提升大数据计算性能
    了解鲲鹏BoostKit大数据OmniData,更多详情可参见鲲鹏文档中心:https://www.hikunpeng.com/document/detail/zh/kunpengbds/appAccelFeatures/sqlqueryaccelf/kunpengbds_06_0005.html
  • [优秀实践] Spark使能KAEzip压缩项目实践
    首先非常感谢华为鲲鹏能给我们这个机会参与到华为鲲鹏生态的建设中来,同时也非常荣幸能跟随我的导师朱常鹏一起参与到这个项目中来。我将会从以下三个方面来介绍我们的项目项目背景项目方案心得体会项目背景随着大数据时代的到来,存储和计算大体量数据的需求越来越多的在企业中涌现,作为Hadoop大数据生态圈中目前离线计算性能最优越的大数据计算引擎Spark越来越多的被企业使用,为此,提升Spark在大数据场景下的性能成为当下大数据技术圈中的热点问题。在本项目中,通过对Spark的扩展,使之能够支持新型压缩算法KAEzip,KAEzip是华为新开发出的一种内置于华为鲲鹏920 CPU的高效压缩算法。相比较传统的zlib压缩算法,其压缩/解压缩性能均有较大幅度的提升。如果能够让Spark支持KAEzip压缩算法,将会较大程度上提升Spark在大数据场景下的性能,从而能够提升企业的效益。 项目方案本方案难点是需要了解掌握Spark中的压缩组件与jdk中的zlib组件和操作系统中的libz.so动态库之间的相互关系。Jdk自实现了用于zlib解压缩的动态库libzip.so,操作系统中也自带了一个zlib解压缩的动态库:libz.so,SparkSQL在读写文件时调用的是操作系统中的libz.so中的解压缩算法,其他解压缩场景如broadcast,shuffle,checkpoint调用的是jdk自带的libzip.so中的解压缩算法。Spark中的Spark core包和Spark SQL包负责压缩算法的选择与调用。在这两个包中,分别使用特征CompressionCodec和CompressionCodecs支持不同类型的压缩算法。基于特征的设计使得Spark在其生命周期内更易扩展。因此本方案主要的设计思路:实现Spark中的特征CompressionCodec和CompressionCodecs,使Spark支持KAEzip压缩算法;将Spark中对KAEzip中的压缩方法(deflate)和解压缩方法(inflate)的调用,重定向到操作系统中的libkaezip.so动态库(自实现),最终实现Spark对KAEzip的支持。具体思路如图1所示。Spark SQL提供了spark.read/spark.write等方法对本地文件或hdfs上的文件进行读写操作。根据不同的读写对象,这些可以进一步细分。比如spark.read可以细分为spark.read.text/spark.read.orc/sparkread.parquet等等,其中每个方法都可以设置不同的压缩算法,实现对文件的压缩和解压缩。为了让这些方法支持KAEzip压缩算法。我们的扩展可分为三个部分。首先,扩展CompressionCodecs特征,使Spark能够识别kaezip关键字,并映射到指定类上。该类实现了CompressionCodecs特征中规定的压缩/解压缩方法。因此对CompressionCodecs特征中的压缩/解压缩的调用,对最终被重定向到该类中的相应方法。其次,对ORC和parquet进行扩展。它们并不属于Spark或Hadoop,而是两个相互独立的Apache项目。它们目前并不支持KAEzip压缩算法,因此需要扩展,使其能够识别zlib和kaezip关键字,并将对应的关键字映射到指定的类上。最后,指定类对CompressionCodecs特征中规定的压缩/解压缩的实现依赖libkaezip.so动态库中提供的相应方法。因此需要根据需要动态的激活或者去活该动态库,确保只有在KAEzip压缩算法被调用时才被激活。具体过程如下图所示。除了文件的读写操作外,很多Spark应用程序也可以选择压缩算法,对执行过程中产生的数据进行压缩和解压缩。这一功能由Spark core实现。因此扩展Spark core是本方案的第二重点。具体实现方案如图3所示。首先,创建两个新类KaeInputStream和KaeOutputStream,它们分别调用KaeInflaterInputStream和KaeDeflateOutputStream类中的相关方法,实现CompressionCodeC中的相应方法,实现对数据流的压缩和解压缩。进一步,KaeInflaterInputStream和KaeDeflateOutputStream类都包含一个字节数组,用于临时存储数据流,然后分别调用类KaeInflater和类KaeDeflater,实现对数据流的压缩和解压缩。通过这六个类对Spark core进行扩展,实现Spark对KAEzip的支持。最后,KaeInflater和KaeDeflater并未真正实现压缩和解压方法,而是通过JNI方式调用到操作系统中的libz.so动态库中提供的inflate()方法和deflater()方法。为此,我们还需创建libnativezip.so动态库,作为链接KaeInflater和KaeDeflater和libz.so之间的桥梁。 KaeInflater和KaeDeflater中申明和使用的native方法由libnativezip.so中的相应方法负责实现,而它们的实现会调用到libz.so中的相应方法。最终构建起KaeInflater和KaeDeflater和libz.so之间的桥梁。通过动态地替换libz.so为libkaezip.so即可实现Spark支持KAEzip压缩算法。在方案实现中主要有以下重难点:在OpenEuler系统中搭建大数据环境,需要对以下组件进行适配:JDK,Hadoop(ARM版),Spark;通过Makefile编译libkaezip.so动态库,使其能够调用到OpenEuler中的libz.so;Java通过JNI与C/C++动态库进行交互,在Java层面调用libkaezip.so;软链接的切换;Spark CompressionCodec模块源码修改,扩展KAEzip压缩功能;OpenEuler测试环境搭建,并构建测试数据(1G~50G);测试脚本编写并测试心得体会通过参与本次的研究项目,一方面我学到很多技术:Spark压缩机制,JNI函数调用方法,压缩格式文件的写入写出等等,但更多的是思维方式的思考和转变,对于此我主要有以下两点心得体会。错误的代价是最大的,如果项目中出现了错误,那么建立在错误上的工作都白费了,因此做项目需要做好检查和校验机制,确保前进的每一小步都是正确的,这样才是最快的。我们在一开始犯了一个严重的错误,将Spark依赖的libz.so算法库错误的认为是Spark源码自身携带的,这个结论最后被证实是错误的,这个错误间接导致了我们将近20%的工作白费,极大的影响项目的进度。思考问题要从最基本的粒度进行思考,当我们对于一个问题并不了解时,我们应当从问题的最基本的流程和最微小的组成部分着手进行研究,我们的Spark在开始并不能支持分区块数据进行合并,总是会丢弃掉其他的分区,经过我们研究发现,KAEzip格式的压缩文件最后会有一个文件终止符,当多个分区的文件进行合并后,将会舍弃掉第一个分区文件终止符后的数据,如果我们没有从压缩文件格式的角度出发进行研究,我们是无法发现这个问题的。在此再次感谢鲲鹏众智让我能够有机会参与本次项目,最后衷心希望KAEzip压缩算法性能能越来越强大,鲲鹏920 CPU能够突破西方的技术封锁,走出国门,真正实现CPU中国化!!   重庆理工大学-大数据实验室-尹博文,指导老师:朱常鹏老师
  • [优秀实践] Spark使能KAEzip压缩项目实践
    首先非常有幸能够参与到鲲鹏Spark使能KAEzip项目,本文我将从以下几个方面进行介绍:项目背景项目方案心得体会项目背景随着云计算与大数据技术的不断发展,Hadoop和Spark等大数据处理平台越来越广泛地被企业用于大数据存储、处理与分析。为此,如何提高它们处理数据的性能已经成为大数据领域一个新的研究重点和难点。KAEzip是一种内置于华为鲲鹏920 CPU的高效压缩算法。相比较传统的zlib压缩算法,其压缩/解压缩性能均有较大幅度的提升。但是当前Apache Spark仅支持lz4,snappy和zstd等常见的压缩算法,无法有效支持KAEzip。因此本项目的研究核心就是如何有效地扩展Spark,使其支持KAEzip压缩算法。项目方案本方案难点是需要了解掌握Spark中的压缩组件与jdk中的zlib组件和操作系统中的libz.so动态库之间的相互关系。Jdk自实现了用于zlib解压缩的动态库libzip.so,操作系统中也自带了一个zlib解压缩的动态库:libz.so,SparkSQL在读写文件时调用的是操作系统中的libz.so中的解压缩算法,其他解压缩场景如broadcast,shuffle,checkpoint调用的是jdk自带的libzip.so中的解压缩算法。Spark中的Spark core包和Spark SQL包负责压缩算法的选择与调用。在这两个包中,分别使用特征CompressionCodec和CompressionCodecs支持不同类型的压缩算法。基于特征的设计使得Spark在其生命周期内更易扩展。因此本方案主要的设计思路:实现Spark中的特征CompressionCodec和CompressionCodecs,使Spark支持KAEzip压缩算法;将Spark中对KAEzip中的压缩方法(deflate)和解压缩方法(inflate)的调用,重定向到操作系统中的libkaezip.so动态库(自实现),最终实现Spark对KAEzip的支持。具体思路如图1所示。        Spark SQL提供了spark.read/spark.write等方法对本地文件或hdfs上的文件进行读写操作。根据不同的读写对象,这些可以进一步细分。比如spark.read可以细分为spark.read.text/spark.read.orc/sparkread.parquet等等,其中每个方法都可以设置不同的压缩算法,实现对文件的压缩和解压缩。为了让这些方法支持KAEzip压缩算法。我们的扩展可分为三个部分。首先,扩展CompressionCodecs特征,使Spark能够识别kaezip关键字,并映射到指定类上。该类实现了CompressionCodecs特征中规定的压缩/解压缩方法。因此对CompressionCodecs特征中的压缩/解压缩的调用,对最终被重定向到该类中的相应方法。其次,对ORC和parquet进行扩展。它们并不属于Spark或Hadoop,而是两个相互独立的Apache项目。它们目前并不支持KAEzip压缩算法,因此需要扩展,使其能够识别zlib和kaezip关键字,并将对应的关键字映射到指定的类上。最后,指定类对CompressionCodecs特征中规定的压缩/解压缩的实现依赖libkaezip.so动态库中提供的相应方法。因此需要根据需要动态的激活或者去活该动态库,确保只有在KAEzip压缩算法被调用时才被激活。具体过程如下图所示。除了文件的读写操作外,很多Spark应用程序也可以选择压缩算法,对执行过程中产生的数据进行压缩和解压缩。这一功能由Spark core实现。因此扩展Spark core是本方案的第二重点。具体实现方案如图3所示。首先,创建两个新类KaeInputStream和KaeOutputStream,它们分别调用KaeInflaterInputStream和KaeDeflateOutputStream类中的相关方法,实现CompressionCodeC中的相应方法,实现对数据流的压缩和解压缩。进一步,KaeInflaterInputStream和KaeDeflateOutputStream类都包含一个字节数组,用于临时存储数据流,然后分别调用类KaeInflater和类KaeDeflater,实现对数据流的压缩和解压缩。通过这六个类对Spark core进行扩展,实现Spark对kaezip的支持。最后,KaeInflater和KaeDeflater并未真正实现压缩和解压方法,而是通过JNI方式调用到操作系统中的libz.so动态库中提供的inflate()方法和deflater()方法。为此,我们还需创建libnativezip.so动态库,作为链接KaeInflater和KaeDeflater和libz.so之间的桥梁。 KaeInflater和KaeDeflater中申明和使用的native方法由libnativezip.so中的相应方法负责实现,而它们的实现会调用到libz.so中的相应方法。最终构建起KaeInflater和KaeDeflater和libz.so之间的桥梁。通过动态地替换libz.so为libkaezip.so即可实现Spark支持KAEzip压缩算法。在方案实现中主要有以下重难点:在OpenEuler系统中搭建大数据环境:JDK,Hadoop(ARM版),Spark;通过Makefile编译libkaezip.so动态库,使其能够调用到OpenEuler中的libz.so;Java通过JNI与C/C++动态库进行交互,在Java层面调用libkaezip.so;软链接的切换;Spark CompressionCodec模块源码修改,扩展KAEzip压缩功能;OpenEuler测试环境搭建,并构建测试数据(1G~50G);测试脚本编写并测试心得体会参与本次鲲鹏使Spark能KAEzip压缩项目,让我学到了很多:对Spark压缩过程更加了解了,对Spark源码理解更加深入了,了解了Java JNI以及MakeFile编译过程,动态库的调用方式等等。但收获更多的是思维方式,在做一个项目之前最重要的就是项目方案的设计,不要拿到项目就为了追求速度一股脑的去做,多画点时间在方案设计上,对后面项目实现部分会有很大的帮助。要通过实验验证自己的想法,相信直觉不如相信数据,就比如一开始我们以为Java中native调用的是动态库中的方法,但我们误以为这个动态库是在操作系统中的动态库,但经过实验验证这个动态库是Java自带的动态库。重要文档,重要结论,重要问题随时做好记录,可能后面就会忘记。我们在实现了Spark使能KAEzip压缩的基础上,同时对KAEzip压缩算法做出了一些扩展,如在Java层面通过加入Buffer提高KAEzip解压缩性能,同时还发现了Zlib&KAEzip压缩算法并不支持连续的块压缩(将两个文件同时读到内存中并合并,压缩后的结果只有第一个文件的内容,这是因为Zlib压缩后有一个文件结尾标识符),我们也将此问题反馈给了合作方,在源码方面进一步解决该问题。在这次项目中真的学到了很多,再次感谢鲲鹏众智让我能够有机会参与本次项目,最后希望KAEzip压缩算法能够越做越好,鲲鹏920 CPU能够走出国门,真正实现CPU国产化!!
  • [赋能培训] 【中奖公示&视频回顾】GDE直播公开课 · 第十期:华为大数据开发平台DataFactory行业应用典型案例分享
    ❤ 观看前期直播回顾,了解DataFactory的原理和使用:DataFactory系列直播No.1:DataFactory理论基础和实现DataFactory系列直播No.2:DataFactory具体细节和用法DataFactory系列直播No.3:DataFactory UX设计理念分享本期直播回顾视频完整版本期直播带你了解DataFactory在实际场景中的应用案例,帮助您运用DataFactory进行更简单、高效的数据开发。❤ 观看直播入口:https://bbs.huaweicloud.com/live/cloud_live/202207261900.html 活动说明1.    鼓励自主撰写建议,复制、改写他人内容将不纳入评选,同样的内容以首发为准。 2.    为保证活动有序进行,一经发现有作弊行为,将取消奖励资格。3.    幸运奖将采用随机抽奖的方式抽出中奖名单,若您介意此种方式,请勿参与。4.    请务必使用个人账号参与活动(IAM、企业账号等账号参与无效)。5.    所有获奖用户,请于获奖后3日内完成实名认证,否则视为放弃奖励。6.    本次活动如一个实名认证对应多个账号,只有一个账号可领取奖励;一个实名认证账号只能对应一个收件人,如同一账号填写多个不同收件人或不同账号填写同一收件人,均不予发放奖励。(举例说明:具备同一证件号(比如身份证号/护照ID/海外驾照ID/企业唯一识别号等)、同一手机号、同一设备、同一IP地址等,均视为同一实名用户)7.    所有参加本活动的用户,均视为认可并同意遵守华为云社区的用户协议及隐私政策。8.    GDE数智平台可能需要根据活动的实际举办情况对活动规则进行变更;若有变更,将以活动页面告知等方式及时通知。9.    活动结束后将在活动帖和【GDE直播交流群】微信群中公布获奖名单,奖品配送范围为中国大陆地区,部分地区或因疫情原因延迟配送。10.    GDE数智平台拥有活动解释权。中奖公示(已提供地址的中奖人员,奖品将陆续发出;未提供地址的,请留意私信,工作人员将联系获取地址,请在2022年8月15日前提供地址,过时视为自动放弃礼品)请各位中奖人微信联系:华为GDE官方小助手(gdezhushou),提供邮寄地址小助手微信二维码  (回复:GDE直播公开课,添加小助手)不添加不能获奖哦~幸运报名奖积极探讨奖昵称奖品yd_264260198玩偶相信光的奥特王小懒防晒伞madqfrog玩偶yd_278899533马克杯HB1688玩偶y-wolfandy马克杯suifeng1324马克杯直播调研抽奖姓名奖品秦*兰码小朵玩偶李*林GDE定制鼠标垫晏*GDE定制鼠标垫张*持GDE定制鼠标垫魏*定制卫衣王*GDE定制鼠标垫金*码小朵玩偶高*平码小朵玩偶微信直播互动昵称奖品骑**圣防晒伞吕*涛玩偶修冰箱贴华为云官网直播互动姓名奖品王*GDE定制玩偶吴*琦GDE定制玩偶李*洋GDE定制玩偶金*GDE定制鼠标垫吕*GDE定制鼠标垫赵*昊定制卫衣吴*天定制卫衣
  • [教程] 资源汇总:DGC等大数据核心服务-官网&开通&学习材料 -V1.0
    云服务公共资源服务开通服务官网云服务社区入门材料赋能&产品文档等DGC大数据领域公共资源:1、大数据福利专场 0元试用 - 数据域主力产品0元试用https://activity.huaweicloud.com/Date-free.html2、微信公众号:智能数据湖微信号:ei-datalake    1、免费注册-[教程]DGC免费实例购买流程2.0https://bbs.huaweicloud.com/forum/thread-193738-1-1.html华为云-数据湖治理中心DGC-服务官网https://www.huaweicloud.com/product/dayu.html云社区 -EI企业智能数据湖治理中心DGChttps://bbs.huaweicloud.com/forum/forum-890-1.html1、快速入门:提供3个入门示例场景https://support.huaweicloud.com/qs-dgc/dgc_04_0021.html2、数据湖治理中心 DGC> 视频:入门准备https://support.huaweicloud.com/dgc_video/index.html1、DGC官方使用帮助文档:DGC的每个功能提供详细指导https://support.huaweicloud.com/dgc/index.html2、DGC 赋能视频:数据湖治理中心(DGC)伙伴赋能课程https://education.huaweicloud.com/courses/course-v1:HuaweiX+CBUCNXE133+Self-paced/about3、华为伙伴暨开发者大会2022数据治理生产线,加速构建企业数据资产视频回看:https://live.huawei.com/HPDC/meeting/cn/10741.htmlMRS1、云原生数据湖MRS集群开通https://support.huaweicloud.com/qs-mrs/mrs_09_0010.html华为云-云原生数据湖MRS-服务官网https://www.huaweicloud.com/product/mrs.html云社区 -云原生数据湖MRShttps://bbs.huaweicloud.com/forum/forum-612-1.html云原生数据湖MRS> 视频:入门介绍、操作&二次开发指导https://support.huaweicloud.com/mrs_video/index.html1、云原生数据湖MRS帮助文档:MRS的每个功能提供详细指导https://support.huaweicloud.com/mrs/index.html2、云原生数据湖MRS最佳实践https://support.huaweicloud.com/bestpractice-mrs/mrs_05_0023.htmlDLI免费注册-[教程]DLI免费实例购买流程2.0https://bbs.huaweicloud.com/forumreview/thread-193899-1-1.html华为云-数据湖探索 DLI-服务官网https://www.huaweicloud.com/product/dli.html云社区 -数据湖探索 DLIhttps://bbs.huaweicloud.com/forum/forum-599-1.html1、快速入门:使用DLI SQL分析OBS数据https://support.huaweicloud.com/bestpractice-dli/dli_05_0044.html2、数据湖探索 DLI> 视频:入门准备https://support.huaweicloud.com/dli_video/index.html1、DLI官方使用帮助文档:DLI的每个功能提供详细指导https://support.huaweicloud.com/wtsnew-dli/index.html2、DLI 赋能视频:数据湖探索(DLI)伙伴赋能课程https://education.huaweicloud.com/courses/course-v1:HuaweiX+CBUCNXE100+Self-paced/about
  • [教程] 材料汇总:DGC等大数据服务官网&开通&学习资源
    ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20227/12/1657615868071268340.png)
  • [酷哥说库] 【技术之声】第二十七期(20220711)数据库资讯精选
    大家好!我是酷哥,数据库资讯,带您速览,欢迎大家阅读。 ------------------------------------------------ **本期精选** ------------------------------------------------ - 2022大数据十大关键词,重磅发布! - 新数据库时代,不要只学 Oracle、MySQL - IDC:2021H2中国关系型数据库软件市场规模同比增长34.9% - 可信隐私计算:破 解数据密态时代技术困局 - 华为云GaussDB助力“2号人事部”打造高品质HR效率软件 - 数据目录——企业数据资产的一个有序清单 - 数据湖治理:优势、挑战和入门 ------------------------------------------------ **资讯摘要** ------------------------------------------------ - 2022大数据十大关键词,重磅发布! **摘要:** 近日,为进一步加速推动我国数据智能转型进程,推动“十四五”期间数据智能产业交流与合作,由中国信息通信研究院、中国通信标准化协会指导,中国通信标准化协会大数据技术标准推进委员会(CCSA TC601)主办的2022大数据产业峰会在京召开。在峰会主论坛上,中国信通院云大所所长何宝宏发布了《2022大数据十大关键词》: ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20227/12/1657591662154734229.png) 关键词1:创新型数据库优化数据资源化过程 关键词2:图计算平台助力大规模图数据资源化 关键词3:数据中 台成为企业挖掘数据要素价值的核心引擎 关键词4:DCMM贯标引领行业数据治理 关键词5:数据估值成为数据资产化切入点 关键词6:DataOps定义数据开发应用新模式 关键词7:隐私计算一体机助力数据要素流通破 局 关键词8:数据要素政策从宏观到落地 关键词9:数据安全合规整体迈入新阶段 关键词10:数据分类分级在数据安全治理中率先落地 **文章详情:** [https://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=193543](https://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=193543) - 新数据库时代,不要只学 Oracle、MySQL **摘要:** 目前,中国已经进入“人人都是开发者,家家都是数据公司”的新数据库时代。 近日,CSDN 创始人&董事长、极客帮创投创始合伙人蒋涛发表了《新数据库时代》主题演讲分享。他指出,在开源吞噬世界的背景下,数据库也在大力拥抱开源。不同于传统关系型数据库,新型数据库已成为行业风口,急需大量相关人才汇入,青年才俊应当抓住机遇,迎接挑战。 ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20227/12/1657591711226738192.png) 在此背景下,中国想要构建自己的核心技术生态,数据库是其中关键。今天我将围绕三个部分分享《新数据库时代》: 第一是揭示「我们正在进入的数据大时代」现状; 第二是了解「开源正在吞噬数据库」的改变; 第三是把握「新型的数据库人才特别抢手」的趋势。 **文章详情:** [https://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=193539](https://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=193539) - IDC:2021H2中国关系型数据库软件市场规模同比增长34.9% **摘要:** 2022年6月21日,IDC发布的《2021年下半年中国关系型数据库软件市场跟踪报告》显示:2021下半年中国关系型数据库软件市场规模为15.8亿美元(105.6亿人民币),同比增长34.9%。其中,公有云关系型数据库规模8.7亿美元,同比增长48.7%;本地部署关系型数据库规模7.1亿美元,同比增长21.1%。 IDC预测, 到2026年,中国关系型数据库软件市场规模将达到95.5亿美元,未来5年市场年复合增长率(CAGR)为28.1%。 ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20227/12/1657591751242948496.png) IDC中国企业软件市场分析师王楠表示:在新兴数据库技术层面,中国本土数据库厂商与国际厂商的差距不大,部分领域还处于领先地位,产品性价比更有优势。在宏观层面,政策极大利好本土厂商,本土厂商的市场机会将会高于国际厂商。在数据库技术发展和宏观政策驱动的双重因素影响下,中国关系型数据库市场过去的格局正在被打破,变革即将到来。 **文章详情:** [https://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=193678](https://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=193678) - 可信隐私计算:破 解数据密态时代技术困局 **摘要:** 数据流通对于国家信息化进程、产业数字化转型是必不可缺的。以前,为了便利数据生产加工和导入导出,许多应用系统常常直接基于明文数据进行开发和流通。在这个过程中,数据流过的每一家机构都有可能会拷贝一份明文数据。随着传播路径的扩散,拥有这份数据的机构越来越多。任何一个机构出现数据滥用或者泄露,都会产生严重影响。可见,明文流通有着显著危害。 《中华人民共和国网络安全法》(简称《网络安全法》)、《中华人民共和国数据安全法》(简称《数据安全法》)、《中华人民共和国个人信息保护法》(简称《个人信息保护法》)须要确保所持有的数据安全,并且对数据的使用进行了严格的限制。在大部分场景下,除了匿名化之后的数据或者已经取得用户授权的数据,数据是不允许任意流通的。在这种情况下,密态流通无疑是最好的选择,能够更好地控制数据的使用和流通范围。 ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20227/12/1657591794513771019.png) (可信密态计算示例图) **文章详情:** [https://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=193755](https://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=193755) - 华为云GaussDB助力“2号人事部”打造高品质HR效率软件 **摘要:** 人才是社会和企业最重要的资产之一。为实现有效管理人才,企业需要一款灵活高效的HR效率软件。“2号人事部”是深圳市点米二号科技有限公司出品的中国第一款即租即用的HR效率软件,为10000家客户、1500万人提供员工管理、招聘管理、考勤打卡、薪酬计算、社保管理等服务,促进企业管理效率提升。 人才是企业的重要资产,高效管理人才是企业成功的重要因素。“2号人事部”全场景数字化平台极大提升了企业组织效率和员工满意度,让人才与企业价值实现共赢。华为云GaussDB数据库愿凭借技术力量,助力万千企业一同推动企业人力资源管理的创新升级,为HR带来工作效能提升和价值重塑。 ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20227/12/1657591835147694557.png) **文章详情:** [https://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=193672](https://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=193672) - 数据目录——企业数据资产的一个有序清单 **摘要:** 数据目录就是关于企业数据资产的一个有序清单。它可以使用元数据来帮助企业管理数据,帮助数据专业人员收集、组织、访问和充实元数据,从而为数据发现和治理提供支持。 ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20227/12/1657591865880306192.png) 与过去相比,想从如今前所未有的数据海洋中找到正确的数据更加困难。同时,关于数据的监管条例和法规(例如 GDPR)也比过去更多、更严格。在这一背景下,除了数据访问之外,数据治理也成为了一个严峻的挑战。您不仅要了解当前您所拥有数据的类型、哪些人在移动数据、数据的用途以及如何保护数据,还必须避免过多的数据层和封装,避免数据因太难使用而毫无用处。 **文章详情:** [https://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=193395](https://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=193395) - 数据湖治理:优势、挑战和入门 **摘要:** 成功的数据治理计划会利用政策、标准和流程来创建高质量数据,并确保在整个组织中正确利用这些数据。数据治理最初侧重于关系数据库和传统数据仓库中的结构化数据,但后来情况发生变化。如果你的企业拥有数据湖环境,并希望从中获得准确的分析结果,那么你还需要部署适当的数据湖治理,作为整体治理计划的一部分。 ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20227/12/1657591906002841309.png) 但数据湖对企业数据管理的所有领域(包括数据治理)带来各种挑战。下面我们将探讨一些主要的治理挑战,以及有效治理数据湖的好处。不过,首先让我们定义什么是数据湖:这是指一个拥有大量原始数据的数据平台,通常包括各种结构化、非结构化和半结构化数据类型。它通常建立在Hadoop、Spark和其他大数据技术之上。 **文章详情:** [https://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=193577](https://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=193577) *声明:文章源于第三方公开的信息,如果存在侵权或信息不实时,请及时联系处理。* 整理者:酷哥
  • [行业动态] 上千节点无中断升级,华为云FusionInsight是如何做到的?
    金融领域的反欺诈、精准营销等大量的业务场景对服务连续性要求高,7*24小时不能中断,为了保持业务的连续性和技术引领,一个超大规模、高效率、可持续发展的数据底座显得尤为重要,而不中断业务的滚动升级能力则成为最硬核的衡量指标,中国最佳零售银行,金融数据湖上千节点滚动升级,2万多个业务正常运行,这背后的奥秘究竟是什么?今天让我们深入了解一下……作为“中国最佳零售银行”,某股份制银行一直将客户体验放在首位。近年来,该行以轻型银行为战略目标,打造以数据作为关键战略资产的未来银行,通过引入华为云FusionInsight建设全行统一的金融数据湖,汇聚各渠道业务数据,实现全行数据资源共享,用于探索新的客户体验和商业模式。当前,该行金融数据湖规模达到千余节点,承载了行内上万应用,支撑反欺诈、智慧营销等重要业务场景,日均处理数万大数据作业。随着该行不断深入使用大数据技术,逐步支撑行内关键金融业务,对于整个数据湖平台的服务连续性要求也越来越高,一方面行内金融数据湖要紧跟技术潮流不断升级革新,一方面要求支撑行内外业务的数据湖能够7*24小时不中断服务。然而传统的方案需要断电重启,显然不能满足行内业务连续性保障的要求;同时在金融数据湖升级过程中,对于数据湖这种复杂系统来讲,传统升级方案如果碰到突发的故障,容易导致整个升级动作中断重来,为平稳升级带来极大地挑战。近期,该行采用FusionInsight MRS云原生数据湖滚动升级能力,实现行内大数据平台的成功滚动升级,升级过程中金融数据湖承载的行内2万+应用正常运行,实现两个“不中断”:业务不中断数据湖承载了成千上万的任务作业,在升级过程中,关键的数据分析服务要能够不间断地支撑上层业务,这就导致升级和使用存在着矛盾冲突;MRS具有循环滚动升级能力,一次升级少量节点,循环滚动,直至整个集群的所有节点升级到新版本;同时,为了降低升级对关键任务SLA的影响,MRS还提供滚动升级暂停能力,在任务高峰时段或关键任务执行时,可以保障关键任务正常平稳运行。分批次升级示意图进度不中断数据湖是一个复杂系统,由服务器、存储、网络、软件等组成,在升级时经常会碰到突发事件,如磁盘故障、网络拥塞问题。在大数据平台升级过程中,部署人员需要应对各种突发事件,如磁盘故障、网络拥塞等多种异常场景,客户要求不中断升级。MRS提供故障节点隔离能力,在故障发生时,可以跳过该节点的升级动作,让故障处理和集群升级有序进行。滚动升级不仅是一个升级动作,更是一个系统工程。该行携手华为云FusionInsight MRS云原生数据湖,从兼容性、可靠性、工具自动化、保障团队等多方面入手,注重细节,实现了行内大数据平台架构的平滑演进,升级过程行内用户无感知,保障上层业务平稳运行。MRS目前已通过中国信通院3万+大集群评测,还可以通过集群联邦扩展到10万+大集群。除此之外,还为大规模集群提供超级调度器Superior,资源调度效率是开源大数据的30倍+,能够让整个集群的资源利用率最高达到90%+。截止目前,华为云FusionInsight已先后帮助国有大行、股份制银行、城商农信行,运营商如广东移动、浙江移动等客户实现平滑升级,顺利完成累计60000多节点的无风险升级,让3000+政企客户技术永新,业务永远在线。在本次升级过程中,某股份制银行成功上线了最新版本的华为云FusionInsight MRS云原生数据湖,并在新集群上提供如HetuEngine、 ClickHouse、Hudi等新组件,为项目管理、反欺诈、BI报表等业务创新提供有力技术支撑。在整个升级期间,行内数万名数据分析师毫无感觉,同事模型平台、先机平台、反欺诈平台等关键业务应用平滑运行无中断,为进一步行内实现湖仓一体目标,深度使用FusionInsight奠定良好基础。 
  • [行业资讯] 物联网应用场景日趋多元化 预计今年产业规模逾2万亿元
      基于物联融合的汽车智能制造、智慧物联网体育公园、智慧矿山物联网应用示范……近日,工信部公布《2021年物联网示范项目名单》,179个项目入选,引发业界关注。从智慧城市到数字乡村,从智能交通到智慧文旅,物联网应用场景日趋多元化,渗透生产生活方方面面,进一步推动“万物互联”。  为农产品种植撑起“智慧伞”  在陕西宝鸡胜利现代农业开发有限公司,一块大屏幕展示着食用菌种植物联网频道。通过大棚中安装的太阳能驱动传感器,可一手掌握种植基地的温度、湿度、二氧化碳浓度等数据,随时通过电脑或手机端进行远程操作;产量分布子系统则能预测未来6个月全国各地不同种类食用菌的产量;切换至价格分布系统,不同地区同一种类食用菌销售价格就会呈现在眼前……  “物联网系统为食用菌种植撑起一把‘智慧伞’,不仅能实现田间农事操作方案智能化,还能帮助农户根据市场导向及时调整生产方向。”宝鸡胜利现代农业开发有限公司负责人介绍。  日常生活中,物联网应用场景比比皆是:便利店无需人工售货,用户扫码开门、自行选购,关门后系统便可自动识别所选商品,完成扣款结算;各类家居电器安装智能网联芯片,实现真正的“人机交互”,带来更好的使用体验;在医院,通过物联网技术进行远程手术、远程救治,大大提高救治效率;高速路口,摄像头自动识别车牌信息,根据路径进行收费,提高运行效率、缩短车辆等候时间……  记者了解到,物联网以感知技术和网络通信技术为主要手段,实现人、机、物的泛在连接,提供信息感知、信息传输、信息处理等服务的基础设施。随着经济社会数字化转型和智能升级步伐加快,物联网在生产生活各个领域展现出显著的行业赋能作用。  根据中国互联网协会发布的《中国互联网发展报告(2021)》,中国物联网产业规模已突破1.7万亿元,预计2022年物联网产业规模将超过2万亿元。预计2025年,中国移动物联网连接数将达到80.1亿。  专家认为,物联网已进入场景落地阶段。目前,物联网广泛应用于工程机械、航天制造等传统行业,搭载了物联网传感器的可穿戴设备、智能家居、智慧医疗、车联网、灾害预警系统等应用开始进入日常生活。  公交车变身城市“巡检员”  在浙江省温州市苍南县街头,行驶的公交车周身安装了多个摄像头。这些摄像头通过车载传感、微机站等软硬件系统设备,实时采集公交车内外部状况,并将这些信息在中国移动浙江公司打造的“5G+云网融合城市公交感知系统”上呈现。公交车变身为城市的“巡检员”。  据悉,“5G+云网融合城市公交感知系统”融合了物联网、5G通信、AI识别、大数据分析等前沿技术,将城市信息通过5G专网传输到云端部署大数据平台汇总、运算,实现对多范围、多领域城市事件的实时感知,形成全县域、全时空、全流程的城市智慧治理模式。  随着数字经济快速发展,新一代信息通信技术加快融合渗透。防疫期间,利用以物联网为代表的新一代信息技术,采用无接触体温检测、人脸识别、健康码等手段,极大减少了监管成本和安全风险。  在工信部公布的《2021年物联网示范项目名单》中,有42个项目在物联网领域取得了关键核心技术突破,或在物联网与5G、大数据、人工智能、区块链等方面进行了技术融合创新。其中,5G的融合应用成为一大亮点。例如,基于5G+AI的车路协同技术研究及验证、面向工业多场景5G适配智能网关研发与应用、基于5G+北斗的高精度定位关键技术研究与应用等。  中国工程院院士邬贺铨认为,5G时代开拓了物联网发展的新空间,推动物联网向宽带大连接智联网发展,并内置物联网安全机理,提升了物联网的应用价值。  产业发展迎来黄金期  2021年9月,工信部等八部门联合印发《物联网新型基础设施建设三年行动计划(2021—2023年)》,提出到2023年底,在国内主要城市初步建成物联网新型基础设施,推动10家物联网企业成长为产值过百亿元的龙头企业,物联网连接数突破20亿。专家指出,在政策支持、市场需求释放和资本助力等多重因素驱动下,中国物联网产业发展将迎来黄金期。  根据中国互联网协会的分析,中国物联网发展也面临碎片化问题、安全问题和高成本问题等。此外,物联网与5G、人工智能、云计算等新兴技术融合也面临挑战。工信部相关负责人还表示,中国物联网产业发展仍存在一些需要持续推进解决的问题,如关键核心技术有短板、产业生态不够健全、规模化应用不足、支撑体系难以满足产业发展需要等。  无锡数字经济研究院执行院长吴琦接受本报记者采访时说,推动物联网技术更好赋能生产生活,应着重做好三方面工作:一是建立健全物联网标准体系,并积极参与物联网国际标准制定,提升在物联网产业的话语权和影响力;二是构建物联网安全体系,完善物联网信息安全政策法规,加快物联网安全技术开发与防范技术研究;三是打造更多物联网典型应用场景,培育一批基于物联网的新业态新模式,推动物联网技术、产品、模式的整合落地。  “在新一代物联网和智慧城市版图中,以移动驾驶和分布式系统为代表的应用场景,对信息节点吞吐量和云端算力提出了更高要求,在5G基础上进行基础电信网络更新换代、加强新一代移动基础设施建设是必由之路。”中国人民大学国际货币研究所研究员陈佳分析,物联网海量应用场景研发离不开相关专业人才,应做好物联网人才储备工作。同时,技术监管部门要严防溢出风险,做好风险防范的长效机制建设。
  • [技术干货] 为什么大数据平台要回归SQL[转载]
    先说观点:因为还没找到更好的。接下来说原因,首先来看看大数据平台都在干什么。原因结构化数据计算仍是重中之重大数据平台主要是为了应对海量数据存储和分析的需求,海量数据存储的确不假,除了生产经营产生的结构化数据,还有大量音视频等非结构化数据,这部分数据很大,占用的空间也很多,有时大数据平台80%以上都存储着非结构化数据。不过,数据光存储还不行,只有利用起来才能产生价值,这就要进行分析了。大数据分析要分结构化和非机构化数据两部分讨论。结构化数据主要是企业生产经营过程中产生的业务数据,可以说是企业的核心,以往在没有大数据平台的时候企业主要或全部在使用的就是这部分数据。随着业务的不断积累,这部分数据也越来越大,传统数据库方案面临很大挑战,建设大数据平台自然要解决这部分核心数据分析问题。有了大数据平台,给大家的想象空间也大了起来,以往无法利用的日志、图片、音视频等非结构化数据也要产生价值,这就涉及到非结构化数据分析了。相对核心业务数据分析,非结构化数据分析看起来更像是锦上添花。即使如此,非结构化数据分析并不是孤立存在,也还会伴随大量结构化数据处理。采集非结构化数据的同时,常常会伴随着采集许多相关的结构化数据,比如音视频的制作人、制作时间、所属类别、时长、…;有些非结构化数据经过处理后也会转变成结构化数据,比如网页日志中拆解出访问人 IP、访问时刻、关键搜索词等。所谓的非结构化数据分析,经常实际上是针对这些伴生而出的结构化数据。结构化数据分析仍然是大数据平台的重中之重。而结构化数据处理技术就比较成熟了,比如我们常用的基于关系数据模型的关系数据库(SQL)。SQL仍是目前最广泛的结构化数据计算技术回归 SQL 却是当前大数据计算语法的一个发展倾向。在 Hadoop 体系中,早期的 PIG Latin 已经被淘汰,而 Hive 却一直坚挺;Spark 上也在更多地使用 Spark SQL,而 Scala 反而少很多(Scala易学难精,作为编译型语言不支持热部署也有很多不方便之处)。其它一些新的大数据计算体系一般也将 SQL 作为首选的计算语法,经过几年时间的混战,现在 SQL 又逐步拿回了主动权。这个现象,大概有这么两个原因:1. 实在没什么别的好用关系数据库过于普及,程序员对 SQL 相当熟悉,甚至思维习惯都是 SQL 式的。SQL 用来做一些常规查询也比较简单,虽然用于处理复杂的过程计算或有序运算并不方便,但其它那些替代技术也好不到哪里去,碰到 SQL 难写的运算一样要写和 UDF 相当的复杂代码,反正都是麻烦,还不如继续用 SQL。2. 大数据厂商的鼎力支持大数据的技术本质是高性能,而 SQL 是性能比拼的关键阵地。比性能要面对同样的运算才有意义,过于专门和复杂的运算涉及的影响因素太多,不容易评估出大数据平台本身的能力。而 SQL 有国际标准的 TPC 系列,所有用户都看得懂,这样就有明确的可比性,厂商也会把性能优化的重点放在 SQL 上。兼容SQL更利于移植大数据平台兼容 SQL 的好处是很明显的,SQL 的应用非常广泛,会 SQL 的程序员很多,如果继续采用 SQL 则可以避免许多学习成本。支持 SQL 的前端软件也很多,使用 SQL 的大数据平台很容易融入这个现成的生态圈中。大数据平台打算替代的传统数据库也是 SQL 语法的,这样兼容性会很好,移植成本相对较低。好了,我们说完大数据平台为什么会回归关系数据模型了。那么继续使用关系数据模型(SQL)会存在哪些问题呢?问题性能低继续使用 SQL的最大问题就是难以获得大数据计算最需要的高性能。SQL 中缺乏一些必要的数据类型和运算定义,这使得某些高性能算法无法描述,只能寄希望于计算引擎在工程上的优化。传统商业数据库经过几十年的发展,优化经验已经相当丰富,但即使这样仍有许多场景难以被优化,理论层面的问题确实很难在工程层面解决。而新兴的大数据平台在优化方面的经验还远远不如传统数据库,算法上不占优,就只能靠集群更多的机器获得性能提升。另外,SQL 描述过程的能力不太好,不擅长指定执行路径,而想获得高性能常常需要专门优化的执行路径,这又需要增加许多特殊的修饰符来人为干预,那还不如直接用过程性语法更为直接,这也会妨碍用 SQL 写出高性能的代码。SQL 发明之初的计算机硬件能力还比较差,要保证实用性,SQL 的设计必须适应当时的硬件条件,这就导致了 SQL 很难充分利用当代计算机的硬件能力,具体来说就是大内存、并行和集群。SQL 中的 JOIN 是按键值对应的,而大内存情况下其实可以直接用地址对应,不需要计算 HASH 值和比对,性能可以提高很多;SQL 的数据表无序,单表计算时还容易做到分段并行,多表关联运算时一般就只能事先做好固定分段,很难做到同步动态分段,这就难以根据机器的负载临时决定并行数量;对于集群运算也是这样,SQL 在理论上不区分维表和事实表,JOIN 运算简单地定义为笛卡尔积后过滤,要实现大表 JOIN 就会不可避免地产生占用大量网络资源的 HASH Shuffle 动作,在集群节点数太多时,网络传输造成的延迟会超过节点多带来的好处。举个具体的例子,我们想在 1 亿条数据中取出前 10 名,用 SQL 写出来是这样的:select top 10 x,y from T order by x desc这个语句中有个 order by,严格按它执行就会涉及大排序,而排序非常慢。其实我们可以想出一个不用大排序的算法,但用 SQL 却无法描述,只能指望数据库优化器了。对于这句 SQL 描述的简单情况,很多商用数据库确实都能优化,使用不必大排序的算法,性能通常很好。但情况复杂一些,比如在每个分组中取前 10 名,要用窗口函数和子查询把 SQL 写成这样:select * from     (select y,*,row_number() over (partition by y order by x desc) rn from T)where rn<=10这时候,数据库优化器就会犯晕了,猜不出这句 SQL 的目的,只能老老实实地执行排序的逻辑(这个语句中还是有 order by 的字样),结果性能陡降。开发效率低不仅跑的慢,开发效率也不高,尤其在复杂计算方面,SQL实现很繁琐。比如根据股票记录查询某只股票最长连续上涨天数,SQL(oracle)的写法如下:select code, max(ContinuousDays) - 1from (    select code, NoRisingDays, count(*) ContinuousDays    from (        select code,            sum(RisingFlag) over (partition by code order by day) NoRisingDays        from (            select code, day,                case when price>lag(price) over (partittion by code order by day)                    then 0 else 1 end RisingFlag            from stock  ) )     group by NoRisingDays )group by code用了很绕的方式实现,别说写出来,看懂都要半天。此外,SQL也很难实现过程计算。什么是过程性计算呢?就是一步写不出来,需要多次分步运算,特别是与数据次序相关的运算。我们举几个例子来看:一周内累计登录时长超过一小时的用户占比,但要除去登录时长小于 10 秒的误操作情况信用卡在最近三个月内最长连续消费的天数分布情况,考虑实施连续消费 10 天后积分三倍的促销活动一个月中有多少用户在 24 小时连续操作了查看商品后加入购物车并购买的的动作,有多少用户在中间步骤中放弃?……(为了便于理解,这些例子已经做了简化,实际情况的运算还要复杂很多)这类过程性运算,用 SQL 写出来的难度就很大,经常还要写 UDF 才能完成。如果SQL写都写不出来,那么SQL的使用效果将大打折扣。开发效率低导致性能低复杂SQL的执行效率往往也很低,这就又回到性能的问题了,实际上开发效率和计算性能是密切相关的,很多性能问题本质上是开发效率造成。复杂 SQL 的优化效果很差,在嵌套几层之后,数据库引擎也会晕掉,不知道如何优化。提高这类复杂运算的性能,指望计算平台的自动优化就靠不住了,根本手段还要靠写出高性能的算法。象过程式运算中还常常需要保存中间结果以复用,SQL 需要用临时表,多了 IO 操作就会影响性能,这都不是引擎优化能解决的事情,必须要去改写计算过程。所以,本质上,提高性能还是降低开发难度。软件无法提高硬件的性能,只能想办法设计复杂度更低的算法,而如果能够快速低成本地实现这些算法,那就可以达到提高性能的目标。如果语法体系难以甚至没办法描述高性能算法,必须迫使程序员采用复杂度较高的算法,那也就很难再提高性能了。优化 SQL 运算无助于降低它的开发难度,SQL 语法体系就是那样,无论怎样优化它的性能,开发难度并不会改变,很多高性能算法仍然实现不了,也就难以实质性地提高运算性能。编写 UDF 在许多场景时确实能提高性能,但一方面开发难度很大,另一方面这是程序员硬写的,也不能利用到 SQL 引擎的优化能力。而且经常并不能将完整运算都写成 UDF,只能使用计算平台提供的接口,仍然要在 SQL 框架使用它的数据类型,这样还是会限制高性能算法的实现。根本的解决方法,还是要让大数据平台真地有一些更好用的语法。解法使用开源集算器SPL就可以作为SQL很好的替代和延伸,作为大数据平台专用的计算语言,延续SQL优点的同时改善其缺点。SPL是一款专业的开源数据计算引擎,提供了独立的计算语法,整个体系不依赖关系数据模型,因此在很多方面都有长足突破,尤其在开发效率和计算性能方面。下面来盘点一下SPL都有哪些特性适用于当代大数据平台。强集成性首先是集成性,不管SPL多优秀,如果与大数据平台无法结合使用也是白费。要在大数据平台中使用SPL其实很方便,引入jar包就可以使用(本身也是开源的,想怎么用就怎么用)。SPL提供了标准JDBC驱动,可以直接执行SPL脚本,也可以调用SPL脚本文件。…Class.forName("com.esproc.jdbc.InternalDriver");Connection conn =DriverManager.getConnection("jdbc:esproc:local://");//PreparedStatement st = (PreparedStatement)conn.createStatement();;//直接执行SPL脚本//ResultSet rs = st.executeQuery("=100.new(~:baseNum,~*~:square2)");//调用SPL脚本文件CallableStatement st = conn.prepareCall("{call SplScript(?, ?)}");st.setObject(1, 3000);st.setObject(2, 5000);ResultSet result=st.execute();...高效开发敏捷语法在结构化数据计算方面,SPL提供了独立的计算语法和丰富的计算类库,同时支持过程计算使得复杂计算实现也很简单。前面举的计算股票最长连涨天数的例子,用SPL实现是这样的:A1    =db.query(“select * from stock order by day”)2    =A1.group@i(price<price[-1]).max(~.len())-1按交易日排好序,将连涨的记录分到一组,然后求最大值-1就是最长连续上涨天数了,完全按照自然思维实现,不用绕来绕去,比SQL简单不少。再比如根据用户登录记录列出每个用户最近一次登录间隔:A    1    =ulogin.groups(uid;top(2,-logtime))    最后2个登录记录2    =A1.new(uid,#2(1).logtime-#2(2).logtime:interval)    计算间隔支持分步的SPL语法完成过程计算很方便。SPL提供了丰富的计算类库,可以更进一步简化运算。直观易用开发环境同时,SPL还提供了简洁易用的开发环境,单步执行、设置断点,所见即所得的结果预览窗口…,开发效率也更高。多数据源支持SPL还提供了多样性数据源支持,多种数据源可以直接使用,相比大数据平台需要数据先“入库”才能计算,SPL的体系更加开放。SPL支持的部分数据源(仍在扩展中…)不仅如此,SPL还支持多种数据源混合计算,充分发挥各类数据源自身的优势,扩展大数据平台的开放性。同时,直接使用多种数据源开发实现上也更简单,进一步提升开发效率。热切换SPL是解释执行的,天然支持热切换,这对Java体系下的大数据平台是重大利好。基于SPL的大数据计算逻辑编写、修改和运维都不需要重启,实时生效,开发运维更加便捷。高计算性能前面我们说过,高性能与高开发效率本质上是一回事,基于SPL的简洁语法更容易写出高性能算法。同时,SPL还提供了众多高性能数据存储和高性能算法机制,SQL中很难实现的高性能算法及存储方案用SPL却可以轻松实现,而软件提高性能关键就在于算法和存储。例如前面说过的TopN运算,在SPL中TopN被理解为聚合运算,这样可以将高复杂度的排序转换成低复杂度的聚合运算,而且很还能扩展应用范围。A    1    =file(“data.ctx”).create().cursor()    2    =A1.groups(;top(10,amount))    金额在前 10 名的订单3    =A1.groups(area;top(10,amount))    每个地区金额在前 10 名的订单这里的语句中没有排序字样,也不会产生大排序的动作,在全集还是分组中计算TopN的语法基本一致,而且都会有较高的性能。以下是一些用SPL实现的高性能计算案例:开源 SPL 提速保险公司团保明细单查询 2000+ 倍开源 SPL 提升银行自助分析从 5 并发到 100 并发开源 SPL 提速银行用户画像客群交集计算 200+ 倍开源 SPL 优化银行预计算固定查询成实时灵活查询开源 SPL 将银行手机账户查询的预先关联变成实时关联开源 SPL 提速银行资金头寸报表 20+ 倍开源 SPL 提速银行贷款协议跑批 10+ 倍开源 SPL 优化保险公司跑批优从 2 小时到 17 分钟开源 SPL 提速银行 POS 机交易报表 30+ 倍开源 SPL 提速银行贷款跑批任务 150+ 倍开源 SPL 提速资产负债表 60 倍再多说两句,SPL没有基于关系数据模型,而是采用了一种创新的理论体系,在理论层面就进行了创新,篇幅原因这里不再过多提及,写着简单跑得又快的数据库语言 SPL 这里有更细致一些的介绍,感兴趣的小伙伴也可以自行搜索,下载。SPL资料SPL官网SPL下载SPL源代码————————————————版权声明:本文为CSDN博主「3分钟秒懂大数据」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。原文链接:https://blog.csdn.net/weixin_38201936/article/details/125159358
  • [业界动态] 契约锁电子签发电力、石化、工程现场作业票:规范开票、自动归档
    据国家应急管理局、市场监管总局安全管理要求,煤炭、石化、工程、港口、市政等组织开展“动土、动火、用电、断路、有限空间、吊装、盲板抽堵以及高空等”8项作业时,必须提前考核风险要素,由安全管理员、项目负责人审批、并签署“作业票”才能开展现场作业。现场作业:高效、规范线上“开票”,落实安全生产管理要求:2021年,国家应急管理部办公厅印发《“工业互联网+危化安全生产”试点建设方案》的通知,鼓励实现动火作业、受限空间作业、临时用电等特殊作业审批电子化、流程化。同时通过信息化手段对作业全程进行痕迹管理。(截图自国家应急管理部官网)契约锁电子签章支持集成“作业票管理系统”,为煤、化、工程、港口等组织现场作业的作业票签署提供“人员身份认证、电子签名、电子作业票模板以及数据存证”支持,打造安全、透明、便捷、可信、可追溯的电子作业票签署服务平台,实现开票申请-审批-签名-归档全程数字化。让组织的特殊作业安全审批工作从“制度约束”向“数字驱动”模式转变。(作业票管理系统&电子签章系统集成应用)纸质作业票vs电子作业票电子作业票实名认证签署,防止代签、虚开票电子模板一键生成,防止字迹潦草、起草不规范等麻烦除需面签单据外,手机端便捷审批、签名、提升作业审批效率票据签署数据自动存证,生成电子档案、长期存储、随时调阅....纸质作业票负责人线下手写填报、手动签名可能出现逾越流程直接签字、代签等风险,追责难一天签署量多达上百份,安全管理员每日工作量大,签署效率跟不上一年多达数千份作业票档案,存储压力大,时间长了容易丢失、损坏....落实作业票审批规则,高效、规范在线开票契约锁通过集成应用,将电子签章应用嵌入作业票审批流程,在实名认证基础上,为动土、动火、用电、空间作业、吊装、断路、盲板抽堵以及高空作业等8项特色作业审批开票,提供审批人、签署人身份认证,作业票电子模板、电子签名以及数据存证支撑,线上完成开票申请-审批-签署-归档,确保每一张现场作业票都通过审批、都有可信电子签名,有效减少开票中间环节,提升施工进场效率。(作业票线上审批-签署场景)01作业票审批意见自动签署、留痕根据各类组织特殊作业安全管理要求,不同作业票的审批、签署要求也不同,中间可能需要多人审批并签署审批意见,为了方便溯源,实现审批意见留痕、长期保存。契约锁电子签章可以为组织的作业票审批流程提供数字身份、电子签名支持,审批人可以直接在流程表单中手写签名、添加审批意见,签署结果自动在流程表单中呈现,随时调阅。02安全员、项目负责人手机端电子签名开票审批结束后,无论是否需要现场面签的作业票,系统都会及时下发签署消息给安全管理员以及项目负责人,打开手机人脸识别核验身份,即可手动添加电子签名,快速签发作业票。(作业票系统填写开票信息)(安全管理员、项目负责人手机短信电子签名开票)签署一结束,已签作业票文件自动回传作业票系统,现场作业人员在线即可查看、下载,及时开展现场施工。丰富功能应用确保开票安全-合规-便捷1、有效电子作业票模板,清晰、规范制作作业票一般情况下,各类特殊作业票都有固定内容格式,线下手写作业票流程繁琐,并且无法一一对应作业项目,时常出现填报缺项、漏项、字迹潦草、注意事项不清等情况。契约锁严格按照国家规定作业票格式,为用户提供电子模板应用,帮助固化作业票内容格式,开票时根据作业类型在线调取电子模板,自动抓取作业票系统内关键业务数据,生成标准电子作业票文件,数据精准、内容清晰,全面提升作业票制作效率和规范性。2、审批人、签字人身份及时核验,防冒签为了提升作业票内容可信度,契约锁可以为施工申请人、审批人以及签字人员提供数字身份认证及核验服务,审批、签字环节自动核验操作人员身份,确保签署人即安全管理员,防止冒签、代签,确保本人签署生效。3、签署数据自动记入系统日志,随时溯源作业票作为现场特殊作业的重要授权依据,其审批、签署过程中的数据都是重要的溯源依据,需要妥善保存,方便后期调阅核实。契约锁电子签章系统日志能够有效记录作业票审批、签署全过程数据,还原签署过程,同时提供权威公证处存证支持,随时提供出证,有效帮助组织开展溯源、调查,及时锁定责任人。4、自动生成安全作业电子档案,便捷检索查询作业票所有签署数据自动收集、汇总、生成作业票电子档案,帮助组织建立现场特殊作业安全管理材料档案库,随时检索查询,防止丢失、损坏。总结合法、有效、便捷的电子签章为8大特殊作业票数字化转型提供了重要的技术支撑,建立“制作-审批-签署-归档”全程数字化管理闭环,让原本2-3小时的审批签署工作缩短至5-7分钟,有效缓解作业票签署压力。借助可信、安全的签署环节,逐步规范8大作业票签署过程,让每一条开票申请必有回应,让每一次审批都能留痕,让每一次签署都真实可信,防止冒签、抵赖、伪造风险,助力煤、化、工程、港口等组织现场作业安全管理数字化转型。
  • [技术干货] 2022大数据十大关键词,重磅发布!
    ​6月28日,为进一步加速推动我国数据智能转型进程,推动“十四五”期间数据智能产业交流与合作,由中国信息通信研究院、中国通信标准化协会指导,中国通信标准化协会大数据技术标准推进委员会(CCSA TC601)主办的2022大数据产业峰会在京召开。在峰会主论坛上,中国信通院云大所所长何宝宏发布了《2022大数据十大关键词》。大数据十大关键词是基于我们长期对于产业的研究观察,以及与一线专家的研讨交流完成。如图所示,本年度十大关键词涉及数据从计算机语言到成为生产要素的全生命周期,包括【数据资源化】,即数据从计算机语言到成为可被人类识别的信息【数据治理】,即将散乱的、庞杂的数据进行归类、整理、管理【数据资产化】,即将数据与货币进行对应挂钩,【数据开发应用】,即加工数据使其为业务赋能,【数据流通】,即完成数据在部门与部门间、机构与机构间进行点对点的合规交换共享,【数据要素市场】,即促进全社会按照统一规范的制度、体系完成数据的合规流通利用,【数据安全】,即保障数据流转的全生命周期符合相关法律法规。关键词1:创新型数据库优化数据资源化过程数据库作为支撑数据存储、计算的核心技术产品,为了适应数据要素相关需求,正快速进行技术革新。一方面AI数据库、Serverless云原生数据库推动对于数据的价值挖掘从“阳春白雪”变为“下里巴人”。利用数据不再是金融、电信等数据密集型行业的特色,而是变成全社会、全行业的普适性行为。这导致数据的加工利用过程需要更加平民化、高效化。AI数据库具备自动运维、智能开发等能力,Serverless云原生数据库具备按量计费、弹性扩容等能力,均可实现数据加工利用过程的降本增效,正成为甲骨文、亚马逊、阿里、华为等巨头供应商的研发热点。另一方面防篡改数据库、全密态数据库支撑数据完成高效确权定价、便捷合规流通。防篡改数据库在高效存储计算基础上,提供数据防篡改和操作防篡改功能,从而支撑数据确权定价,而全密态数据库能够实现数据在加密状态下的高效存储和计算,从而支撑数据合规流通。两者均成为MIT等学术机构的研究热点,以及华为、阿里等供应商的研发热点。关键词2:图计算平台助力大规模图数据资源化图数据与传统行列式数据不同,它通过点、边模型,高效描述实体、属性、关系的数据模型,近年来被广泛用于企业智能营销风控等必要数据应用中。随着行业数据智能转型的深入,图数据在数据总量中的比例也正在快速上升。Gartner预计,到2025年图技术在数据和分析创新中的占比将从2021年的10%上升到80%。随着图数据规模的变大,开启了图数据的“大数据”时代,起源于80年代的传统关系型数据库,以及起源于2000年左右的专用图数据库已经无法支撑大规模图数据的高效存储与计算。图计算平台通过抽象计算层和集成层,在图数据库基础上增强了兼容性和大规模数据计算能力,实现了多种存储介质中图数据的高效汇聚以及多跳情况下的复杂计算能力。目前该领域政策扶持力度不断加大,开源体系发展迅猛,商用产品层出不穷,从而快速支撑了图数据这一重要要素类型的价值释放。关键词3:数据中台成为企业挖掘数据要素价值的核心引擎随着企业数字化转型的加深,数据相关系统、组织逐渐复杂、冗余,壁垒逐渐增多。为在组织或企业内部构建一套可复用的数据和分析能力,减少数据本身及相关技术架构的冗余,打通不同系统数据间的壁垒,数据中台应运而生。其理论体系从发展初期的“百家争鸣”,逐渐聚焦和明确,并在业内达成共识,即数据中台构建了数据资源与业务价值间的骨干网,是“企业数智化转型的核心引擎”。近年来,由于数字化转型政策的持续推动,数据中台发展迅猛,Gartner在成熟度曲线中将其标记为期望值最高。国内该领域供给侧迅速发展、供应商不断丰富,除概念提出者阿里巴巴外,华为、腾讯、网易、星环等大数据企业纷纷入场。应用侧相关落地案例迅速增多,中国移动、中国联通、工商银行、农业银行等大型央企、金融机构以及各地方政府纷纷立项招标,并形成自身实践案例。关键词4:DCMM贯标引领行业数据治理DCMM是我国数据管理领域的首个国家标准,为企业数据管理工作提供客观的评价依据,指导企业体系化构建数据管理框架、持续优化数据管理能力。经过近3年时间的发展,DCMM已得到广泛认可,贯标评估的工作成效正加速显现。在数据要素统一大市场的培育过程中,DCMM贯标评估可以提升各类市场主体的数据能力和数据活力,弥合地区间差异、拉齐行业间水平,扩大数据资源优质供给,从而提高数据要素流通效率,引导数据资源的高效积累和有序聚集。为持续推动企业数据管理能力提高,工信部印发“企业数据管理国家标准贯标工作方案”,全国各地配套产业补贴政策,推动重点地区、重点行业的贯标评估工作,预计到2025年,贯标评估企业超1万家,宣贯培训人员超15万人。关键词5:数据估值成为数据资产化切入点数据估值探索历程伴随着企业数字化转型的发展而发展。Gartner于2015年提出信息价值评价框架,从信息内在价值、信息商业价值、信息绩效价值、信息成本价值、信息市场价值、信息经济价值六大维度进行衡量。但是,这一框架多停留在理念层面,仅明确了主要影响因子,未提出具体的测算指标和方法。中国企业的全面数字化转型大致始于2015年,并在2017年后进入爆发期。企业在意识到数据价值的同时,投入了巨大的人力、物力和财力,因此,亟需一套估值指标清晰量化数据价值,评价数字化转型的成效。自2021年初起,光大银行、南方电网、浦发银行等企业陆续进行数据估值的研究与实践。但是我们也应认识到数据估值仍处于发展初期,估值目的、估值框架有待在具体场景中探索验证。我们在分析业界数据估值的成果后,认为可以将数据产品作为估值对象,而估值实际上是在衡量数据对于业务发展贡献的间接经济价值,以及将数据视为商品进行交易获得的直接经济收益,因此,数据估值是一项涵盖了数据管理、数据应用、数据交易、AI建模的综合性工作。下一步,我们诚邀大家与我们共同探索数据估值的方法,提高数据人员的价值感,为数字化转型指明方向。关键词6:DataOps定义数据开发应用新模式DataOps的概念最早在2014年由国外学者提出,随后业界逐步对其内涵进行补充。其在2018年正式被纳入Gartner的数据管理技术成熟度曲线当中,由此进入了国际的视野当中。2022年中国信通院正式牵头启动了DataOps的标准建设工作,以此为基础推动我国大数据产业的多元化发展。DataOps作为协助企业完成数智化转型的良药,供给侧和需求侧都在争相尝鲜。厂商中,诸如腾讯、阿里、亚信、海南数造等公司纷纷采纳DataOps的理念构建新一代数据研发工具平台。企业中的一些头部机构,例如工商银行、农业银行、中国移动等也在对DataOps进行实践,并取得了不小的成果。在标准化方面,今年信通院牵头联合各行业30余家单位开展标准制定工作。标准包括了7个模块25个环节,旨在推动我国数据文化扎实发展。关键词7:隐私计算一体机助力数据要素流通破局今年是隐私计算落地应用元年,多个场景应用加速落地,隐私计算一体机为应用开辟新路径。一是作为软硬结合一体的专用设备,利用硬件特性增强软件实现方案,其安全加固、性能加速和易用性增强的三大优势,使得隐私计算一体机从众多工程优化方案中脱颖而出,降低用户使用技术门槛和综合成本。二是一体机的技术实现方式不唯一,各家产品百花齐放。可基于可信硬件或加密卡,同时利用计算加速卡或网络加速卡,也可预装应用服务场景组件,组合方案多样化。多硬件多角度组合提升成为软硬结合发展趋势,并在金融政务医疗等场景崭露头角。三是产品形态多样,标准化需求迫切,国内外已有多个标准带头规范技术研发和应用。但也值得注意,并非仅有隐私计算一体机可以突破应用瓶颈,扩大应用规模,面对数据安全流通巨大的需求,我们仍要继续探索更多好用易用的落地方案。关键词8:数据要素政策从宏观到落地今年年初,十四五数字经济规划、要素市场化配置改革方案两份文件对数据要素的专门布局,让数据要素领域的探索再掀热潮,政策推进、产业实践都在不断深入、不断创新。一是顶层设计逐步细化,国家站在全国统一大市场的高度对数据要素发展做出安排,又针对深圳示范区的数据要素市场准入做出具体部署,数据基础制度体系建设也在加快推进。二是地方法规陆续出台,目前已有十九省市公布了相关数据条例,以促进数据利用和产业发展为基本定位,多以公共数据为抓手,结合地方实际和特色进一步激发市场主体活力。三是交易模式不断创新。各地数据交易所优化经营结构,贵阳制定交易规则、上海建设数商体系、深圳打造开源社区等探索让数据交易有了更实在的依托。但是我们离数据要素价值的充分释放还很远,数据权属、定价的共识还未建立,数据泄露、越权滥用等问题加剧人们的不信任感,如何建立有效的规则体系和监管机制,如何利用前沿技术破解难题,仍需政产学研用各界共同发力。关键词9:数据安全合规整体迈入新阶段随着2021年两法的颁布实施,各行各业的数据安全监管力度不断加强,合规工作也迈入新的阶段。首先,为了正确理解监管内容,有效落实监管要求,各行各业广泛掀起了政策法规的学习浪潮。其次,数据分类分级作为数据安全领域的重要工作,也是实现精细化安全管理的必要能力,同样成为这一轮学习热潮的重点关注对象。再次,为推动本行业企业数据安全的贯彻落实,部分行业主管单位启动监管报送工作。最后,在供应侧市场,部分企业开始着手开发合规管理工具,以协助需求方实现监管应对的自动化实现。关键词10:数据分类分级在数据安全治理中率先落地数据分类分级作为数据安全工作的基础内容,是数据安全精细化管理的必要前提,需要在数据安全治理工程中率先落地。凭借在方法论共识、行业细化、工具开发等方面呈现的发展态势,数据分类分级同样上榜十大关键词。首先,分类分级作为《数据安全法》明确提到的概念之一,引起地方、行业、企业的研究探讨,并逐渐形成从建立组织保障到落实对应级别数据安全管控策略的“七步走”方法论共识。其次,为指导企业分类分级工作的推进落实,各行业通过制定标准规范,明确分类分级工作的原则、方法、定义,进一步细化相关要求。最后,自动化分类分级工具或咨询服务在数据安全供方市场蓬勃发展。据中国信通院“可信数安”评估体系统计,2022年分类分级工具或服务的参评企业从2021年的4项增加至14项。以上就是2022大数据领域十个关键词。最后,我们对其进行归纳总结,发现他们涵盖政策、理念、安全、技术等支撑数据要素价值释放的方方面面,这些关键词所涉内容的快速发展,进一步印证了我国数据要素市场在快速发展过程中,已逐步构建起政策引领、理念先行、技术支撑、安全护航的健康发展格局。来源: 数仓宝贝库
  • [技术干货] OLAP:实现高效BI分析的必备技术
    文中部分内容参考了朱凯老师的《ClickHouse原理解析》。01、BI系统的演进(1)传统BI系统上个世纪,IT技术迅猛发展,主要特征就是线下工作的线上化。各种各样的IT系统(比如ERP、CRM等)在各个行业落地实施。相应的,我们把这类系统称之为联机事务处理(OLTP)系统。但是在企业的运行过程中,不只是有流程审批这些工作,还有很多报表统计、分析决策相关的诉求。但是早期的IT系统的数据各自独立,互相割裂,给分析带来了极大的困难。为了解决这一问题,人们提出了数据仓库的概念,把数据集中在一起,打通隔阂,并通过分层的方式处理数据(关于数据仓库,可以回顾《数据仓库基础知识》,数据仓库的核心思路维度建模,参考文章《维度建模》。)。逐步的,在数仓基础上提供数据分析的系统慢慢发展起来。直到90年代,BI系统的概念提出来,专门指代这类分析系统。相对于OLTP系统,这类BI系统被称为联机分析(OLAP)系统。传统BI系统解决了很多问题,但是存在的瓶颈也是很多的。比如数据的分析效率底下、研发迭代缓慢等,都对应用效果产生了负面影响。(2)现代BI系统最近几年,SaaS模式的兴起,为BI系统带来了新的发展机遇。例如我们熟知的GA、神策分析、友盟分析等,采取的服务模式都是SaaS化。很多中小型公司的BI系统不再依赖于数仓的搭建。而现代BI系统背后的OLAP技术也在不断发展。02、什么是OLAP下面我们详细聊聊OLAP。OLAP即联机分析,又可以称为多维分析,是关系型数据库之父Edgar Frank于1993年提出的概念。它指的是通过多种不同的维度审视数据,进行深层次分析。主要的操作包括下钻、上卷、切片、切块等。参考Excel的数据透视表的功能,大家就好理解这些操作了。数据透视表实现了对原始数据的各种聚合、分解、切片等操作,OLAP也是如此。可以把OLAP理解成对公司数据库建立一个大的透视表,通过这个透视表进行各种维度的分析,这就是OLAP。说白了,OLAP是用于我们进行分析的引擎。在很多公司的数据架构中,OLAP作为顶层分析应用层与数据存储层的中间处理层。其核心解决的是和数据分析相关的需求。常见的OLAP架构可以分为三类:(1)ROLAP第一种架构称为ROLAP(Relational OLAP),即关系型OLAP。顾名思义,是直接使用关系模型进行构建的。因此,多维分析的操作是可以直接转换成SQL进行查询的。这种架构对数据的实时处理能力要求很高。像ClickHouse、Impala、Presto都是典型的RLOAP代表。(2)MOLAP第二种架构称为MOLAP(Multidimensional OLAP),即多维型OLAP。MOLAP的出现是为了缓解ROLAP的性能问题。其核心思路是对数据预先聚合处理,以存储空间换查询时间的减少。典型的MOLAP包括Kylin、Druid等。容易想到,如果维度较多,需要存储的数据量级会有指数级地上涨。一张千万级别的数据表,可能膨胀到需要存储亿级别的体量。另外,由于需要进行预计算,MOLAP的数据会有一定的滞后性,不能实时进行数据分析。并且由于只保留了聚合后的结果数据,无法查询明细数据。(3)HOLAP第三类架构称为HOLAP(Hybrid OLAP),即混合架构OLAP。这种架构可以理解成ROLAP和MOLAP的集成。03、OLAP实现技术的演进前面我们也陆续介绍了OLAP相关的一些技术。下面我们简单聊聊OLAP技术的演进过程。(1)传统关系型数据库阶段第一个阶段称为传统的关系型数据库阶段。在这个阶段中,OLAP主要是以Oracle、MySQL等关系型数据库实现。在ROLAP架构下,直接使用这些数据库作为存储和计算的载体;在MOLAP架构下,则借助物化视图的形式实现数据立方体。该阶段中,无论是ROLAP还是MOLAP,当数据体量大、维度数目多的时候,都存在严重的性能问题,甚至存在根本查不出结果的情况。(2)大数据技术阶段第二个极端可以称为大数据阶段。在这个阶段,主要依赖Hive等大数据技术进行实现。以ROLAP为例,传统的关系型数据库被Hive和SparkSQL这类新型技术所取代。相比传统的数据库而言,面向海量数据的处理性能明显提升了很多。但是在提供实时的在线查询服务时,仍然需要几十秒甚至数分钟才能返回。(3)最新阶段最近几年,一款新的OLAP解决方案ClickHouse走进了大家的视野。其优越的查询计算性能让人惊叹。头条、阿里、腾讯等大厂也纷纷进行使用。ClickHouse是由来自俄罗斯的Yandex公司研发的(Yandex类似于中国的百度,是俄罗斯的本土搜索引擎,占据俄国47%的搜索市场),是一款开源软件。其他一些常见的OLAP技术方案对比如下,供参考。不同的技术,也都存在各自的优点和缺点。在目前阶段,没有哪种OLAP技术是万能的灵丹妙药,可以解决所有问题。大家在技术选型时,需要结合自己的业务数据特点,进行选择。来源:ITPUB
总条数:826 到第
上滑加载中