• [问题求助] 数据接收加密的,怎么解密
    数据接收加密的,怎么解密
  • [其他] 学习笔记(6)-使用DAS连接GaussDB(DWS)
    DAS数据管理服务(Data Admin Service,简称DAS),用来登录和操作云上数据库的Web服务,提供数据库开发、运维、智能诊断的一站式云上数据库管理平台,方便用户使用和运维华为云数据库。提供最好用的数据库客户端:无需安装本地客户端,所见即所得的可视化操作体验,提供数据和表结构的同步、在线编辑,SQL输入的智能提示等丰富的数据库开发功能。GaussDB(DWS)数据仓库服务GaussDB(DWS) 是一种基于华为云基础架构和平台的在线数据处理数据库,提供即开即用、可扩展且完全托管的分析型数据库服务。GaussDB(DWS)是基于华为融合数据仓库GaussDB产品的云原生服务 ,兼容标准ANSI SQL 99和SQL 2003,同时兼容PostgreSQL/Oracle数据库生态,为各行业PB级海量大数据分析提供有竞争力的解决方案。GaussDB(DWS) 基于Shared-nothing分布式架构,具备MPP (Massively Parallel Processing)大规模并行处理引擎,由众多拥有独立且互不共享的CPU、内存、存储等系统资源的逻辑节点组成。在这样的系统架构中,业务数据被分散存储在多个节点上,数据分析任务被推送到数据所在位置就近执行,并行地完成大规模的数据处理工作,实现对数据处理的快速响应。使用DAS连接GaussDB(DWS)1.等待DWS开通后,登录DWS控制台。在集群管理菜单下,点击集群右侧的“登录”按钮。2.输入用户名、密码进行登录。3.选择点击打开数据库4.打开SQL窗口5.执行sql。
  • [交流吐槽] 如何使用iMaster NAIE中的数据标注能力?
    一点击立即使用,就说我没有权限
  • [技术干货] HCS数据库产品服务交付部署 & 升级变更 & 最佳实践 & 应急汇总
        本帖整理汇总了HCS数据库产品服务各个引擎标准交付部署、升级变更方案、最佳实践、故障问题应急排查套路、以及常见非标操作鉴定标准及评审流程,后续会持续更新,以便使用。交付变更标准方案--HCS标准云底座说明:安装、升级、补丁、扩容标准方案文档请到华为support网站获取,不在本社区论坛发布;请严格按照support网站提供的标准方案操作。1.数据库服务安装交付部署checklisthttp://3ms.huawei.com/hi/group/3288655/wiki_7173493.html2.数据库服务升级前checklist+升级指导http://3ms.huawei.com/hi/group/3288655/wiki_6654416.html3.HCS数据库服务升级变更方案评审接口矩阵cid:link_14.非标方案评审流程:cid:link_2
  • [备案服务] 我要备案。
    我要备案。如何才能备案成功?
  • [问题求助] 自定义的函数,存储过程存在后台哪个目录?误删的数据怎么找回?
    1、自定义的函数和存储过程在后台哪个目录里存在?我先后台修改存储过程,自定义函数怎么操作?2、我记忆中好像在开发手册中提到,数据delete以后是把数据的一个标识删除了,数据其实还在表里,有没有什么方法可以找回?3、数据库导出的数据会默认省略整数位的0。知会省略0,例如0.11导出以后就变成 .1了,导入导致各种报错。求助各位大佬
  • [技术干货] 数据治理工具平台系列评测正式启动
    在工业和信息化部所发布的《“十四五”大数据产业规划》中明确,数据是新时代重要的生产要素,是国家基础性战略资源,也是推动经济转型发展的新动力。现今数据逐步受到各方的重视,数据即资产也成为了共识。而面对不断激增的数据,如何管理、如何使其发挥价值、给企业提供决策支撑是现阶段的关键。因此,中国信息通信研究院云计算与大数据研究所聚焦数据管理工具体系,推出了结构化数据管理与非机构化数据管理产品评测,包括数据管理平台、数据质量管理平台、数据标准管理平台、数据模型管理平台、元数据管理平台、主数据管理平台、数据资产目录管理平台、以及数据标注平台,集合数据采集、数据建模、数据标准化、数据质量管理、数据分析应用等多项能力,助力企业提升数据管理的效率与人员意识,辅助各部门人员协作,增强数据与数据应用方的契合程度,发挥数据的潜在价值。数据管理平台基础能力评测是数据治理评测体系里首个推出的标准,依据《YD/T 3760-2020大数据 数据管理平台技术要求与测试方法》行业标准开展评测工作,其中涵盖12个测试大项:数据源、数据质量、数据标准、模型管理、元数据、主数据、数据资产报告、数据共享服务管理、安全性等,共计80项测试用例。截止至2022年6月,已评测50家企业,覆盖了市场上主流的数据管理产品,同时也逐步发展成为甲方的选型标准,涉及金融、银行、医疗、能源、工业等行业。在2022年上半年,“可信大数据”产品评测也推出了首批数据质量管理平台、数据标准管理平台的首批评测工作,杭州数梦工场科技有限公司也成为了第一家通过数据质量与数据标准两项测评的企业。数据治理体系系列评测中国信通院云大所开展的“可信大数据”评测是国内首个大数据产品的评测体系,截止至2022年6月中国信通院已完成400余次测试累积完成近300款产品的测试工作,包括数据管理平台、数据挖掘平台、数据脱敏工具、数据库等,见证了国内大数据产品不断进步,逐渐丰富的过程,也成为了大数据产品发展的风向标。目前,数据治理系列工作评测项目正式启动,其中数据模型管理平台、主数据管理平台、元数据管理平台、数据资产目录管理平台、数据标注平台作为“可信大数据”产品能力评测体系的新项目,将于2022年12月的“数据资产管理大会”上为通过首批评测产品颁发证书,欢迎相关单位积极报名参与!来源:中国信通院-大数据技术标准推进委员会
  • [技术干货] 《2021年中国数据管理解决方案市场报告》——湖仓协同,赋能数智融合
    湖仓一体进一步取消了用户的选型困难,为用户提供的数据管理平台兼具数据仓库的结构和治理优点与数据湖的扩展性和为机器学习提供的便利性大数据(Big Data)在字面上的理解是海量数据,但这个角度是抽象的。在网络信息时代,大数据产生的客观意义并不在于其宏大的数据规模,而在于如何数据进行专业存储和处理,并从中挖掘和提取所需要的知识价值。技术突破通常来源于市场对产品的实质需求,互联网、云、AI的不断发展与大数据技术融合满足了商业需求。在大数据产业中,降低存储成本、提升计算速度、对数据进行多维度的分析加工、赋能企业利用数据价值,是大数据产业实现盈利的关键,也是大数据技术蓬勃发展的根源。大数据技术的内涵伴随着传统信息技术和数据应用的发展不断演进,而大数据技术体系的核心始终是面向海量数据的存储、计算、处理等基础技术。在大数据技术发展的60多年之间,数据应用经历了互联网、移动互联网蓬勃的发展与需求变革。数据库与数据仓库基于事务分析处理等传统优势依然是当前信息技术的中流砥柱,但也在日益增长的数据复杂度需求以及海量弹性的数据规模面前难以匹配。分布式架构的突破与云计算的兴起奠定了数据湖的概念,湖仓一体则进一步取消了用户的选型困难,为用户提供的数据管理平台兼具数据仓库的结构和治理优点与数据湖的扩展性和为机器学习提供的便利。数据仓库与数据湖作为两个单独的数据管理范式都具备成熟的技术积累,在长期实践中两者以湖+仓的混合架构方式共同存在:数据湖用作对原始数据的提取和处理,同时依赖数据仓库在数据管道的发布。在用户反馈中,湖+仓的混合架构存在着使Hadoop和MPP共存下的数据冗余、两个系统间ETL造成的低时效性、一致性保障及运维等方面的困难。在用户需求的驱动下,数据湖与数据仓库提供商在原本的范式之上向其限制的范围扩展,逐渐形成了“湖上建仓”与“从数仓向湖”的两种“湖仓一体”的成型路径。虽然在底层逻辑中,湖仓一体仍然是一个二元体系,但能够极大帮助用户在其原IT基础之上封装出与需求更紧密的大数据范式,或者直接挂载全托管服务的湖仓一体系统。数据仓库本身以及ETL的性能取决于通信、I/O能力和硬件性能,执行架构则决定了数据仓库的支撑能力数据库侧重OLTP,数据仓库侧重OLAP。数据仓库是传统的关系型数据库如SQL Server、Oracle等,经过严格的数据模型设计或参数调整就可以变成很好的数据仓库实体,而纯粹的数据仓库如Terradata、SybaseIQ若要用来适应OLTP系统则不合适。趋势中,OLAP与OLTP正在走向统一融合成HTAP,数据库对AP分析能力的加强将使数据库与数据仓库的界限将逐渐模糊。Hadoop架构(MapReduce模型)适合海量数据存储查询、批量数据ETL、非结构化数据分析;而MPP架构适合替代现有关系型数据结构下的大数据处理,进行多维度数据分析、数据集市。混搭架构中,MPP处理高质量的结构化数据,同时提供SQL及事务支持。而Hadoop实现半结构化、非结构化数据处理。通过这种混搭方式,自动满足结构化、半结构化、非结构化数据的高效处理的需求,解决了传统数据仓库在海量数据下加载慢、数据查询效率低、难以融合多种异构数据源进行分析的困难。这种打破数据仓库与数据仓库边界的方案已经成为了一种主流架构方式。但在湖仓一体进程中,有更多新兴的架构正在开发和验证,或有新一代的架构在未来将取代MPP-Hadoop架构成为更优的架构方案。数据湖为了实现实时数据处理开发出了多种架构方式,其中最具代表性的是Lambda、Kappa、IOTA架构数据湖从Lambda架构开始完成离线与实时计算的融合,Kappa架构统一了数据口径简化数据冗余。IOTA架构通过边缘下发和统一数据模型取消了ETL,进一步加速了数据湖效率。其他的数据湖架构还有偶数科技自研的Omega架构,由流数据处理系统和实时数仓组成。融合了Lambda架构和Kappa架构处理流数据的优势,增加了实时按需智能和离线按需智能数据处理的能力,以及高效处理可变更数据实时快照的能力。随着数据智能服务认知的流行,厂商如何将数据分析服务与机器学习服务无缝集成,为无AI算法背景的数据研发和分析师等用户提供更加智能易用的产品服务尤为关键数据库、数据仓库、数据湖以及湖仓一体等产品是数据基础设施,如何采用数据分析工具,并且驱动决策,才能转化出数据价值。人工智能和机器学习功能是赋予湖仓一体服务能力创新的重要功能。数据智能(Data Intelligence)即基于大数据,通过AI对海量数据进行处理、分析、挖掘,提取数据中的信息和知识,并通过建立模型寻求现有问题的解决方案以及实现预测等,帮助决策。过去,BI作为统计分析类计算是数据仓库的主要应用场景,预测类计算的AI分析是数据湖的主流应用。随着湖仓一体的成熟化,AI+BI双模式将成为大数据计算分析的重要负载形式。随着大数据技术的持续发展,离线处理与实时处理的融合、数据存储与数据分析的融合,大数据系统的性能瓶颈的突破提供了巨大的数据服务及应用的潜力。相应的,随着数据智能服务认知的流行,厂商如何将数据分析服务与机器学习服务无缝集成,为无AI算法背景的数据研发和分析师等用户提供更加智能易用的产品服务尤为关键,如:(1)通用性:可直接通过SQL进行机器学习模型推理;(2)易用性:提供简易工具实现业务利用已有数据实现机器学习模型训练;(3)透明化:可视化数据准备低代码进行数据清洗转换;(4)智能运维:AIOPS 能力应用在数据平台日常运维。机器学习平台与大数据平台深度融合,融合后的机器学习大数据平台的数据处理速度和自动化水平将提升一代。而要实现机器学习与大数据的融合,根据相关论文,需要满足以下要求:(1)隔离机制:人工智能与大数据之间不发生相互干扰的情况;(2)代码无缝对接:使大数据平台支持机器学习的原生代码;(3)融合框架:数据处理层、赋能层、应用层中,引入数据融合引擎,对数据处理层和赋能层进行深度融合;而要实现机器学习生产效率的提升,需要满足以下要求:(1)全生命周期平台化:覆盖从数据准备、模型构建、模型开发到模型生产的端对端能力;(2)预置机器学习算法和框架:使用户可以直接调用,而无需自行构建;(3)资源快速启动:底层资源即需即用,无需预置,使用统一的计算集群。全无服务器部署的湖仓一体架构是指数据存储、数据查询引擎、数据仓库、数据处理框架、数据目录产品均支持无服务器部署Serverless无服务器部署通过FaaS+BaaS提供服务,允许用户在不构建不运维一个复杂的基础设施的情况下进行开发,运行和管理应用程序。湖仓一体Serverless化后会具备两个优点:使用流程简化向用户提供Serverlesss部署的湖仓一体架构,使用户获得更易用的使用体验,全托管无运维的方式也帮助用户专注于业务本身,而非关心技术逻辑,符合云原生概念。成本灵活优化Serverless部署能够提供按需计费,不需要为等待付费,可以做到更高效的资源利用率。对于使用随时间变化大的企业是更具性价比的。无服务器部署已经成为了头部厂商在湖仓产品系列竞逐的产品特性,用以更好的支持用户需求:(1)亚马逊云通过具备Serverless能力的Redshift+EMR+MSK+Glue+Athena+Amazon Lake Formation实现Serverless全无服务器部署的湖仓一体;(2)华为云Stack+DLI Serverless+FusionInsight MRS+DWS实现Serverless化部署的大数据体系;(3)阿里云的DLA通过核心组件Lakehouse、Serverless Spark、Serverless SQL打造云原生+Serverless+数据库与大数据一体化架构Maxcompute;(4)其他Serverless湖仓产品还有Databricks Serverless SQL、Azure Synapse Analytics Serverless、移动云云原生Lakehouse等。数据管理解决方案厂商需要以用户体验为中心,从数据仓库、数据湖、湖仓方案、IaaS相关等维度持续深耕产品技术在市场用户对数据仓库要求更高的灵活性,并对数据湖要求更高的成长性的背景下,“湖仓一体”概念是业内厂商与用户对未来大数据架构的共同认知。纵然在概念层面具备显著的优势,湖仓一体在实际生产中依然面临由于技术或服务的不成熟而带来的众多问题。潜在用户出于对使用体验与稳定性的担忧、或对替换成熟稳定的原系统的投入产出价值不清晰,而保持谨慎观望。厂商需要以用户体验为中心,从多维度切入持续深耕产品技术。中国数据管理解决方案市场处于稳步增长阶段,竞争主体将根据其在创新能力及成长能力两个维度的表现划分梯队本报告分别通过市场增长指数与创新指数两大主要维度衡量业内优秀厂商竞争实力。增长指数衡量竞争主体在数据管理解决方案增长维度的竞争力,包括:数据存储、数据准备、机器学习分析支撑、湖仓一体整合、多维度多框架数据分析等创新技术或能力;而创新指数则衡量竞争主体在数据管理解决方案的竞争力,位置越靠右侧,数据管理解决方案的兼容性、查询&计算性能表现、灾备安全、服务支持、产业链生态、数据服务场景解决方案等市场增长能力及水平。沙利文联合头豹研究院根据增长指数和创新指数两大评估维度,通过数据存储、数据准备、数据分析支撑、数据分析、流程编排管理、兼容性、性能、灾备建设、服务支持、开源社区与产业链生态及数据服务场景解决方案十一项大指标,对中国数据管理解决方案市场竞争力多因素分层次评估。由“创新指数”和“增长指数” 综合评分,亚马逊云科技、华为云、阿里云、金山云、星环科技、浪潮云位列中国数据管理解决方案市场领导者梯队。亚马逊云科技:亚马逊云科技智能湖仓架构升级,通过Amazon Athena与Amazon Lake Formation打破数据孤岛,构建云中统一的数据治理底座,Amazon SageMaker机器学习全流程组件助力机器学习由实验转为实践,赋能业务人员探索业务敏捷创新。亚马逊云科技凭借专业深入的技术支持服务提供经历全球商业实践的产品和服务,为各行业客户提供各类数据服务场景的成熟解决方案。华为云:华为云FusionInsight MRS智能数据湖,MRS与AI开发平台ModelArts实现数智融合,通过HetuEngine一站式交互式SQL分析引擎实现湖仓协同,提供离线、实时、逻辑三湖一集市的数据架构支撑丰富的业务场景。华为云在大数据领域引领开源坚持开放,联合1000+行业应用生态合作伙伴共建覆盖金融、运营商、互联网、泛政等领域的落地场景解决方案。阿里云:阿里云Maxcompute适配多种数据湖仓案构建湖仓一体最佳实践,具备DB级元数据透视统一开发管理数据,与机器学习平台PAI无缝集成提供超大规模的机器学习处理能力。同时,Maxcompute与Hologres深度集成,为客户提供离线实时一体化的海量云数仓结构。结合开放开发建设和与伙伴生态产品的深度集成,为多行业用户的各种大数据场景提供多维的产品组合。金山云:金山云云原生数据引擎KCDE的统一元数据服务LMS统一湖仓的元数据层,支持构建实时湖、离线湖、分析湖的逻辑数据湖。大数据开发治理平台KDC与机器学习平台KingAI融合,基于统一的数据底座提供一站式数据挖掘服务。金山云以多元产品矩阵构建全域云原生能力,在金融、泛互联网、医疗、公共服务行业广泛覆盖大数据云平台应用解决方案。浪潮云:浪潮云大数据存储与分析IEMR提供多湖多仓关联计算能力,通过数据湖构建IDLF提供湖仓数据协同调用能力,与机器学习平台IMLP深度适配并提供200+预置模型和100+即开即用的行业模型调用能力。浪潮云IEMR具备高安全保障的灾备建设水平,IBP数据产品线可根据业务场景提供个性化产品交付形态,对电信、医疗、金融、政务等行业及其他大型国企提供丰富的场景解决方案和实施经验。星环科技:星环科技大数据基础平台TDH通过提供统一的SQL编译器Transwarp Quark和统一的分布式计算引擎Transwarp Nucleon等打造湖仓一体解决方案,突破传统Hadoop+MPP混合架构实现批流协同、多模融合的特性。星环科技在大数据各流程任务均提供组件化的技术服务和高度解耦的成熟产品,落地案例覆盖了金融、政务、交通、运营商、邮政、医疗、能源等行业。文章来源:弗若斯特沙利文 (如有侵权,请联系删除)
  • [技术干货] 数据湖治理:优势、挑战和入门
    成功的数据治理计划会利用政策、标准和流程来创建高质量数据,并确保在整个组织中正确利用这些数据。数据治理最初侧重于关系数据库和传统数据仓库中的结构化数据,但后来情况发生变化。如果你的企业拥有数据湖环境,并希望从中获得准确的分析结果,那么你还需要部署适当的数据湖治理,作为整体治理计划的一部分。 但数据湖对企业数据管理的所有领域(包括数据治理)带来各种挑战。下面我们将探讨一些主要的治理挑战,以及有效治理数据湖的好处。不过,首先让我们定义什么是数据湖:这是指一个拥有大量原始数据的数据平台,通常包括各种结构化、非结构化和半结构化数据类型。它通常建立在Hadoop、Spark和其他大数据技术之上。 虽然大多数数据仓库将数据存储在关系表中,但数据湖使用扁平架构。每个数据元素都被分配一个唯一标识符,并用一组元数据标签进行标记。因此,数据湖不像数据仓库那么结构化。数据通常以其原始格式保留,并根据特定分析用途的需要进行分类、整理和过滤,而不是在将其加载到数据湖中时。数据湖与数据沼泽 如果数据湖没有得到很好的管理和治理,它可能会变成沼泽而不是湖泊。数据在没有适当监督和记录的情况下被转储到平台中,使数据管理和治理团队难以跟踪数据湖中的内容。这可能会导致数据质量、一致性、可靠性和可访问性方面出现问题。 因此,数据科学家、数据工程师和其他最终用户可能无法为分析应用程序找到相关数据。更糟糕的是,数据沼泽可能会导致分析错误,并最终导致糟糕的业务决策。数据安全和隐私保护可能无法正确应用,从而使企业的数据资产及其商业声誉面临风险。为了避免这种沼泽地情况,企业必须管理数据湖环境。数据湖治理的好处 有效的数据治理使企业能够提高数据质量,并最大限度地利用数据进行业务决策,这可以带来运营改进、更强大的业务战略和更好的财务绩效。这个道理同样适用于治理数据湖,就像它与其他类型的系统一样。数据湖治理提供的具体好处包括: 增加对相关数据的访问以进行高级分析。在管理良好的数据湖中,数据科学家和分析团队的其他成员更容易找到机器学习、预测分析和其他数据科学应用所需的数据。 为分析用途准备数据所花费的时间更少。虽然数据湖中的数据通常以原始形式保留,知道特定应用程序需要它,但在受监管的环境中可以缩短数据准备过程。例如,前期数据清理减少以后修复数据错误和其他问题的时间。 降低IT和数据管理成本。通过防止数据湖失控,可以减少所需的数据处理和存储资源。通过提高数据准确性、整齐度和一致性,还可以降低总体数据管理需求。 提高敏感数据的安全性和监管合规下。数据湖的常见用例是帮助营销和销售。因此,他们通常包含有关客户的敏感信心。数据湖的强大治理有助于帮助此类数据得到适当保护,并且不会被滥用。数据湖治理挑战 数据治理的配套数据管理学科包括数据质量、元数据管理和数据安全,所有这些因素都会影响数据湖治理及其挑战。以下是数据湖部署中遇到的五个常见数据治理挑战。 1. 识别和维护正确的数据源。在很多数据湖实施中,源元数据没有被捕获或根本不可用,这使得数据湖内容的有效性值得怀疑。例如,记录系统或数据集的业务所有者没有被列出,或者明显冗余数据可能会给数据分析师带来问题。至少,应记录数据湖中所有数据的源元数据,并提供给用户以深入了解其来源。 2. 元数据管理问题。元数据为数据集的内容提供背景信息,使数据在应用程序中易于理解和使用,元数据是重要组成部分。但是很多数据湖部署没有将正确的数据定义应用于收集的数据。此外,由于原始数据通常加载到数据湖中,很多企业没有部署步骤来验证数据或应用组织数据标准。由于缺乏适当的元数据管理,数据湖中的数据对分析没什么用处。 3. 数据治理和数据质量缺乏协调。不协调数据湖治理和数据质量工作可能会导致低质量数据进入数据湖。当数据用于分析和推动业务决策时,这可能会导致结果不准确,从而导致对数据湖的信心丧失以及整个组织对数据的普遍不信任。有效的数据湖实施需要数据质量分析师和工程师与数据治理团队和业务数据管理员密切合作,以应用数据质量策略、分析数据并采取必要措施来提高其质量。 4. 数据治理和数据安全缺乏协调。在这种情况下,未在治理过程中正确应用的数据安全标准和策略,可能会导致访问受隐私法规保护的个人数据和其他类型的敏感数据时出现问题。尽管数据湖旨在成为相当开放的数据源,但仍需要安全和访问控制措施,并且数据治理和数据安全团队应共同努力处理数据湖设计和加载过程以及持续的数据治理工作。 5. 使用相同数据湖的业务部门之间的冲突。不同部门可能对相似数据有不同的业务规则,这可能导致无法协调数据差异以进行准确分析。拥有一个强大的数据治理计划,具有数据策略、标准、程序和定义的企业视图,包括企业业务术语表,可以减少多个业务部门使用一个数据湖时出现的问题。如果企业有多个数据湖,则每个数据湖都应包含在数据湖治理流程中,并为其分配业务数据管理员。如何开始管理数据湖 与其他类型系统中的数据治理一样,数据湖治理的常见初始步骤包括: 记录管理数据湖的业务案例,包括数据质量指标和其他衡量管理工作收益的方法。 寻找高管或业务发起人,以帮助为治理工作获得批准和资金支持。 如果你还没有适当的数据治理架构,请创建一个架构,其中包括治理团队、数据管理严以及数据治理委员会-由业务主管和其他相关数据所有者组成。 与治理委员会合作,为数据湖环境制定数据标准和治理政策。另一个好的初始步骤是构建数据目录,以帮助最终用户定位和理解存储在数据湖中的数据。或者,如果你已经拥有其他数据资产的目录,则可以将其扩展为包括数据湖。数据目录捕获元数据并创建可用数据的清单,用户可以搜索以找到他们需要的数据。你还可以在目录中嵌入有关你组织的数据治理策略的信息,以及强制执行规则和限制的机制。 总之,通过在设计、加载和维护数据环境中涵盖强大的数据治理以及元数据管理、数据质量和数据安全流程,可以显着提高数据湖的价值。经验丰富的专业人员在所有这些领域的积极参与也至关重要。否则,你的数据湖可能确实会变成更多的数据沼泽。来源:TechTarget中国
  • [技术干货] 数据目录——企业数据资产的一个有序清单
    简而言之,数据目录就是关于企业数据资产的一个有序清单。它可以使用元数据来帮助企业管理数据,帮助数据专业人员收集、组织、访问和充实元数据,从而为数据发现和治理提供支持。—  01  — 数据目录的定义和类比在上文我们简单介绍数据目录的定义,也就是使用元数据来帮助企业管理数据。接下来,我们使用图书馆作类比,带您详细了解数据目录。当您前往图书馆查找某一图书时,您可以使用图书目录来查找该图书是否存在,了解它的版本、位置以及相关描述。您可以使用所有这些信息来决定是否真的需要这本书,了解如何找到它。当今的许多对象存储、数据库和数据仓库就相当于一座座图书馆。我们再回到图书馆和图书目录。现在,我们对图书目录进行扩展,涵盖整个国家的所有图书馆。想象一下,这样您就可以在一个界面中查找整个国家中储藏了您所需图书的所有图书馆,查找关于您所需的每一本图书的所有详细信息。企业数据目录之于数据,正如图书目录之于图书。它可以为您提供一个整体视图,提供关于您所有数据的深度可见性,而不仅仅是一次只查看某一项数据。您为什么需要这样一个视图呢?—  02  — 数据目录可以解决哪些问题?与过去相比,想从如今前所未有的数据海洋中找到正确的数据更加困难。同时,关于数据的监管条例和法规(例如 GDPR)也比过去更多、更严格。在这一背景下,除了数据访问之外,数据治理也成为了一个严峻的挑战。您不仅要了解当前您所拥有数据的类型、哪些人在移动数据、数据的用途以及如何保护数据,还必须避免过多的数据层和封装,避免数据因太难使用而毫无用处。遗憾的是,很多企业和用户在查找和访问数据上面临着很多问题,包括: 需耗费大量时间和精力查找和访问数据数据湖变成了数据沼泽无通用业务词汇难以理解“黑暗数据”的结构和类别难以评估数据来源、质量和可靠性无法捕获部落知识或丢失的知识难以重用知识和数据资产需手动和临时进行数据准备 —  03  — 哪些用户应使用数据目录?数据工程师、数据科学家、数据管理员和首席数据官等用户无不受到以上数据管理问题的困扰,无不希望能够轻松访问可靠的数据。他们面临的一些常见的挑战包括: 数据工程师想知道任意更改将对整个系统产生哪些影响,他们可能会问:我们 CRM 应用中的模式变更将产生哪些影响?Peoplesoft 和 HCM 数据结构有何不同? 数据科学家希望能够轻松访问数据并进一步了解数据质量,他们想了解以下信息:从何处可以找到和查看一些地理位置数据?如何轻松访问数据湖中的数据? 数据管理员负责管理数据流程,关注概念、利益相关者间协议以及数据生命周期管理。他们希望了解:我们是否真的在改善运营数据质量?我们是否为重要的关键数据元素定义了标准?首席数据官关心哪些人在组织中做了哪些事,一般不使用数据目录。但是,他们仍然希望了解:哪些人可以访问客户的个人信息?我们是否为所有数据定义了保留策略?有了数据目录,这些问题就能迎刃而解。 —  04  — 数据目录使用场景 在过去几年中,随着需要管理和访问的数据的数量日益增长,数据目录这一概念开始流行起来。在这一切的背后,是云、大数据分析、人工智能和机器学习正逐渐改变人们查看、管理和使用数据的方式 — 不仅要管理数据,还要访问和充分利用数据。使用数据目录,您可以更好地使用数据,获得以下优势:节省成本提高运营效率增强竞争优势改善客户体验减少欺诈,降低风险等等这些只是数据目录的一部分使用场景。实际上,数据目录的使用方式多种多样。从根本上说,它的宗旨就是提供更广泛的数据可见性和更深入的数据访问支持。 1.自助分析 许多用户难以找到正确的数据,同时,除了查找数据外,他们还难以判断数据是否有用。例如,您可能会发现一个名为 customer_info.csv 的文件,而又恰好需要一个关于客户的文件。但这并不意味着它就是您需要的,它可能只是 50 个类似文件中的一个。同时,该文件可能包含许多字段,您可能并不了解所有这些数据元素代表什么。对此,您需要通过一种更简单的方法来查看数据的业务上下文,例如它是否是来自正确的数据存储的托管资源以及它与其他数据工件之间的关系。 数据发现还包括通过各种方式来理解数据的形态和特征,例如简单的值分布和统计信息,或者重要且复杂的个人身份信息 (PII) 或个人健康信息 (PHI)。2.审计、合规和变更管理随着关于数据的政府监管法规数量不断增长,企业经常需要证明数据的来源,例如特定数据工件的来源,或在实现最终目标之前进行了哪些数据转换;在查看表格、报告或文件时,数据用户通常也希望理解数据的具体来源以及数据通过各种方式在整个组织中的移动过程。同时,对于变更管理来说,一项重要任务就是查看数据管道中某部分的变更将如何影响系统的其他部分。这就是为什么客户希望详细了解数据沿袭的原因。 3.使用业务术语表增强数据治理 如今大多数企业都建立了一个所有人都认可的术语表,就业务概念达成了一致。通常,业务术语表记录在 Excel 工作簿中。其实,数据目录比 Excel 工作簿更适合存储和管理这一重要业务信息。 此外,数据目录还支持在业务术语之间建立链接,从而创建分类;可以记录业务术语与实物资产(例如表和列)之间的关系;可以帮助用户理解哪些业务概念与哪些技术工件相关;可以帮助用户按业务概念线对数据资产分类,随后直接使用业务概念(而不是技术名称)来进行数据搜索和发现。数据目录让用户可以看到与数据相关的所有内容,增强对所查看内容的信任度,为数据治理奠定一个绝佳的起点。 —  05  — 如何充分利用数据目录中的数据?许多人可能不熟悉元数据,我们有必要先介绍一些简单的概念。元数据是什么?元数据分为 3 类:技术元数据:模式、表、列、文件名、报告名 — 源系统中记录的所有信息业务元数据:通常指用户具备的关于组织资产的业务知识,包括业务描述、备注、注释、分类、适用性、评级等等。操作元数据:这一对象的刷新时间?它由哪一个 ETL 作业创建?表格被访问次数有多少?具体有哪些?在过去几年里,这些宝贵的元数据的使用方式发生了一次细微的变革。曾经,元数据仅用于审计、来历追溯和报告。如今,无服务器处理、图形数据库等技术创新,尤其是全新、更加便捷的 AI 和机器学习技术正在突破元数据的界限,带来新的可能。在今天,元数据可增强数据管理。从自助数据准备到角色和数据内容库访问控制,自动化数据打通,异常监视和警报,自动化资源供应和扩展等等,元数据可以全面增强所有这些功能。数据目录可以使用元数据帮助您实现比数据管理更强大的功能。—  06  — 数据目录应当具备哪些功能? 一个优秀的数据目录应当具备以下功能:①数据搜索和发现:数据目录应当具备灵活的搜索和过滤选项,从而赋能用户快速找到相关数据集,以实施数据科学、分析或数据工程;按照数据资产的技术层级来浏览元数据。此外,如支持用户输入技术信息、自定义标签或业务术语,数据目录可以进一步改善搜索功能。②从各种数据源收集元数据:请确保您的数据目录可以从各种互联数据资产中收集技术元数据,包括对象存储、自治驾驶数据库、本地部署系统等等。③元数据管理:数据目录应支持主题专家通过企业业务术语表、标签、关联、用户自定义注释、分类、评级等形式来贡献业务知识。④自动化和数据智能:对于大规模数据,人工智能和机器学习通常必不可少。因此,数据目录应利用 AI 和机器学习技术来处理所收集的元数据,让所有可以自动化的手动任务都实现自动化。此外,人工智能和机器学习还可以切实增强数据功能,例如为数据目录用户以及现代化数据平台上其他服务的用户提供数据建议。⑤企业级功能:您需要利用强大的企业级功能来正确使用您至关重要的数据资产,例如身份与访问管理功能以及基于 REST API 的重要功能。同时,这还意味着客户和合作伙伴可以贡献元数据(例如自定义收集器),通过 REST 公开其应用中的数据目录功能。除此之外,您的数据目录还应当成为事实上的系统目录,从而为所有持久层(例如对象存储、Hadoop、数据库和数据仓库)以及跨所有数据存储运行的查询服务提供抽象。正是因为如此,数据目录已不再仅仅是锦上添花,而是成为了一项必不可少的工具。来源:https://www.oracle.com/cn/big-data/data-catalog/what-is-a-data-catalog/
  • [技术干货] 数据架构建设方法及案例
    数据架构的本质是数据模型和数据流(或叫数据分布),《华为数据之道》将数据架构分为数据资产目录、数据标准、数据模型及数据分布,DAMA将数据架构分为数据模型和数据流设计,差不多就是这个意思。但数据架构到底如何构建?有没有现成的案例可以参考呢?今天就结合企业管理信息域MSS具体案例跟大家讲一讲数据架构建的建设方法论,主要分为五个步骤:架构现状分析、数据实体梳理、数据主题域划分、数据概念模型及数据分布规划。1、架构现状分析每个企业面临的数据架构问题都是不一样的,这里给出某企业管理信息域(MSS)面临的信息架构挑战:MSS域数据缺乏统一的数据分布规划,数据认责不明确,各个部门只负责自己业务范围内的数据管理,对于跨部门,跨系统的数据管理职责没有明确定义。MSS域数据分散在众多小系统中,每个系统都在局部进行数据定义,数据分类,数据主题域划分,数据模型维护,缺乏统一的、全局视角的数据视图,导致多个系统间数据不一致,难以支撑跨系统、跨部门的数据分析。2、数据实体梳理根据应用功能架构,列出核心数据实体,描述核心实体的主要信息内容,根据应用框架,考察数据实体完整性,寻找差异点,弥补空白点。第一步:依据应用蓝图,从功能模块中提炼核心数据实体,同时可参考业界最佳实践,对缺失数据实体做有效补充,如下图所示,如果企业应用蓝图不全面,那这一步的梳理工作就比较艰难。第二步:依据应用蓝图所划分的领域,对核心数据实体做初步归并,识别MSS域核心实体类别,如下图所示:3、数据主题域划分参考行业最佳实践,结合企业实际情况,划分MSS域数据主题域,如下图所示:下图是针对采购与供应商主题域的详细说明:4、数据概念模型数据概念模型描述了数据实体及其关系,通过数据概念模型能够体现企业运营和管理过程中涉及的所有业务概念和逻辑规则,下图是概念模型的示例:下图是采购与供应商主题域概念模型:5、数据分布规划描述企业数据模型在企业IT系统如何分布,通过了解数据分布可以清楚定义企业数据在IT系统中是如何产生和使用。第一步:明确数据主题域所归属的系统第二步:明确CRUD(CRUD 是建立 (Create)、读取 (Read)、更新 (Update)及删除(Delete)这四项操作的缩写),即系统中的核心数据由哪些系统产生,哪些系统有权利去读取这些数据,这些数据的更新权和删除权又属于哪些系统,通过数据CRUD规划,确保数据的安全以及在数据不一致时很容易确定以哪个系统的数据为准。下图示例了采购与供应商主题域CRUD规划:通过以上五步,数据架构的设计就基本完成了,至于逻辑模型、物理模型那就是操作层面的事情了。来源:ITPUB
  • [技术干货] 【论文分享】基于区块链与边缘计算的物联网数据管理
    基于区块链与边缘计算的物联网数据管理程冠杰, 黄诤杰, 邓水光浙江大学计算机科学与技术学院,浙江 杭州310007摘要智能设备的普及带动了物联网技术的应用和发展,而随之产生的海量物联网数据给传统集中式数据管理带来诸多挑战,如性能、隐私与安全的挑战。因此,提出了一种基于区块链与边缘计算的物联网数据管理架构来支持分布式的物联网数据管理,可以为物联网数据提供分布式存储和访问控制。同时设计了一种内置加密方案来保护数据的安全和隐私,并保障数据的所有权。通过引入边缘计算,解决了区块链系统的可扩展性瓶颈问题。给出了基于该架构的数据存储和数据访问流程,并详细说明了基于智能合约技术的系统实现算法。实验结果表明,与传统基于云的数据管理系统相比,基于该架构实现的物联网数据管理系统的性能更好。关键词: 物联网 ; 区块链 ; 边缘计算 ; 数据管理1 引言物联网(IoT,Internet of things)是新一代信息技术的重要组成部分,也是信息化发展的重要标志[1]。通过连接智能设备,IoT 技术使得异构实体之间更容易收集、流通、处理和共享数据。目前,大多数IoT 系统使用云服务提供存储和计算支持[2],但是IoT 海量、异构的数据特征以及多维、实时的服务请求等对基于云的数据管理架构产生了很大挑战[3],极大地限制了IoT应用的发展。对基于云的数据管理架构产生的挑战具体包括如下3个方面。1) 身份认证和访问控制设备和用户的身份验证是IoT系统的第一层保障[4]。但是现有的身份验证机制一般完全依赖于第三方(如证书颁发机构),该机制缺乏可信性和稳定性[5]。此外,即使用户已通过认证,也无法排除其在进入系统后故意执行恶意行为的可能,如窃取数据和攻击网络。因此,需要制定高效的访问控制机制以实现对IoT用户的访问授权。2) 数据安全与隐私数据安全[6]和隐私保护[7]是 IoT 技术发展的核心问题。集中式的IoT数据管理架构容易受到各种网络攻击,如单点攻击和分布式拒绝服务攻击[8],导致数据始终处于不安全的状态。因此,必须确保用户获取的 IoT 数据与数据源采集的数据完全一致,即未被篡改或丢失。另一方面,集中式的存储架构通常由中心化组织支配,使得生产者无法掌控数据的所有权。用户习惯用个人的数字资产来换取中心化组织提供的免费信息和服务,但是却忽略了由第三方掌控数据带来的安全和隐私威胁。以电商巨头阿里巴巴网络技术有限公司和北京京东世纪贸易有限公司为例,从“你可能还喜欢”的商品推荐到蚂蚁金服、京东白条的信贷评估模型,均利用了用户的购买记录数据进行筛选。为了更好地提取用户特征,数据管理者可以在用户不知情的情况下复制无数备份并将数据存储在组织内部的各个数据中心,若一个数据中心遭受攻击就会导致所有数据被泄露。因此,应该由数据生产者掌控数据的所有权,从而保障数据的安全和隐私。3) 数据存储与处理性能当前的IoT数据存储系统通常基于中心化架构构建,如由一个云服务提供商同时管理多个IoT应用[9]。IoT 从终端设备收集数据,然后发送到云服务器进行存储和进一步处理。但是这种基于云的中心化数据存储和处理模型无法适应IoT应用的扩展速度以及IoT场景的多样化需求[10]。面对大规模IoT应用,中心化架构将面临网络负载过重和网络传输时延不可预测等挑战,因此,海量异构IoT数据的处理性能无法得到保障。综上所述,当前的IoT应用迫切需要一种新型的数据管理架构,从而能提供一种访问控制机制并确保IoT数据的安全和隐私,同时实现高效的数据存储和处理。学术界关于IoT数据管理问题的研究有很多,文献[11]针对 IoT 数据访问控制提出了一种基于身份的IoT认证机制,在该机制下,每个设备都有一个虚拟的网际协议第6版(IPv6,Internet protocol version 6)地址,在设备参与网络时作为身份证书。文献[12]设计了一种系统能够自动识别连接到IoT网络的设备类型,通过约束易受攻击设备之间的通信来尽量降低系统风险。文献[13]针对IoT数据隐私保护提出了一种基于生成源的数据分类机制,并创建了用户和访问控制列表,可有效防止IoT数据泄露。尽管上述工作已经为IoT数据管理提供了很多有效的解决方案,但基于云的本质并未改变,因此,仍面临中心化数据管理机制下的各种挑战和隐患。本文考虑使用区块链技术建立分布式的信任机制,为IoT数据管理提供了一种新的解决思路。作为比特币的核心技术[14],区块链的研究与应用呈现爆发式增长趋势。区块链本质上是一个分布式数据账本,区块链网络的每个参与者通过分布式共识算法维持存储数据的一致性,而不需要中心化机构的信用证书。区块链中记录的数据是不可篡改且可追溯的,只要系统中的诚实节点比所有攻击者节点拥有更多的算力,那么系统就是安全可靠的。此外,系统内置的数字签名技术和各种加密算法保障了链上数据的隐私和安全。因此,区块链技术为IoT 数据管理提供了一种高效的解决方案。但是,区块链系统的整体性能受单个节点的性能上限的限制,导致存储和计算能力存在瓶颈,无法满足大规模 IoT 数据的可扩展性需求。边缘计算架构在移动网络边缘提供了充足的存储和计算能力,并且具备分布式、低时延和高带宽的特性[15]。通过引入边缘计算,可以很好地解决区块链的可扩展性瓶颈问题。此外,边缘计算可以满足 IoT 数据实时处理的需求,并为 IoT 数据提供了一个分布式存储架构。因此,本文将区块链和边缘计算相结合,提出了一种新型IoT数据管理架构。基于内置的加密方案设计了一种主动访问控制机制,保护了数据的安全和隐私。基于边缘计算架构设计了一种新型分布式数据存储系统,详细说明了基于此架构的数据存储和数据访问流程,并对系统架构的性能进行了实验和分析。2 相关工作目前,已有一些研究工作将区块链与IoT进行结合。文献[16]提出了一种基于区块链的软件定义网络架构,实现了一种安全的分布式点对点(P2P,peer-to-peer)网络,其中,IoT 成员可以在没有可信第三方的情况下进行交互。文献[17]利用区块链为大型IoT系统提供访问控制,通过智能合约来注册、广播和撤销访问授权;IoT 设备拥有资源的所有权,而不是由中心机构进行监督。文献[18]提出了一种基于区块链的分布式访问控制方案,通过智能合约创建特定交易来定义访问控制策略。但是上述工作均基于私有区块链平台,通过牺牲去中心化来提升性能。此外,上述工作过分依赖于智能合约技术,而不是区块链架构本身。文献[4]提出了一种IoT身份验证机制,为每个用户分配一个唯一的ID,然后将其记录到区块链上。此外,通过将重要数据进行哈希运算并存储到区块链中而提出一种数据保护机制,但是该机制忽略了区块链的存储瓶颈。文献[19]和文献[20]所做的工作与本文的研究类似。文献[19]引入了联盟链来解决 IoT 数据的安全问题,然后采用了雾计算架构作为分布式环境部署区块链。但是,此方案的每个雾节点都需要存储完整的数据账本,导致存储负担很大。此外,所有IoT 数据都存储在区块链上,导致系统缺乏可扩展性。在本文的数据管理架构中,区块链仅存储加密数据块的哈希值和一些重要文件,每台边缘服务器仅维护一部分状态信息,从而大幅度降低了存储开销并增强了系统的可扩展性。文献[20]提出了一种分布式的数据管理架构,将数据的哈希值存储在区块链中,并使用可信执行环境(TEE,trusted execution environment)将原始数据存储在可信硬件中。使用TEE会大幅度增加系统成本,并且数据的访问控制没有被纳入研究工作中。此外,大部分现有工作中的IoT用户都需要充当区块链节点才能参与网络,而同步区块将产生巨大的资源消耗。在本文提出的数据管理架构中,用户只需要与边缘服务器进行交互而不必加入区块链网络,因此,降低了用户使用系统的技术门槛和成本开销。3 结束语本文提出了一种基于区块链与边缘计算的 IoT数据管理方案。基于Kademlia算法设计了一种分布式数据存储方案,提高了系统的存储效率。此外,提出了一种基于区块链的主动访问控制机制,只有数据所有者授权的用户才能访问IoT数据。设计了一种内置的加密方案来保障数据安全和隐私,另外,基于智能合约在Hyperledger Fabric平台实现了系统原型。实验结果表明,与基于云的数据管理策略相比,本文提出的数据管理架构性能更高效。The authors have declared that no competing interests exist.作者已声明无竞争性利益关系。4 原文链接http://www.infocomm-journal.com/wlw/article/2020/2096-3750/2096-3750-4-2-00001.shtml
  • [技术干货] 全国首批“数据经纪人”在广州海珠区诞生
    近年来,数字经济发展速度之快、辐射范围之广、影响程度之深前所未有,成为拉动经济增长的重要动力。数据作为数字经济发展的核心引擎,已成为与土地、劳动力、资本、技术并列的“第五新型生产要素”,是政府、企业和社会组织的重要资产与战略资源。数据是一种生产要素,只有能流动、可流转、快流通,才能产生价值。如何让海量丰富的数据有序高效“动起来”,是推动数字经济健康可持续发展的“必答题”。5月23日,经广东省政务服务数据管理局批准同意,在市政务服务数据管理局支持下,海珠区率先推出全国首批“数据经纪人”名单,分别是广东电网能源投资有限公司、广州金控征信服务有限公司、广州唯品会数据科技有限公司。首批入选的三家“数据经纪人”企业,涉及电力行业、电子商务、金融等领域。拥有丰富的社会数据和成熟的运营经验,期待通过此次试点能为全面推行数据经纪人制度积累可复制、可推广的“海珠经验”,为数据要素市场化配置改革输出数据流通创新的“海珠解法”。1、为什么率先诞生在珠海?海珠区作为广州市唯一被珠江前后航道环绕的岛区,拥有国家级新型工业化产业示范基地——琶洲人工智能与数字经济试验区,正构建“一区一谷一圈”发展布局,聚焦“算法、算力、算量”人工智能发展三大支柱,打造“琶洲算谷”。数字产业基础雄厚,拥有数字创意相关规上企业218家,形成了从场景应用、宣传推广、互动体验、投融资一体化的产业生态。数字支撑能力突出,汇集国家级重点实验室、工程技术开发中心、企业技术中心9家,省级重点实验室、企业技术中心35家。数字场景应用丰富,创新推出数字孪生、泛在感知、AI文旅、数图治理、智慧城管等十大智慧应用场景。据海珠区政协副主席、区政务服务数据管理局局长黄津介绍,广东省在全国率先开展数据要素市场化配置改革,提出包括“数据经纪人”在内的制度性创新举措。在省、市关心下,海珠区成为全省唯一的“数据经纪人”“首席数据官”“数据生产要素统计核算”创新改革“三试点”单位。海珠区积极落实省、市关于数据要素市场化配置改革的工作要求,紧扣数据要素市场化配置改革发展主题,在2021年12月出台了全国首份“数据经纪人”试点工作方案,充分凸显区域特色,探索打造数据要素市场化配置改革“先行地”。2、什么是“数据经纪人”?理解何为“数据经纪人”,是推动试点工作的基石。 为厘清“数据经纪人”的准确概念,由海珠区政务服务数据管理局牵头,在多轮深入市场一线调研、组织多场专家学者讨论、多次到相关单位走访学习后,盖在“数据经纪人”脸上的“面纱”慢慢被揭开。海珠区政务服务数据管理局负责人称,“数据经纪人”是在政府的监管下,具备开展数据经纪活动资质的机构。该机构要具备生态协同能力、数据运营能力、技术创新能力、数据安全能力和组织保障能力,围绕重点领域开展数据要素市场中介服务,推动数据流通规范化。3、“数据经纪人”主要有三方面的职责一是受托行权,即数据拥有者可以授权数据经纪人行使权力;二是风险控制,在数据流通交易过程中起到中介担保作用;三是价值挖掘,挖掘数据要素价值,充当数据价值发现者、数据交易组织者、交易公平保障者、交易主体权益维护者等多重角色。4、如何产生“数据经纪人”——首创珠海标准明晰“数据经纪人”概念后,接下来要解决的就是如何选取“数据经纪人”,海珠区独辟蹊径,首创“海珠标准”。经海珠区政务服务数据管理局深入研究,海珠区首创了“数据经纪人”分类分级标准:根据“数据经纪人”自身基础及业务范围可划分为技术赋能型、数据赋能型、受托行权型三个类别;按照企业数据管理能力成熟度等级、信息安全等级保护等级、企业自有(或实际控制)数据规模等条件,以及相关试点企业数据采集和处理是否符合国家相关安全要求等因素,将“数据经纪人”分为三个等级。海珠区首创的分类分级标准,进一步明确“试点门槛”,提升试点覆盖度,为专业评估和专家评审提供标准依据,能更具针对性、科学性地筛选“数据经纪人”,为形成可复制、可推广的试点经验打牢基础。5、“数据经纪人”怎么干?——鼓励大胆探索选出优质的“数据经纪人”试点企业,只是“万里长征”第一步。如何指导试点企业开展探索工作,是试点创新的关键所在。海珠区的做法是 “规定动作”和“自选动作”相搭配,有收有放,有合有开,鼓励“数据经纪人”创造性开展试点工作。据海珠区政务服务数据管理局负责人介绍: 一方面,为“数据经纪人”设立“规定动作”,优先在电力、金融、电子商务等社会数据丰富的重点领域进行试点,明确试点工作机制、工作内容、业务范围、业务场景等相关内容,并指导“数据经纪人”配合开展相关调研、检查和评估; 另一方面,鼓励“数据经纪人”创新“自选动作”,根据各自领域特色,科学有序地探索数据经纪业务。6、如何保障“数据经纪人”的健康发展——包容审慎监管开展数据要素流通探索,尚无样板可借鉴,可依循经验寥寥。海珠区注重把握包容与审慎的辩证统一,通过与试点企业签订“信任协议”来兼顾安全可控与创新突破,既为新兴业态活动留出充足空间、避免错失发展机遇,又稳妥审慎监管、避免造成严重后果。值得期待的是,海珠区将探索引入“监管沙盒”模式,以“慎监管、重引导、抓责任”为主线,对“数据经纪人”做到“充分指导”“无事不扰”,为数字新业态新模式的萌芽成长提供深厚“土壤”。
  • [云实验室] 论《 数据库服务实践》如何避坑,100%完成
    评价问题,均以解答:实验链接:沙箱实验室_在线实验_上云实践_云计算实验_AI实验_华为云官方实验平台-华为云 (huaweicloud.com)1、ping RDS连接的公网IP(无法直接ping通,需要放通ICMP协议端口2、-h (RDS连接公网IP) -uroot   -p(无需空格)自定义RDS密码完成
  • [技术干货] 数据资产如何确权认责?
    2020年04月10日,中共中央、国务院印发《关于构建更加完善的要素市场化配置体制机制的意见》,《意见》将数据定义为与土地、劳动力、资本、技术并列的第五大生产要素——数字化时代的一种新型的生产要素。数据的价值越来越重要!然鹅!土地有土地产权,劳动力有劳动产权,资本有资本所有权,技术有知识产权,这四大生产要素在法律上都有明确的权益和职责归属。但对于“数据”,各个国家的法律似乎还没有准确界定数据资产权责体系。今天我们来聊聊数据资产管理中的确权认责问题。 01 数据确权,确的是什么权? 所谓数据确权,就是确定数据的权利属性,主要包含两个层面:第一是确定数据的权利主体,即谁对数据享有权利。第二是确定权利的内容,即享有什么样的权利。 从这两个层面看,数据从产生到消亡的整个生命周期中,主要涉及四类角色,即:数据所有者、数据生产者、数据使用者和数据管理者。而确权就是针对特定的数据资产明确定义这四类角色的过程。也就是说,不同的数据资产其所有者、生产者、使用者和管理者可能不同。引用我的新书《一本书讲透数据治理》关于这四类数据角色的定义: 1、数据所有者 即拥有或实际控制数据的组织或个人。数据所有者负责特定数据域内的数据,确保其域内的数据能够支持跨系统和业务线受到管理。数据所有者需要主导或配合数据治理委员会完成相关数据标准、数据质量规则、数据安全策略、管理流程的制定。数据所有者一般由企业的相关业务部门人员组成,根据企业发布的数据治理策略、数据标准和数据治理规则要求,执行数据标准,优化业务流程,提升数据质量,释放数据价值。在企业中,数据所有者并不是管理数据库的部门,而是生产和使用数据的主体单位。 2、数据管理者 数据管理者不一定拥有数据的所有权,而是由数据所有者授权自行数据管理的职能。在很多传统企业,数据管理者往往隶属于数据所有者。数据管理者并不包揽所有的数据治理和管理工作,部分数据治理和管理工作需要由业务部门和IT部门共同承担。 3、数据生产者 即数据的提供方,对于企业来说,数据生产者来自人、系统和设备。例如:企业员工的每一次出勤、财务人员的每一笔账单、会员的每一次消费都能一一被记录;企业的ERP、CRM等系统每天都会产生大量的交易数据和日志数据;企业的各类设备会源源不断地生产大量数据,并通过IoT整合到企业的数据平台中。 4、数据使用者 即使用数据的组织或个人,例如:申请数据、下载数据、分析数据等。在企业中,数据的生产者、所有者和使用者有可能是同一个部门。例如,销售部门以CRM系统为依托,既是客户数据的生产者,也是客户数据的使用者,还是客户数据的所有者。 02 数据资产管理为什么要确权? “数据资产管理为什么一定要确权,在过去的很多年,没有明确数据确权不一样也能用吗?”,这可能是很大一部分人的疑问。 笔者认为数据资产管理之所以要进行确权,主要有以下3方面原因: 1、数据确权是数据资产化的基础 “数据资产的是由组织合法拥有或控制并且能够给企业带来经济效益和社会效益的数据资源”,这是数据资产的定义,从这个定义中也不难看出,数据要成为资产,必须要有一个明确的权属主体。从会计的角度,没有明确的数据权属,数据资产永远也进入不了企业的财务报表。从法律的角度,没有明确的数据权属,数据滥用的问题将无法解决。从数据的管理和使用角度,没有明确的数据权属,数据的质量问题将无法溯源、无法解决。2、数据确权是数据交易和流通的前提 任何东西要实现交易,首先都需要确权。数据同样如此! 由于数据复制成本相对生产成本来说极低,数据易被复制和传播,造成数据使用者损害数据所有者权益的情况十分普遍。故而合理界定数据权属是亟须解决的问题。只有明确了数据的权属,才能对数据进行估值,之后才是交易和流通。 3、数据确权是保护个人数据安全的重要手段 由于数据权属一直是一个模糊不清问题,在ToC端尤为突出。互联网用户每天产生的大量的数据,到底是归互联网公司所有,还是归用户个人所有?从法律角度讲,个人信息归个人所有,但事实上我们从来没有享受到拥有这些数据的权益。而互联网公司往往是通过所谓的用户协议、个人信息保护协议,约定了用户产生的数据归企业所有。由数据权属界定不明,导致了信息滥用,大数据杀熟,网络诈骗、非法数据交易等侵害个人信息的问题日趋严重。 03 数据认责,认的什么责? 权利和责任是一定是并存的,在享有数据权益的同时需要对数据负责。在企业数据资产管理实践中,所谓的数据认责,更多的是指“谁对数据的质量属性负责”! 通常,企业中数据的所有者、生产者、使用者、管理者都是比较容易识别的,但是一旦出现数据质量问题,在追责问责时候,它就常常会变成一个部门之间或业务与IT之间相互推诿的问题。 举个例子,企业在盘点库存时,经常会发现ERP系统中的物料库存数据与实物的库存数据存在差异。业务部门会说IT部门没有提供完善的系统功能,导致数据错误,而IT部门则可能责怪业务部门操作不规范。事实上,出现这种问题,最大的可能是业务的出入库操作重复或在列出库存项目时有遗漏,或者库存物料的描述不准确,位置不正确。 当涉及库存时,通常是由仓库管理员负责确保库存数量准确。作为数据质量改进和控制的一部分,这可能需要对系统中的物料建立统一的编码规则并实施数据清洗,还可能需要对实物库存进行重新贴标签。而这些决策永远不会成为单纯的IT问题,也不会落入IT部门,这很明显。 很多企业搞数据治理项目,建立了数据问责制度。但在笔者看来,数据问责制只是数据治理的手段,而不是数据治理的目的,企业要做的是提高数据质量和实现业务目标,而不是在发生了数据问题后去追究责任。 数据问题的重点在于预防,问题发生了再去追责则为时已晚。谁对数据质量负责?当你遇到这样的困惑时,不妨试着先回答以下几个问题。 认识问题:什么是好的数据质量?为什么它很重要? 定义问题:测量数据质量的维度有哪些?数据一致性、完整性、正确性、及时性? 衡量问题:数据质量对业务使用和管理决策有何影响? 分析问题:找到数据质量问题的根本原因,是管理问题、业务问题还是技术问题? 改善问题:哪些关键业务流程的改善有利于提高数据质量?如何改善? 控制问题:是否有数据质量管理章程,包括问题和目标描述、范围、里程碑、角色和职责、沟通计划? 把以上问题都想清楚之后,究竟“谁该对数据负责”就不是那么重要了。 笔者认为,数据质量人人有责,谁生产谁负责,谁拥有谁负责,谁管理谁负责,谁使用负责。数据所有者主要负责制定数据管理政策,维护数据资产目录并分配数据认责权限,确保所拥有的数据可查、可用、可共享;数据生产者负责执行数据管理规则,按照数据标准进行规范化录入各项数据并解决相关数据问题;数据使用者要确保数据的正确、合规使用,以及数据在使用过程中不失真;数据管理者主要协助数据所有者制定数据标准、质量规则、安全规则并监控相关数据问题,同时制定确保数据管理的流程,并确保其有效执行。 那么,IT部门在这个过程中,扮演什么角色,承担什么责任? 从笔者经历的项目实践来看,在大部分数据治理项目中IT部门都起着推动者的作用。而在数据运维/运营过程中,IT部门往往是承担数据保管员的职责,同时为数据管理者提供技术支持,推动数据架构、标准和规则等内容的落地。 有人可能会提出质疑:数据管理员和数据保管员不是一回事吗?你是不是又造概念了?这还真的不是在造概念。接来下,我们就详细分解。 04 数据管理员 VS 数据保管员 1、数据管理员 数据管理员——顾名思义,就是数据管理者的一员。哈哈,这个定义是不是很接地气! 大多数数据管理员来自各自的业务部门,他们隶属于数据所有者,通常由数据所有者指定或授权执行数据的定义和控制活动。因此,在DAMA-DMBOK2中,也称为他们“业务数据管理员”(Business Data Stewards),一般都是业务领域的专业人士,公认的业务领域专家,对一个数据域负责。 以财务部门为例,CFO或财务总监很可能是所有财务数据的数据所有者,那么财务部门的每个小组的负责人将被任命为数据管理员,例如:核算数据管理员——负责财务核算数据的管理,并出具企业财务报表和管理集团合并报表;资金数据管理员——负责资金数据管理,以及统计和分析;预算数据管理员——负责各企业经营预算执行情况的数据的管理,以及统计和分析。 我们经常看到,在很多数据治理组织结构体系中的数据管理员都是其中的一个重要组成部分,他们负责企业数据的运营和管理,并在数据管理的各种例行会议或专题会议中作为数据所有者的代表,提出数据管理的改进意见和建议。 在数字化时代,每个企业都需要培养起来一批懂业务、懂数据、甚至懂数据分析、数据管理的相关技术的数据管理员。这批人将是企业数字化转型的中坚力量! 2、数据保管员 数据保管人通常由是 IT 部门负责,其职责与其他角色,如:数据所有者和数据管理员存在根本不同,业务数据管理员侧重域业务,而数据保管员专注于技术。他们通常在其技术专业领域进一步划分不同的角色,例如:数据建模、数据架构、数据集成、数据开发等,当然还有传统的DBA(数据库管理),他们主要负责维护、归档、恢复、备份数据、防止数据丢失/损坏等。 关于数据保管员在DAMA-DMBOK2中也有相关的定义,DMBOK2称其为:技术数据管理专员(Technical Data Stewards),即:某个知识领域内工作的IT专业人员,如数据集成专家、数据库管理员、商务智能专家、数据质量分析师或元数据管理员。 数字化时代,企业需要培养或引入一批具备专业的技术知识、技能和经验,具有良好的数据管理最佳实践的人才,他们是企业数据管理域组的一部分,是企业数字化转型的主要支撑。 如果你觉得数据管理员、数据保管员实在不好区分,那就按DAMA的叫法:业务数据管理员、技术数据管理员。 笔者之前写的《企业数字化转型:IT部门的未来!》的时候,称提到:企业数字化转型需要技术和业务要深度融合,让IT走进业务,让业务融入IT。那么,让业务数据管理员和技术数据管理员一起工作就是一个很好实践。 05 数据确权认责,怎么做? 权利和责任就像一个硬币的正反两面一样密不可分,享有多大大的权利就需要承担多大的责任。 数据的确权认责首先需要破除的一个认知误区:“认为数据是由IT部门负责的”。然而,从前文中的数据确权认责相关条例来看,企业数据质量和安全真的不应该由IT部门责任,IT部门也负不了这个责任。事实上,IT部门只是企业信息系统的实施者、维护者或为数据管理提供技术支持,在企业的数据治理过程中,数据的生产者、所有者、使用者、管理者才需要真正对数据负责。 企业的数据资产项千千万,数据确权认责是一个巨大的工程量,不可一蹴而就,需要分批次、分阶段,循序渐进的去完成。企业数据资产确权认责流程如下: 1、数据梳理和盘点 划分数据域,按数据域开展资源盘点工作,梳理本专业数据资源,梳理数据实体,识别数据属性。数据资源盘点完成后,数据管理部门发起数据资源登记注册,形成数据资产目录。一般建议企业采用“问题+价值”双驱动的策略,优先对问题多发且对业务影响较大的数据项开展认责管理,通过责任落实改善和提升数据质量,从而控制和解决问题,支撑业务发挥价值。 2、建立认责关系矩阵 基于数据资源目录,识别各专业领域认责的数据实体,建立数据实体与组织机构各方(集团公司、分子公司的相关责任部门)之间的权责矩阵。认责关系矩阵需要将相关数据责任落实到对应岗位人员的日常工作和数据操作中。责任的落实需要结合数据标准的贯标开展,强调认责与规范录入行为同步,避免数据问题的发生。 3、梳理操作细则 在公司层面梳理出认责数据项所对应的关键业务流程、节点名称、系统名称及其它关联数据项,并组织数据管理者和使用者梳理所属企业的数据管理要求,并明确到具体的二级部门、业务操作岗位,以及数据操作权限(CURD),明确相关岗位应用承担的数据责任,明确岗位认责数据范围,对数据录入、审核责任给出相应的操作指南。 4、制定认责制度 在认责矩阵和操作细则基础之上,企业应从专业层面梳理相关数据实体、属性的数据管理要求,例如:数据质量要求、数据安全和个人隐私保护要求、数据标准规范等,形成数据管理制度手册。为进一步规范数据相关方的管理和使用行为提供制度约束。 06 数据确权认责,需要注意什么? 数据的确权认责是一个复杂的系统工程,需要结合企业的数据战略、数据标准、数据管理制度和流程以及IT系统的建设,有目标、有重点、有范围、有针对性的推进。 切记:一口吃不了个胖子,更不能眉毛胡子一把抓!要注意以下六个“明确”: 1、认责目标要明确,数据认责数据治理并行,要能够体现治理的价值,认责的效果。 2、认责范围要明确,“问题+价值”双驱动,优先对问题多发且对业务影响大的数据项开展认责管理。 3、认责粒度要明确,数据粒度,具体到数据库、数据表还是数据字段级别;责任主体粒度,具体到部门、岗位还是人员级别。 4、认责角色要明确,数据的应用价值链和生命周期中,谁是所有者、谁是生产者、谁是管理者、谁是使用者需要定义清楚。 5、认责职责要明确,配合认责关系矩阵和CURD,明确定义:谁,在什么系统,操作什么,操作规范。 6、认责机制要明确,制定及发布数据标准,编制数据认责管理办法及流程,数据标准与管理制度并举,确保数据确权认责常态化运转。