• [技术干货] 华为云GaussDB(DWS)蝉联数据仓库领域年度“金沙奖”最佳产品奖
    7月28日-29日,2021(第六届)中国大数据产业生态大会在北京举行。本次大会以“数智转型 融合共生”为主题,共同探讨产业服务数字化发展和行业数智化转型方向,大数据领域年度“金沙奖”也在会上正式揭晓,华为云数据使能DAYU主力产品——数据仓库GaussDB(DWS)蝉联“2021 中国大数据·数据仓库领域最佳产品奖”。华为云GaussDB(DWS)是一款具备分析及混合负载能力的分布式数据库,面向政企、互联网和物联网等应用场景,以企业级内核、统一架构提供标准数仓,实时数仓和云数仓。业务分析师和数据分析师在批量分析、交互式查询与分析、实时分析等业务场景中,可借助GaussDB(DWS)轻松获得一站式分析能力,降低数据分析门槛提升数据分析效率,更便捷高效的释放数据价值。一站式数据分析支持上万分析师在线作业,满足企业平台容量需求继2020年获奖后,华为云GaussDB(DWS)研发团队在数据分析技术上持续探索。通过智能多维的混合负载管理,华为云GaussDB(DWS)可在集群内实现实时、批量、交互式负载的一站式数据分析。为数据接入提供丰富的数据源接口,满足数据分析的全流程中不同角色对数据分析的不同需求。通过自研TCP多流技术提高物理连接数量级,在MPP架构下数据节点全并行数据交换,华为云GaussDB(DWS)实现单集群最大支持2048节点。2021年Q1建成投产的480节点大集群分析师平台,成为金融行业最大规模商用数据仓库集群,支持上万分析师在线作业,极大满足了大企业数据量激增对平台容量扩展的需求。高并发毫秒级点查询,效率提升200倍通过30多项查询重写技术(含4项专利),优化Ad hoc查询性能,实现高并发毫秒级点查询。在已商用的GaussDB(DWS)数据分析平台中,灵活查询平均运行时间由30分钟降低至50秒,查询平均等待时长更是由5小时降低至1.5分钟,查询效率提升200倍!对企业而言,业务数据从产生到汇聚,再到面向场景化分析,每个环节都分秒必争,快速释放数据潜能已成为企业数字化转型的刚需。数据分析架构简化,流数据每秒千万级实时接入在互联网和物联网业务应用中,时序数据和流数据承载了大量的业务内容。典型时序和流数据分析方案需要引入多种组件,不但数据格式难统一,平台架构也变得非常厚重,扩展困难。华为云GaussDB(DWS)在全并行分布式架构上,无缝融合OLAP引擎、时序引擎、CEP引擎,简化数据分析组件架构,实现T+1和T+0合一的一站式数据分析,实时数据与历史数据关联分析技术做到同行业技术领先。在已投产的实时数仓方案中,流数据高峰流量每秒千万级实时接入,解决了传统方案流数据接入流量速率的瓶颈问题。华为云GaussDB(DWS)提供GB~PB级数据分析能力、多模分析和实时处理能力,用于数据仓库、数据集市、实时分析、实时决策和混合负载等场景,在全行业数字化转型中帮助企业提质增效,建立核心竞争力,夯实企业发展根基。     目前,华为云大数据热销主打的产品有:1. 数据仓库服务GaussDB(DWS)提供云上企业级融合数据仓库,支持实时数据分析,具备高性能、低成本、易扩展等特性2.MapReduce服务 3.0.5版新版ClickHouse集群支持跨AZ集群,适用海量数据大宽表实时分析/实时BI报表分析3. 云搜索服务 CSS兼容Elasticsearch完全托管在线分布式搜索服务,用于站内搜索/日志分析/运维监控等场景 4.数据湖治理中心 DGC数据全生命周期一站式开发运营平台,可复用行业知识库,助力企业快速构建数据运营能力5.数据湖探索服务 DLI提供一站式融合处理分析服务,会SQL就会大数据分析,高易用免运维 现在828大促期间,大数据福利专场上线,注册用户即可免费体验大数据,爆款产品击穿底价5折!详情点击了解:https://activity.huaweicloud.com/bigdata.html
  • [知识分享] 【大数据系列】大数据集群被窃取数据怎么办?透明加密可以一试
    >摘要:传统大数据集群中,用户数据明文保存在HDFS中,集群的维护人员或者恶意攻击者可在OS层面绕过HDFS的权限控制机制或者窃取磁盘直接访问用户数据。本文分享自华为云社区[《FusionInsight MRS透明加密方案》](https://bbs.huaweicloud.com/blogs/307406?utm_source=zhihu&utm_medium=bbs-ex&utm_campaign=ei&utm_content=content),作者: 一枚核桃 。# 概述传统大数据集群中,用户数据明文保存在HDFS中,集群的维护人员或者恶意攻击者可在OS层面绕过HDFS的权限控制机制或者窃取磁盘直接访问用户数据。FusionInsight MRS引入了Hadoop KMS服务并进行增强,通过对接第三方KMS,可实现数据的透明加密,保障用户数据安全。!(https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202201/14/104621ua76d2mu1zio5bq2.png)- HDFS支持透明加密,Hive、HBase等在HDFS保存数据的上层组件也将通过HDFS加密保护,加密密钥通过HadoopKMS从第三方KMS获取。- 对于Kafka、Redis等业务数据直接持久化存储到本地磁盘的组件,通过基于LUKS的分区加密机制保护用户数据安全。# HDFS透明加密!(https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202201/14/104641tyfhpifcfjcwx6im.png)- HDFS透明加密支持AES、SM4/CTR/NOPADDING加密算法,Hive、HBase使用HDFS透明加密做数据加密保护。SM4加密算法由A-LAB基于OpenSSL提供。- 加密使用的密钥从集群内的KMS服务获取,KMS服务支持基于Hadoop KMS REST API对接第三方KMS。- 一套FusionInsight Manager内部署一个KMS服务,KMS服务到第三方KMS使用公私钥认证,每个KMS服务在第三方KMS对应拥有一个CLK。- 在CLK下可以申请多个EZK,与HDFS上的加密区对应,用于加密数据加密密钥,EZK在第三方KMS中持久化保存。- DEK由第三方KMS生成,通过EZK加密后持久化保存到NameNode中,使用的时候使用EZK解密。- CLK和EZK两层密钥可以轮转。CLK作为每个集群的根密钥,在集群侧不感知,轮转完全由第三方KMS控制管理。EZK可通过FI KMS管理,轮转在FI KMS可控制管理,同时第三方KMS管理员拥有KMS内密钥的管理能力,也可以做EZK的轮转。# LUKS分区加密对于Kafka、Redis等业务数据直接持久化存储到本地磁盘的组件,FusionInsight集群支持基于LUKS的分区加密进行敏感信息保护。FusionInsight安装过程的脚本工具使用Linux统一密钥设置(Linux Unified Key Setup,简称LUKS)分区加密方案,该方案加密分区时会在集群每个节点生成或者从第三方KMS获取访问密钥,用于加密数据密钥,以保护数据密钥安全性。磁盘分区加密后,重启操作系统或者更换磁盘场景下,系统能够自动获取密钥并挂载或创建新的加密分区。
  • [参赛经验分享] 2020中国高校计算机大赛·华为云大数据挑战赛-周周星分享(第三期)
    一、周周星分享——练习生团队大家好,我们是“练习生”团队,很荣幸获得了本次的周周星。下面是我们对于复赛数据的部分理解和思路:1、与初赛稍微对数据进行清洗,分数就能得到显著提升不同,复赛对于数据进行清洗产生的效益似乎并不太高,我认为如果初赛已经获得了一个相对较好的成绩,那么说明原先的数据清洗是有一定道理的,可能部分需要进行微调,但是没有必要完全重构。2、对于清洗数据收益甚微的情况,大家可以考虑一下特征的搭配,或许不使用全部特征,也能够获得较大收益。3、模型依然还是LGB模型,并没有什么特别4、对测试集的清洗也是一个关键点,分数上限不高,大部分也和测试集数据有关,目前我们做的只是简单的去重,进行操作的时候,要关注测试集的订单号总数是否发生变化。5、之后我们可能会尝试构造一些新的特征如时间特征、起始点终点的国家、城市等。以上是我们的分享,希望能和大家一起交流进步,祝大家取得好成绩。二、周周星分享—e402冲冲冲大家好,我们是“e402冲冲冲”团队,很荣幸获得了复赛第一周的周周星。下面分享一下我们对于复赛数据的一些理解和思路:1. 由于是复赛的第一周,我们主要是对数据集进行了清洗工作,清洗思路和初赛一样,包括:去掉direction为-1的记录,去重(去除loadingOrder, carrierName, timestamp和vesselMMSI相同的记录),去除路径中两点之间距离过大的的订单,出发港与目的港是否和路径匹配等。       2. 我们的主要思路也是相似轨迹的方法,这里我们采取了聚类的方法(感谢初赛周周星大佬的思路),从训练集中提取和测试集相似的轨迹进行训练,但是测试集中有很多轨迹是在训练集当中找不到的,这个就要自己处理。       3. 目前使用的还是LGB模型,特征也主要是一些统计特征。其实我们的方法也比较常规,相似轨迹的方法大家都有讨论,初赛也有很多团队使用,但是里面的一些细节例如测试集中找不到的轨迹就需要仔细思考。目前复赛第一周我们的主要工作也还是数据清洗,仍然处于探索阶段。希望能和大家一起交流进步,祝大家取得好成绩。 大赛赛题:https://competition.huaweicloud.com/information/1000037843/introduction
  • [实践系列] windows下使用ODBC连接DWS查询大数据量结果后报out of memory while reading tuples
    如题,现网用户使用官方提供的ODBC包,在windows下cognos连接DWS时,报Out of memory while reading tuples. 使用其他工具连接,也报一样的错误,说明与cognos本身没关系。ODBC在输出大数据量结果时,会一次性将结果输出出来,而windows的内存量不足以处理这样大量的数据时就会报这样的错误,查询资料后,可以通过勾选odbc的选项"use Declare/Fetch",利用游标来缓存结果,这样就不会让输出结果集消耗完内存。修改odbc的选项路径为Options->Datasource->use Declare/Fetch
  • [技术干货] 在ModelArts上使用AI芯片Ascend训练基于MindSpore的DeepFM
    论文DeepFM: A Factorization-Machine based Neural Network for CTR Predictionhttps://arxiv.org/abs/1703.04247CTR预估是目前推荐系统的核心技术,其目标是预估用户点击推荐内容的概率。在CTR预估任务中,特征非常重要。这篇论文提出的DeepFM模型是一种可以从原始特征中抽取到各种复杂度特征的端到端模型,可以有效避免人工特征工程的困扰。数据集criteo是非常经典的点击率预估比赛数据集。下载地址如下:http://go.criteo.net/criteo-research-kaggle-display-advertising-challenge-dataset.tar.gz数据集预处理准备数据和代码把准备好的数据集从OBS复制到ModelArts。import moxing as moxmox.file.copy_parallel("obs://dataset-city/recommend-criteo/data", "/cache/criteo_ori")12把准备好的代码也从OBS复制到ModelArts。mox.file.copy_parallel("obs://2021-ms-models/deepfm/", "/home/ma-user/work/deepfm")预处理用下面的命令,进行数据预处理。python -m src.preprocess_data --data_path=/cache/criteo_ori/ --dense_dim=13 --slot_dim=26 --threshold=100 --train_line_count=45840617 --skip_id_convert=0 '''坑一ModdelArts中普通的CodeLab环境默认是不支持MindSpore的。需要换成自己指定的Nodebook环境sh-4.3$python -m src.preprocess_data --data_path=/cache/ --dense_dim=13 --slot_dim=26 --threshold=100 --train_line_count=45840617 --skip_id_convert=0Traceback (most recent call last):  File "/opt/conda/lib/python3.7/runpy.py", line 193, in _run_module_as_main    "__main__", mod_spec)  File "/opt/conda/lib/python3.7/runpy.py", line 85, in _run_code    exec(code, run_globals)  File "/home/ma-user/work/deepfm/src/preprocess_data.py", line 20, in <module>    from mindspore.mindrecord import FileWriterModuleNotFoundError: No module named 'mindspore'坑二脚本中默认数据要放在origin_dataFileNotFoundError: [Errno 2] No such file or directory: '/cache/criteo_ori/origin_data/train.txt'sh-4.4$cp /cache/criteo_ori/origin_data/train_small.txt /cache/criteo_ori/origin_data/train.txtsh-4.4$cp /cache/criteo_ori/origin_data/train.txt /cache/criteo_ori/origin_data/val.txt 移动数据sh-4.4$mv /cache/criteo_ori/*.txt /cache/criteo_ori/origin_data/sh-4.4$ls /cache/criteo_ori/origin_data  stats_dictsh-4.4$ls /cache/criteo_ori/origin_data/readme.txt  train_small.txt  train_very_small.txt  val_small.txt预处理结果生成了mindrecordsh-4.4$ls /cache/criteo_ori/mindrecord  origin_data  stats_dictsh-4.4$ls /cache/criteo_ori/stats_dict/cat_count_dict.pkl  val_max_dict.pkl  val_min_dict.pklsh-4.4$ls /cache/criteo_ori/mindrecord/test_input_part.mindrecord0       train_input_part.mindrecord02     train_input_part.mindrecord07     train_input_part.mindrecord12     train_input_part.mindrecord17test_input_part.mindrecord0.db    train_input_part.mindrecord02.db  train_input_part.mindrecord07.db  train_input_part.mindrecord12.db  train_input_part.mindrecord17.dbtest_input_part.mindrecord1       train_input_part.mindrecord03     train_input_part.mindrecord08     train_input_part.mindrecord13     train_input_part.mindrecord18test_input_part.mindrecord1.db    train_input_part.mindrecord03.db  train_input_part.mindrecord08.db  train_input_part.mindrecord13.db  train_input_part.mindrecord18.dbtest_input_part.mindrecord2       train_input_part.mindrecord04     train_input_part.mindrecord09     train_input_part.mindrecord14     train_input_part.mindrecord19test_input_part.mindrecord2.db    train_input_part.mindrecord04.db  train_input_part.mindrecord09.db  train_input_part.mindrecord14.db  train_input_part.mindrecord19.dbtrain_input_part.mindrecord00     train_input_part.mindrecord05     train_input_part.mindrecord10     train_input_part.mindrecord15     train_input_part.mindrecord20train_input_part.mindrecord00.db  train_input_part.mindrecord05.db  train_input_part.mindrecord10.db  train_input_part.mindrecord15.db  train_input_part.mindrecord20.dbtrain_input_part.mindrecord01     train_input_part.mindrecord06     train_input_part.mindrecord11     train_input_part.mindrecord16train_input_part.mindrecord01.db  train_input_part.mindrecord06.db  train_input_part.mindrecord11.db  train_input_part.mindrecord16.dbsh-4.4$ls /cache/criteo_ori/mindrecord  origin_data  stats_dict结果保存把处理好的数据COPY到OBS,保存起来。mox.file.copy_parallel("/cache/criteo_ori/", "obs://dataset-city/recommend-criteo/")训练训练用代码把代码复制到OBS的这个路径 obs://2021-ms-models/deepfm/创建算法创建训练作业训练完成算法发布在 AI Gallery上面介绍的算法已经发布到了AI Gallery。链接如下:https://developer.huaweicloud.com/develop/aigallery/algorithm/detail?id=ce2013a6-b5da-4616-a553-39362be1b38c————————————————原文链接:https://blog.csdn.net/CProjectManager/article/details/122162299
  • [技术干货] “营销数字化10讲”(4):品牌商和零售商,“用户画像”不一样
    编辑导语:用户是和精准营销、精细化管理运营真接钩挂的,依据客户在互联网技术留有的诸多统计数据,积极或普攻地搜集,最终生产加工成一连串的标识,用户画像实质是对任何一个客户都可用简单化的标识统计数据叙述。对于品牌商和零售商,“用户画像”却大不一样。01这是一篇技术化的文章,根据以往的经验,技术化的文章,往往阅读量不高。目前的营销数字化基建完成不难,但应用难,难就难在应用技术是拦路虎。营销数字化,只有通过用户画像,才能精准、实时交互。因此,数字化的商业逻辑用互联网技术表达,这一关非过不可。精准,就是用户画像;实时,就是瞬间画像、更新画像,在用户感觉不到的时间内推送信息、政策、黏住用户。精准、实时,不是通过人实现,而是通过技术实现。技术的反应时间,可以快到用户感受不到。02大数据商业的基本认知:消费行为是可以预测的,预测的依据不是惯常的依人口统计数据分类,比如男女、收入等,而是消费行为数据。这与传统的营销逻辑不同,传统营销分类逻辑基本源于人口统计分类。大数据商业的基本逻辑是:消费者标签化。标签就是消费者的DNA。DNA源于消费行为,有倾向性,但又是变化的。标签化是一种简单化,简单是降维,降维是为了在人的心力临界点之内。用户画像,站在品牌商、代理商和零售商(平台商)角度,各有不同的画像依据。首先是视角不同,其次是目标不同,最后是关系不同。03先看阿里大数据的理念与应用,以下内容选自《颠覆营销:大数据时代的商业革命》。作者陈杰豪是为阿里提供大数据咨询的人员,共同作者车品觉是原阿里副总裁、数据委员会会长。1. 理念:找顾客不看人口属性,要看行为标签传统营销偏向处理异质性问题,根据人口统计学特征,如性别、年龄、居住地、收入等,进行分类分群。男女是人口统计指标,个性化标签是行为与动机。人口指标符合统计学,个性化标签可以预测行为,精准预测下次购买时间。行为标签,不看人口属性,只看购买行为,比如将消费者分为三类:新顾客、主力顾客、沉睡顾客,然后分类追踪。行为标签,就是只看可以记录的行为(有数据的行为),比如,第一次在线购买,不论线下购买多少次,线上记录就是第一次。2. 模型:大数据营销从传统4P进入新4P大数据4P:消费者(People)、成效(Performance)、步骤(Process)、预测(Predict)。消费者(People)模型:新顾客(N)、既有顾客(主力顾客E0、瞌睡顾客S1、半睡顾客S2、沉睡顾客S3)。成效(Performance)模型:顾客数增加、客单价提高、活跃度提升。步骤(Process):通过有层次的执行程序,改善营收方程式。预测(Predict):预测顾客再次购买时间,让商家在对的时间与最有可能上门的顾客说话。通过控制,能够做到实时观测、零时差沟通和个性化信息。3. 目标:预测购买时间和倾向,改善营收根据大数据,下次购买时间可以预测。推荐应该在预测购买时间之前,推荐符合购买用户倾向性的产品,目的是改善营收。4. 大数据,简化标签个性化,不能一人一个标签。阿里把多达1000种的人口特征标签,简化成6组动态及19种标签。顾客动态(NES):(1)新顾客、(2)主力顾客、(3)近期回头顾客、(4)瞌睡顾客、(5)半睡顾客、(6)沉睡顾客;入店资历(Length):(7)早期、(8)中期、(9)后期;近期购物情景(Recency):(10)最近买家、(11)中期未购物买家、(12)长期未购物买家;购物频率(Frequency):(13)高频买家)、(14)中频买家、(15)低频买家;购物金额(Monetary):(16)高消费买家、(17)中消费买家、(19)低消费买家;下次购物预测(NPT):(19)7天内最有可能再次购买的时间点。04品牌商的数字化与零售商的数字化,最大的区别是:零售商有无限SKU,品牌只有有限SKU;由第一条区别衍生出来的区别:零售商有众多替代产品,而品牌商无替代产品;由第二条区别衍生出来的区别:品牌商数字化追求品牌复购(忠于品牌),零售商追求平台黏性;零售商提供关联销售,品牌商只有复购;零售商有“产品画像”和“用户画像”,品牌商可以不需要产品画像;零售商的数字化要求“产品与用户匹配”,提高转化率;品牌商的数字化追求认知转化,复购率。05平台或零售,用户画像的主要目的是“产品与用户匹配“,提高转化率。用户画像,除了预测下次购买时间外,很重要的一条,就是提高产品与用户的匹配度,即推荐产品的时机和特征正好与用户匹配。品牌商的用户画像,有三个重要目标:一是复购,即重复购买,新用户变老用户,老用户变大用户。因为品牌商的产品选项少,复购就是必须选项。因此,用户行为画像,以及与画像配套的政策,诱导复购是关键。二是激活B端。用C端 激活B端,这是品牌商营销数字化的重要目标,是用小数据激活大市场的要求。三是用户裂变。虽然拼多多平台也有用户裂变,但品牌商因为在线选项少,用户裂变就变得更重要了。06除了上述大数据画像目标的重要区别外,平台或零售商的用户画像与品牌商的用户画像相比,还有下列区别:第一,用户画像的区别:零售商只有C端用户画像,品牌商还有B端用户画像。C端用户画像以用户属性画像为主,B端用户画像以行为画像为主。C端用户画像即时自动推送,B端用户画像可以用于人际沟通。第二,针对用户画像的政策根据用户画像,针对性的制订政策,这是锁定用户,培养大用户的需要。零售商针对用户的政策,有平台政策,有商户的政策。品牌商针对C端用户的政策,有品牌商政策,有代理商政策。第三,在线推送与推送后在线平台或零售商,SKU多,已经形成了产品生态,用户在线频率高,时间长。因此,可以根据预测下次购买时间,提前推送产品或政策。品牌商的产品有限,而且可能无其它产品选项。因此,系统要提前推送政策,诱导上线。或者在上线过程中,适时推送政策,诱导下单。第四,平台或零售商,可以根据用户画像做关联推荐,因为平台或零售商SKU太多。比如,可以向宝妈推送系列产品,但如果是奶粉品牌商,就只有培养用户复购,或者成为大客户。第五,平台或零售商,需要产品画像和用户同时画像,然后匹配。品牌商在销售过程中,基本不存在产品画像及匹配问题。第六,品牌商的C端用户,只是针对C端。品牌商的C端用户画像,还要与B端关联,用C端B端。#特邀作者#刘春雄,微信公众号:刘老师新营销(ID:liuchunxiong1964),人人都是产品经理特邀作者。现任郑州大学副教授,硕士生导师,兼任北京大学EMBA课程主讲导师,《销售与市场》杂志社副总编,清华大学MBA、中国人民大学MBA特聘客座教授。
  • [近期热门] 人工智能技术在科研大数据中的应用
    人工智能经过几十年的技术发展,它已进入一个崭新的时代——人工智能时代。作者:黄雅芳  来源:澳门科技大学资讯科技学院人工智能经过几十年的技术发展,它已进入一个崭新的时代——人工智能时代。在这一新时代,各种各样的研究成果不断涌现。就像中国科学家、未来学家周海中先生在上世纪90年代所预言的那样:“随着科技进步,人工智能时代即将到来;届时,人工智能技术将广泛应用到各学科领域,会产生意想不到的效果。”科学研究会经常遇到如何处理大数据的问题;下面就简要谈谈人工智能技术在科研大数据中的应用。大数据(big data)又称巨量资料,指的是无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据的概念,对于不同的人有不同的理解;而目前适用于大数据的技术,包括大规模并行处理数据库、分布式数据库、数据挖掘电网、云计算平台、互联网、物联网、分布式文件系统和可扩展的存储系统。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。近年来,在人工智能技术的助力下,科研中的许多大数据问题得到了有效的解决。例如,为了探索地外文明(俗称“外星人”),美国宇航局(NASA)前不久与英特尔、谷歌和IBM等科技公司展开合作,以开发先进的人工智能技术,这些技术可用于大数据分析,寻找外星人。当然并不是说,使用人工智能技术去“直接观看”外星人;而是分析太空探测器和天文望远镜所获得的数据,来识别地外行星的图像、研究地质结构和化学性质等,看那里是否具备外星人存在的基本条件,以便探索结果更深入、更有效。有关专家认为,将人工智能技术用于分析海量的数据,确实是一个比较好的有关地外文明的探索方法。又如,1972年,美国生物化学家、诺贝尔化学奖得主克里斯蒂安·安芬森先生在获奖感言中提出了一个假设来说明酶进行化学合成的可能性。这就是著名的蛋白质折叠结构预测;由于它的计算难度很高,计算量也超级巨大,计算结果的准确度始终无法超过做实验得出的结果。这个假设成了生物化学方面近50年来一个重大难题;该难题最近被谷歌DeepMind推出的AlphaFold破解了。此消息一出,立刻被《自然》(Nature)、《科学》(Science)等多家杂志报道。有专家认为,这可能是首个有望获得诺贝尔奖的人工智能成果。再如,在新冠肺炎(COVID-19)疫情期间,广大科研人员借助人工智能技术抗击新冠病毒,使这一高新技术在疫情中发挥了前所未有的能力。他们通过新冠患者的数据了解到潜伏期、临床特征,为新冠早期症状鉴别起了很大作用;他们根据大数据做出新冠疫情的预测模型,为政策制定提供了重要依据。比如中国香港理工大学及澳门科技大学根据有关数据,研发出能快速诊断新冠患者的人工智能系统;只需20秒便能断症,并预测患者病情是否会恶化,准确率达90%以上。从上面列举的实例可见,人工智能技术可以在科研大数据中发挥巨大作用。随着科研工作量的增大,数据的规模也成倍增长;在现有的科研环境中,如何处理长期积累的历史数据,分析日常值守的实时数据和预判将要发生的事件变得尤为重要。完全可以相信,有了人工智能技术助力,今后科研中的大数据问题将会迎刃而解。
  • [技术干货] “营销数字化10讲”(3):营销数字化的灵魂是用户画像
    编辑导语:在这个大数据时代,“用户画像”这个词我们都不陌生,它经常跟精准营销挂钩。通过用户画像,我们可以根据一个人的兴趣、地理位置等进行精确的推送,达到良好的营销效果,满足用户需求的同时,也达到我们的目标。因此可以说,营销数字化的灵魂是用户画像。01没有用户画像的数字化,不过是个摆设。用户画像,就是用户标签化。标签化,是为了便于识别用户,而且是计算机自动识别。精准识别用户,才能精准服务用户,瞌睡的时候送个枕头。自动识别用户,自动完成即时信息和政策推送,在用户改变购物行为的瞬间,自动形成用户新画像。数字化的威力,只有通过用户画像才能显示出来。02过去线下销售是“一对一”、“面对面”,无论是B端或C端都是如此。一对一,就有相对充足的时间沟通、交互。如果是熟人,可以根据喜好推荐。KA店,只有让用户自选。现在用户在线,需要同时面对海量用户,比如双11,上亿用户同时在线,千万商户同时在线,上亿SKU同时在线。而且需要即时推送,即时更新。那么,怎么才能在用户每次点击时,快速生成符合用户需要的产品或内容,而且整个过程没有让用户感觉到时间滞后呢?答案是计算机自动完成的用户画像,平台根据产品画像和用户画像,自动匹配,瞬间完成,即时推送。只不过,各类互联网平台的用户画像是平台完成的,用户无感,商户无感。快消品厂商的营销数字化,就不能依赖平台了,要依靠品牌商自己完成用户画像。03用户画像,一个专业词汇。普通人不了解,也没必要了解,即使用户已经被画像了,但浑然不知。实际上,只要打开各类电商平台、抖音、今日头条,用户已经被平台画像了,否则,平台怎么可能那么精准地推送产品或内容呢?无论是交易平台还是内容平台,平台都是撮合系统,即产品与用户之间撮合,在合适的时间把产品推荐给最合适的用户。撮合就要精准匹配,推送的正是用户需要的。只有匹配,成交率(转化率)才会高。阿里平台上亿用户与上亿SKU,没有产品与用户画像的匹配实现即时推送,撮合过程还不乱了套?今日头条、抖音上有巨量内容,也有海量用户。如果靠用户自己搜索、寻找,多浪费时间啊,好在现在有AI技术用于用户画像!用户画像就是根据用户在平台浏览、观看、交易等行为留下的痕迹(数据),按照一定的画像规则和目的,给用户画像,然后根据用户画像精准推送内容。比如,今日头条、抖音等媒体,会根据用户偏好、倾向性,针对性推送内容。美国打压TikTok,中国及时发布政策,禁止算法类技术出口。AI算法一个很重要的作用就是用户画像,AI算法既用于用户画像,也用于产品(内容)画像,然后实现两者匹配。比如,平台通过用户画像确定某用户的需求偏好,比如价格偏好、品牌偏好等。同时,产品也有画像,然后实现产品和用户偏好的匹配。只有匹配,转化率才会提高。平台已经给产品和用户画像了,但用户为什么没有感觉呢?这是因为用户画像是平台在做,商家和用户只是被画像,画像用于推送产品或内容。用户只是感觉产品更合味品,但不知道自己被画像了。042C平台的用户画像,已经是平台的日常了。那么,快消品厂家的数字化是否需要用户画像呢?当然需要!只有用户画像,才能更精准。比如,一个新品投放市场,过去深度分销采取的是全面铺货。但是,现在产品升级,新品铺货需要精准。如果某高端新品投放市场,就需要找到精准铺货终端。那么,就需要对终端进行用户画像。假设高端新品铺货的用户要符合三条标准:终端有新品推荐能力;终端有高端用户群;终端在该品类有优势。那么,就可以根据上述标准给终端画像,筛选出符合上述条件的终端进行认知教育(如体验),然后铺货。因为画像精准,铺货后销售情况不错,就可以展开更全面的铺货。新品铺货,终端画像的数据从何而来?有两大来源:一是自己有终端数据,就可以根据历史数据给终端画像;二是如果刚上线,没有数据,就可以找系统平台或第三方专业公司,他们会根据其它公司的数据,给终端画像。无论是厂家还是代理商、新零售,只要在线,只要数字化,就一定要有用户画像。现在的新零售场景,即使是线下,也可以实现用户画像。比如,用户在卖场逛,走到一处,专场屏幕就会根据用户画像推荐合适的商品;再比如,连锁店只要识别用户进店(比如人脸识别),就可以根据用户画像,主动导购,比过去的被动导购更精准。05即使是传统销售,也有简易的用户画像,比如7-11便利店的收银键盘,就是按照性别、年龄进行统计的。只不过,这种画像只能是集体画像,比如性别占比、年龄占比,不是精准的单个用户画像。用户画像大致分两类:一是用户属性画像,二是用户行为画像。用户属性画像:比如性别、年龄、收入、兴趣爱好、活跃时间,居住地。前面讲到的高端新品铺货终端,也是属于B端用户的属性画像。用户属性画像:可以用于产品开发,比如寻找目标用户;可以用于产品推荐,比如用户画像是“宝妈”,那么,就可以根据宝妈的需求特征,向“宝妈”用户推荐适合的商品。在线推荐系统,把相同画像的用户称为“邻居”,根据“邻居”的喜好推荐给用户。传统营销也做用户画像,更多的是用户属性画像。大数据也做用户属性画像,比如新品研发,比如B端用户画像。但是,针对C端用户的大数据画像,更多的行为画像。如果说用户属性画像是根据画像“猜测“用户行为的话,那么,用户行为画像就是根据以前和现在的行为,预测下一次行为。行为已经产生,预测下一次行为就相对比较容易。营销数字化最重要的画像是行为画像。行为画像与属性画像不同,属性画像有一定的稳定性,因为性别、年龄是稳定的,兴趣爱好也有相对稳定性。但是,即便是同一个人,行为变化也很大,比如抖音用户,今天喜爱的内容,明天或许想换一个口味,那么,只要用户做出改变,用户行为画像立即做出改变。很多今日头条的用户曾经抱怨,头条把自己的喜好固化了,自己其实想看更多的新东西。但是,即使“想看”,只要没有付诸行为,画像就不会改变。只要用户尝试做出改变,画像就立即变化。那么,什么是用户行为?在今日头条上,用户行为包括点击内容、阅读时间、点赞、评论等,根据这些行为进行画像,然后确定以后推送的内容。亚马逊是利用用户画像推荐的鼻祖,亚马逊通过用户在站点的行为,包括浏览物品、购买物品、加入收藏夹和wish list等,以及评分等用户反馈方式,共同构成用户画像,并用于下列用途:当日推荐:根据用户近期浏览和购买记录,结合当下流行物品给出一个综合推荐;新品推荐:采取基于内容的推送机制,将一些新产品推荐给用户。由于新产品只有较少的用户喜好数据,基于内容推送就解决了这个问题;关联推荐:采用数据 挖掘技术对用户的购买行为进行分析,找到经常被一起或被同一个人购买的物品集。在图书购买中,这类推荐就非常多;他人购买/浏览物品:这是物品的协同过滤推荐,通过社会化机制,用户能更方便地找到感兴趣的产品。06用户画像是数字化的灵魂,很难想象没有用户画像,数字化会做得很好。传统营销也有数字,不过都是统计数字,比如年销售额、当日销售额等。这些数字也有用,但对于在线化则价值不大了。用户在线化提出一个要求:即时推荐,用户在线的每一次行为,包括浏览、购物、评分反馈、拼团等,都在改变用户画像。也就是说,用户行为画像是动态画像。用户每次网上行为,紧接着会有下一次行为,在两次行为之间,都要决定下次推送的产品或内容。因此,在线化环境下,用户画像要能够做到即使推荐。在线即时推荐,就要求用户画像要根据原来的数据,完成画像建模(建立模型),瞬间完成计算,然后推送产品、内容或政策。抖音等内容平台的每次点击后的页面更新,都是用户画像计算的结果;阿里、拼多多的每次点击页面,都是用户画像即时计算,然后推送的结果。快消品厂家的数字化,现在基本上只是完成了可以在线,没有建模,没有画像,更没有即时推送能力。比如,一物一码,现在绝大多数只是无差别地发红包。没有用户画像,就会把用户视为同一个画像(同一个模样)。用户画像是个大话题,会反复讲,下期讲品牌商与零售商视角用户画像的区别。#特邀作者#刘春雄,微信公众号:刘老师新营销(ID:liuchunxiong1964),人人都是产品经理特邀作者。现任郑州大学副教授,硕士生导师,兼任北京大学EMBA课程主讲导师,《销售与市场》杂志社副总编,清华大学MBA、中国人民大学MBA特聘客座教授。
  • [参赛经验分享] 2020中国高校计算机大赛·华为云大数据挑战赛-周周星分享(第二期)
    一、周周星分享——无能的万金油大家好,我们是“无能的万金油”团队,很荣幸获得了本次的周周星。下面是我们对于复赛数据的部分理解和思路:1、比赛进行到这里,对于训练集和测试集的清洗就不说什么了,大家也意识到其实上分是一件越来越玄学的事情,在初赛表现好的模型,复赛却不一定好原因也很简单,每条路径的不确定影响因素太多了。。 天气、疫情、塞港等突发事件,导致运船并不会按正常路线行驶,同时又由于人为录入的原因,路由信息也并不完全准确,有的船只的实际停靠港口也不一致。在就是test是截断的数据,就更导致trace可能写的 A-B-C 但实际是 A-C 甚至 A-C-D,  而你拿到的只有C-D或者,-C的部分数据,这就更加大了预测难度。2、针对上面的情况,我们其实能够知道,做的特征并不一定越全越好,而且有时候也不一定(强特)就好,因为强特代表训练集的平均特征,但是拿到的数据其实分布是各种各样的。反而“弱”一点的特征,少部分特征的泛化能力特强。3、对于A榜,我觉得没必要太纠结分数,因为数据分布太不一致了,更多的应该表现在模型的泛化能力上,测试下各个特征组合预测的时间分布特点,不然B榜很容易翻车。4、最后说下数据训练,找相似路由匹配的思路是个方向,但是这方面要细化才可能达到好的效果,需要一点点测试。5、如果单纯追求分数的话,完全可以采用探榜的方式,我们其实很大一部分也是探榜提升来的,但是说实话对B榜预测没有实际意义,最多用来做验证,所以后期不会再采取这样的尝试。大赛赛题:https://competition.huaweicloud.com/information/1000037843/introduction
  • [参赛经验分享] 2020中国高校计算机大赛·华为云大数据挑战赛-周周星分享(第一期)
    一、周周星分享——什么都做不队大家好,我们是“什么都做不队”团队,很荣幸获得了本次的周周星。下面是本次的分享:1. 复赛的数据是更加复杂,我们在尝试的时候发现去重这个操作对数据的影响还是挺大的,针对不同的特征进行去重操作后 对最后的得分影响非常高,关于这一点我们初步认为大量塞港数据或者疫情影响数据导致。比如在测试集中LR运单号,我们尝试在匹配相似路径,最后发现部分属于2020的相似路径大部分出现一个情况: 到港口前开始停顿不动。 这可能是疫情原因导致的 也可能是塞港行为。我们认为上分的关键就是来处理这种异常运单号(可能会过拟合测试集)2. 特征选择:大家可以考虑使用少量特征,这个复赛数据有一个问题就是把初赛中某些强特带入能反向上分,可以尽量使用一些泛化能力强的特征。3. 模型方面 调参对模型的影响还是很大的,可以进一步参数通过调参上分。4. 接下来我们尝试去使用xgboost,ctb等其他模型看看是否会有提升效果,模型应该还是需要多多尝试。以上就是我们团队的分享 最后祝大家上分!二、周周星分享——智能集美大家好,我们是“智能集美”团队。首先感谢前几周的周周星的分享,下面是我们的一些思路心得。    1、数据清洗  A榜还有一周就要结束了,数据清洗的重要性我想大家都也明白。  初赛洗数据的方法已经不完全适用,所以我们除了保留了初赛部分简单的洗数据方法(如去除速度方向异常的gps记录),更多的采用的是画图找异常运单号的方式。通过先将各个运单号的航线画出来,找到可能为异常数据的运单号,再通提取这些异常数据的运单号数据,通过观察数据来判断是否进行删除。(在观察航线图的时候,还可以通过观察同一路由的其它运单号进行横向比对)  2、特征工程  特征工程是一个比较玄学的东西,大家可以尝试增删特征,找对比较合适的特征搭配。(我也在找…)  3、模型选择     LGB,永远滴神。参数还是有一定的影响的,在实在没有其它思路的时候可以考虑调参。  4、塞港问题  塞港显然是一个对结果影响很大的因素,但我们目前也没有什么很好的解决方案,毕竟有的船才刚刚走了百分之十到二十的路程,实在不知道怎么判断它有没有塞港。  我们接下来会特别关注一下经常塞港的路由,试图寻找到一些规律,同时我们接下来还会考虑疫情对于航线的影响,最后祝大家都能够取得好成绩。三、周周星分享--突然Ping通大家好,我们是“突然Ping通”团队,很高兴获得本次比赛的最后一周周周星,首先感谢前两周周周星的分享,让我们也有机会获得周周星。简要分享一下我们的思路:1、我们数据处理方式和初赛差不多,不过在初赛的基础上加了一步处理塞港状态的代码,根据之前官方人员提示经纬度在误差0.25之内可算到港,距离大概在30-40千米左右,所以我们对一些塞港的和到港又开走的数据进行了截断,就我们的方案在本地而言清洗完这类数据效果更好。由于测试集存在一些“离谱”的数据,比如FA订单,这些数据模型不能预测,所以我们对这类订单进行了后处理。2、特征工程一开始使用初赛的方案,但是效果不好,删除几个强特反而能够上分,所以大家可以尝试用少量特征调试。3、看到上周有周周星分享调参能上分,我们这周也用调参工具尝试调参,确实能上不少分,所以大家也可以尝试换换祖传参数,上一波分。大赛赛题:https://competition.huaweicloud.com/information/1000037843/introduction
  • [参赛经验分享] 2020中国高校计算机大赛·华为云大数据挑战赛-周周星分享(第一期)
    一、周周星分享——什么都做不队大家好,我们是“什么都做不队”团队,很荣幸获得了本次的周周星。下面是本次的分享:1. 复赛的数据是更加复杂,我们在尝试的时候发现去重这个操作对数据的影响还是挺大的,针对不同的特征进行去重操作后 对最后的得分影响非常高,关于这一点我们初步认为大量塞港数据或者疫情影响数据导致。比如在测试集中LR运单号,我们尝试在匹配相似路径,最后发现部分属于2020的相似路径大部分出现一个情况: 到港口前开始停顿不动。 这可能是疫情原因导致的 也可能是塞港行为。我们认为上分的关键就是来处理这种异常运单号(可能会过拟合测试集)2. 特征选择:大家可以考虑使用少量特征,这个复赛数据有一个问题就是把初赛中某些强特带入能反向上分,可以尽量使用一些泛化能力强的特征。3. 模型方面 调参对模型的影响还是很大的,可以进一步参数通过调参上分。4. 接下来我们尝试去使用xgboost,ctb等其他模型看看是否会有提升效果,模型应该还是需要多多尝试。以上就是我们团队的分享 最后祝大家上分!二、周周星分享——智能集美大家好,我们是“智能集美”团队。首先感谢前几周的周周星的分享,下面是我们的一些思路心得。    1、数据清洗  A榜还有一周就要结束了,数据清洗的重要性我想大家都也明白。  初赛洗数据的方法已经不完全适用,所以我们除了保留了初赛部分简单的洗数据方法(如去除速度方向异常的gps记录),更多的采用的是画图找异常运单号的方式。通过先将各个运单号的航线画出来,找到可能为异常数据的运单号,再通提取这些异常数据的运单号数据,通过观察数据来判断是否进行删除。(在观察航线图的时候,还可以通过观察同一路由的其它运单号进行横向比对)  2、特征工程  特征工程是一个比较玄学的东西,大家可以尝试增删特征,找对比较合适的特征搭配。(我也在找…)  3、模型选择     LGB,永远滴神。参数还是有一定的影响的,在实在没有其它思路的时候可以考虑调参。  4、塞港问题  塞港显然是一个对结果影响很大的因素,但我们目前也没有什么很好的解决方案,毕竟有的船才刚刚走了百分之十到二十的路程,实在不知道怎么判断它有没有塞港。  我们接下来会特别关注一下经常塞港的路由,试图寻找到一些规律,同时我们接下来还会考虑疫情对于航线的影响,最后祝大家都能够取得好成绩。三、周周星分享--突然Ping通大家好,我们是“突然Ping通”团队,很高兴获得本次比赛的最后一周周周星,首先感谢前两周周周星的分享,让我们也有机会获得周周星。简要分享一下我们的思路:1、我们数据处理方式和初赛差不多,不过在初赛的基础上加了一步处理塞港状态的代码,根据之前官方人员提示经纬度在误差0.25之内可算到港,距离大概在30-40千米左右,所以我们对一些塞港的和到港又开走的数据进行了截断,就我们的方案在本地而言清洗完这类数据效果更好。由于测试集存在一些“离谱”的数据,比如FA订单,这些数据模型不能预测,所以我们对这类订单进行了后处理。2、特征工程一开始使用初赛的方案,但是效果不好,删除几个强特反而能够上分,所以大家可以尝试用少量特征调试。3、看到上周有周周星分享调参能上分,我们这周也用调参工具尝试调参,确实能上不少分,所以大家也可以尝试换换祖传参数,上一波分。大赛赛题:https://competition.huaweicloud.com/information/1000037843/introduction
  • [参赛经验分享] 2020中国高校计算机大赛·华为云大数据挑战赛-周周星分享(第二期)
    一、周周星分享——无能的万金油大家好,我们是“无能的万金油”团队,很荣幸获得了本次的周周星。下面是我们对于复赛数据的部分理解和思路:1、比赛进行到这里,对于训练集和测试集的清洗就不说什么了,大家也意识到其实上分是一件越来越玄学的事情,在初赛表现好的模型,复赛却不一定好原因也很简单,每条路径的不确定影响因素太多了。。 天气、疫情、塞港等突发事件,导致运船并不会按正常路线行驶,同时又由于人为录入的原因,路由信息也并不完全准确,有的船只的实际停靠港口也不一致。在就是test是截断的数据,就更导致trace可能写的 A-B-C 但实际是 A-C 甚至 A-C-D,  而你拿到的只有C-D或者,-C的部分数据,这就更加大了预测难度。2、针对上面的情况,我们其实能够知道,做的特征并不一定越全越好,而且有时候也不一定(强特)就好,因为强特代表训练集的平均特征,但是拿到的数据其实分布是各种各样的。反而“弱”一点的特征,少部分特征的泛化能力特强。3、对于A榜,我觉得没必要太纠结分数,因为数据分布太不一致了,更多的应该表现在模型的泛化能力上,测试下各个特征组合预测的时间分布特点,不然B榜很容易翻车。4、最后说下数据训练,找相似路由匹配的思路是个方向,但是这方面要细化才可能达到好的效果,需要一点点测试。5、如果单纯追求分数的话,完全可以采用探榜的方式,我们其实很大一部分也是探榜提升来的,但是说实话对B榜预测没有实际意义,最多用来做验证,所以后期不会再采取这样的尝试。大赛赛题:https://competition.huaweicloud.com/information/1000037843/introduction
  • [行业资讯] 十堰政府网总编辑严谨编撰3册网络科技专著出版发行
    8日,由十堰政府网总编辑严谨主持编撰的《趣论大数据分析》《趣论物联网应用》《趣论人工智能应用》3册网络科技专著正式出版发行。该系列专著由广东经济出版社出版,全国新华书店经销。该系列专著,开辟网络技术“趣论”之先河,完整的体系、严密的逻辑、生动的语言,力求让技术学习变得愉悦高效。万物互联的时代,数据无处不在,与传统“小数据”相对应的“大数据”应运而生。《趣论大数据分析》一书,介绍了大数据的起源与发展、结构与类型,主要技术手段,常用分析方法、大数据分析的三个步骤十个环节,以及与大数据紧密相关的云计算、数据仓库、数据集市、分析软件和国家政策,等等。物联网是继工业和信息化革命后的又一场伟大的革命,带来了全球第三次信息化浪潮,引领人类社会进入一个崭新的智能时代,成为推动世界经济增长、人类社会进步的新的“驱动器”和“生产力”。《趣论物联网应用》一书,按照由浅入深的顺序介绍物联网的主要技术手段,诸如,传感器:让物体从“死物”变“活物”;射频识别:赋予物体“读写能力”;定位技术:赋予物体“处境意识”;红外线:使物体“知冷知热”;等等。
  • [问题求助] 鲲鹏BoostKit大数据使能套件编译Sentry源码包下载问题
    【功能模块】在openEuler系统上编译大数据组件Senrty,由于CDH开始收费,下载不了Sentry相关的源码包。【操作步骤&问题现象】1、在GitHub上面下载源码,https://github.com/apache/sentry/releases/tag/release-1.5.12、使用maven编译Sentry,在Github下载的Sentry源码,没有生成相关的bin.tar.gz包3、maven版本信息如下:【截图信息】我在华为云服务器上编译之后,没有相关的 bin.tar.gz包,只有jar包生成。我在Github下载的是, CDH移植指南里面的教程,是成功生成的,指南连接:https://support.huaweicloud.com/prtg-cdh-kunpengbds/kunpengsentrycdh_02_0016.html不知道能否提供一下Sentry 的CDH源码包,谢谢!【日志信息】(可选,上传日志内容或者附件)
  • [酷哥说库] 盘点2021年全球十大数据安全事件
    近日,有国外媒体梳理了2021年十大数据泄密事件,并对事件进行了点评分析,可供读者参考。2021年,数据隐私泄露事件频发,涉及面广,影响力大,企业因此陷入数据保护合规与社会舆情压力的双重危机。近日,有国外媒体梳理了2021年十大数据泄密事件,并对事件进行了点评分析,可供读者参考。据数据统计,共有近2.2亿人受到以下十大数据安全事件的影响,其中三起泄密事件发生在科技公司,四起涉及敏感记录的泄露。1. OneMoreLead影响人数:6300万发现时间:2021年8月事件概要:vpnMentor的研究团队在8月份发现, B2B 营销公司 OneMoreLead 将至少6300万美国人的私人数据存储在一个不安全数据库中,该公司任由此数据库完全敞开。该数据库包含列出的每个人的基本个人身份信息数据,以及有关其工作和雇主的类似数据和信息。这些信息很可能被提供给注册其 B2B 营销服务的客户或顾客。vpnMentor 看到了数据库中大量的 .gov 和纽约警察局电子邮件地址,这让黑客有可能渗透到原本安全的高级政府机构。vpnMentor 表示,政府和警察部门成员的私人数据如同从事犯罪活动的黑客眼里的金矿,可能导致重大的国家安全事件,使公众严重丧失对政府的信任。据 vpnMentor 称,姓名、电子邮件地址和工作场所信息暴露在任何拥有网络浏览器的人面前。事件点评:科技和数据对于今天的营销而言非常重要,大数据营销的概念也是方兴未艾。当营销者们欢欣鼓舞地收集数据,建立模型,去做洞察,以指导营销时,用户数据的安全性该如何保障,企业营销的底线是什么,值得营销公司深思。2. T-Mobile影响人数:4780万发现时间:2021年8月事件概要:T-Mobile 于 8 月 17 日证实,其系统在 3 月18 日遭到了网络犯罪攻击,数百万客户、前客户和潜在客户的数据因此泄密。T-Mobile 表示,泄露的信息包括姓名、驾照、政府身份证号码、社会保障号码、出生日期、 T-Mobile 充值卡 PIN 、地址和电话号码。T-Mobile表示,不法分子利用了解技术系统的专长以及专门工具和功能,访问了该公司的测试环境,随后采用蛮力攻击及其他方法,进入到了含有客户数据的其他 IT 服务器。T-Mobile 表示,它弄清楚了不法分子如何非法进入其服务器并关闭这些入口点。该公司表示,它将向所有可能受到影响的人提供为期两年的免费身份保护服务(迈克菲的身份窃取防护服务)。此外, T-Mobile 表示为后付费客户提供帐户接管防护服务,这样一来,客户帐户更难被人以欺诈手段外泄和窃取。事件点评:T-Mobile 是一家跨国移动电话运营商,是德国电信的子公司,属于 Freemove 联盟。T-Mobile 在西欧和美国运营 GSM 网络,并通过金融手段参与东欧和东南亚的网络运营。该公司拥有1.09亿用户,是世界上较大的移动电话公司之一。对于网络犯罪分子来说,这类公司具有较高价值。通信公司有义务保护好客户信息,需要在数据安全方面做更多功课。3. 未知的营销数据库影响人数:3500万发现时间:2021年6月数据内容:个人信息事件概要:Comparitech研究人员在7月29日报告,一个含有估计3500万个人详细信息的神秘营销数据库泄露在网上,居然未设密码。该数据库包括姓名、联系信息、家庭住址、种族以及众多的人口统计信息(包括爱好、兴趣、购物习惯和媒体消费等)。相关样本显示,大多数记录与芝加哥、洛杉矶和圣迭戈这些大城市的居民有关。据 Comparitech 声称,凡是拥有网络浏览器和互联网连接的人都可以访问数据库全部内容,里面含有的信息可用于有针对性的垃圾邮件和诈骗活动以及网络钓鱼。Comparitech网络安全研究团队在6月26日发现了该数据库,尽管使出了浑身解数,还是无法确定该数据库归谁所有。该公司联系了托管该数据库服务器的亚马逊网络服务(AWS),要求撤下数据库,不过,该数据在7月27日之前仍可以访问。事件点评:互联网在提供精准营销的背后,却是一遍又一遍对用户隐私数据的索取、整理、分析和挖掘。任何国家的任何法律,都没有说不允许使用个人信息,所有的法律和规定,都是围绕如何正确使用这些信息,而不是如何禁止使用这些信息,这是一个大前提。那么,个人数据如何才算正确使用呢?这就涉及到“同意”原则,同意原则是企业使用个人信息的起点。当然,也有例外的情况可以不经过个人同意就使用个人信息,一般都是涉及国家安全等特殊情况。同意原则包含三个类型:默认同意、明示同意和授权同意。4. ParkMobile影响人数:2100万发现时间:2021年3月事件概要:ParkMobile在3月份发现一起与第三方软件漏洞有关的网络安全事件。调查发现,其基本的用户信息被人访问,包括车牌号、电子邮件地址、电话号码和车辆昵称。在少数情况下,邮寄地址也被访问。该公司还发现加密的密码被访问,但读取这些密码所需的加密密钥并未被访问。ParkMobile表示,它使用先进的散列和加入随机字符串(salting)技术对用户密码进行加密,以此保护用户密码。ParkMobile表示,用户应考虑更改密码,作为另一道预防措施;信用卡或停车交易历史记录未被访问;它并不收集社会保障号码、驾照号码或出生日期。ParkMobile称:“作为美国较大的停车应用软件,用户的信任是我们的重中之重。请放心,我们认真对待保护用户信息安全的责任。”事件点评:ParkMobile是在北美颇受欢迎的移动停车应用,用来显示街头可用的停车位Parkmobile还支持应用内支付停车费,即用户进入符合要求的距离之后可以在手机上为车位付费。不过需要特别注意的是,该功能只面向ParkmobilePro付费用户开放。它还能提供停车费折扣、路边援救以及临时优惠活动。在给用户带来方便的同时,其安全性也需要进一步加强。5. ClearVoiceResearch.com影响人数:1570万发现时间:2021年4月事件概要:ClearVoice在4月份获悉,一个未经授权的用户在网上发布了含有2015年8月和9月调查参与者的个人信息数据库,并向公众出售这些信息。可访问数据包括联系信息、密码以及针对用户健康状况、政治派别和种族等问题作出的答复。ClearVoice表示,这批数据可能会被不法分子滥用,导致调查参与者被人(比如广告商)联系。此外,可访问的信息可能用于准备个人资料,而这些资料可用于商业或政治目的。在收到未经授权用户发来的电子邮件的一小时内,ClearVoice表示它找到了备份文件,确保其安全,并消除了云服务端这个文件面临的泄露风险。另外ClearVoice对可能泄露信息的所有会员强行重置了密码,还实施了安全措施,以防止此类事件再次发生,并保护会员数据的隐私。事件点评:ClearVoice是一个人才网络和内容营销平台,帮助企业创建引人入胜的内容,以支持他们的博客,SEO,社交媒体和营销自动化。ClearVoice集成的编辑日历和简化的内容工作流程可提高工作效率,并帮助营销人员实现其内容营销目标。显然,在其开展相关营销活动时,并未很好地将安全性纳入到其平台上。6. Jefit影响人数:905万发现时间:2021年3月事件概要:锻炼跟踪应用程序Jefit在3月份发现了因安全漏洞而导致的数据泄密,这起事件影响了2020年9月20日之前注册的客户帐户。不法分子访问了以下信息:Jefit帐户用户名、与帐户关联的电子邮件地址、加密的密码以及创建帐户时的IP地址。Jefit保存IP地址用于防止机器人程序,并将滥用帐户登记在册。该公司查明了数据泄密的根本原因,并证实Jefit的其他系统未受影响。Jefit表示,它已采取安全措施来加强网络,以防范将来出现类似的泄密事件,并正在其产品上采用更加强大的密码策略,以便将来进一步保护用户帐户。此外,Jefit表示,敏感的财务数据未受到牵涉,因为该公司从不存储客户的付款信息。客户在Jefit网站购买产品时,所有支付流程都由Google Play Store 、 Apple App Store直接处理,或者由支付网关公司直接处理。事件点评:Jefit成立于2010年,立志于成为健身界的Facebook,在这个语境下,它有着同类应用难以比肩的大型数据库:超过1300种训练动作,以及数以百万计用户分享的训练计划。Jefit只能做到对健身训练数据的追踪和管理,想要直观地分析一定周期内个人在健身时的训练状态和身体表现情况,还得借助一些数据整合和分析工具。不管是使用自身系统还是借助于第三方工具,都需要做好数据保护工作。7. Robinhood影响人数:700万发现时间:2021年11月事件概要:电子交易平台Robinhood在11月8日披露,未经授权的有关方在五天前通过电话冒充员工,访问了客户支持系统。Robinhood表示,在此次事件中,黑客获得了大约500万人的电子邮件地址列表以及另外大约200万人的全名。Robinhood表示,这700万条记录中的数千个条目包含电话号码,大约310人的姓名、出生日期和邮政编码已被公开,其中大约10个客户的更详细帐户信息被公开。Robinhood在遏制这起入侵后表示,黑客敲诈索要赎金。它及时通知了执法部门,将在Mandiant的帮助下继续调查这起事件。事件点评:冒充他人登录到企业网络,事实上就是窃取员工的身份。身份认证也称为"身份验证"或"身份鉴别",是指在计算机及计算机网络系统中确认操作者身份的过程,从而确定该用户是否具有对某种资源的访问和使用权限,进而使计算机和网络系统的访问策略能够可靠、有效地执行,防止攻击者假冒合法用户获得资源的访问权限,保证系统和数据的安全,以及授权访问者的合法利益。单一的身份认证手段容易导致账号被冒用,造成内部信息泄露,企业需要进一步加固自身的身份认证体系,来保障网络信息的安全。8. Accellion影响人数:676万发现时间:2021年初事件概要:2021年初,黑客结合旧版Accellion文件传输设备(FTA)中多个零日漏洞工具,向外泄露数据,要求付款以确保归还和删除数据。据HIPAA Guide网站报道, Clop勒索软件团伙的数据泄露网站被用来发布一些被盗数据,劝诱受害者支付赎金。截至2021年4月份,已知至少九家医疗保健组织受到了Accellion数据泄密事件影响,其中包括Kroger Pharmacy的147万客户、Health Net的124万会员、Trinity Health的58.7万患者、California Health&Wellness的8万会员、Trillium Health Plan的5万客户,以及Arizona Complete Health的2.9万会员。Stanford Medicine 、 University of Miami Health和 Centene Corp也受到了这次泄密事件的影响,不过这每家组织中受影响的人数尚未得到证实。泄露信息包括姓名、社会保障号码、出生日期、信用或银行账号、健康保险号码及/或与健康有关的信息。事件点评:"零日漏洞"(zero-day)又叫零时差攻击,是指被发现后立即被恶意利用的安全漏洞。通俗地讲,即安全补丁与瑕疵曝光的同一日内,相关的恶意程序就出现。这种攻击往往具有很大的突发性与破坏性。有证据显示,黑客更加善于在发现安全漏洞不久后利用它们,实施攻击活动。虽然目前不能完全防范零日漏洞攻击,但是,科学完善的防御体系能有效减少被零日攻击的机率,以及降低零日攻击造成的损失。9. Infinity保险公司影响人数:572万发现时间:2021年8月事件概要:Infinity保险公司在3月份披露,在2020年12月的两天内,有人未经授权,短暂访问了Infinity网络中服务器上的文件。Infinity全面审查保存在被访问服务器上的文件后发现,一些社会保障号码或驾照号码包含在文件中。这起事件还影响了Infinity现在和以前的员工,泄露信息包括员工姓名、社会保障号码及/或有限情况下与病假或员工赔偿索赔有关的医疗信息。受影响员工和客户将获得为期一年的免费信用监控服务会员资格。为了降低发生类似事件的风险,Infinity继续审查其网络安全计划,并利用调查信息来确定另外的措施,以进一步增强网络安全性。该公司在致员工的一封信中写道:“我们理解保护个人信息的重要性,对由此造成的不便深表歉意。”事件点评:Infinity财产保险公司是总部设立在伯明翰,为美国各州提供汽车保险的公司。作为美国表现良好的公司之一,提供非标准的汽车保险,为那些不能通过标准保险公司获得安全保障的个人提供保险服务。这些不标准的因素可能是因为驾驶记录里有事故记录,驾驶者的年龄,车型以及其他各种原因。Infinity财产保险公司是在非标准承保行业中第三大保险公司,作为有如此影响力的保险公司,应加强其数据安全。10. 尼曼集团(Neiman Marcus Group)影响人数:435万发现时间:2021年9月事件概要:奢侈品百货连锁店尼曼在9月份披露,未经授权的有关方于2020年5月获取了与客户在线帐户有关的个人信息。该公司表示,它已将该事件通知执法部门,已与Mandiant密切合作开展调查。泄露信息可能包括:姓名及联系资料、支付卡号及有效期、尼曼虚拟代金券号码,以及与在线帐户有关的用户名、密码以及安全问题和答案。尼曼称,大约310万张支付卡和虚拟代金券受到了影响,其中超过85%为过期或无效。尼曼回应称,它要求自2020年5月以来未更改密码的受影响客户重置在线帐户密码。此外该公司表示,如果受影响客户为其他任何在线帐户使用的登录信息与用于其尼曼帐户的登录信息相同或相似,应更改登录信息。事件点评:尼曼集团( Neiman Marcus )是美国以经营奢侈品为主的连锁高端百货商店,是当今世界高档、独特时尚商品的零售商,已有100多年的发展历史,其总部在美国得克萨斯州达拉斯,能进入该百货的品牌都是各个行业中的翘楚。此次数据泄露事件,使其公众声望受损。文章来源:https://zhuanlan.51cto.com/art/202201/697844.htm ,作者:安全牛
总条数:657 到第
上滑加载中