• [技术干货] 【直播回顾】【云享MindTalks·第十七期】#探索性数据分析方法#复杂数据的调查、汇总、理解与应用之道
    直播回放:https://bbs.huaweicloud.com/live/education_live/202109021900.html探索性数据分析方法核心理念与基本步骤1.理解数据科学“数据科学家不仅仅需要构建出色的数据模型,更重要的是能够阐释已获得的成果并将成果用于商业智能的开发当中”--Suresh Kumar Mukhiya➢涉及多个领域的跨学科知识,包括计算机科学,数据信息,统计学,以及数学➢数据科学正处于热度不减的巅峰时刻,同时数据科学家的技能也正在改变➢要成为顶尖的数据科学家,我需要学习什么类型的技能?2.探索性数据分析方法的核心理念“将探索性数据分析方法纳入统计学专家的工具箱,以便于对数据进行探查和发现信息并建立更加崭新的假设,从而在数据收集与实验的过程中开发出更加新颖的研究方法。”--John Tuckey➢探索性数据分析方法,Exploratory Data Analysis[EDA]指的是探查现有可用的数据集从而发现数据模型,异常点,检验假设,以及采用统计度量措施来验证假设的过程➢主要目的就是在实际进行正式建模或者形成假设之前探查出数据可以告知我们什么信息➢该方法让我们通过可视化技术来理解数据并为进一步的分析做出假设。其重点就是为后续步骤建立数据概要或者提供洞察信息➢在没有做出任何基本假设的情况下,探索性数据分析方法实际上揭示出了数据隐含的基本事实3.探索性数据分析方法的阶段划分➢8个阶段类似于跨行业数据挖掘标准流程(CRISP)中用到的框架➢数据需求确定[多种数据源/存储类型/数据分类]➢数据收集[以正确的格式进行存储]➢数据处理[预整理过程/导出数据集/存放到正确的表格/结构化处理]➢数据清洗[数据转换/完整性/数据重复性/数据错误/缺失值检查]➢探索性数据分析[数据中隐含的信息/采用多种类型的数据转换技术]➢数据建模与算法应用[模型用来描述自变量和因变量之间的关系]➢数据产品[数据作为输入,进而产生输出/推荐模型]➢信息传递与成果展示[成果传递/服务于商业智能/数据可视化]4.探索性数据分析方法的基本步骤➢问题定义[在提取有用的洞察信息之前,定义需要解决的业务问题]➢数据准备[定义数据源/定义数据架构模式和数据表/理解数据的主要特征/清洗数据集/删除不相关的数据集/转换数据/数据分块]➢数据分析[汇总数据/发现数据之间隐藏的相关性和关联关系/开发预测模型/评估模型/计算精度/汇总表,图表,描述性统计,推断统计,相关性统计,检索,分组,以及数学模型]➢应用开发与成果表示[以图表,汇总表,地图,以及图解示意图的形式向目标群体展示数据集信息/从数据集获取到的分析成果应该便于业务相关人员进行解读,这是探索性数据分析的主要目标之一/散点图,字符图,直方图,箱线图,残差图,均值图]5.常用软件与工具➢Python语言[广泛用于数据分析,数据挖掘,以及数据科学领域]➢R语言[广泛用于统计计算以及图形数据分析领域]➢Weka[开源的数据挖掘软件包/含有探索性数据分析方法中用到的多种工具和算法]➢KNIME[基于Eclipse集成开发环境,用于数据分析的开源工具]➢Python库-NumPy[数据分析与科学计算基础软件包]➢Python库-Pandas[数据分析支持库]➢Python库-SciPy[用于科学计算的开源Python库]➢Python库-Matplotlib[大量的可自定义的绘图库,全面完整的后端程序。报表应用程序/交互式分析应用程序/复杂仪表盘应用程序]6.答观众问见评论区:https://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=151651
  • [技术干货] 物联网如何帮助数据分析货币化
    将您现有的资产货币化。这听起来很简单——就像一个伟大的商业成功战略——把你已经拥有的东西变成一个宝贵的财富来源,甚至是全新的收入来源。然而,这可能是一个棘手的战略图片来源:https://pixabay.com/images/id-6494073/将您现有的资产货币化。这听起来很简单——就像一个伟大的商业成功战略——把您已经拥有的东西变成一个宝贵的财富来源,甚至是全新的收入来源。然而,这可能是一个棘手的战略。在这篇文章中,我们将探讨物联网如何帮助多个行业的组织将其数据分析货币化。 使用物联网将数据分析货币化 首先,让我们来看看物联网可用于通过数据分析获利的多种方式。 从最简单的角度来看,物联网可以为企业领导者提供一个全新的统一数据视图。嵌入在整个环境中的传感器收集数据并将其传输到单个集中式平台,从而提供单一的商业智能集中视图。获得新见解和采取切实行动来提高效率的机会是巨大的。 我们网站中经常讨论的另一个此类示例是预测性维护。在这里,物联网传感器可以对有价值的有形资产进行主动维护和维修安排,从而延长其使用寿命并提高业务利润。 然后是数据货币化与新收入来源更直接相关的方面。例如,在消费品类产品中嵌入物联网传感器可以让企业收集有关这些产品使用情况的数据,从而对客户行为和产品性能产生更深入、更丰富的见解。这些见解是开启新的销售、营销和产品开发战略的关键。 此类数据甚至可以打包并作为产品本身进行销售,从而形成全新的收入来源。 货币化有多种形式 货币化示例:从旨在提高效率从而节约成本的战略(从而间接地将数据分析货币化),到主动推动新收入流的战略(从而直接地将数据分析货币化)。思科表示,对于后者,尽管物联网“有潜力在未来几年产生约19万亿美元的价值…..,但70%以上的组织不会从其物联网解决方案中产生服务收入。” 一方面,这表明,在通过物联网实现数据分析的货币化方面,存在一些具有挑战性的障碍。另一方面,它为能够做到这一点的企业指出了一个令人兴奋的机会。 思科声称,这些障碍可以围绕2大领域来定义:安全和隐私问题;而成功的货币化需要大量投资以获取新能力,但通常没有明确的回报。换句话说,通过物联网货币化可能需要企业进行创新、试验和投资,而从一开始就没有明显的投资回报。 迎接挑战 那么,组织如何才能更好地应对这些挑战,并有效地利用物联网将其基础设施中的可用数据货币化? 关键是态度和实际实施的结合。在实施方面,安全性、隐私性和合规性是关键。组织需要采取自下而上的方法来确保他们部署的每一个物联网设备的身份,并确保从生成、传输和存储的那一刻起保护整个物联网基础设施中的数据。在态度方面,他们需要准备好在这个充满活力的技术空间中保持开放的心态,进行试验和创新。(编译iothome)来源 | 物联之家网作者 | Al Sisto 原文链接 | https://www.iothome.com/tech/fenxi/2021/0908/11872.html
  • [AI家园] AI数据建模如何预防气候灾难?
    跨学科的气候研究反映出了一种共识:即系统和综合分析包含了保护地球免受气候灾难影响的关键。大数据工具增强了数据整合,对正在发生的事情和即将发生的事情,提供了更好的洞察力。作者:科技行者  来源:今日头条随着预测分析模型的改进,该领域内的创新者们正在呼吁更好地访问并解释气候数据,这些数据历来非常分散,而使用起来非常昂贵。现在,已经很少有人工智能(AI)技术未曾涉足的领域了。对于气候变化的问题,人工智能的收集和过滤能力已经证明了这种技术是一种非常强大的工具。热度持续:寻找气候变化的解决方案从前工业时代算起,地球的年度平均地表温度上升了两度。这种微小的温度变化会导致累计热量产生重大影响。破纪录或者极端的温度、更多的降水以及积雪的减少会破坏生态系统。如果气候变化这个问题得不到解决,后果将非常严重:在美国,气温每升高 1℃ (33.8℉),年 GDP 据估计将下降 1.2%。如果不能够按照《巴黎协定》标准(1.5℃)限制温度上升,到2100年,就有可能导致人均GDP实际损失大约7%。极端天气影响了全球约 70% 的经济部门。在2020年,受气候影响造成的损失达到2680亿美元,其中64%有各类保险覆盖。有保险覆盖的企业或个人大都位于发达国家,例如美国。寻求气候变化解决方案的热潮已经兴起,世界各地的企业和政府都感到需要适应和恢复策略。基于数据的气候解决方案Arbol的首席执行官兼 dClimate 创始合伙人 Siddhartha Jha倡议将数据作为应对气候变化风险的一条路径。dClimate是一家在数据气候解决方案领域前沿的公司。Sid是这样描述气候数据的作用的:“气候数据的重要性不仅仅在于能够帮助企业和政府主动地为各种灾害天气最好准备,还在于它能够帮助他们构建工具(例如基于数据的天气保险、灾难模型和分析等),以更好地理解、管理风险并建立抵御这些风险的能力。”企业、政府和市场都依赖准确的气候数据和预测来做出战略规划决策:航运和物流公司依靠超本地天气预报来优化路线。建筑公司需要风力和降雨预报以避免工期延误。政府用气候数据为公共政策决策提供信息。如果领导者们能够获得气候数据,就可以提前为受气候和天气相关灾害影响最严重的地区制定援助计划。随着恶劣天气事件变得越来越频繁,气候变量也在发生变化,对可操作的气候情报的需求将持续增加。数据(和人工智能数据建模)能够如何帮助应对气候变化dClimate和Arbol 是同一个团队创立的,Arbol 是一个参数化天气保险平台,该平台利用机器学习和独特的人工智能承保人为天气风险市场带来透明度和效率。它同领先的去中心化预言网络 Chainlink 紧密集成,后者提供了对自动、去中心化数据验证和 dClimate 治理层的支持。消费者可以使用“技能点数”购买数据集。一个去中心化的自治组织(DAO)提出并投票表决计算技能点数的算法,该算法可以将平台的透明度保持在很高的水准上。Sid是这样描述dClimate在这条路上的起点和未来的目标的——“dClimate 始于一个强大的基础层,其中包含超过 1,000 TB经过清洗的、标准化的气候信息,这些信息已经通过网络的 REST API 免费提供给数据消费者。数据公司和独立发行商可以为这个基础层添砖加瓦,他们可以选择免费提供数据集,也可以在这里通过他们的工作获利。”该平台甚至对气候信息的临时消费者也很友好,这有效地实现了民主化,并且解决了过去阻碍发展的两个障碍。两大障碍:访问和成本有两个主要原因造成了气候数据没有能够得到充分利用:1. 访问2. 成本气候数据生态系统是高度分散的,而且不够透明,难以使用。即使是知识最为渊博的使用者难以以有效率的方式提取他们想要的数据。这就给将气候数据用于生产或工艺开发带来了通常难以克服的障碍。当今,成本也是气候数据得到充分使用的一个重要障碍。没有标准化的、开放的市场,只有精英们才能够购买洞见。如何公平竞争如果希望让气候数据帮助全球利益相关者主动适应气候变化风险,就必须克服这些障碍。 dClimate就是一家正在这样做的公司。正如 Sid 解释的那样,“dClimate 是第一个开放、透明和去中心化的气候数据、预测和模型网络。它将发行商和消费者在一个市场中直接连接起来,市场中所有的数据都会自动地进行可靠性评分,所有的参与者都在公平竞争的环境中运作,让最好的数据——而不是拥有最多营销预算的最大型的公司——能够自然而然地取得成功。”将正确的信息交到正确的人的手中,并及时利用这些信息做一些有意义的事情,要想做到这一点,气候数据的去中心化可能是一个关键。未来是活着对于复杂的人工智能系统来说,我们能够想象到的最崇高的使命之一就是维持和改善地球上的生活。在气候变化的情况下,可以毫不夸张地说,生命和经济都受到了威胁。Sid 描述了一个充满可能性的未来,“数据只是 dClimate 的基础层。对于全球70%以上正在因为气候和天气变化面临着日益增加的风险的企业来说,你能够使用这些数据所做的事情和构建的东西,才能够真正地实现变革。从新型的数据驱动的天气保险产品到帮助ESG计划认证碳足迹的应用程序,这些工具可以帮助各行各业的企业提前为气象灾害做好规划,并通过这种方式节省金钱、时间——甚至还可能挽救生命。参与者利用dClimate的可能性可以说是无穷无尽的。”Sid 补充表示:“dClimate不仅仅希望构建一个易于访问的数据集和模型存储库。这只是个起点。我们正在寻求建立一个真正透明和开放的生态系统,其中包含新的基于气候和天气的应用程序和产品,这些工具可以帮助全球企业、金融机构和政府建立自身的气候适应能力。”因为地球上的每一个生命都受到地球上其他生命的影响,所以在创新者们推动技术发展应对气候变化的时候,所有人都要全力以赴。
  • [热门活动] 泛微数字化党建管理平台:党员管理、党务开展更高效,党建更便捷
    国家提出“要高度重视信息化发展对党的建设的影响,做好网络发展到哪里党的工作就覆盖到哪里,充分运用信息技术改进党员教育管理。”随着数字时代的到来,越来越多组织开始着手推进党建工作数字化转型,提升党建质量!针对组织内部党员人数多、分布广、信息难摸清;党建工作分散、效率低;党务管理标准难统一;党内决策执行情况无法及时跟踪、考核;党建工作难量化,考核指标无法推进落实等管理难题。泛微将党建管理与移动办公高效融合,帮助打造集“党组织管理、党员档案、党员发展、党费管理、党建活动、党员教育以及数据执行分析”于一体的数字化党建管理平台。帮助实现党建工作留痕、全程联动,及时发现党建工作问题,规范、高效完成党建目标。(泛微数字化党建管理平台应用)泛微数字化党建管理平台亮点应用1、便捷党建门户,高效开启党建工作根据不同用户类型,构建“党员、自助党务以及党建宣传、党务公开等”多种专项门户类型,帮助智能聚合、分类党建信息、应用,高效了解党务消息、党员发展情况,一键开启党务办公。(多样化门户)2、智能党组织管理,建立组织信息图谱为了规范管理党组织、监督党组织情况,泛微借助移动端为用户提供便捷的“党组织管理”窗口,打开手机应用随时了解所有党组织的名称、类型、所属公司、组建时间、人员组成情况等信息,智能党组织地图帮您快速找到身边的组织和支部、高效开启交流通道。(党组织移动管理)3、党员管理服务,信息查询、教育/监督方便围绕“党员”管理所需,不断拓展应用,建立全面数字化的信息、学习窗口,全面提升党员信息管理效率,优化党员学习交流体验。1)党员信息管理帮助建立党员电子信息档案库,党员信息按照所属单位智能分类,形成树形索引,高效了解各个组织党员基本信息。(党员信息库)同时借助党员信息卡片,汇总呈现每一位党员信息,形成清晰、精准的党员数据,摸清党员情况。(党员信息卡片)2)党员在线教育泛微在线学习应用让党员在手机端不受时间空间限制,自主选择学习内容,随时在线交流、分享;同时,通过网上考试、在线答题及时检验学习成果、丰富学习形式,增强学习灵活性。(视频、音频、文字等多种形式学习资料)3)党员风险预警为了提升党员监管质量,泛微OA用流程帮助组织及时完成党员风险行为登记记录,形成集党员基本情况、主要预警事件、处理意见于一体的风险等级应用,提升党员管理质量。4、党务智能办理应用,规范、高效开展党务围绕组织内部“党员发展”、“党费缴纳”两大核心模块建立标准应用,提升党务办理效率。1)党员发展全生命周期管理围绕组织内部党员发展周期建立“提交入党、入党积极分子、发展对象备案、预备党员备案、预备党员转正”流程体系,形成各阶段人员信息库,规范、高效发展党员。• 流程化的党员发展审批体系党员入党、备案、转正过程全部通过流程驱动,规范审批推进,确保党员发展公开、透明。(入党申请流程展示)• 发展党员信息台帐,了解各阶段发展成果通过流程上报的各阶段人员信息自动分类汇总到电子表单,党组织人员可以随时通过信息台帐了解党员发展规模、转正情况等具体成果。(发展党员台账)2)党费便捷缴纳、快速查询、催缴根据党费标准灵活配置收费方式,实现按照基数比例、固定金额、减免等方式收缴党费,提供党费自动计算、统计、查询、缴费状态标记、缴费提醒、移动缴费等多种便捷应用,有效避免漏缴、忘缴现象。(缴费情况查询)(缴费数据统计-移动端快速补缴)以前收党费既要收钱、记账,个别忘记缴费的还要及时提醒,难免疏漏。现在,缴费、通知、催缴、统计、查询全部智能化、数字化,不仅管理便捷,党员体验更佳。5、党建活动高效组织,丰富参与方式借助OA流程、视频会议等多种应用模块,高效组织“三会一课、主题党日、基层评议会”等活动,实现流程化创建、智能通知、数字化开展,提升活动组织效率。(便捷会议)6、数据分析平台,精准掌握党建情况借助BI报表数据分析能力,帮助建立多维度党建数据分析平台,及时掌握党建成果,包括党组织数量、缴费统计排名、支部发展党员成果排名以及三会一课开展情况等信息,及时发现党建工作问题。(党建数据分析)应用价值:泛微数字化党建管理平台可以将党建管理制度进行流程固化,规范开展党建工作,帮助落实责任主体,实现党建任务执行、跟踪一体化,真正落实工作。同时结合移动应用帮助实现党建资源、应用整合,全面提升党建管理效率,帮助实现智慧、阳光、活力、效能、服务、廉洁的党建管理目标。
  • [热门活动] 华为云GaussDB(DWS)蝉联数据仓库领域年度“金沙奖”最佳产品奖
    7月28日-29日,2021(第六届)中国大数据产业生态大会在北京举行。本次大会以“数智转型 融合共生”为主题,共同探讨产业服务数字化发展和行业数智化转型方向,大数据领域年度“金沙奖”也在会上正式揭晓,华为云数据使能DAYU主力产品——数据仓库GaussDB(DWS)蝉联“2021 中国大数据·数据仓库领域最佳产品奖”。华为云GaussDB(DWS)是一款具备分析及混合负载能力的分布式数据库,面向政企、互联网和物联网等应用场景,以企业级内核、统一架构提供标准数仓,实时数仓和云数仓。业务分析师和数据分析师在批量分析、交互式查询与分析、实时分析等业务场景中,可借助GaussDB(DWS)轻松获得一站式分析能力,降低数据分析门槛提升数据分析效率,更便捷高效的释放数据价值。一站式数据分析支持上万分析师在线作业,满足企业平台容量需求继2020年获奖后,华为云GaussDB(DWS)研发团队在数据分析技术上持续探索。通过智能多维的混合负载管理,华为云GaussDB(DWS)可在集群内实现实时、批量、交互式负载的一站式数据分析。为数据接入提供丰富的数据源接口,满足数据分析的全流程中不同角色对数据分析的不同需求。通过自研TCP多流技术提高物理连接数量级,在MPP架构下数据节点全并行数据交换,华为云GaussDB(DWS)实现单集群最大支持2048节点。2021年Q1建成投产的480节点大集群分析师平台,成为金融行业最大规模商用数据仓库集群,支持上万分析师在线作业,极大满足了大企业数据量激增对平台容量扩展的需求。高并发毫秒级点查询,效率提升200倍通过30多项查询重写技术(含4项专利),优化Ad hoc查询性能,实现高并发毫秒级点查询。在已商用的GaussDB(DWS)数据分析平台中,灵活查询平均运行时间由30分钟降低至50秒,查询平均等待时长更是由5小时降低至1.5分钟,查询效率提升200倍!对企业而言,业务数据从产生到汇聚,再到面向场景化分析,每个环节都分秒必争,快速释放数据潜能已成为企业数字化转型的刚需。数据分析架构简化,流数据每秒千万级实时接入在互联网和物联网业务应用中,时序数据和流数据承载了大量的业务内容。典型时序和流数据分析方案需要引入多种组件,不但数据格式难统一,平台架构也变得非常厚重,扩展困难。华为云GaussDB(DWS)在全并行分布式架构上,无缝融合OLAP引擎、时序引擎、CEP引擎,简化数据分析组件架构,实现T+1和T+0合一的一站式数据分析,实时数据与历史数据关联分析技术做到同行业技术领先。在已投产的实时数仓方案中,流数据高峰流量每秒千万级实时接入,解决了传统方案流数据接入流量速率的瓶颈问题。华为云GaussDB(DWS)提供GB~PB级数据分析能力、多模分析和实时处理能力,用于数据仓库、数据集市、实时分析、实时决策和混合负载等场景,在全行业数字化转型中帮助企业提质增效,建立核心竞争力,夯实企业发展根基。     目前,华为云大数据热销主打的产品有:1. 数据仓库服务GaussDB(DWS)提供云上企业级融合数据仓库,支持实时数据分析,具备高性能、低成本、易扩展等特性2.MapReduce服务 3.0.5版新版ClickHouse集群支持跨AZ集群,适用海量数据大宽表实时分析/实时BI报表分析3. 云搜索服务 CSS兼容Elasticsearch完全托管在线分布式搜索服务,用于站内搜索/日志分析/运维监控等场景 4.数据湖治理中心 DGC数据全生命周期一站式开发运营平台,可复用行业知识库,助力企业快速构建数据运营能力5.数据湖探索服务 DLI提供一站式融合处理分析服务,会SQL就会大数据分析,高易用免运维 现在828大促期间,大数据福利专场上线,注册用户即可免费体验大数据,爆款产品击穿底价5折!详情点击了解:https://activity.huaweicloud.com/bigdata.html
  • [行业资讯] 可穿戴设备和连网设备应用
    过去的一年教会了我们许多关于医疗保健行业的事情——尤其是大数据分析的非凡影响。随着医疗研究人员和临床医生收集了有关新冠肺炎的更多数据(从病毒各个变体的基因组序列,到不同人群症状的典型发展,再到各种干预措施的效果),全球对这一流行病的反应变得更加智能和高效。这是数据分析在医疗保健中的实际应用——随着世界变得越来越全球化,它将成为保持人口健康的一个越来越重要的策略。让我们仔细看看数据分析在医疗保健中的一些应用。更智能的诊断有效的诊断取决于数据——从患者病历到对检查结果的解释,包括x光扫描。直到最近,这些数据的分析还取决于临床医生本人,以及他们跟上更广泛研究领域最新发展的能力。医疗保健中的数据分析意味着可以对大量诊断信息进行分析和比较。这使得无论是在症状、检查结果还是扫描图像中都可以发现模式,并极大地扩展了主动诊断的机会。个性化护理就健康和医疗而言,一种治疗方案并不适合所有人,医疗保健领域的数据分析有助于推动量身定制的个性化方法。通过将不同干预措施对不同患者群体的有效性数据与单个患者的详细信息相结合,数据分析可以针对正确的治疗方案提出积极的建议。病史、身体状况甚至环境条件都可以被考虑,还有细微差别也可以被考虑,正如我们在过去一年中所看到的那样,比如影响个体的细菌或病毒的特定菌株。可穿戴设备和连网设备用于监测心率、步行或跑步步数、睡眠模式等关键健康指标的可穿戴设备已成为主流。但这种可穿戴设备对医疗保健的影响远远超出了让个人更好地跟踪自己的健康和福祉。从连网设备收集的数据——无论是消费者可穿戴设备,还是诸如心率监测器、血压监测器、胰岛素探测器等更专业的设备,甚至诸如连网起搏器等植入设备,都可以让临床医生随时随地监测患者的健康状况。连网设备可以提供随时间推移个人健康状况的窗口,并且当特定指标达到令人担忧的水平时,可以向个人和护理人员发出警报提醒。的确,通过这种方式,可穿戴和连网设备在社会护理领域有很多重叠,大数据分析的机会众多,可以监测老年人和弱势群体的健康状况,并主动识别他们何时可能需要更多的家庭支持。未来的机会为了利用这些影响,医疗保健组织以及提供这些影响的技术提供商需要优先考虑能够顺利有效地进行大数据分析的方法和基础设施。这意味着优先考虑集成和互操作性。医疗保健行业庞大而复杂,其硬件和软件来自众多不同的供应商。(来源物联之家网)这些技术越来越需要能够相互连接和共享数据。当数据孤立时,数据分析将无法有效工作。这还意味着要实现强大的数字健康平台,它可以有效地将来自多个不同来源的医疗保健数据汇集在一起,进行详细的分析,并将这些数据转化为切实可行的见解。医疗保健领域的数据分析并不简单——数据集是复杂的、动态的,而且往往高度敏感——但正确的数据分析可以真正改变公共卫生。转载:物联网之家网
  • [行业资讯] TIOBE 8 月编程语言排行榜:数据挖掘和人工智能语言强势崛起!
    今天,TIOBE 官方最新发布了 8 月的编程语言榜单,一起来看本月榜单中有什么值得关注的发展趋势吧?(图片来自视觉中国)数据挖掘和人工智能语言正在蓬勃发展每一种编程语言的兴起从来都离不开它所适用的技术领域,二者之间一直以来都是水涨船高的关系,曾于智能手机兴起阶段一度攀升至 TIOBE 榜单前十的 Objective-C 就是最好的例子。Objective-C 的巅峰期在 2012-2014 年。那几年,智能手机的移动应用发展迅猛,Objective-C 作为当时苹果 iOS 应用开发的首选编程语言,自然也随着 iPhone 市场的不断扩大在应用开发者之间开始流行。但这一切在 2014 年苹果宣布推出 Swift 以取代 Objective-C 后逐渐终结,自今年 4 月起,Objective-C 再也没进入过 TOP 20。如今,数据挖掘和人工智能的蓬勃发展也是如此,这一领域的编程语言正在逐渐崛起。其中最成功的当属 Python 莫属,不仅成功挤入前三并有望冲击第一,更是获得了 2020 年度 TIOBE 最佳编程语言奖。同样适用于数据分析、人工智能等领域的上古编程语言 Fortran 也由此再次复兴,自 4 月冲进 TOP 20 后,本月更是刷新了自身最高名次:第 13 名。更令人惊讶的是,逻辑编程语言 Prolog(Programming in logic)在阔别 15 年后,本月也重新进入了 TOP 20。拥有简单文法、丰富表现力和独特的逻辑型编程三大特点的 Prolog 特别适用于表示人类思维和推理规则,因此一问世就获得了许多专注于人工智能领域开发者的关注,也成功应用于数理逻辑、自然语言理解等诸多领域:AI 界著名的认知计算系统 IBM Watson 中就有 Prolog 的身影。在这之中,R 语言的下滑就显得格外突兀,TIOBE 的 CEO Paul Jansen 对此表示:“我猜这是因为 Python 正在蚕食 R 的市场份额。”除了以上,在本月 TOP 20 的榜单中还有一些值得关注的变化:Go 语言在 7 月排名上升至第 13 名后,本月又降至第 18 名;于去年同期相比,Swift 今年以来的市场份额一直呈下滑趋势;PHP 以连续 3 个月维持第 8 名的位置。转载:CSDN
  • [行业资讯] 商业智能
    商业智能(Business Intelligence,简称:BI),又称商业智慧或商务智能,指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。商业智能的概念在1996年最早由加特纳集团(Gartner Group)提出,加特纳集团将商业智能定义为:商业智能描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。商业智能技术提供使企业迅速分析数据的技术和方法,包括收集、管理和分析数据,将这些数据转化为有用的信息,然后分发到企业各处。
  • [热门活动] 重磅来袭 | 7天大数据分析实战训练营
    ​随着互联网行业的快速发展,大数据被认为将是IT产业中最热门、最具发展性的领域。无论是金融、制造、零售业还是科技公司都拥有了大量的数据,且呈几何级增长,尤其是对于电子商务企业来说,更大的潜在机会隐藏于其中,这些数据中包含了客户的兴趣爱好、消费习惯等,通过一定的技术手段可以对海量数据进行提取、分析和挖掘,让企业更加了解客户诉求,并为其提供个性化的商品和服务。 与大数据相关的数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。随着大数据时代的来临,要想大数据被更好地认识和使用,从中提炼有价值的情报作为企业的数据资产,就需要进行大数据分析。因此大数据分析已经成为各行各业人员必备的技能之一。  华为云DLI,100%兼容开源生态的Serverless多模计算服务,会SQL就会大数据分析。 数据湖探索(Data Lake Insight,简称DLI)是完全兼容Apache Spark、Apache Flink、openLooKeng(基于Presto)生态,提供一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务。企业使用标准SQL、Spark、Flink程序就可轻松完成多数据源的联合计算分析,挖掘和探索数据价值。 DLI服务适用于海量日志分析、异构数据源联邦分析、大数据ETL处理。如游戏运营数据分析、车辆日常指标数据的采集和分析,电商实时业务数据分析等场景。 数据湖治理中心DGC,一站式开发运营平台 数据湖治理中心(DGC)是数据全生命周期一站式开发运营平台,30+异构数据源、全拖拽开发、多维实时搜索、0代码API开发,开发效率3倍提升,提供数据集成、数据开发、数据治理、数据服务、数据可视化等功能。   想学大数据分析?   快来参与华为云大数据分析7天训练 活动时间: 招募期  7月15日—7月28日 训练期   7月29日—8月6日 毕业期   8月7日—8月13日 面向对象: 大数据工程师、分析师、学生,以及对大数据分析感兴趣的朋友。 本次训练营课程全程分为7个阶段,华为云大数据产品专家亲授,电商行业场景实战演练,带来沉浸式学习体验。 参加训练营你将收获什么?1、0元领取大数据产品1个月套餐包,立省千元我们为您提供免费的套餐包以及课程代金券,用于满足实践诉求。2、丰厚的礼品,奖励爱学习的你对于能够坚持打卡学习的用户,我们提供了华为手环4e、无线鼠标、酷睿冰尊笔记本散热器等礼品。3、项目实践+产品专家亲授,带来沉浸式学习体验 课程实践基于真实业务场景,课程学习不再停留于理论知识;大数据产品专家群内指导,问题答疑。 心动不如行动,0基础也能轻松入门 7天大数据分析实战训练营 我们在训练营等你!
  • [技术干货] 分享GaussDB(DWS)海量数据分析
    云社区 博客 博客详情【云小课】EI第9课 车海茫茫中寻找你--GaussDB(DWS)海量数据分析 Hi,EI 发表于 2020-08-25 11:56:20 1061  1  3数据库数据仓库服务 GaussDB(DWS)云小课EI企业智能【摘要】 数据仓库服务GaussDB(DWS)使用OBS作为集群数据与外部数据互相转化的平台,支持用户将数据从集群外导入到集群中,快速将样例数据从OBS导入集群。 本示例将加载8.9亿条交通卡口车辆通行模拟数据到数据仓库单个数据库表中,并进行车辆精确查询和车辆模糊查询,展示GaussDB(DWS)对于历史详单数据的高性能查询能力。准备工作已注册华为云账号,且在使用GaussDB(DWS) 前检查账号状态,账号不能处于欠费或冻结状态。已下载客户端并连接到集群。已预先将样例数据上传到OBS桶的“traffic-data”文件夹中,并给所有华为云用户赋予了该OBS桶的只读访问权限。导入交通卡口样例数据使用SQL客户端工具连接到集群后,就可以在SQL客户端工具中,执行以下步骤导入交通卡口车辆通行的样例数据并执行查询。执行以下语句,创建traffic数据库。create database traffic encoding 'utf8' template template0;执行以下步骤切换为连接新建的数据库。在Data Studio客户端的“对象浏览器”窗口,右键单击数据库连接名称,在弹出菜单中单击“刷新”,刷新后就可以看到新建的数据库。右键单击“traffic”数据库名称,在弹出菜单中单击“打开连接”。右键单击“traffic”数据库名称,在弹出菜单中单击“打开新的终端”,即可打开连接到指定数据库的SQL命令窗口,后面的步骤,请全部在该命令窗口中执行。执行以下语句,创建用于存储卡口车辆信息的数据库表。create schema traffic_data; set current_schema= traffic_data; drop table if exists GCJL; CREATE TABLE GCJL ( kkbh VARCHAR(20), hphm VARCHAR(20), gcsj DATE , cplx VARCHAR(8), cllx VARCHAR(8), csys VARCHAR(8) ) with (orientation = column, COMPRESSION=MIDDLE) distribute by hash(hphm);创建外表。外表用于识别和关联OBS上的源数据。<Access_Key_Id>和<Secret_Access_Key>替换为实际值,在创建访问密钥(AK和SK)中获取。create schema tpchobs; set current_schema = 'tpchobs'; drop FOREIGN table if exists GCJL_OBS; CREATE FOREIGN TABLE GCJL_OBS ( like traffic_data.GCJL ) SERVER gsmpp_server OPTIONS ( encoding 'utf8', location 'obs://dws-demo-cn-north-4/traffic-data/gcxx', format 'text', delimiter ',', access_key '<Access_Key_Id>', secret_access_key '<Secret_Access_Key>', chunksize '64', IGNORE_EXTRA_DATA 'on' );执行以下语句,将数据从外表导入到数据库表中。insert into traffic_data.GCJL select * from tpchobs.GCJL_OBS;导入数据需要一些时间,请耐心等待。车辆分析执行Analyze用于收集与数据库中普通表内容相关的统计信息,统计结果存储在系统表PG_STATISTIC中。执行计划生成器会使用这些统计数据,以生成最有效的查询执行计划。执行以下语句生成表统计信息:Analyze;查询数据表中的数据量执行如下语句,可以查看已加载的数据条数。set current_schema= traffic_data; Select count(*) from traffic_data.gcjl;车辆精确查询执行以下语句,指定车牌号码和时间段查询车辆轨迹。GaussDB(DWS) 在应对点查时秒级响应。set current_schema= traffic_data; select hphm, kkbh, gcsj from traffic_data.gcjl where hphm = '粤D12345' and gcsj between '2016-01-06' and '2016-01-07' order by gcsj desc;车辆模糊查询执行以下语句,指定车牌号码和时间段查询车辆轨迹,GaussDB(DWS) 在应对模糊查询时秒级响应。set current_schema= traffic_data; select hphm, kkbh, gcsj from traffic_data.gcjl where hphm like '%A23F%' and kkbh in('508', '1125', '2120') and gcsj between '2016-01-01' and '2016-01-07' order by hphm,gcsj desc;转自https://bbs.huaweicloud.com/blogs/195410
  • [其他] 数据挖掘对象
    数据的类型可以是结构化的、半结构化的,甚至是异构型的。发现知识的方法可以是数学的、非数学的,也可以是归纳的。最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等。数据挖掘的对象可以是任何类型的数据源。可以是关系数据库,此类包含结构化数据的数据源;也可以是数据仓库、文本、多媒体数据、空间数据、时序数据、Web数据,此类包含半结构化数据甚至异构性数据的数据源。发现知识的方法可以是数字的、非数字的,也可以是归纳的。最终被发现的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等。
  • [其他] 数据挖掘
    数据挖掘(Data mining)是一个跨学科的计算机科学分支。数据挖掘有以下这些不同的定义:“从数据中提取出隐含的过去未知的有价值的潜在信息”  ,“一门从大量数据或者数据库中提取有用信息的科学”。数据挖掘运行是使用数据挖掘的设置对数据挖掘模型的计算。数据挖掘标准依据数据挖掘技术可 处理运行的过程,提出并规范了通常所用的四个计 算阶段:(1)训练阶段(training phase): 这是所有数据挖掘技术公用的,用于计算数据挖掘模型的阶段。该 阶段在建立模型前需要准备数据并做预处理。在预 处理时要定义识别字段分配给有关的信息,如挖掘 类型和特定的控制字段。在分类和回归技术中用的 训练阶段还要有一个确认处理,称确认阶段,作为 数据挖掘分类和回归技术训练阶段的一部分。它给数据挖掘模型输入另外的数值组,可作为测试阶段 的描述,其结果作为实例以决定运算法则结束时间。(2)模型自查阶段(model introspection phase): 也是所有数据挖掘技术普遍使用,用以解释和评估 模型。将模型与目标一起细查,揭示训练阶段中数 据的相关性,以期达到两个目的: ①找出数据中潜 在的规律,有助于进一步解释模型; ②找出有统计 价值的特性,有助于评估模型的质量。(3)测试阶段(testing phase): 只用于分类和回 归。测试时为模型的对象字段读入系列数值组,在 应用中评估每个数值组,将预测数值和对象字段里 的实际数值做比较,其结果可为使用者或应用提供 实例,以此决定模型以质量为基础能否应用于实际。(4)应用阶段(application phase): 模型应用期间 输入数据组用来评估模型,或用较多的数据组来计 算模型。为了能正确地使用模型的输入值,必须将 其分配到训练阶段确认的相关字段中。一个预定课 题的模型应用,产生一个表可以控制相关的其他课 题。模型由一个或多个规则的特定输入而得出推论, 推论结果可与附加特性一并提交。特定情况下,推 论是对模型可信度的支持。这几个阶段不是一次完成的,数据挖掘运行当 包括训练阶段时调用训练阶段运行,当包括测试阶 段时调用测试阶段运行。其中某些阶段要反复多次, 各项功能也不是独立实现的,有时要几种方法互相 联系才能发挥作用。
  • [其他] 数据科学家具有哪些不同类型
    最近,数据科学家 Ajit Jaokar 则又讨论了 A 型数据科学家(分析师)和 B 型数据科学家(建造者)之间的区别:A 型数据科学家能够很好地编写操作数据的代码,但并不一定是一个专家。A 型数据科学家可能是一个实验设计、预测、建模、统计推理或统计学方面的事情的专家。然而总体而言,一个数据科学家的工作产品并不是「P 值和置信区间」——就像学术界的统计学有时候建议的那样(而且这常常是为传统的制药等等行业工作的)。在谷歌,A 型数据科学家被称为统计学家、定量分析师、决策支持工程开发分析师,也有一些被称为数据科学家。B 型数据科学家:这里的 B 是指 Building。B 型数据科学家和 A 型数据科学家具有相同的背景,但他们还是很强的程序员、甚至经验丰富的软件工程师。B 型数据科学家主要关注在生产环境中使用数据。他们构建能与用户进行交互的模型,通常是提供推荐(产品、可能认识的人、广告、电影、搜索结果等)。而对于业务处理优化,我也有自己的看法,我将其分成了 ABCD 四个方向,其中 A 表示分析科学(analytics science),B 表示业务科学(business science),C 表示计算机科学(computer science),D 则表示数据科学(data science)。数据科学可能会涉及到编程或数学实践,但也可能不会涉及到。你可以参考 http://suo.im/11bR7o 这篇文章了解高端和低端的数据科学的差异。在一家创业公司,数据科学家通常要做很多类型的工作,其扮演的工作角色可能包括:执行、数据挖掘师、数据工程师或架构师、研究员、统计学家、建模师(做预测建模等等)和开发人员。虽然数据科学家常常被看作是经验丰富的 R、Python、SQL、Hadoop 程序员,而且精通统计学,但这不只不过是冰山一角而已——人们对于数据科学家的这些看法不过是来自于重在教授数据科学的部分元素的数据培训项目而已。但正如一位实验室技术人员也可以称自己为物理学家一样,真正的物理学家远不止于此,而且他们的专业领域也是非常多样化的:天文学、数学物理、核物理、力学、电气工程、信号处理(这也是数据科学的一个领域)等等许多。数据科学也是一样,包含的领域有:生物信息学、信息技术、模拟和量化控制、计算金融、流行病学、工业工程、甚至数论。对我而言,在过去的十年里,我专注于机器到机器和设备到设备的通信、开发能自动处理大型数据集的系统、执行自动化交易(比如购买网络流量或自动生成内容)。这意味着需要开发能够处理非结构化数据的算法,这也是人工智能、物联网和数据科学的交叉领域,也可被称为深度数据科学(deep data science)。其对数学的需求相对较少,也只涉及到较少的编程(大部分是调用 API),但其却是相当数据密集型的(包括构建数据系统),并且基于专门为此背景而设计的全新统计技术。在此之前,我的工作是实时的信用卡欺诈检测。在我事业的早期阶段(大约 1990 年),我开发过图像远程感知技术,其中包括识别卫星图像的模式(形状和特征,比如湖泊)和执行图像分割:那段时间我的研究工作被称为是计算统计学,但在我的母校,隔壁的计算机科学系也在做着几乎完全一样的事情,但他们把自己的工作叫做是人工智能。今天,这项工作被称作数据科学或人工智能,其子领域包括信号处理、用于物联网的计算机视觉等。另外,数据科学家也可以在各种各样的数据科学项目中出现,比如数据收集阶段或数据探索阶段一直到统计建模和已有系统维护。
  • [其他] 数据科学、机器学习、人工智能,都有哪些区别?
    数据科学产生见解数据科学和其它两个领域有所区别,是因为它的目标是基于人类:能够获得洞察力和理解。Jeff Leek对数据科学可以实现的洞察类型有很好的定义,包括:描述性(“普通客户有70%的更新机会”),探索性(“不同的销售人员有不同的更新率”)和因果关系(“一个随机实验表明分配给Alice的客户比分配给Bob的客户更有可能更新)。不是所有产生洞察力的科学都是数据科学(数据科学的经典定义是统计学、软件工程和领域专业知识的组合)。 但是我们可以用这个定义来区分ML和AI。 主要区别在于,数据科学中总有人工介入:有人正在理解、洞察,看到数字,或者从结论中受益。 “我们的象棋游戏算法使用数据科学来决定下一步棋”或者“Google地图使用数据科学来推荐驾驶方向”是毫无意义的。数据科学的定义因此强调:统计推断数据可视化实验设计领域知识交流数据科学家可能会使用简单的工具:他们可以报告百分比并根据SQL查询制作线图;也可以使用非常复杂的方法:他们可能会使用分布式数据存储来分析数万亿条记录,开发尖端的统计技术并构建交互式可视化。 无论他们使用什么,目标都是为了更好地理解他们的数据。机器学习做出预测我认为机器学习是关于预测的领域:“给定具有特定特征的实例X,预测Y”。 这些预测可能是关于未来的(“预测这个病人是否会得败血症”),但它们也可能是对于计算机不明显的特性(“预测这个图像是否有鸟)”。 几乎所有的Kaggle比赛都可以被认定为机器学习问题:他们提供一些训练数据,然后查看参赛者是否可以对新例子做出准确的预测。数据科学和机器学习之间有很多重叠。 例如,逻辑回归可以用来获取关于关系的见解(“用户越富有,他们购买我们产品的可能性越大,所以我们应该改变我们的营销策略”)并做出预测(“这个用户有53 %购买我们产品的可能性,所以我们应该向他推荐我们的产品“)。像随机森林这样的模型可解释性稍差,而且更适合“机器学习”的描述,深度学习等方法是众所周知的难解释。 如果你的目标是获得见解而不是做出预测,这可能会阻碍你。 因此,我们可以想象一个数据科学和机器学习的“谱”,其中可解释模型倾向于数据科学,更多“黑盒子”模型则倾向于机器学习这一边[source](https://xkcd.com/1838/)大多数从业者可以在这两个任务之间非常舒适地来回切换。我在工作中同时使用到机器学习和数据科学:我可以通过机器学习的方法,在Stack Overflow的业务资料上匹配一个模型来判定哪些用户更有可能是在寻找一份工作,然后用数据科学来构筑结论和可视化结果来验证为什么这个模型有效。这是非常重要的方法来发现你模型中的缺点以及解决算法偏见。这也是数据科学经常将机器学习发展为一个产品的原因。人工智能创造行为人工智能是目前为止这三个类中最古老和最广为承认的,但结果也是最具挑战性来定义的。由于寻求资金和关注的学者、记者和创业者,人工智能也得到了大肆宣传。因为这也意味着一些本应该被称为人工智能的工作却并不是按照这样进行描述的,这也引起了我的强烈反对。一些学者也在抱怨人工智能的作用:“人工智能是我们现在还无法做到的”。所以什么工作可以让我们合理地描述人工智能?一个定义“人工智能”的通用思路是一种自发代理行为执行或者推荐行为行为 (e.g. Poole, Mackworth and Goebel 1998, Russell and Norvig 2003)。我认为也属于人工智能的系统包括:人机博弈算法 (Deep Blue, AlphaGo)机器人学和控制理论 (运动规划, 两足机器人的步行行为)优化选择 (谷歌地图路径选择)自然语言处理 (机器人2)强化学习此外,人工智能与其他领域也有很多交叠。深度学习因为横跨机器学习和人工智能两个领域,所以特别有趣。典型应用例子就是训练数据然后作出预测,这已经在人人机博弈算法中表现出巨大的成功,比如Alphago(与更早之前的人机博弈系统,如深蓝相比,Alphago更聚焦于探索和优化未知的解决方案空间)。但这之间也有区别。如果我分析一些销售数据,会发现来自特定行业的客户比其他更多 (提取出一些调查结果), 输出结果是一些数字和图表,不是特定行为。(管理者可能会根据这些结论改变销售策略,但这个行为不是自发性的) 这意味着我会将我的工作描述为数据科学: 如果将提高销售额的方法归结于人工智能将会是很尴尬的说法。请不要将经受过算法训练的人都写作具有人工智能能力的人 ——Dave Gershgorn ✔@davegershgorn 3:17 AM - Sep 19, 2017人工智能与机器学习的差异更加微妙,从发展历史来说,机器学习通常被认为人工智能的一个子领域 (计算机视觉尤其是一个经典人工智能问题)。但我认为机器学习领域已经与人工智能有较大割离,一定程度上是由于上面所提及的冲击:大多数研究预测问题的人都不喜欢把自己描述成人工智能研究人员。 (很多重要的机器学习所取得的突破来自于数据分析,而这些数据在AI领域的其他领域很少出现。) 这意味着,如果你能把一个问题描述为“从Y中预测X”,我建议你完全避免使用“人工智能”这个词。案例研究:怎样将这三者一起使用假设我们正在开发一辆自动驾驶汽车,并且正在研究将车停靠在停车标志处的特定问题。我们需要从这三个领域中获得的技能。机器学习: 汽车必须使用它的摄像头识别停车标志。我们构造一个包含数百万街边对象的照片数据集,然后训练一个算法来判断那些照片中有停车标注。人工智能:一旦我们的汽车识别出停车标志,它就需要决定什么时候采取刹车动作。太早或太晚应用它们是危险的,我们需要它来处理不同的路况 (例如,需要识别一条光滑道路,并不足以较快地将速度降下来识到它的速度不够快), 这就是控制理论范畴。数学科学:在街头测试中我们发现车的性能并不是足够好,通过停车标志来驱动停车还是会有一些疏漏。在分析街边测试数据后,我们再次洞察到漏判率与每天的时间有关:在日出之前或日落之后更容易出现漏判 停车标志。我们意识到我们大多数训练数据仅都是大白天下的停车标志,所以我们构建了一个更好的数据集,包括夜间图片然后在返回去进行机器学习步骤。通常将人工智能与能够在不同的领域执行任务的通用人工智能或者超过人类智力的超人工智能混为一谈并没有任何帮助。这对任何被描述为“人工智能”的系统都有不切实际的期望。此处我提及到“机器人”是指用于解释自然语言并以同样方式回复的系统。这可以与用于提取数据的文本挖掘和用于分类文档的文本分类相区分。
  • [其他] 机器学习的应用
    机器学习应用广泛,无论是在军事领域还是民用领域,都有机器学习算法施展的机会,主要包括以下几个方面。 数据分析与挖掘“数据挖掘”和"数据分析”通常被相提并论,并在许多场合被认为是可以相互替代的术语。关于数据挖掘,已有多种文字不同但含义接近的定义,例如“识别出巨量数据中有效的.新颖的、潜在有用的最终可理解的模式的非平凡过程”,无论是数据分析还是数据挖掘,都是帮助人们收集、分析数据,使之成为信息,并做出判断,因此可以将这两项合称为数据分析与挖掘。数据分析与挖掘技术是机器学习算法和数据存取技术的结合,利用机器学习提供的统计分析、知识发现等手段分析海量数据,同时利用数据存取机制实现数据的高效读写。机器学习在数据分析与挖掘领域中拥有无可取代的地位,2012年Hadoop进军机器学习领域就是一个很好的例子。模式识别模式识别起源于工程领域,而机器学习起源于计算机科学,这两个不同学科的结合带来了模式识别领域的调整和发展。模式识别研究主要集中在两个方面。 (1)研究生物体(包括人)是如何感知对象的,属于认识科学的范畴。 (2)在给定的任务下,如何用计算机实现模式识别的理论和方法,这些是机器学习的长项,也是机器学习研究的内容之一。 模式识别的应用领域广泛,包括计算机视觉、医学图像分析、光学文字识别、自然语言处理、语音识别、手写识别、生物特征识别、文件分类、搜索引擎等,而这些领域也正是机器学习大展身手的舞台,因此模式识别与机器学习的关系越来越密切。