• [课程打卡] 【7天玩转网络AI模型开发】hw17826308352打卡
    7天实战营上机指导书 Day11、数据资产管理服务和数据集服务订阅成功
  • [经验交流] 一家中国公司把城市变成了AI版《清明上河图》
    900年前,一幅《清明上河图》惊艳于世。在那个还没有飞机的年代,张择端先生仿佛跃身于汴京城之上,将城外的乡间村舍、城内的茶坊酒肆,描摹地淋漓尽致。900年后的今天,有这么一家公司,便利用AI的画笔,为众多城市绘制了新版《清明上河图》。它,就是海康威视。而在这幅的画卷中,海康威视所提供的服务城市的智能物联、感知网络等技术就是那支“画笔”。以独特视角守护城市,感知城市。这就是在近日由杭州市政府主办的《智涌钱塘·2021 AI Cloud生态大会》中,海康威视所呈现的AI蓝图。此次大会以“共筑智慧城市 赋能数字企业”为主题,还汇聚5000余名行业专家、生态伙伴、产业界人士,共同探讨了人工智能在智慧城市、数字企业两大领域的落地应用。具体而言,海康威视在此次大会中都发布了些什么?又有怎样的改变?让我们一探究竟。海康威视,不再“硬”了提到海康威视,大多数人的第一印象可能是“硬件强”。而纵观整场大会,一个非常直观的感觉就是“在变软”。怎么说?海康威视此次发布的重点之一,就是数智底座。整体来看,数智底座提供了3个平台能力:感知平台 (感知融合赋能平台):支持多维感知、智能感知和集约感知。尤其是集约感知,就是要实现城市中各行各业感知资源的统筹利用。数据平台 (物信融合数据平台):为城市感知数据与政务数据的汇聚、治理、挖掘和服务提供全生命周期的支持。应用平台 (智能应用开放平台):面向边缘节点应用、边缘域应用、云中心应用、互联网运营应用分别提供了智能应用开放平台。那么“数智底座”的在实际中的开放能力到底几何?现场也给出了答案:5分钟可以配置一个VR应用,2小时可以配置一个AR实景应用、训练一个新的智能检测算法,“零编码”构建一个数据看板。3天定制一个物联应用,2周完成5000个普通物理设备的50种算法绑定,1个月开发一个数据应用,3个月打造一个业务系统。例如在现场,便演示了建一个数据看板,海康威视的员工,耗时仅1个小时52分钟建立社区数据看板的过程。发布的重点之二,是上线了AI开放平台2.0。这是基于海康威视此前的平台,在全面感知、自主进化、认知计算三大能力上的升级。据了解,通过AI开放平台提供的技术能力,各行业用户2020年共训练算法模型数量超过1万5千个,应用行业超过100个。……不难看出,“平台”二字成为了这次大会发布重点的一个主旋律,而“变软”是海康威视在改变的方向。20周岁的海康威视,该如何评价?海康威视成立于2001年,今年恰逢20周年。回顾这20载,又该如何评价海康威视?五棵树。这是海康威视总裁胡扬忠在大会中给出的答案。20年来,海康威视以“感知+智能”为根,“数据+智能”为本,培育成一棵业务之树。20年来,海康威视以“销服网络为根,产研体系为本”,培育成一棵团队之树。20年来,海康威视以“文化认同为根,以运营管理为本”,培育成一棵管理之树。20年来,海康威视以“供应链为根,渠道合作为本”,培育成一棵生态之树。20年来,海康威视以技术产品为根,赋能客户为本,征途中不忘初心,壮大一棵实体经济之树。了解海康威视的人都知道,它的起步最初从研发生产视频压缩板卡开始,而后在感知端、中心端的设备,使其“名声大振”。而从此次发布重点的“变软”,到胡扬忠的“一棵树”中,不难看出海康威视是要在本有的“硬”基础之上,叠加上“软”能力,最后要面向的是一个生态。而要构建这样的生态,除了“软”+“硬”的能力之外,还需要业务的不断拓展。据胡扬忠介绍,目前海康威视所服务的行业数量,已经超过70个。这一点,从此次大会的议程中也有所展现,汇聚了来自医疗、农业、教育、文旅、建筑、房地产、金融等领域的客户。除了上述的传统行业,在较为新兴、前沿的领域中,海康威视也是有所涉及,例如智能机器人等。最后,海康威视的下一步规划又是怎样?对此,胡扬忠表示:海康威视的价值创造从来都不只是自身的内部活动,而是与产业链上下游、合作伙伴、甚至是行业用户的价值共创。未来,公司将继续坚持“充分开放,成就彼此,打造产业创新联合体”的合作理念,加强生态合作,共迎未来。One More Thing在此次大会中,工业和信息化部科技司副司长朱秀梅、浙江省经济和信息化厅副厅长厉敏、杭州市人民政府副市长柯吉欣,共同为杭州国家人工智能创新应用先导区揭牌。据悉,这是国家工业和信息化部支持创建的8个全国人工智能创新应用先导区之一。根据创新应用先导区的建设目标,到2023年,杭州人工智能总体发展水平总体达到全国领先、国际先进。
  • [经验交流] AI前沿:数据智能产品与技术漫谈
    背景:大数据是AI时代的基石。企业与政府大力加强业务智能、决策智能发展,其中,数据相关的基础设施、应用与服务建设一直是焦点所在。人工智能公司创新奇智的数据智能团队依托Orion自动化机器学习平台,在制造、金融、零售等场景中,积累了不少实践经验。本文以问答方式,与创新奇智的数据智能产品总监、技术总监探讨了数据智能领域的产品与技术实践规律及前沿趋势。问:如何理解“数据智能”?在行业市场上,数据智能是一个常用于产品宣传,却又缺乏清晰定义的一个术语。该如何看待这个概念的本质?答:企业和政府信息化部门做了多年的大数据建设,这个领域概念繁多,脉络复杂。经常看到不同背景的人在一起谈数据智能,说的却不是一件事。根据我们的理解:数据智能的本质是——由高价值大数据有效驱动的智能业务。从行业客户的业务视角来看,当然是先有业务需求,再有数据智能产品或解决方案。例如,我需要智能营销,自然就引发有关客户画像的机器学习需求,而机器学习类的算法需求又必然引发对高质量数据样本、数据标签等的依赖。从产品与解决方案的系统视角看,数据智能需要先打下良好的地基——大数据平台,然后在其基础上建设机器学习算法领衔的人工智能平台,以支撑应用层的业务功能,实现客户的业务规划和产出预期。整个大数据体系的理论基础早在 2004 年前后就已经建立起来了。过去一二十年,行业先解决的是“有没有数据”的问题,即“数字化”“信息化”等老问题。数据在平台内的表现形式经过几次迭代,从单纯的结构化数据,到结构化与非结构化数据的共生,再到多模态数据以及与特定应用类型相关的数据视图,等等。接下来,完成了信息化建设的行业客户开始把注意力集中到数据本身的价值问题上,即“数据有没有用”的问题。很长一段时间里,似乎人人都在谈“大数据”,可大多数时候只是“数据大”,很多数据并不知道该如何发挥价值。其实,真正的大数据不是单纯说数据量有多大,而是要考察数据本身是否蕴含了足够的聚合价值、信息价值、业务价值。一些企业花费资源建了大数据中心,数据量不可谓不大,但遇到业务问题时,要么找不到数据,要么发现数据不合用,要么发现系统缺乏利用数据的有效接口……光有数据而没有应用,这就很难支撑起数据智能的摩天大厦了。再进一步,当行业客户拥有了高价值的大数据基础后,必然要追求大数据在智能业务中的使用效率和价值回报。最近几年人工智能热度高,不少客户尝试使用机器学习系统来解决业务问题,但数据基础、机器学习算法和业务应用之间往往难以形成良性循环,数据与算法和业务之间的关联度不高,人工智能技术未能深入到核心业务链条中,很难达到一个最佳的投入产出比。好的数据智能产品必须能解决这些问题,至少,应能做到以下三点:降低客户积累与聚合高价值大数据的整体成本;在保障数据安全的基础上,大幅提高客户数据的流转效率和使用效率;发挥客户大数据中蕴含的信息价值和业务价值,利用智能算法提高客户业务效率。问:许多客户反映,他们在数据智能建设上的最大痛点是经常发现数据不可见、不好用、噪音多、难聚合、难提炼、难生效。数据智能产品该如何避免这些痛点?答:从大数据到人工智能的建设链路周期很长。很多客户也是在建设中边摸索、边改进需求、边升级业务流程的。如果用割裂的方式,分别考察和采购数据库、大数据平台、机器学习算法、业务应用软件等,就很容易导致上述痛点问题的出现。反之,如果能在一个整体思路下,仔细评估数据智能产品与客户当前工具链、价值链的匹配度,项目的成功概率就大了很多。在工具链层面,客户要采购的数据智能产品必须和今天客户环境中的相关软硬件工具协同工作。技术上,新产品是否能从已有产品中顺利导入导出数据,能否和现有IT运维人员的能力匹配,是否能和已有的数据存储平台兼容等,都是工具链层面需要考察的重点问题。在价值链层面,数据智能产品与客户的业务有多好的连接度,能同时支持多少业务的运行,能在业务运行时提供多少效率提升或价值提升,最终的投资回报是多少——这些问题不想清楚,上述痛点必然反复出现。举个例子,我们在为某家银行做智能风控业务时发现,该银行曾经尝试过一个机器学习算法支撑的风控模型,但实施过程中客户自己发现,无论如何优化,该风控模型的“增益”就是上不去,很难在业务层面体现出可见的价值回报。客户回过头来调研后得到结论:机器学习模型效率不高,是因为从大数据层提取的样本特征质量不高;样本特征质量不高,是因为大数据层聚合的原始数据噪音较多;原始数据噪音较多,最明显的原因是已有的大数据平台是与上层的机器学习模型分别建设的,数据虽多,却难以用机器学习算法期待的方式参与上层的风控模型。简单说,这家银行采购的大数据平台与风控模型之间缺乏可连接性,丰富的数据资源难以发挥效力。我们为这家银行提供的解决方案,就更像是一条能够将大数据平台与智能风控模型联通的自动供应链——其实就是从业务视角出发,将大数据平台的数据在更高一层的视图上进行再次清洗、对齐和平展化,然后在工具链中,增加一个自动特征工程的层级,利用机器学习算法自动完成特征生成、特征价值评估和特征筛选。经过这样的系统改进,最上层的风控模型拿到的样本特征质量获得大幅提高,业务价值也逐渐凸显出来。问:从大数据到智能决策的整个产品链条,未来的发展趋势是什么?数据智能的整体产品设计经历了三个发展阶段。我们把各阶段的典型产品形态总结成三种“数据智能范式”:一、传统范式——以业务单元为核心由业务需求带动数据需求的模式——早期的数据类应用以业务需求为单元,单独建设,隔离发展。每个业务模块拥有自己独立的数据支撑和应用支撑。二、流行范式——以数据整合为核心先有数据汇聚,再共享给不同业务来使用的模式——业务形态的多样化以及客户对投入产出比的高要求必然带来数据层面的整合与业务层面的整合。今天的大多数数据智能系统建设都采用了数据整合、业务整合的思想。例如,数据湖是典型的数据整合层,中间件是典型的业务共享单元层,流行的数据**则试图将数据与业务的可扩展性容纳到一个统一的体系内。三、未来范式——以数据资源按需流转为核心单纯的数据整合与业务整合可以解决资源共享的基本问题,但不易达到数据使用效率的最大化。我们认为,未来更好的数据智能范式,应该是自上而下围绕业务价值建立的数据按需供给、自动响应、安全流转的新范式。在未来的数据智能范式中,客户对业务价值的要求体现在整个系统架构的设计思路里。自底向上,系统逐层提供数据支撑和业务灵活度:未来范式的基础是“数据资产地图”。“数据资产”和传统“数据”这两个概念间的最大不同是前者强调数据的可用性,后者强调数据的技术形态。所有数据都可能形成数据资产。我们可以通过智能技术,将数据的潜在价值挖掘出来,例如,将实体间的关系揭示出来,将隐藏在信息背后的深层知识抽取出来,将数据中蕴含的样本特征提炼出来,将数据在高维空间的分布规律描绘出来,等等。我们还可以在非常细的粒度上,为每一“份”数据标记它的来源、位置、交换方式、“健康”状况等。由此,上层算法或应用不仅可以快速找到所需的数据,还可以随时知晓这份数据该如何用,是否可用等。在数据资产地图中,每份数据都是“有生命的”。未来范式的中间层级是“数据供应链”。这个概念和此前强调数据聚集与使用关系的“数据仓库”以及强调通用业务单元的“中间件”不同。数据供应链更强调数据与不同业务应用之间的无缝衔接和数据在整个业务流程中的安全、有序流转。简单说,未来的大数据不应是静态的数据聚合与共享,而应该是动态的,可以根据业务流程的变化而变化,“按需匹配”完成数据供应的技术体系。最后,统一的数据资产地图和高效的数据供应链支撑起顶端的数据决策引擎。引擎可以有针对性地调度、获取和应用数据资源,利用机器学习技术为客户业务提供强有力的支持。拿图书馆来打比方:传统范式下的数据管理就像是每个图书馆各自管理图书,各扫门前雪;流行范式下大集中的数据管理就像是把全国各地图书馆里的书都调过来,统一存在超大规模的库房里。这两种方式各有各的挑战。而在上面谈到的未来范式下,图书本身是不一定要物理集中的,集中和流转的有可能是图书的摘要,有可能是图书的索引,有可能是图书中提取的知识脉络或内容纲要,也有可能是表明图书目前状态和使用价值的元数据。读者可以在任何时候、任何地点,快速定位需要的信息或知识。读者需要什么样的知识组织形式,图书馆就可以按照什么样的形式来重新组织和包装知识——这是知识的按需供应。所谓“数据供应链”,本质是一种价值传导。很多大数据工程是先搭好数据平台,然后等着业务过来使用,就像图书馆先把图书摆在书架上,等着读者来借阅。如果用动态的思路来看待这个问题,我们完全可以用更低的成本,更聪明地组织好数据资产中的定位信息和元数据,每当一个新的需求方提出了数据访问要求,就很快通过一个灵活的配置文件,将所需的数据组织好,供给到需求方——这是数据价值的按需供应。问:数据库,数据仓库,数据湖,数据**,数据集市,数据治理,大数据操作系统,AI操作系统,智能决策引擎……这些相关但内涵又非常不同的概念之间,是否反映了某种技术和产品演进规律?答:在行业解决方案这个大背景下,技术和产品概念的演进必然是市场需求与技术迭代两者相互作用、相互助力的结果。早期的概念更偏向对技术价值的展现,中后期,这一类概念逐渐转向业务需求驱动,更偏向对业务价值的展现。例如,很多年前,数据仓库、数据ETL(抽取、转换、加载)的概念更多是从技术侧演进的,基本上源于技术人员在解决那些简单关系型数据库力不从心的任务时的深入思考与高层设计。单点的业务需求和单点的技术积累一旦拓展到不同的数据维度,不同的数据分析方式,就必然引发更高层次的架构组合与技术抽象。而晚些出现的数据湖、数据集市、数据**等概念,则更加深刻地体现了系统对业务价值的支撑。产品和技术人员搭建的平台已经从数据库、数据仓库等要解决的“如何存”“如何查”等基础问题,上升到了“不同模态的业务数据如何聚合”“数据如何被业务使用”“业务如何扩展”等问题。后面这些问题显然与业务价值更近。当然,也有一些概念是纯粹针对市场的包装。比如很多产品声称自己是“AI操作系统”,可业界对什么是“AI操作系统”的理解并不一致,机器学习所代表的AI算法集合与管理计算资源、输入输出设备的操作系统之间也缺乏技术上的可比性。这样的概念有很大的市场营销空间,但可能很难在产品与技术领域沉淀下来。问:技术和工程层面,今天数据智能相关的热点技术有哪些?举例来说,多模态数据的处理是一个难点,也是今天的技术热点。今天各类行业客户业务相关的大数据环境里,数据本身的形态复杂度急剧增加。文本、语音、图像、视频等数据和传统的结构化数据相比,单条数据的体积更大,信息密度也更低,但是事实性更强。体积更大会导致存储成本更高,进而会导致在实际环境中其存储的时间更短,处理时消耗的计算资源更多,处理的时间更长;信息密度更低,使得我们在使用时一般会基于场景做一些信息抽取的过程,转换成结构化数据使用;事实性更强,所以在做基于多模态数据的综合判断时,这些非结构化数据的结论权重会更高。深度学习技术的迅猛发展为解决类似问题提供了很好的技术支撑。最近两年非常火的基于Transformer的预训练模型可以跨数据形态,用类似的方式学习到文本、语音、图像、视频中蕴含的信息或知识。比如,2021年3月阿里巴巴与清华大学联合发布的业界最大的中文多模态预训练模型M6,就可以适用于广泛的多模态任务,包括产品描述生成、视觉问答、诗歌生成等,还专门支持文本引导的图像生成任务。此外,如何用人工智能的前沿技术,自动清洗数据,如何自动将不同来源、不同字段规范的数据相互对齐,如何从数据背后发现隐藏的更有价值的信息或知识,如何从一个领域数据处理快速迁移到另一个领域等,都是未来几年数据智能领域需要投入大量研发资源的地方。当然,人工智能不是万能的,不是一件拿着锤子就可以到处敲钉子的工作。好的人工智能技术要落地,必须结合具体业务,将算法的应用范围限定在一定的场景内。即,人工智能落地非常依赖于“有限场景”。简单讲,如果不限定领域,从所有文本中评估两个实体间的相关度肯定是非常难的,但如果限定金融领域的文本,这时再评估两个金融术语之间的相关度,问题就会容易不少。问:数据可视化技术在数据智能中的作用如何?如何设计一个成功的数据可视化产品?答:数据可视化是借助视觉表达方式,将枯燥专业的,不直观的数据内容,浅显直观的传达给数据使用者的一种手段,是数据智能的重要组成部分。一个成功的数据可视化产品,最重要的是找准数据可视化产品的定位,即数据可视化产品的受众。数据可视化需要匹配受众的专业背景知识,并能够让受众轻松快速地查看和使用数据,同时还要充分考虑受众对数据呈现基本原理的熟悉程度,以及是否需要经常定期查看图表等因素。受众的不同会影响到数据可视化的数据的层次、数据粒度、数据的类型、图表的使用、示例说明的详细程度以及交互的程度。在一个针对多受众的数据可视化产品中,会基于不同的受众决策采用不同的数据可视化展现方案,并保持可视化的一致性。例如,将一组无序的离散数值型数据做可视化时,如果受众几乎没有统计学相关的知识,我们可以按照数值区间分组,然后通过饼图或者南丁格尔玫瑰图来显示;如果稍微有一点点统计学的知识,则可以通过箱型图来显示;如果有一定的统计学背景,就可以选择用直方图了;如果统计学知识很深厚,则可以进一步在直方图上拟合出概率质量函数。当然这些还仅仅只是从数据视角出发考虑的问题,从艺术视角来看,针对统计学知识比较少的受众,在一些报告类的数据可视化产品中可以用一些更个性化、更酷炫的方式展现饼图、南丁格尔玫瑰图或者箱型图中的数据;从设计的视角来看,针对有丰富统计学知识的受众,在直方图和概率质量函数拟合时可以提供丰富的配置方法,让用户可以非常方便的选择和调节背后的算法公式。问:自动化机器学习(AutoML)可以在 数据智能系统中扮演什么角色?在企业应用中引入自动化机器学习,有哪些需要注意的地方?AutoML技术最吸引人之处在于它能够实现更便捷、更高质量的AI智能应用搭建,从而实现人工智能这种社会基础动力的普及。识别、预测等各类与机器学习相关的业务需求,都可以通过AutoML来不断降低搭建门槛、提升效率和质量。建设AutoML系统时,一方面,为了提升便捷性,要考虑整个AI智能应用搭建的全流程。例如,场景化AutoML平台在机器学习建模过程之外,涵盖模型搭建前的业务分解、数据评估以及后续的智能应用部署实施和更新等流程,形成完整的自动化流程,满足客户从业务到任务、从任务到流程、从流程到模型以及从模型到最终应用的全流程需求。另外,采用无代码或低代码的开发方式以及友好的用户界面,加以对自动化环节的可解释性展示,最终达到用户便捷无忧的实际体验。另一方面,AutoML结果的高质量是依赖先进算法以及高质量模型和知识的丰富积累来实现的。如创新奇智的场景化AutoML平台,在采用业界最先进的自动化特征工程、模型选择、参数优化、模型融合等算法技术的同时,基于元学习和经验概化理论,首创了基于实际场景迁移的AutoML方法,实现了一整套场景化AutoML方法论和算法工具,从而最大化人工智能引擎的最终效果。问:如何高效管理数据智能平台涉及的各类计算资源,特别是深度学习高度依赖的GPU资源?举例讲讲单GPU训练和多GPU训练的资源调度问题。该如何高效利用好单张 GPU 的算力资源?GPU 的架构模型与 CPU 有很大不同,很多时候难以沿用 CPU 虚拟化的方案。我们常需要针对 GPU 的特点,构建一种适用的虚拟化方案。除了 Nvidia 的商业方案外,随着云原生的发展和开放,还有很多基于 K8s 的技术方案可供选择。其中有两个主要技术:调度技术解决是否允许将任务分配到某张 GPU 卡上的问题,隔离技术解决同张 GPU 卡上不同任务之间不互相影响的问题。该如何提升GPU 集群的分布式训练效率?训练任务规模的增长要求分布式的训练方式,而分布式训练必然会涉及到模型参数的同步和分发,技术上既有基于参数服务器的 PS 架构,也有从 HPC领域发展而来的基于 MPI 通信原语的 Ring AllReduce、Binary Blocks 等架构,这些架构除了解决分布式训练过程中模型参数的同步问题外,还在降低参数同步所带来的性能损耗方面做出努力。这样,对于分布式训练任务,用户仅需指定资源需求、Worker节点数量,提供训练代码,就可实现像单机训练任务一般简单的分布式训练。从客户角度讲,数据智能平台的基础资源管理部分最好能提供一种同时兼容单GPU训练和分布式GPU训练的任务、资源调度方案。在客户业务初期试验阶段,任务规模一般较小,通过虚拟化方案,客户可以实现在一张 GPU 上同时训练多个任务;而在业务应用阶段,单机训练无法承载生产级别的数据量和模型规模,需要借力分布式训练,最大程度的发挥 GPU集群的整体效率。问:创新奇智在数据智能领域提供的Orion系列产品和解决方案有何特点?创新奇智的Orion自动化机器学习平台是一套符合未来数据智能范式的,拥有可灵活选择、配置的三层结构,面向行业客户,以私有化部署为主的系列产品和解决方案。Orion数据智能引擎主要包括三大产品单元:Orion IRC:智能资源调度管理,提供计算资源管理和数据资产地图。Orion DAC:智能数据融合管理,支持数据动态融合,实现数据供应链。Orion AML:自动化机器学习,基于数据完成智能决策。从设计初衷上说,Orion自动化机器学习平台主要希望帮客户解决两件事:如何用好数据,如何提高数据决策能力。首先,要“让数据会说话”。获取、清晰、存储、加工、管理这些数据基础操作都只是手段而不是目的,最终目的是能让客户从数据中获取足够的使用价值。这里面最关键的因素是如何“盘活”数据资产。数据越来越多,但只有“盘活”了数据与业务之间的供需关系,真正建成了“数据供应链”,客户业务才能有提升。继而,要“让数据会决策”。数据智能引擎必须在数据建设的基础上,用有效的、面向业务目标的机器学习能力,帮助客户提高从信息中获取知识,从知识中预测趋势,从趋势中洞见未来的能力。有了这样的能力,客户的决策才能真正升级到数据驱动的层次上。Orion自动化机器学习平台的核心使命就是利用前沿技术盘活客户数据,实现数据价值,赋能客户业务。
  • [经验交流] AI训练的最大障碍不是算力,而是“内存墙”
    AI训练的计算量每年都在大幅增长,最近有研究指出,AI训练未来的瓶颈不是算力,而是GPU内存。AI加速器通常会简化或删除其他部分,以提高硬件的峰值计算能力,但是却难以解决在内存和通信上的难题。无论是芯片内部、芯片间,还是AI加速器之间的通信,都已成为AI训练的瓶颈。Transformer模型中的参数数量(红色)呈现出2年240倍的超指数增长,而单个GPU内存(绿色)仅以每2年2倍的速度扩大。训练AI模型的内存需求,通常是参数数量的几倍。因为训练需要存储中间激活,通常会比参数(不含嵌入)数量增加3-4倍的内存。于是,AI训练不可避免地撞上了“内存墙”(Memory Wall),内存墙不仅是内存容量,也包括内存传输带宽。在很多情况下,数据传输的容量和速度,都没有触摸到内存墙。从图中可以看出,每当GPU内存容量增加时,开发人员就会设计出新模型;2019年GPT-2所需的内存容量,已经是2012年的AlexNet的7倍以上;自谷歌团队在2017年提出Transformer,模型所需的内存容量开始大幅增长。为什么不能靠多GPU堆显存那么,为了摆脱单个硬件的有限内存容量和带宽,是否可以将训练扩展到多个AI加速器,使用分布式内存呢?事实上,这样做也会面临内存墙的问题,神经网络加速器之间移动数据的通信瓶颈,甚至比芯片上的数据移动还慢且低效。与单系统内存的情况类似,扩展带宽的技术难题还尚未被攻克。仅在很少的通信和数据传输的情况下,横向扩展才适用于计算密集型问题。从图中可以看出,20年间,运算设备的算力提高了90,000倍;虽然存储器从DDR发展到GDDR6x,能够用于显卡、游戏终端和高性能运算,接口标准也从PCIe1.0a升级到NVLink3.0;但是和算力的提高幅度相比,通讯带宽的增长只有30倍,可以说非常缓慢。由于算力和内存之间的差距越来越大,训练更大的模型也会更加困难。怎样突破“内存墙”怎样解决内存限制问题?作者从三个方面进行了分析。训练算法的改进训练神经网络模型的一大挑战,就是要进行蛮力超参数调整。虽然可以通过二阶随机优化方法来实现,不过目前的方法却增加了3-4倍的内存占用,这一点仍需解决。微软的Zero方法(一种万亿级模型参数训练方法),实现了在相同内存下,通过去除多余的优化状态变量,来训练8倍大的模型。也可以在传递过程中只存储或检查激活的子集,而不保存所有激活,以此将内存占用减少5倍,不过需要增加20%的计算量。此外,从单精度算法到半精度(FP16)算法的进展,使硬件计算能力提高了10倍以上,可以进一步研究适合INT8精读训练的优化算法。高效部署最新的SOTA模型(例如:GPT-3)需要分布式内存部署,这是一个很大的挑战。可以通过降低精度或删除其冗余参数,来压缩这些模型,以进行推理。在训练或推理过程中,可以降低至INT4精度,模型占用空间和延迟能够减少8倍。不过,想要将训练精度降低到远低于FP16,仍然很困难。而删除冗余参数,则可能导致准确率下降。当前的方法能够修剪30%的具有结构化稀疏性的神经元,以及80%的具有非结构化稀疏性的神经元,以保证对准确性的影响最小。AI加速器的设计虽然很难同时提高存储带宽和峰值计算能力,但是可以牺牲峰值计算,以获得更好的带宽。在带宽受限问题上,CPU的性能要比GPU好得多,但是与相比GPU相比,CPU的峰值计算能力要小一个数量级左右。因此,可以研究一种在二者之间的另一种架构,实现更高效的缓存。研究数据可戳下方链接查看~原文链接:https://medium.com/riselab/ai-and-memory-wall-2cb4265cb0b8https://github.com/amirgholami/ai_and_memory_wall
  • [公告] MSG | 回顾白玉兰开源与MindSpore“畅谈AI”精彩瞬间!
    MindSpore Study Group(MSG)致力于提供一个让开发者可以充分进行技术研讨、案例分享、互相交流的公益性社区。4月17日,在上海MindSpore社区联合白玉兰开源与Julia中文社区、Graviti以及Artefact的朋友为参与线下活动的小伙伴们带来干货满满的分享!MSG已经在上海开展多场线下活动,这次MSG·上海有很大改变,以「畅谈AI」为专题将为大家带来一系列与AI相关的连载分享,第一期畅谈与人工智能有关的那些技术及应用,在现场大家汇聚思想碰撞灵感的火花,下面就跟着小编一起来回顾活动中的精彩瞬间吧~ MindSpore社区及高阶API套件TinyMS 议题简介 分享MindSpore开源社区运营经验和高阶工具套件TinyMS。TinyMS是基于MindSpore编写的高阶API工具,这次主要从架构设计、功能介绍和快速实战三个方面分享,让开发者能够一分钟上手深度学习模型训练、预测和部署。Julia 语言及其生态 议题简介 Julia 是一门新兴的针对科学计算设计的高性能编程语言。这次分享简要介绍了:1) Julia 的特性和设计风格;2) Julia 下的生态环境和社区;3) Julia 目前的缺点以及未来发展的方向。 公开数据集社区 Open Datasets 议题简介 数据是深度学习的根本,然而当前的公开数据集生态略显原始,公开数据集的检索管理共享都缺乏高效的工具和平台。为了解决这些痛点,Graviti搭建了公开数据集社区 Open Datasets,为广大AI开发者提供高效的数据集搜索途径,丰富的数据集管理工具和快捷的数据集共享平台。 数据科学在企业数据转型中的作用和限制 议题简介Artefact作为一家全球化的数据咨询与数据营销服提供商,整合数据咨询、数据科学、数据营销等多领域专家,帮助企业把数据转化为商业价值。本次活动中结合过往的案例,简要介绍了数据科学和AI在帮助企业进行数字化和数据转型中的作用,同时介绍在此过程中作为全球数据科学家团队的社区组织和知识分享体系。 感谢倾囊相授的嘉宾老师!感谢来上海应约的小伙伴们!本次活动不光有精彩的AI主题内容分享,我们还为大家准备了精心定制的小礼品,如下图所示 ~ MindSpore公众号对话框发送‘畅谈AI’可获得MSG·上海活动的ppt以及部分视频,欢迎大家查看下载~相信无论是活动现场的小伙伴还是此刻看文章的你都有所收获!欲知更多精彩活动,请持续关注微信公众号『MindSpore』获取最新MSG相关消息~ 往期MSG快速通道↓MSG | 白玉兰开源与MindSpore邀您一起“畅谈AI”活动回顾 | 2021年 MSG 线下活动开启大幕MSG|首批MSG组织者名单公布!更多关于MSG……2020年5月,MSG正式成立,不到一年时间里,我们走遍了全国十三大城市:北京、上海、广州、深圳、武汉、长沙、苏州、杭州、南京、重庆、山东、郑州、天津,拓展了七大海外MSG:莫斯科、新加坡、印尼、澳门、印度、香港·浸会大学,香港·理工大学,联合OpenI启智社区走进了校园:哈工大深圳校区、南方科技大学等等。2020年底发起了首场以女性为主题的『MSG: Women In Tech』,广受好评;上周发起的『MSG: Women In Tech』第二期同样火爆,聚焦当下热点问题,分享内容干货满满,短期内收到许多粉丝的喜爱,并来信期待下一期的分享。 MSG是什么?MindSpore Study Group,简称MSG,是提供一个让开发者可以充分进行技术研讨、案例分享、互相交流的公益性社区。为了方便开发者们的深入交流,我们会在多个城市成立MSG组织,满足本地开发者的线下交流机会。MSG一般会做什么?· 技术研讨MindSpore技术专家讲解最新版本技术亮点邀请技术大咖分享关于AI、深度学习最新动态· 极客分享开发者分享MindSpore真实场景的应用案例极客们分享前沿技术进展与软硬件最新技术· 社区贡献引导开发者从零参与MindSpore社区贡献培养开发者成为开源社区的contributor如何成为MSG组织者?每个人都有机会成为MSG的组织者,不论你现在在北京、上海、深圳,还是杭州、西安、成都等城市,都可以提交申请。有志于成为MSG组织者的朋友们,请扫描以下的二维码进行报名。 扫码成为MSG组织者 MindSpore官方资料 GitHub:https://github.com/mindspore-ai/mindsporeGitee:https://gitee.com/mindspore/mindspore 官方QQ群: 871543426 长按下方二维码加入MindSpore项目↓
  • [问题求助] 【ATLAS 200DK】【ATC功能】ONNX中[ai.onnx::11::GatherElement]算子不支持
    CANN版本:3.3.0.alpha001日志如下:2021-04-22 00:18:02  Start to convert model2021-04-22 00:18:02  export PATH=/usr/local/python3.7.5/bin:$PATH:/home/dahu/Ascend/ascend-toolkit/3.3.0.alpha001/atc/ccec_compiler/bin:/home/dahu/Ascend/ascend-toolkit/3.3.0.alpha001/atc/bin && export PYTHONPATH=$PYTHONPATH:/home/dahu/Ascend/ascend-toolkit/3.3.0.alpha001/atc/python/site-packages:/home/dahu/Ascend/ascend-toolkit/3.3.0.alpha001/atc/python/site-packages/auto_tune.egg/auto_tune:/home/dahu/Ascend/ascend-toolkit/3.3.0.alpha001/atc/python/site-packages/schedule_search.egg:/home/dahu/Ascend/ascend-toolkit/3.3.0.alpha001/opp/op_impl/built-in/ai_core/tbe && export LD_LIBRARY_PATH=/home/dahu/Ascend/ascend-toolkit/3.3.0.alpha001/atc/lib64:/home/dahu/Ascend/ascend-toolkit/3.3.0.alpha001/driver/lib64:/home/dahu/Ascend/ascend-toolkit/3.3.0.alpha001/add-ons:/usr/local/python3.7.5/lib:/home/dahu/Ascend/ascend-toolkit/3.3.0.alpha001/acllib/lib64 && export SLOG_PRINT_TO_STDOUT=1 && export ASCEND_OPP_PATH=/home/dahu/Ascend/ascend-toolkit/3.3.0.alpha001/opp && /home/dahu/Ascend/ascend-toolkit/3.3.0.alpha001/atc/bin/atc --input_shape="input:1,3,800,800" --check_report=/home/dahu/modelzoo/mobilenetv2_slim_800/device/network_analysis.report --input_format=NCHW --output="/home/dahu/modelzoo/mobilenetv2_slim_800/device/mobilenetv2_slim_800" --soc_version=Ascend310 --framework=5 --model="/home/dahu/models/centerNet/mobilenetv2_slim_800.onnx" 2021-04-22 00:18:02  ATC start working now, please wait for a moment.2021-04-22 00:18:05  ATC run failed, Please check the detail log, Try 'atc --help' for more information2021-04-22 00:18:05  E19010: Check op[GatherElements_240]'s type[ai.onnx::11::GatherElements] failed, the type is unsupported.2021-04-22 00:18:05  E19010: Check op[GatherElements_273]'s type[ai.onnx::11::GatherElements] failed, the type is unsupported.2021-04-22 00:18:05  E19010: Check op[GatherElements_306]'s type[ai.onnx::11::GatherElements] failed, the type is unsupported.2021-04-22 00:18:05  E19010: Check op[GatherElements_347]'s type[ai.onnx::11::GatherElements] failed, the type is unsupported.2021-04-22 00:18:05  Convert model environment variables: 2021-04-22 00:18:05  export PATH=/usr/local/python3.7.5/bin:$PATH:/home/dahu/Ascend/ascend-toolkit/3.3.0.alpha001/atc/ccec_compiler/bin:/home/dahu/Ascend/ascend-toolkit/3.3.0.alpha001/atc/bin && export PYTHONPATH=$PYTHONPATH:/home/dahu/Ascend/ascend-toolkit/3.3.0.alpha001/atc/python/site-packages:/home/dahu/Ascend/ascend-toolkit/3.3.0.alpha001/atc/python/site-packages/auto_tune.egg/auto_tune:/home/dahu/Ascend/ascend-toolkit/3.3.0.alpha001/atc/python/site-packages/schedule_search.egg:/home/dahu/Ascend/ascend-toolkit/3.3.0.alpha001/opp/op_impl/built-in/ai_core/tbe && export LD_LIBRARY_PATH=/home/dahu/Ascend/ascend-toolkit/3.3.0.alpha001/atc/lib64:/home/dahu/Ascend/ascend-toolkit/3.3.0.alpha001/driver/lib64:/home/dahu/Ascend/ascend-toolkit/3.3.0.alpha001/add-ons:/usr/local/python3.7.5/lib:/home/dahu/Ascend/ascend-toolkit/3.3.0.alpha001/acllib/lib64 && export SLOG_PRINT_TO_STDOUT=1 && export ASCEND_OPP_PATH=/home/dahu/Ascend/ascend-toolkit/3.3.0.alpha001/opp2021-04-22 00:18:05  Convert model command: 2021-04-22 00:18:05  /home/dahu/Ascend/ascend-toolkit/3.3.0.alpha001/atc/bin/atc --input_shape="input:1,3,800,800" --check_report=/home/dahu/modelzoo/mobilenetv2_slim_800/device/network_analysis.report --input_format=NCHW --output="/home/dahu/modelzoo/mobilenetv2_slim_800/device/mobilenetv2_slim_800" --soc_version=Ascend310 --framework=5 --model="/home/dahu/models/centerNet/mobilenetv2_slim_800.onnx" 2021-04-22 00:18:05  Model conversion failure2021-04-22 00:18:05  Model input path:/home/dahu/models/centerNet/mobilenetv2_slim_800.onnx2021-04-22 00:18:05  Model conversion log file path:/home/dahu/modelzoo/mobilenetv2_slim_800/ModelConvert.txt2021-04-22 00:18:05  Model conversion config file path:/home/dahu/modelzoo/mobilenetv2_slim_800/device/mobilenetv2_slim_800_config.json
  • [技术干货] MIT小哥联合谷歌训练7个多任务机器人,9600个任务成功率高达89%!
    Google研究团队率先研发出了处理大规模任务的新型机器人,这些机器人竟然具有「学习世界」的能力。作者:新智元来源:新智元随着任务数量的增加,使用当前计算方法来构建通用的日常机器人的成本变得过高,人们正在快速寻求一种解决办法。我们都希望通用机器人可以执行一系列复杂的任务,例如清洁,维护和交付等等。但是,即使使用脱机强化学习(RL )来训练单个任务(例如清洁),也需要大量的工程设计、花费很长的时间,这看似是件不可能完成的事!上图为脱机和非脱机强化学习的演示动图MT-Opt+Actionable Model= 脱机强化学习但是经过科学家们的不断努力,机器人的发展遇到前所未有的机遇。任职于google的几位优秀的计算机科学家,率先研发出了处理大规模任务的新型机器人。德米特里·卡拉什尼科夫(Dmitry Kalashnikov)是这项研究的第一作者,年纪轻轻的他于2009年创立了AI Digit公司,2013年加入google,担任软件工程师一职长达7年多。杰克·瓦利(Jake Varley)作为第二作者,本科毕业于麻省理工大学(MIT)计算机科学专业,2013年顺利成为哥伦比亚大学的博士生,一毕业就收到google抛来的橄榄枝,现在google任SWE一职已经3年了。卡罗尔·豪斯曼(Karol Hausman)作为第三作者,是南加大计算机科学专业的博士生,也是2018年加入google,目前主要担任google机器人控制和google大脑实验室的科学家。这项研究主要展示了机器人脱机强化学习(RL)的两个新进展,即MT-Opt(一种用于自动数据收集和多任务RL训练的系统)以及Actionable Models(可动模型),该模型利用获取的数据实现脱机学习的目标。MT-Opt引入了可扩展的数据收集机制,该机制在真实的机器人上可以收集超过800,000个任务,相比以往很多多任务脱机学习的成功应用,其平均性能比基线提高了约3倍。更神奇的是,它还可以使机器人在不到1天的时间内对新任务进行适应,接着快速掌握新任务。即使在没有特定任务和奖励的情况下该机器人也可以进行学习,这不仅极大地增加了机器人可以执行的任务数量,并可以更有效地学习下游任务。所以为了大规模地收集多样化的任务数据,他们创建了一个可扩展且直观的多任务检测器来指定任务,目的是为了要收集最终平衡结果的数据集。具体步骤如下:为了训练该系统,科学家们收集了9600个机器人数据(来自七个机器人连续57天的数据收集),并采用监督学习(supervised learning)的方式来训练多任务,甚至允许用户快速定义新任务及其奖励的设置。首先当收集数据时,需要对各种现实因素进行监察和定期更新。(例如不同的光照条件,多变的背景环境以及机器人灵活的状态)。其次,通过使用较为简单的任务解决方案,有效地引导机器人学习更复杂的任务,这样在针对不同任务时,可以同时使用多个机器人同时操作。一旦形成针对性训练,每个任务的数据量和成功情节数便会随着时间增长。为了进一步提高性能,科学家们还重点放在某些表现欠佳的任务上进行调试和训练,逐一突破!成功率高达89%!尽管这种数据收集策略可以有效地收集大量数据,但任务之间的成功率和数据量是不平衡的。所以为了解决这个问题,他们命令机器人对每个成功或失败的任务进行标记。这一步骤之后再将已经达到均衡的任务发送到多任务RL训练管道。好消息是,对于具有多数据的通用任务,MT-Opt的成功率是89%(QT-Opt的成功率是88%),罕见任务MT-Opt的平均成功率是50%。使用可操作模型(Actionable Model)可以使机器人系统地学习大量的指示技能,例如物体抓握,容器放置和物体重新布置。除此以外,该模型还能训练数据中看不到的物体和视觉目标,新的机器人具有「学习世界」的能力!小结:MT-Opt模型和可操作模型的结果都表明,真实的机器人可以学习许多不同的任务,并且这些模型有效地分摊了学习技能的成本。这是迈向通用机器人学习系统很重要的一步,该系统可以进一步扩展到现实生活中,执行许多对人类有帮助的服务。如果感兴趣的读者,可以具体参考这两篇论文:“ MT-Opt:大规模的连续多任务机器人强化学习”和“可行的模型:机器人技术的无监督离线强化学习”,网站上提供了很多有关MT-Opt的更多信息、视频和可行的模型。
  • [交流分享] 6G通信感知一体化
    概述4月15日在成都举办了中国第一届6G通信感知一体化学术研讨会,通信和感知融合成为未来6G通信系统的重要研究方向。研讨会原文通知链接1 通感一体化定义通信即两点或多点之间信息传输;感知即探测物理环境的参数,例如测速、目标定位等。通感一体化,是指通信和感知两个功能融合在一起,使得未来的通信系统同时具有通信和感知两个功能,在无线信道传输信息的同时通过主动认知并分析信道的特性,从而去感知周围环境的物理特征,从而通信与感知功能相互增强。例如利用基站信号感知周围环境信息,设计通信链路,可以避开一些障碍物,提升通信性能。如下图所示。2 通感一体化背景在1G至5G时代,通信和感知是独立存在的,例如4G通信系统只负责通信,雷达系统只负责测速、感应成像等功能。这样分离化设计存在无线频谱与硬件资源的浪费,功能相互独立也会带来信息处理时延较高的问题。进入6G时代,通信频谱迈向了毫米波、太赫兹,未来通信的频谱会与传统的感知频谱重合,这就需要研究新技术探讨二者融合,通感一体化可以方便实现通信与感知资源的联合调度。2.1 6G网络特征6G融合数字世界和物理世界,不再是单纯的通信传输通道,也能感知万物,从而实现万物智能。6G将成为传感器和机器学习的网络,数据中心是头脑,机器学习遍布全网。6G的关键特征是原生AI,AI遍布6G网络,对通信进行网络优化及管理,通信网络能够自生自治自演进,例如能进行信道自适应。6G承载原生AI,必然需要数据来支撑,通信感知一体化,为AI服务提供基本数据。因此有时候也把计算功能包括进来,组成感-传-算一体化网络。2.2 6G技术趋势未来趋势是6G与先进计算、大数据、人工智能、区块链等交叉融合,并充分利用低中高全频谱,实现空天地一体化全覆盖;使得通信系统做到极致连接,低时延、高带宽;并且原生可信,安全性高。3 通感一体化应用场景关于应用场景,借用华为童文博士总结的一句话:6G通信具有看见物理世界的能力。1、目标定位和跟踪,例如厘米级定位高速行驶的车。2、同步成像和制图,例如城市地图、环境重构。3、光谱分析,例如空气质量检测,工件裂缝检测。4、增强人类感知,例如医疗健康扫描,在黑暗中感知物体。5、目标识别,例如手势和姿态识别。6、生物医学成像。4 通感一体化目前进展2018美国Rappaport公司在机器人、无人机等应用通信感知。2019年DARPA在自动驾驶应用通信感知。在太赫兹通信领域,国内已有近百个研究团队,主要以高校研究院为主。电子科大突破太赫兹二极管器件,以及其他器件;2020年电子科大进行10公里太赫兹通信实验。目前华为已经在做信道建模测量等,做出了成像样机,感知精度做到了毫米级。在感知方面,国内研究机构们主要是以雷达探测为主。5 通感一体化具体实现技术目前实现技术有以下三种:1、射频感知,发送射频信号,然后通过接收和处理反射信号来了解环境。2、蜂窝网作为传感器,通信系统同时用于新功能,如目标检测、跟踪、识别、定位、移动成像等。3、感知辅助通信,利用感知信息来辅助通信功能,例如信道参数获取、获取环境信息以设计通信链路、波速对齐、CSI采集等。PS:1、老师上午举的那个例子应该是感知辅助通信获取信道信息?2、研讨会上关于一体化具体怎么实现并没有讲清楚,华为展示了一个隔着纸盒识别菊花商标的产品,但感觉那个产品就是单独的感知,与通信无关,有点像是射频感知?3、从通信传输电磁波角度分析怎么实现一体化,例如一体化的手势识别怎么实现的?二者融合后的波形该怎么处理,因为融合的波形包含两种信息?4、今天看雷达原理时发现雷达的电磁波功率和通信电磁波的功率是不一样的,二者融合后应该会影响另一个的性能?5.1 通感一体化技术路线其一是在现有通信系统上融合感知探测能力,在尽可能不影响通信功能的条件下,实现对目标或者环境的智能自适应的感知协助通信性能的提升或者赋予通信系统新能力。其二在现有感知探测系统融合通信传输能力。目前来看这两条技术路线是并行发展的。目前做通感一体化的机构主要采取的是通信系统搭载感知能力的路线。5.2 通感融合方式1、主动式:感知者发送用于感知的电磁波,感知者通过获取目标对象反射的回波进行感知;目标对象可以不知道被感知,感知和通信相互独立,例如基站发送信号感知楼宇障碍物的存在。2、被动式:感知者不发送用于感知的电磁波,感知者通过获取目标对象发射或者反射的电磁波进行感知。感知与通信也是相互独立。例如摄像头拍到过往的汽车。3、交互式:感知者和目标对象之间通过信息交互,对电磁波发送的主体、频率、格式等进行约定,存在通信感知一体化设计。目前来看就第3种方式真正属于通感一体化。5.3 通感一体化KPI1、感知精度2、感知分辨率3、感知检测出错率太赫兹的感知精度等性能比毫米波好。6 通感一体化关键技术1、通信感知架构和模式设计系统架构上同时实现感知、通信,共享站址,共享天线,共享算力。模式设计上,时分、频分工作模式,占用极少通信资源,实现按需感知。2、复杂环境下建模重构、信道参数提取。3、密集动态情况下目标分辨检测。4、通感一体化波形与智能信号处理,降低信噪比。5、新型信息理论,一体化后数据包结构和空时信号功率分配,无线资源管理,如何达到最优。6、感传算一体化信息**交互机理协议,**标准制定,协同工作算法。7 通感一体化约束条件目前通感一体化有如下约束条件要考虑:1、成本。2、尺寸,可移植性。3、功耗。4、隐私和安全。5、通用性。6、伦理问题,如人体辐射。综述从研讨会的各位老师讲解来看,目前业界对5G的认可度并不是很高,感觉后期会很快过渡到5.5G或者6G,到时候通感一体化会成为热点。但目前有个很大的问题就是通感一体化的价值驱动力在哪,普通大众对一体化的需求是否很旺盛。当然作为研究者,我们考虑的是技术的实现,而不是这个是否有价值。就像当年诺基亚把手机和照相机一体化,当时可能也会考虑是否有价值驱动,但这至少是一种技术突破,后来也证明当年诺基亚的研究方向是对的,现在拍照技术反而成了手机厂商的最大卖点。
  • [其他] AI的可解释性和可检测性
    特斯拉车主站车顶WeiQuan前一阵子刷屏网络,这里引出了一个应用了AI技术后的检测能力问题。车主投诉的是"刹车失灵",在传统车模式,刹车是一个机械传动动作,如何检测其质量的方法应该是成熟的,当事方对于中立第三方的检测结果应该不会有异议。但是当计算机参与到这个过程中来的话,特别的是当AI参与到刹车这个过程中来,情况就变复杂了,检测也变复杂了。刹车是一个时效要求极高的动作,机械操作是可靠的。但在智能汽车里,传感器可靠吗? 计算力可靠吗? AI可靠吗?首先计算的结果判断是不是正确,其次结果正确时,是否及时的出了结果,如果该刹车而最终计算结果为不刹车,是有问题的;如果计算结果要刹车,而计算耗时过长,刹车滞后,也是有问题的,现在对于智能汽车刹车失灵的质量问题,事实没有独立第三方(不是特斯拉委托的)具有检测能力。所以在AI蓬勃发展时,检测能力也要跟上啊
  • [近期热门] 人工智能在提高组织网络安全中的作用
    在许多方面,网络安全都是独一无二的——许多检测和监控都是关于关联和预测的——而且,在评估、分析和自动化方面注入人工智能和机器学习解决方案,可以使网络安全受益。作者:佚名来源:千家网网络安全已经成为一项重要的战略任务,今天的企业需要监控和保护其IT资产免受不断变化的网络威胁。所有现代企业都需要一个强大而全面的网络安全计划,以防止、检测、评估和应对网络安全威胁和破坏。在许多方面,网络安全都是独一无二的——许多检测和监控都是关于关联和预测的——而且,在评估、分析和自动化方面注入人工智能和机器学习解决方案,可以使网络安全受益。用人工智能和机器学习增强网络安全威胁检测在超互联的数字世界中,组织需要处理来自不同系统的海量数据,以检测异常、定位漏洞并先发制人。与大多数人工跟踪方法不同,基于AI和ML的系统可以每天监控数百万个事件,并促进及时的威胁检测以及适当和快速的响应。人工智能算法是基于过去和当前的数据开发的,用于定义“正常”,并可以识别偏离该“正常”的异常。然后,机器学习可以从这些模式中识别威胁,还可以用于评估和分类恶意软件,并进行风险分析。人工智能算法可以跟踪和记录甚至是最小的异常,并且具有更快的学习曲线,可以更好地理解和分析用户行为。因此,它减少了安全团队的工作量,安全团队随后可以专注于需要更高认知性能的事件,因为算法可以识别和过滤错误警报。组织还可以通过使用人工智能系统将平均检测时间和平均响应时间从几天减少到几分钟,从而在早期阶段阻止任何损害。安全自动化安全任务和过程的自动化有助于改善组织的整体安全态势,并将自身从确定性企业转变为认知企业。它有助于收集和关联安全数据,检测现有的危害,并以比人类可能更快的速度生成和实施保护。自动化可以帮助以时间敏感的方式处理复杂的安全过程,同时避免手动错误和法规遵从性问题,并减少IT资源的负载。它还有助于在发生攻击时触发自愈过程,从而促进快速修复和隔离受损系统。自动化日常的安全流程也可以让安全团队的成员自由地专注于网络安全的更具战略性的方面。它通过让他们远离每天的多次警报和重复性任务(如补丁管理、软件更新、身份管理、地平线扫描等)来减少疲劳。预测分析预测性分析和关联在网络安全和实现主动威胁情报方面发挥着关键作用,帮助企业在潜在攻击之前识别安全威胁。一个组织的威胁情报系统处理来自不同全球来源的信息,包括商业和开源网络。人工智能和机器学习可以非常有效地用来收集数据和见解,不仅可以快速识别潜在的威胁,还可以对威胁做出快速反应,而不是每次都手动解析这些信息。即使发生攻击,AI系统也可以将受影响的系统与IT基础设施的其他部分隔离开来,以限制网络攻击的有效性。此外,了解攻击者的行为并具有识别危害指标的能力,除了可以做出更好的决策外,还可以帮助检测事件并更快地做出响应。组织还可以定制AI和ML算法,以建立可靠的系统和流程,用于安全事件的自我报告,包括基于AI的行为分析。对手AI虽然将人工智能用于网络安全有几个优势,但该领域的进步也为商业间谍、数据泄露、金融诈骗、深度伪造等不良行为者发起的人工智能支持的网络攻击和社会工程活动铺平了道路。一些组织将道德黑客作为企业网络安全战略的一部分,以在自己的游戏中击败网络罪犯。然而,使用人工智能对人工智能支持的网络安全系统进行暴力验证也可能导致一种人工智能模型,这种模型可以智胜现有系统,进行更高级的网络攻击。总结人工智能和机器学习不仅可以通过始终在线的风险评估和协调组织的事件响应,帮助建立一个强大的安全框架,而且这些系统还可以作为自动化和编配工具,通过预防性安全控制等手段加强现有的网络安全架构,防火墙和应用安全,以及入侵防御系统。这也有助于弥补整个行业缺乏熟练网络安全专业人员的问题。随着越来越多的组织经历数字化转型,AI和ML可以帮助这些现代企业建立一个弹性和未来防御的网络安全计划,而不是传统的跟踪、威胁检测和风险评估方法。( 编译/Cassie )
  • [AI家园] 厨师与AI完美搭配,一起刺激你的味蕾
    最近,索尼人工智能团队和韩国高丽大学联合开发了一种名为FlavorGraph的人工智能映射工具,该工具可以推荐互补的配料,帮助厨师们烹饪菜肴。作者:科技行者来源:今日头条索尼人工智能团队表示,FlavorGraph使用人工智能技术预测两种成分的匹配程度,FlavorGraph可以将从不同成分中发现的1,561种风味分子里提取的信息同以往数百万种食谱对这些配料的使用情况结合起来。索尼人工智能战略和合作伙伴经理Fred Gifford和韩国高丽大学博士后研究生Donghyeon Park在一篇博客文章中写道:“以往从未有人探索过食品成分与风味化合物之间的关系,而FlavorGraph的研究将为某一种或者多种成分与其他成分的搭配提供更大的灵活性。”“随着科学的发展,我们对食物的了解越来越深入,我们应该发现越来越多有趣的配料搭配,以及那些不健康或者不可持续配料的、新的替代品。”FlavorGraph是索尼人工智能团队美食旗舰项目的首批项目之一。这家日本科技巨头于去年年底建立了自己的机器学习和人工智能研发部门,该团队称该项目的重点将落在三个关键的领域:可以创建新食谱的人工智能应用程序、可以在厨房为厨师提供帮助的机器人解决方案及社区共同创造活动。索尼人工智能团队表示他们将使用数据源开发食谱创建应用程序,这些数据包括食谱和成分数据,例如味道、香气、风味、分子结构和营养成分,据此,该程序有望能够帮助厨师设计食谱和菜单。还有其他一些关于索尼的新闻,该公司的半导体业务宣布其绰号为“Fab 5”的新工厂已经在长崎技术中心开业。索尼表示,这间新工厂将被用于批量生产用于智能手机的CMOS图像传感器。【责任编辑:华轩 TEL:(010)68476606】
  • [经验交流] 一块芯片比iPad还大,全球最大AI处理器刚刚更新了2代,A100看了会沉默
    还记得那个全球面积最大、整块芯片比键盘还大的AI超算处理器Cerebras WSE吗?刚刚,这款芯片发布了2代。作为第二代晶圆级引擎, WSE-2以2.6万亿个晶体管和85万个AI优化内核,再次刷新记录。与一代WSE相比,WSE-2虽然在面积上没有变化(依然很大),二者看起来没什么差别。但是,芯片的所有性能特征,包括:晶体管数、内核数、内存、内存带宽和结构带宽,均比一代增加了一倍以上。有哪些升级?2019年8月,Cerebras推出了尺寸破纪录的AI芯片——“晶圆级引擎”(Cerebras Wafer Scale Engine,简称WSE),其中包含1.2万亿个晶体管。并且在2020年,展示了基于WSE的AI计算机CS-1,计算速度超Joule 200倍以上。我们将WSE-2与一代,以及A100进行了比较:可以看到,WSE-2有很大幅度的升级,采用了7nm制造工艺,多项数据都是一代的两倍之多。比起英伟达的A100,WSE-2多了2.55万亿个晶体管;内核数是A100的123倍;缓存是其1000倍;可提供的内存带宽,则达到了A100的13万倍。为什么采用大芯片?据Cerebras官方网站介绍,当今最先进的模型,需要几天或几周的时间进行训练,并且通常在数十、数百甚至数千个GPU上进行分布式训练,以使训练时间更可控。这些庞大的处理器集群很难编程,并且面临通信和同步费用高的瓶颈。而WSE-2将用于业界最快的AI计算机CS-2。CS-2专门为加速AI应用而设计,旨在实现快速、灵活的训练和低延迟的数据处理,可以在更小的空间和更低的功耗下,提供更高的计算性能。这使得CS-2拥有更高的计算密度、更快的内存和更高的带宽互连,从而将训练速度提升数个数量级、使推理的延迟更低,并且易于部署。Cerebras芯片,将集群的AI计算和内存资源带到单个设备上,一个CS-2的性能相当于整个GPU集群的性能,同时具有单个设备的简单性。CS-2在一个芯片上有85万个内核,提供了集群规模的速度,同时避免了通信缓慢的问题。同时这也意味着,即使是最大、最复杂的ML模型,也不需要分布式训练或并行编程,因此能节省数周的模型调整和配置时间。由于形成了最高带宽、最低延迟的通信结构,因此大型模型的实时推理延迟得以降低,无需量化、缩小规模和牺牲精度。晶圆级引擎的应用此前,不少实验室与计算机中心已经部署了Cerebras WSE和CS-1。包括:爱丁堡大学的超级计算中心,利用WSE进行自然语言处理、基因组学和COVID-19的相关研究。在美国阿贡国家实验室(ANL),WSE被用于COVID-19研究、重力波检测和材料发现等;并且在癌症疗法研究中,使癌症模型的实验周转时间,减少了300倍以上。制药企业葛兰素史克的高级副总裁金·布兰森,则表示:其增加了生成的编码器模型的复杂性,同时将训练时间减少了80倍。……对于WSE-2的应用,国际调研公司Tirias Research首席分析师Jim McGregor认为:“显然,对用于大型数据集的Cerebras晶圆级解决方案,有些公司和实体很感兴趣。但是在企业层面,还有数百万的其他AI应用,以及一些Cerebras不能处理的情况,这就是英伟达拥有SuprPod和Selene超级计算机的原因。“与英伟达相比,Cerebras更像是一个小众平台,二者的广度无法相提并论。”Moor Insights&Strategy的分析师Patrick Moorhead也表示:“ Cerebras确实提供了承诺的核心……不过Nvidia解决方案更加灵活,几乎可以安装在任何服务器机箱中。”参考链接:[1]https://cerebras.net/[2]https://venturebeat.com/2021/04/20/cerebras-systems-launches-new-ai-supercomputing-processor-with-2-6-trillion-transistors/[3]https://spectrum.ieee.org/tech-talk/semiconductors/processors/cerebras-giant-ai-chip-now-has-a-trillions-more-transistors[4]https://spectrum.ieee.org/semiconductors/processors/cerebrass-giant-chip-will-smash-deep-learnings-speed-barrier[5]https://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247528016&idx=3&sn=dad6e7289a017a9c67398a7a646393b6&chksm=e8d0d922dfa75034ae26f22d4033bbf22620b966a3d40a07f8486337963c1a6e497eddbe520a&token=2091891750&lang=zh_CN#rd
  • [经验交流] 飞机的“黑色十分钟”能被人工智能消灭吗?
    近年来,“AI的应用和落地”逐渐成了具化的关键词,它和很多事物很多行业结合在一起,形成了奇妙的“化学反应”。例如,在日常生活中,AI可以推送我们喜欢的新闻或视频,可以在拍照的时候识别场景提升照片的美感…….而今天要说的,可能是从很多人都密切相关但大多很陌生的一个“神秘”的职业说起:机场塔台空中交通管制。01ONE AI 给了我一双“慧眼”在机场的每一架飞机起飞或者着陆,从飞机推离停机位到离开机场空域,或相反的降落过程中,背后都需要依靠多名管制员之间的接力和协作。飞机起降的间隔非常短暂且风险大,有着“黑色十分钟”之说。管制员也被称为是飞行员背后的“眼睛”,对于他们的要求是非常严苛的,需要超长时间集中注意力,尤其在航班密集的时候,管制员需要在极短的时间内对复杂的情况,做出正确判断,这也让管制员们担负着极大的压力。对于普通乘客来说,这可能只是一次普通的空中之旅,但对于管制员来说,每一次飞机起停都伴随着重大责任。中国已成为全球最大单一航空市场,后疫情时代,中国也将会是全球最安稳的航空市场。然而随着飞机起降架次的增多、机场扩建改造再加上恶劣天气的影响,跑道侵入或机坪冲突事件仍是民航领域航空器地面安全运行的头等问题,机坪和跑道安全事故在民用航空事故中占有很大的比例。 对于大型机场的塔台而言,单点视野物理受限,数字化程度提升的同时,客观上造成屏幕变多、信息量变大等挑战,对管制员提出了更高的要求,同时也让管制员承担了越来越重的岗位负荷,人的主观能动性固然很强,但长实践专注会产生疲劳,难以维持面面俱到。 聚焦在智能航空领域、专注于人工智能技术和应用研发的上海麦图信息科技有限公司提出了“人力有时而穷,可引AI而用之”的理念针对民航管制运行的特点,总结出了安全运行的四大要素,分别是:听、看、防、练,希望在云上可弹性扩展的算力和AI赋能加持下,能够把管制员们从传统信息获取手段造成的高负荷状态中解脱出来,并在关键场景中能够直接给出超前、明确的提醒,从而减少失误出错的概率。为了达成上述目标,麦图公司依托华为云EI的技术支持,研发了DSASR语音识别引擎和AIGIS空间定位引擎,让机器具备了能够听的懂管制指令、看得见航空器动态、理解运行规则的本领,能够在“听看防+练”3+1模式的智能塔台系列产品中,对多个具体场景进行赋能,从态势感知、轨迹预判、规则分析和培训演练等多个环节,为机坪/塔台管制运行安全和岗位培训等业务领域提供强大助力。 “我们想通过无线电语音去了解飞机的动向,通过视频去捕捉飞机的动态,再结合运行规则来提前发现事故征候。具体落实到产品中就是由DSASR推理出指令意图并标记出预测路径后,再由AIGIS把飞机从视频中识别出来之后,计算它的位置和速度,计算两个或多个飞机之间的运动轨迹是否会有时空近似交叠、是否有违反运规则或涉及航行通告禁区等,再根据其他的关联数据进行认证,确保飞机之间不会发生碰撞、不会误入禁区,一旦有疑似症候,也可以提前预知并向当班管制员提出警示。”麦图项目总监徐擎阳对笔者说。 02TWO华为云ModelArts平台赋能模型开发理想有多美好,现实就有多骨感。众所周知,人工智能包括了训练和推理两个阶段,只有先训练出人工智能模型才能进行推理。麦图面临的挑战是,项目开发团队基本是专注在软件应用开发和数据分析层面的,对于计算机视觉技术方面的研究并不深。2018年,项目团队也开始尝试过很多场景,“当时是两个问题制约了我们,一是视频的清晰度不够,当时高清视频摄像机还没有普及。二是没有好的AI开发平台,算力和工具都不够。到了今年,4K摄像机也开始普及了,训练工具ModelArts也有了,这个事情就可以做了。”对于麦图来说,ModelArts带来的效率提升的价值显而易见:“第一版模型开发,从标定到训练,到最后给客户做演示,只花了三天时间。如果用传统的方法做,可能连服务器的快递都寄不到。” 徐擎阳介绍说,在这个系统中,“光电盯防子系统”是一个重要的实时核心,它需要具备较完整的“基于视频流的航空器目标识别和跟踪”能力。通过将机场平面各个关键点采集到的实时视频流送入基于华为云ModelArts一站式AI开发与管理平台开发的“航空器识别模型”进行处理,识别出画面中飞行器对象的像素坐标等一次参数后,对其进行空间位置换算,以及包括速度、运行方向等在内的二次参数的计算,并在系统运行数据中找到相匹配的航班信息对目标进行信息标记,以AR信息增强的形式呈现在监视器上,让管制员以“抬头显示”的形式在单一屏幕中直观了解到足够全面的动态信息。同时该系统会在后台对所有目标的轨迹和矢量动态数据进行监控和推算,让计算机能够代替或辅助管制人员在全局范围对每一个航班、每一个道口进行实时盯防,提前预知潜在运行风险,从而降低事故发生的概率。 此模型单帧主要目标识别准确率可以逼近96%,多帧识别中主要目标识别结果可在99%以上。目前,麦图正在尝试Mask-RCNN模型,将坐标输出精度提升至像素级,实现更精确的航空器识别和位置计算。
  • [其他] 人工智能的三要素:数据、算力和算法
    众所周知,人工智能的三要素:数据、算力和算法。何为算法简单的说,算法就是:解决问题的手段,并且是批量化解决问题的手段。比如,我们想要从武汉去深圳参加HDC2021大会,起点就是武汉,终点就是深圳。如何去?我们就可以称为算法。因此选择不同的算法,那么虽然终点都是一样,但是性能以及效率就根据算法的优劣而决定的。因此,我们需要选择最优的算法,来实现我们的问题需求,来解决生活中的一些实际问题。那我们该如何进行算法的学习呢?如何学习算法算法的学习,可以根据自身的生活经验逐步积累,也可以通过有效的训练来逐步提高我们解决问题的能力,同时也是提升我们的逻辑思维能力。所谓算法,是一组严谨地定义运算顺序的规则,并且每一个规则都是有效的,且是明确的,此顺序将在有限的次数下终止。算法的学习不是一蹴而就的,因此需要我们不断的积累,不断的理解算法的原理。而不是死记硬背某些特定的算法题。要能够达到看到一个算法题,不仅仅能用算法将其做出来,还要能够自己通过算法题本身去推导更多题型。算法学好的优势首先,学会了算法后,你的逻辑所谓能力得到了加强,可以解决我们生活中的很多的问题。其次,作为一个研发工程师,在跳槽的时候很多公司都有算法面试题,学好了算法,就离你心仪的公司跟近一步,不会导致因为不会算法而被拒之门外。另外在5G大数据时代,处理数据也需要用到大量的算法。还有就是AI,比如常用算法来训练模型。通过合适的算法得到我们想要的数据模型,从而来实现AI的自动学习能力。如何选择算法算法既然有上面那么多种,还有很多没有罗列出来,所以需要我们有计划的学习每一种算法。然后根据习题来巩固学习的算法,将所学的内容融入到实际问题中,尝试多种算法来解决问题,理解每一种算法优势,劣势。当你掌握了方法之后,其实你会发现生活中很多事情都可以使用不同的算法来解决。记住算法最重要的三点。算法没有万能的,算法没有高低,算法只有合适的。算力上面说到,5G时代已经到来。移动设备数据传输量更快,更多,因此我们的服务处理数据的能力也需要相对的加强。处理数据的能力我们可以用一个人工智能中常用的词语,算力。那什么是算力呢?在我们的电脑中,CPU就提供了算力帮助电脑快速运行。玩游戏的时候需要显卡提供算力,绘制图表的时候帮助电脑快速处理图形。而在 人工智能中,需要有类似CPU和GPU的硬件来提供算力,帮助算法快速运算出结果。比如一个企业的流水线工厂,需要制作一批材料。那么企业的流水线就相当于算法,而流水线中的机器,人力就相当于算力。机器越好越先进,人力越多越优秀,那么产品生产的速度就越快,换言之就是算力越大,速度越快。第一是数据。因为人工智能的根基是训练,就如同人类如果要获取一定的技能,那必须经过不断地训练才能获得,而且有熟能生巧之说。AI也是如此,只有经过大量的训练,神经网络才能总结出规律,应用到新的样本上。如果现实中出现了训练集中从未有过的场景,则网络会基本处于瞎猜状态,正确率可想而知。比如需要识别勺子,但训练集中勺子总和碗一起出现,网络很可能学到的是碗的特征,如果新的图片只有碗,没有勺子,依然很可能被分类为勺子。因此,对于AI而言,大量的数据太重要了,而且需要覆盖各种可能的场景,这样才能得到一个表现良好的模型,看起来更智能。第二是算力。有了数据之后,需要进行训练,不断地训练。AI中有一个术语叫epoch,意思是把训练集翻过来、调过去训练多少轮。只把训练集从头到尾训练一遍网络是学不好的,就像和小孩说一个道理,一遍肯定学不会,过目不忘那就是神童了,不过我至今还没见到过。当然,除了训练(train),AI实际需要运行在硬件上,也需要推理(inference),这些都需要算力的支撑。第三是算法。其实大家现在算法谈得很多,也显得很高端,但其实某种程度上来说算法是获取成本最低的。现在有很多不错的paper,开源的网络代码,各种AutoML自动化手段,使得算法的门槛越来越低。另外提一点,算法这块其实是创业公司比较容易的切入点,数据很多人会觉得low,会认为就是打打标签而已,所以愿意做的不多;算力需要芯片支撑,是大公司争夺的主要阵地,留下的只有算法了。
  • [AI类] 原来使用CPU做推理的模型,如何在ModelArts上发布为一个在线AI服务使用GPU进行推理?
    1、在本地使用nvidia-docker将模型打包为镜像;2、使用ModelArts模型管理的导入功能完成模型镜像文件的导入;3、使用ModelArts将该模型发布为在线API服务,使用GPU进行推理。