• [其他] CVPR 2021 | Involution:超越卷积和自注意力的神经网络新算子
    本文是对我们CVPR 2021被接收的文章 Involution: Inverting the Inherence of Convolution for Visual Recognition的介绍,同时也分享一些我们对网络结构设计(CNN和Transformer)的理解。这篇工作主要是由我和SENet的作者胡杰一起完成的,也非常感谢HKUST的两位导师 @陈启峰和张潼老师的讨论和建议。Involution: Inverting the Inherence of Convolution for Visual Recognition概要我们的贡献点简单来讲:(1)提出了一种新的神经网络算子(operator或op)称为involution,它比convolution更轻量更高效,形式上比self-attention更加简洁,可以用在各种视觉任务的模型上取得精度和效率的双重提升。(2)通过involution的结构设计,我们能够以统一的视角来理解经典的卷积操作和近来流行的自注意力操作。论文链接:https://arxiv.org/abs/2103.06255代码:https://github.com/d-li14/involution欢迎大家star~ 后续有相关材料(slides,talk,video)的更新会放在主页:https://duoli.org/ 
  • [其他] 分享机器学习趋势论文—— 图神经网络的逻辑表达
    论文 :Logical Expressiveness of Graph Neural Networks链接:https://grlearning.github.io/papers/92.pdf让我们继续来考察图神经网络的逻辑表达。论文 7 中对哪些GNN架构能够捕获哪个逻辑级别进行了大量的研究。目前为止,这个研究还仅限于一阶逻辑的两变量片段FOC_2,因为FOC_2连接到用于检查图同构的Weisfeiler-Lehman(WL)测试上。作者证明,聚合组合神经网络(AC-GNN)的表达方式对应于描述逻辑ALCQ,它是FOC_2的子集。作者还进一步证明,如果我们添加一个独处成分,将GNN转换为聚合组合读出GNN(ACR-GNN),则FOC_2中的每个公式都可以由ACR-GNN分类器捕获。这个工作怎么说呢?简直是不能再棒了!    转自,杨晓凡,https://www.leiphone.com/news/201912/GsRSElsUReef0z7o.html
  • [其他] 分享机器学习趋势论文—— 用于推理的概率逻辑神经网络
        Probabilistic Logic Neural Networks for Reasoning    链接:https://papers.nips.cc/paper/8987-probabilistic-logic-neural-networks-for-reasoning.pdf    论文 提出了 pLogicNet,这个模型是用来做知识图推理的,而且知识图嵌入和逻辑规则相结合。模型通过变差EM算法训练(实际上,这几年用EM做训练&模型优化的论文也有增加的趋势,这事可以之后单独开一篇文章细说)。论文的重点是,用一个马尔科夫逻辑网络定义知识图中的三元组上的联合分布(当然了,这种做法要对未观察到的三元组做一些限制,因为枚举出所有实体和关系上的所有三元组是做不到的),并给逻辑规则设定一个权重;你可以再自己选择一个预训练知识图嵌入(可以选TransE或者ComplEx,实际上随便选一个都行)。在推理步骤中只能怪,模型会根据规则和知识图嵌入找到缺失的三元组,然后在学习步骤中,规则的权重会根据已见到的、已推理的三元组进行更新。pLogicNet 在标准的连接预测测试中展现出了强有力的表现。我很好奇如果你在模型里选用了 GNN 之类的很厉害的知识图嵌入会发生什么。    转自,杨晓凡,https://www.leiphone.com/news/201912/GsRSElsUReef0z7o.html
  • [其他] 图神经网络知识蒸馏框架
    题目: Extract the Knowledge of Graph Neural Networks and Go Beyond it: An Effective Knowledge Distillation Framework会议: WWW 2021论文链接:https://www.zhuanzhi.ai/paper/511db75d1a4eeac085450f46cedc979f论文代码:https://github.com/BUPT-GAMMA/CPF随着深度学习的成功,基于图神经网络(GNN)的方法[8,12,30]已经证明了它们在分类节点标签方面的有效性。大多数GNN模型采用消息传递策略[7]:每个节点从其邻域聚合特征,然后将具有非线性激活的分层映射函数应用于聚合信息。这样,GNN可以在其模型中利用图结构和节点特征信息。然而,这些神经模型的预测缺乏透明性,人们难以理解[36],而这对于与安全和道德相关的关键决策应用至关重要[5]。此外,图拓扑、节点特征和映射矩阵的耦合导致复杂的预测机制,无法充分利用数据中的先验知识。例如,已有研究表明,标签传播法采用上述同质性假设来表示的基于结构的先验,在图卷积网络(GCN)[12]中没有充分使用[15,31]。作为证据,最近的研究提出通过添加正则化[31]或操纵图过滤器[15,25]将标签传播机制纳入GCN。他们的实验结果表明,通过强调这种基于结构的先验知识可以改善GCN。然而,这些方法具有三个主要缺点:(1)其模型的主体仍然是GNN,并阻止它们进行更可解释的预测;(2)它们是单一模型而不是框架,因此与其他高级GNN架构不兼容;(3)他们忽略了另一个重要的先验知识,即基于特征的先验知识,这意味着节点的标签完全由其自身的特征确定。为了解决这些问题,我们提出了一个有效的知识蒸馏框架,以将任意预训练的GNN教师模型的知识注入精心设计的学生模型中。学生模型是通过两个简单的预测机制构建的,即标签传播和特征转换,它们自然分别保留了基于结构和基于特征的先验知识。具体来说,我们将学生模型设计为参数化标签传播和基于特征的2层感知机(MLP)的可训练组合。另一方面,已有研究表明,教师模型的知识在于其软预测[9]。通过模拟教师模型预测的软标签,我们的学生模型能够进一步利用预训练的GNN中的知识。因此,学习的学生模型具有更可解释的预测过程,并且可以利用GNN和基于结构/特征的先验知识。我们的框架概述如图1所示。
  • [其他] 分享机器学习趋势论文——图形神经网络能帮助逻辑推理吗?
    论文11:Can Graph Neural Networks Help Logic Reasoning?链接:https://kr2ml.github.io/2019/papers/KR2ML_2019_paper_22.pdf    论文 11 研究了GNN和马尔科夫逻辑网络在逻辑推理、概率推理方面的表现孰强孰弱。作者们的分析表明,原始的GNN嵌入就有能力编码知识图中的隐含信息,但是无法建模谓词之间的依赖关系,也就是无法处理马尔科夫逻辑网络的后向参数化。为了解决这个问题,作者们设计了ExpressGNN架构,其中有额外的几层可调节的嵌入,作用是对知识图中的实体做层次化的编码。    转自,杨晓凡,https://www.leiphone.com/news/201912/GsRSElsUReef0z7o.html
  • [其他] CVPR 2021 | 涨点神器!IC-Conv:使用高效空洞搜索的Inception卷积,全方位提升! CVer 今天
    论文:https://arxiv.org/abs/2012.13587本文提出一种空洞卷积的新变体:Inception卷积,并提出一种基于统计优化的简单而高效(零成本)的空洞搜索算法(EDO,Effective Dilation Search),将其应用于检测、分割和姿态估计任务,性能大幅度提升!作者单位:北航, 商汤, 牛津大学, 悉尼大学1简介空洞卷积(Dilation convolution)是标准卷积神经网络的关键变体,可以控制有效的感受野并处理对象的大尺度方差,而无需引入额外的计算。但是,在文献中很少讨论将有效感受野适合于具有卷积的数据。为了充分挖掘其潜力,我们提出了一种新的空洞卷积变体,即inception (dilated)卷积,其中卷积在不同轴,通道和层之间具有独立的空洞。为了探索一种将复杂的初始卷积拟合到数据的实用方法,开发了一种基于统计优化的简单而高效的空洞搜索算法(EDO,effective dilation search)。该搜索方法以零成本方式运行,该方法极其快速地应用于大规模数据集。
  • [其他] 南京大学提出IC Networks:对CNN的基础单元重新建模
    IC Networks: Remodeling the Basic Unit for Convolutional Neural Networks论文:https://arxiv.org/abs/2102.03495本文是南京大学的研究员针对CNN的基础模块进行的一次重建模,它将物理领域的弹性碰撞模型引入到卷积中,进一步提升的卷积过程的非线性能力,进而提升CNN的性能。最后从ImageNet分类与VOC检测任务上进行了验证,相比基线ResNet,所提IC-ResNet可得到不同程度的性能提升。摘要CNN已成为计算机视觉领域主流方案,现有CNN往往采用堆叠特定类型基础单元构成,并通过提升深度与宽度取得更好的性能,同时设计更优秀的基础单元也是一个非常重要的研究方向。受启发于物理中的弹性碰撞模型,本文提出了一种广义结构,它可以集成现有CNN并提升性能,我们将其称之为Inter-layer Collision(IC)结构。相比传统卷积结构,IC引入了非线性与特征重校正,它可以取得更细粒度的特征。此外,本文还提出一种称之为weak logit distillation的训练方法,通过从预训练模型中提取知识加速IC网络的训练。在ImageNet数据集上,集成ResNet50的IC架构将top1误差从22.38%降低到了21.75%,取得了与ResNet100相同的性能,同时只需近一半的计算量。
  • [其他] 图解RepVGG
    早期卷积网络结构主要是手工设计,通过不断堆叠卷积层以取得更好的效果(如AlexNet和VGG),而近些年来,为了提高网络性能,研究者基于NAS和手工也衍生出了很多复杂的结构,如:基于多分支结构设计,如残差网络add,Inception系列中的concat操作。多分支结构带来的问题是难以自定义,增加推理时间,增加显存消耗(因为需要保存各个分支的结果,直到add操作后,显存才会减少,后续会分析)一些网络结构组件,比如为轻量化网络设计的DepthwiseConv和ShuffleNet中的channel shuffle。这些操作会提高访存消耗,FLOPS看起来很低,但并不能反应实际推理速度。新颖的组件固然能提升模型精度,但是复杂的结构会影响推理速度。因此直到现在,VGG和ResNet仍然被广泛应用。当然,其中一个巨大的挑战是如何提升VGG这种plain结构的精度。选择VGG式网络的三个原因速度快现有的计算库(如CuDNN,Intel MKL)和硬件针对3x3卷积有深度的优化,相比其他卷积核,3x3卷积计算密度更高,更加有效。比如VGG16的FLOPS比EfficientNetB3大8倍,但是VGG使用的都是3x3卷积,计算密度高,EfficientNet为了节约计算量和提高性能引入了DepthwiseConv,SE注意力,但是最终运行速度RepVGG要快1.8倍节省显存前面提过多分支结构很消耗显存的,因为各个分支的结果需要保存,直到最后一步融合(比如add),才能把各分支显存释放掉以残差块结构为例子,它有2个分支,其中主分支经过卷积层,假设前后张量维度相同,我们认为是一份显存消耗,另外一个旁路分支需要保存初始的输入结果,同样也是一份显存消耗,这样在运行的时候是占用了两份显存,直到最后一步将两个分支结果Add,显存才恢复成一份。而Plain结构只有一个主分支,所以其显存占用一直是一份。灵活多分支结构会引入网络结构的约束,比如Resnet的残差结构要求输入和卷积出来的张量维度要一致(这样才能相加),这种约束导致网络不易延伸拓展,也一定程度限制了通道剪枝。对应的单路结构就比较友好,剪枝后也能得到很好的加速比。
  • [其他] 无卷积!金字塔视觉Transformer(PVT):用于密集预测的多功能backbone
    论文地址:https://arxiv.org/abs/2102.12122源码(欢迎点击star):https://github.com/whai362/PVT TL;DR这个工作把金字塔结构引入到Transformer[1]中,使得它可以像ResNet[2]那样无缝接入到各种下游任务中(如:物体检测,语义分割),同时也取得了非常不错的效果。希望这些尝试能够促进更多下游任务的进一步发展,将NLP领域中Transformer的火把传递到CV的各个任务上。
  • [行业动态] 【3月1日 AI 快讯】让GBDT和GNN结合起来:Criteo AI Lab提出全新架构BGNN
    理论让GBDT和GNN结合起来:Criteo AI Lab提出全新架构BGNNGBDT 和 GNN 方法各有各的优势,现在,来自法国、俄罗斯两家机构的研究者将二者的优势结合起来,探索使用 GBDT 模型处理图结构数据。2021/02/28 22:27原文链接手机实时人工智能之「三维动作识别」:每帧只需9ms来自美国东北大学(Northeastern University)的王言治研究组、威廉与玛丽学院(William & Mary)的任彬研究组以及北卡罗来纳州立大学(North Carolina State University)的慎熙鹏研究组提出了一种用于三维卷积神经网络(3D CNN)的模型压缩和移动加速框架 RT3D。2021/02/28 22:15原文链接未参与论文竟有自己署名,MIT-IBM Watson实验室主任怒斥「合著」中国学者及出版商几年前「被」发表了两篇论文,与素不相识的中国学者「合著」两次,自己竟毫不知情。这是「合著者」还是出版商的锅?2021/02/28 22:02原文链接Hinton独立发布44页论文火爆社区,没有实验:给你们个idea,自己去试吧大佬Hinton独立署名的论文:好家伙,给你们一个idea,大家放手去试吧!2021/02/28 21:44原文链接拒绝不公平的师生关系,MIT霸气护学生:你换导师,我替你买单读书期间,你有过换导师的想法吗?2021/02/28 12:15原文链接漏洞预警,VMware远程代码执行漏洞的严重等级达到9.8(满分10)数千台运行 vCenter server 的服务器可能会遭遇一个可怕的惊吓。2021/02/28 12:12原文链接这竟然不是阿汤哥?这个「真的吓人」视频火爆全网好莱坞影星「阿汤哥」又一次成为深度造假视频的主角。2021/02/28 12:08原文链接产业全自由定制?美国初创公司Framework发布模块化笔记本电脑在这款笔记本上,我们所发现的亮点绝不是某一配置,而是它带来的有关「自由定制」的体验。2021/02/28 22:20原文链接工程都2021年了,为什么想回看5分钟前写的代码就这么难写代码的时候,反复修改是常见的事,修改之后忘记以前是什么样子好像也很常见。2021/02/28 22:07原文链接真·技术改变生活:他用矿机帮中央空调制热,每月电费减半一边挖矿,一边取暖,电费却减半,怎么还能遇到这样的好事?2021/02/28 21:53原文链接其他26岁数学天才回国任教,刚以中科大教授之名攻破世界级难题08级中科大少年班学生2021-02-28 13:41:52原文链接 
  • [其他] CNN特征图可视化方法
    在CV很多方向所谓改进模型,改进网络,都是在按照人的主观思想在改进,常常在说CNN的本质是提取特征,但并不知道它提取了什么特征,哪些区域对于识别真正起作用,也不知道网络是根据什么得出了分类结果。如在上次解读的一篇论文《Feature Pyramid Transformer》(简称FPT)中,作者提出背景信息对于识别目标有重要作用,因为电脑肯定是在桌上,而不是水里,大街上,背景中的键盘鼠标的存在也能辅助区分电脑与电视机,因此作者提出要使用特征金字塔融合背景信息。从人的主观判断来看,这点非常合理。但对于神经网络来说,FPT真的有融合背景信息,而普通CNN网络没有融合背景信息?又或者说,一般而言,除了提出的新模型,还会加上主观设计的各种tricks,确定最后是因为融合了背景信息而精度提高了,还是说背景确实融合了,但实际上对精度没有影响,而是各种tricks起了作用?这一切并不确定,因为并不确定CNN到底学到了什么。解决这个问题的办法有很多,一个是想办法看看CNN内部学到了什么,一个是控制变量法。提到这个控制变量法,在某一篇论文中(我对不起我的读者,论文累积量太大,忘记是哪一篇,只记得该论文的一些新颖之处),在设计了一个新的模型后,通过改变卷积层的某些通道,来看最后模型的精度的变化,从而确定哪些通道对这个模型是真正起作用的,而哪些是冗余的。按照这个思路,我们或许可以在数据预处理时,故意裁剪掉人主观认为有用的背景信息,例如裁剪辅助识别电脑的桌子,键盘鼠标,重新训练FPT,从而看最终精度有没有影响。很明显,这种方法理论上是可行的,但实际上工作量巨大,不现实。而CNN可视化是值得考虑的方法。除了上面提到的一点,CNN可视化的作用还有哪些?在少数提出新模型或新methods的论文中,往往会给出这个模型的一些可视化图来证明这个模型或这个新methods对于任务的作用,这一点不仅能增加新模型或新methods可信度,也能起到增加工作量,增加论文字数的作用,如研究者想到一个method,一两页就介绍加推理加证明完了,效果明显,但作为一篇论文却字数太少,工作量不够多,就可以考虑可视化使用了这个methods的网络与没有使用这个methods的网络,进行对比,分析分析,就可以变成一篇完整的论文了。此外,CNN可视化还有一个作用,根据可视化某个网络的结果分析其不足之处,从而提出新的改进方法。例如:ZFNet正是对AlexNet进行可视化后改进而来,获得了ILSVRC2014的冠军。CNN可视化方法一、特征图可视化。特征图可视化有两类方法,一类是直接将某一层的feature map映射到0-255的范围,变成图像。另一类是使用一个反卷积网络(反卷积、反池化)将feature map变成图像,从而达到可视化feature map的目的。二、卷积核可视化。三、类激活可视化。这个主要用于确定图像哪些区域对识别某个类起主要作用。如常见的热力图(Heat Map),在识别猫时,热力图可直观看出图像中每个区域对识别猫的作用大小。这个目前主要用的方法有CAM系列(CAM、Grad-CAM、Grad-CAM++)。四、一些技术工具。通过一些研究人员开源出来的工具可视化CNN模型某一层。CNN技术总结将按照这四个方法,分成四个部分总结CNN可视化技术。对于以后出现新的技术,或者补充,将更新在公众号CV技术指南的技术总结部分。在本文,主要介绍第一类方法,特征图可视化。
  • [技术干货] 分享优秀 AI 论文
    深入认识我们习以为常的现象ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness ( ICLR 2019 )    现代 CNN 网络有很强的特征表示学习能力,能在 ImageNet 上得到很高的识别准确率。不过,不断改进网络架构、不断刷分的人多,探究 CNN 到底学到了怎么样的特征表示的人少。按理说,对象识别的边界和纹理之争早就存在,不过我们终于还是在 2019 年看到了针对性的研究论文。这篇论文中的实验表明,展示了在 ImageNet 上训练的 CNN 会带有纹理偏倚;增加形状偏倚可以提高准确度和鲁棒性,在 ImageNet 上训练的 CNN 网络在对象识别中依赖纹理远多于依赖形状;这其实和人类对自己的识别模式的认知有很大区别,也和我们对 CNN 工作方式的理解有所不同。作者们的结论有充分的实验支持,他们甚至用生成的风格转换数据集训练了依赖形状更多的 CNN,这样的 CNN 在识别准确率和鲁棒性方面都有提高。这篇论文被 ICLR 2019 接收。   论文地址:https://arxiv.org/abs/1811.12231    转自,杨晓凡,https://www.leiphone.com/news/201912/TK9EEFIUdjdbAC4J.html
  • [技术干货] 分享适合科学研究深度学习模型(四)
    序列到序列:处理序列数据另一个比较流行的方法是序列到序列的转换,即将一个序列转换为另一个序列。此方法一般机器翻译常用,通常依赖于具有编码器-解码器结构的神经网络模型,其中编码器神经网络接收输入序列并学习提取重要特征,然后解码器神经网络使用该特征来产生目标输出。该范式已经用于生物学和能源预测,其中在里面发挥重要作用的是Attention技术。递归神经网络模型的示意图问答也能够作为处理序列数据的一个基准,此类神经网络模型的标准是:一段文字(作为上下文)和一个具体的问题作为输入,回答的段落作为输出。值得一提的是,问答模型要求的神经网络模型必须能够理解不同序列集的相关性和相似性。处理序列数据比较强大的神经网络有递归神经网络、注意力机制、Transformers。递归神经网络(RNN)包括一层内的加权连接(与传统前馈网络相比,连接仅馈送到后续层)。因为RNN包含循环,所以它们可以在处理新输入的同时存储信息。这种记忆使它们非常适合处理必须考虑事先输入的任务(比如时间序列数据)。递归神经网络(RNN)非常适合处理文本、语音、视频等时间序列数据样本。注意力在深度学习中可以大致理解为对于某一个向量关注的程度如何,这个向量可能表示的是图像中的某一局部区域或是句子中的某个词,使用注意力向量来估计关注的部分和其他元素之间的关系强弱,并将不同部分的值的和用注意力向量加权得到的结果作为目标的近似值。虽然注意力有助于解决远程依赖中的挑战,但RNN训练起来仍然很慢,NLP中的Transformer是全新的框架,旨在解决序列到序列的任务,同时轻松处理长时依赖。其用全attention的结构代替了lstm,能够在翻译任务上取得了更好的成绩。在科研中也有几个有趣的例子,如在蛋白质序列上进行训练并找到编码有意义的生物特性的表征。转自,蒋宝尚,https://www.leiphone.com/news/202004/P17m2mt9pwdUgpwP.html
  • [其他] 分组卷积
    首次在大规模图像数据集(ImageNet)实现了深层卷积神经网络结构,引发深度学习热潮的AlexNet 论文(https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf)在 2012 年引入了分组卷积。实现分组卷积的主要原因是让网络训练可在 2 个内存有限(每个 GPU 有 1.5 GB 内存)的 GPU 上进行。下面的 AlexNet 表明在大多数层中都有两个分开的卷积路径。这是在两个 GPU 上执行模型并行化(当然如果可以使用更多 GPU,还能执行多 GPU 并行化)。分组卷积的优点高效训练由于卷积可分为多个路径,因此每个路径可以由不同的GPU进行处理。此过程允许以并行的方式对多个GPU进行模型训练。这种基于多GPU的模型并行化允许网络在每个步骤处理更多图像。一般认为模型并行化比数据并行化效果更好,后者将数据集分成多个批次(Batch),然后分开训练每一批次。但是当批次大小过小时,本质上执行的是随机梯度下降,而非批梯度下降,这会造成收敛速度缓慢切收敛结果更差。在训练非常深的神经网络时,分组卷积会非常重要,正如下图ResNeXt中那样,图片来自论文(https://arxiv.org/abs/1611.05431)模型性能更优这有一点让人惊讶,分组卷积在某些情况下能提供比标准2D卷积更好的模型。这在文章(https://blog.yani.io/filter-group-tutorial/)有很好地解释,这里仅做简要的分析。原因主要和稀疏滤波器(稀疏矩阵)有关。下图是相邻层滤波器的相关性,为稀疏关系。图为在 CIFAR10 上训练的一个 Network-in-Network 模型中相邻层的过滤器的相关性矩阵。高度相关的过滤器对更明亮,而相关性更低的过滤器则更暗。图片来自:https://blog.yani.io/filter-group-tutorial
  • [其他] 扩张卷积(空洞卷积)
    扩张卷积由这两篇引入:https://arxiv.org/abs/1412.7062;https://arxiv.org/abs/1511.07122这是一个标准的离散卷积:扩张卷积如下: