• [技术干货] 学习心得-计算机视觉基础:深度学习和神经网络
    AI基础课程 计算机视觉基础:深度学习和神经网络AI解决方案深度学习的发展前景及其面临的巨大挑战;深度神经网络的基本单元组成和产生表达能力的方式及复杂的训练过程。深度学习的方法论和重要性近年来,深度学习在多个领域取得了重要突破,带来全新的方法论变革。深度学习(Deep Learning)源于人工神经网络的研究,是机器学习的一个分支。深度学习主要依赖于深度神经元网络,这种神经网络类似于人类的大脑,其学习过程也与人类十分相似。基本上,你输入海量的数据给它以后,它就会通过训练,学习到海量数据的特征。举例来说,有两组神经元,第一组神经元接收到信息后,用算法将其抽象化,而后再将简化的信息传入到第二组神经元。第二组神经元通过相同或是其他的算法再将信息进行简化,就得出了一定的结果。深度学习使机器更加聪明,带给我们更加智能的服务。在深度学习中,现在效果最好的是在计算机视觉,语音识别领域,也就是对应的人脸识别,物体识别,语音识别,深度学习针对图片,视频,音频领域数据类型应用效果最好,跟传统方法相比提升了30~50%。深度学习三要素:数据、模型、计算数据数据来源:主要通过对初始数据图片进行人工标注和机器标注。数据样本非常的重要,好的样本等于成功了一半。模型从 Caffe model zoo 找到适用模型之后主要针对两个文件进行修改调整:第一个文件是输入,比如说修改一下 data 文件,或将输入的地址改成刚刚定义的 TXT 文件;第二个是 solver 文件,对 baselr 参数进行调整。计算训练计算方式主要有命令行和 python 接口两种方式。上文提到的训练方式主要是以命令行的方式进行的。此外我们还可以通过 python 接口进行训练。现代化的深度卷积神经网路我们就来谈谈牛逼的深度卷积神经网络CNN:CNN:Convolutional Neural NetworkVGGNet,LeNet,Google Net,Residual Net从神经学角度来说,卷积神经网络的设计灵感来源于人脑视觉皮层对外界事物的感知,人眼以图像的形式把感知到的外界事物传递给大脑,大脑通过逐层的对该图像进行抽象,抽取出图像的边角等代表图像的高纬特征给大脑做出准确的判断。回顾历史,1984年,日本学者福岛邦彦提出了卷积神经网络的原始模型神经感知机(Neocognitron),1998年,Yan. LeCun提出了深度学习常用模型之一卷积神经网络(Convoluted Neural Network, CNN),成就了现在基于CNN的图像、语音、计算及视觉和NLP技术的快速发展。CNN的精华是:三概念两核心,这里做个简要的概要性介绍。两核心是指CNN的两个核心操作:卷积和池化。卷积:主要起到作用是抽取特征,使网络具有一定转移不变性,也有一定降维的作用。概述:设定一个n行m列的卷积窗口,采用的relu(elu,leakyrelu)做为激活函数函数,对输入X进行卷积操作。注意:1、卷积可能单通道或者多通道卷积;2、卷积操作时分为padding和非padding两种方式,padding也分为很多方式,比如zero-padding,mean-padding等。3、对同一个输入可以设置不同大小卷积和,或从不同的位置,或不同的卷积步长多次进行卷积,目的就是为了尽可能多的抽取特征。池化:主要起降维的作用。概述:设置一个n行m列的池化窗口,对输入X进行池化操作,采用relu(elu,leakyrelu)做为激活函数。也可采用sigmoid或tans型激活函数,但注意函数的饱和死区特性导致的反向传播时的梯度消失问题,可以配合Batch Normalization使用。池化也有很多方式,比如最大值池化、平均值池化。三概念指的是CNN的三个重要概念:局部感受野、权值共享和下采样/降采样。局部感受野:卷积操作时卷积窗口与输入X重合的部分。权值共享:卷积操作或池化操作时,卷积窗口或池化窗口的权值不发生变化。下采样/降采样:直观感觉就是池化操作。可见,卷积和池化的随机组合赋予了CNN很大的灵活性,因此也诞生了很多耳熟能详的经典网络:AlexNet,VGGNet,Google Inception Net,ResNet,四种网络在深度和复杂度方面一次递增。AlexNet获得了ILSVRC(ImageNet Large Scale Visual Recognition Challenge)比赛2012年冠军(8层神经网络,top-5错误率16%,使用更多额外数据可达到15.3%),VGGNet获得2014年ILSVRC的亚军(19层神经网络,top-5错误率7.3%),Google Inception Net获得2014年ILSVRC冠军(22层神经网络,top-5错误率6.7%),ResNet获得2015年冠军(top-5错误率3.57%,152层神经网络)。下面概要介绍下这几种网络。AlexNetAlexNet是由Hinton的学生Alex Krizhevsky在2012年提出的深度卷积网络,可以看做是Lenet加深加宽版本。AlexNet中采用了一系列的新的技术点:成功应用了Relu、Dropout和LRN等trick,首次采用GPU进行加速,作者还开源了他们在GPU上训练网络的源代码。AlexNet整个网络包含6亿3000万个连接,6千万个参数,65万个神经元,包含5个卷积层,其中三个后面连接了最大池化层,最后还用了3个全连接层。2012年ALexNet以显著的优势赢得了2012年ILSVRC比赛冠军,top-5错误率降低至16.4%,比第二名26.2%成绩有了巨大的提升。AlexNet推动了神经网络的再次崛起,确立了深度学习在计算及视觉的统治地位,同样也促进了深度学习在语音识别,自然语言处理等领域的拓展应用。深度学习的成就 局限性和未来方向低预算或低承诺问题深度学习模型非常灵活,有大量的架构和节点类型、优化器以及归一化策略。依靠应用,你的模型也许会有卷积层或者循环结构;它也许真的很深,或者仅有几个隐藏层;它也许使用整流线性单元或者其他的激活函数;它或许有dropout,或许没有,并且权重很可能被归一化。以上只是一个部分列表,还有很多其他的类型的节点、链接甚至损失函数可以尝试。有很多超参数可以微调,很多架构可以探索,尽管训练一个大型的神经网络非常耗时。谷歌最近鼓吹其AutoML流程可自动找到最佳架构,但是需要超过800块GPU全力运转数周,这可不适合所有人去做。重点是训练深度网络在计算和调试方面成本很高,这种费用对于许多日常预测问题并没有任何意义,甚至调整小型网络速度也太慢。即使有足够的预算和承诺,首先作为基准也没有理由不尝试其他方法。你可能会惊喜地发现,线性支持向量机才是你真正需要的全部。向一个普通听众解释和传达模型参数/特征重要性深度网络之所以臭名昭著是因为它是一个黑箱,预测能力强大却无法被解释。即使最近有很多工具在一些领域表现显著,它们并不会彻底转向全部的应用。这些工具在你想要确保网络是否欺骗你时工作良好,这主要是通过存储数据集或者聚焦特定的假特征实现的。但是向深度网络的整体决策阐释预特征的重要性依然很困难吗?在这一领域,由于学习系数与回应存在直接关系,没有什么可以真正打败线性模型。这在向一般听众传递这些阐释时尤其关键。例如,内科医生需要整合所有类型的分散数据从而做出诊断。变量与结果之间的关系越简单和直接,内科医生对其利用就越好,并且不会低估/高估其价值。进而,在很多案例中模型的精确度并没有理论阐释那么重要。例如,一个策略决策者也许想要知道人口统计的变量对死亡率的影响,并且相比于预测精度,他很可能对两者关系的直接近似值更感兴趣。在这两种案例中,相对于更简单、更深入的方法,深度学习处于劣势。建立因果机制模型阐释的极端案例是试图建立一个机制模型,即,一个可以真正捕捉数据背后的现象的模型。好的实例包括试图猜测两个分子是否在一个特定的细胞环境中交互?或者假设一个特定的市场策略如何对销售产生实际影响。该领的专家认为,老式的贝叶斯方法不可替代;它是我们进行因果表征和推理的最佳方式。Vicarious最近在这方面有一些杰出成果(https://www.vicarious.com/img/icml2017-schemas.pdf),证明了为什么这一更加原则性的方法可以在视频游戏任务中比深度学习泛化地更好。从「非结构」特征中学习这个有待讨论。我发现深度学习擅长的一个领域是为一个特定任务找到数据的有用表征。一个比较好的示例是上述的的词嵌入。自然语言有着丰富而复杂的结构,其可通过「语境-意识」网络被近似:每个词可表征为一个向量,它编码了其被使用最多的语境。使用在自然语言处理任务的大型语料库中学习的词嵌入有时可使另一个语料库中的特殊任务获得提升。然而,如果有问题的语料库是彻底非结构的,那么深度学习将毫无用武之地。例如,你正在通过查看关键词的非结构列表进行目标分类。由于关键词并不被用于任何特定结构,词嵌入并不可能帮助太多。在这一情况中,数据是真正的词包,表征对于任务也充足。一个反方论点也许是词嵌入实际上并没有那么昂贵,如果使用预训练的词嵌入,你也许可以更好地捕捉到关键词相似性。然而,我依然倾向于从词包表征开始,并查看我是否能够得到好的预测。毕竟,相比于对应的词嵌入槽,词包的每一个维度更容易阐释。深度是未来深度学习很热,资金充足,且发展飞快。当你在一个会议上读到一篇深度学习论文时,它可能是两三次迭代后的结果。这给我的上述观点提出了很大的注意:不久的将来,深度学习也许在一些场景中依然超级有用。阐释深度学习的工具变得越来越好。最近的软件(比如Edward)融合了贝叶斯建模和深度网络框架(详见:深度概率编程语言Edward:融合了贝叶斯、深度学习和概率编程),借助概率编程和自动变分推理,量化了神经网络参数和简单贝叶斯推理的不确定性。长远看,存在一个简化的建模词汇表,揭示深度网络可以具有的显著属性,从而减少需要测试的事物的参数空间。
  • [其他] 机器学习:机器模拟人的意识和思维
    机器学习的概念:机器学习是一种统计学方法,计算机利用已有数据得出某种模型,再利用此模型预测结果。特点:随经验的增加,效果会变好。简单模型举例:决策树模型预测班车到达时间的问题描述: 每天早上七点半,班车从 A 地发往 B 地,到达 B 地的时间如何准确预测?如果你第一次乘坐班车,你的预测通常不太准。一周之后,你大概能预测出班车 8:00 左右到达 B 地;一个月之后,随着经验的增加,你还会知道,周一常堵车, 会晚 10 分钟,下雨常堵车,会晚 20 分钟。于是你画出了如下的一张树状图,如 果是周一,还下了雨,班车会 8:30 到达;如果不是周一,也没有下雨,班车会 8:00 到达。机器学习和传统计算机运算的区别:传统计算机是基于冯诺依曼结构,指令预先 存储。运行时,CPU 从存储器里逐行读取指令,按部就班逐行执行预先安排好的 指令。其特点是,输出结果确定,因为先干什么,后干什么都已经提前写在指令 里了。机器学习三要素:数据、算法、算力 深度学习的概念:深层次神经网络,源于对生物脑神经元结构的研究。人脑神经网络:随着人的成长,脑神经网络是在渐渐变粗变壮。生物学中的神经元:下图左侧有许多支流汇总在一起,生物学中称这些支流叫做 树突。树突具有接受刺激并将冲动传入细胞体的功能,是神经元的输入。这些树突汇总于细胞核又沿着一条轴突输出。轴突的主要功能是将神经冲动由胞体传至 其他神经元,是神经元的输出。人脑便是由 860 亿个这样的神经元组成,所有的 思维意识,都以它为基本单元,连接成网络实现的。计算机中的神经元模型:1943 年,心理学家 McCulloch 和数学家 Pitts 参考了 生物神经元的结构,发表了抽象的神经元模型 MP。神经元模型是一个包含输入, 输出与计算功能的模型。输入可以类比为神经元的树突,输出可以类比为神经元 的轴突,计算可以类比为细胞核。人工智能 Vs 机器学习 Vs 深度学习 的对比:人工智能,就是用机器模拟人的意识和思维。机器学习,则是实现人工智能的一种方法,是人工智能的子集。深度学习就是深层次神经网络,是机器学习的一种实现方法,是机器学习的子集。 机器学习的典型应用1、应用领域 计算机视觉、语音识别、自然语言处理2、主流应用:(1) 预测(对连续数据进行预测)      如,预测某小区 100 平米的房价卖多少钱。 根据以往数据(红色●),拟合出一条线,让它“穿过”所有的点,并且与各个点 的距离尽可能的小。我们可以把以前的数据,输入神经网络,让他训练出一个模型,比如这张图中红 色点表示了以往的数据,虚线表示了预测出的模型 Y = ax + b ,大量历史数据 也就是面积 x 和房价 y 作为输入,训练出了模型的参数 a = 3.5, b = 150,则 你家 100 平米的房价应该是 3.5 * 100 + 150 = 500 万。 我们发现,模型不一定全是直线,也可以是曲线;我们还发现,随着数据的增多, 模型一般会更准确。(2) 分类(对离散数据进行分类)       如,根据肿瘤患者的年龄和肿瘤大小判断良性、恶性。       红色样本为恶性,蓝色样本为良性,绿色分为哪类?假如让计算机判断肿瘤是良性还是恶性,先要把历史数据输入到神经网络进行建 模,调节模型的参数,得到一条线把良性肿瘤和恶性肿瘤分开。比如输入患者的 年龄、肿瘤的大小 还有对应的良性肿瘤还是恶性肿瘤,使用神经网络训练模型 调整参数,再输入新的患者年龄和肿瘤大小时,计算机会直接告诉你肿瘤是良性 还是恶性。比如上图的绿色三角就属于良性肿瘤。
  • [其他] 分享论文为图神经网络生成解释
    GNNExplainer: Generating Explanations for Graph Neural Networks链接:https://papers.nips.cc/paper/9123-gnnexplainer-generating-explanations-for-graph-neural-networks.pdf    这里要介绍的论文瞄准的是“图神经网络的可解释性”这个重要任务,论文中提出了用来解释图神经网络的输出的GNN Explainer,这是一个模型无关的框架,它能为任意任务上的、任意一个基于图的模型的预测结果做出解释。比如说,你在用图注意力网络做节点分类/图分类任务,然后你想看看你的问题的可解释的结果,那你直接用GNN Explainer就好了。    他们的设计思路是,GNN Explainer会让模型预测和结合图、节点特征形成的子图结构之间的共同信息最大化(当然了,生成子图的过程需要一些优化技巧,毕竟检测所有可能的子图是办不到的)。这个框架给出的解释的形式是,它会返回一个带有最重要的通路和特征的子图,这就很容易被人类解读了。
  • [其他] 脉冲神经网络研究现状及展望
    脉冲神经网络(Spiking Neural Network, SNN)包含具有时序动力学特性的神经元节点、稳态-可塑性平衡的突触 结构、功能特异性的网络环路等,高度借鉴了生物启发的局部非监督(如脉冲时序依赖可塑性、短时突触可塑性、局部稳 态调节等)、全局弱监督(如多巴胺奖赏学习、基于能量的函数优化等)的生物优化方法,因此具有强大的时空信息表征、 异步事件信息处理、网络自组织学习等能力。SNN 的研究属于交叉学科,将深入融合脑科学和计算机科学,因此对其研究 也可以主要分为两大类:一类是以更好的理解生物系统为最终目的;另一类是以追求卓越计算性能为优化目标。本文首先 对当前这两大类 SNN 的研究进展、研究特点等进行分析,重点介绍基于 Spike 的多类异步信息编码、基于 Motif 分布的多 亚型复杂网络结构、多层时钟网络自组织计算、神经形态计算芯片的软硬结合等。同时,介绍一种融合生物多尺度、多类 型神经可塑性的高效 SNN 优化策略,使得 SNN 中的信度分配可以从宏观尺度有效覆盖到微观尺度,如全部的网络输出、 网络隐层状态、局部的各个神经节点等,并部分解答生物系统是如何通过局部参数的调优而实现全局网络优化的问题。这 将不仅为现有人工智能模型提高其认知能力指明一种可能的生物类优化方向,还为反向促进生命科学中生物神经网络的可 塑性研究新发现提供启发。本文认为,脉冲神经网络的发展目标不是构建人工神经网络的生物版本替代品,而是通过突破 生物启发的多尺度可塑性优化理论,去粗取精,最终实现具有生物认知计算特色的新一代高效脉冲神经网络模型,使其有 望获得更快的学习速度、更小的能量消耗、更强的适应性和更好的可解释性等。
  • [其他] AI为啥能读懂说话人的情感?
    本文分享自华为云社区《[语音情感识别的应用和挑战](https://bbs.huaweicloud.com/blogs/297370?utm_source=csdn&utm_medium=bbs-ex&utm_campaign=ei&utm_content=content)》,作者:SSIL\_SZT\_ZS。情感在人与人的交流中扮演者重要的角色。情感识别具有极大的应用价值,成功的检测人的情感状态对于社交机器人、医疗、教育质量评估和一些其他的人机交互系统都有着重要意义。本文的要点有:1、情感识别的基础知识和应用场景。 2、语音情感识别技术的介绍以及面临的挑战。 3、如何解决数据缺乏问题,我们的方案是什么。## 1.什么是情感识别?情感是人对外部事件或对话活动的态度。人的情感一般分为:高兴、生气、悲伤、恐惧和惊喜等。机器对采集的信号进行分析,从而得到人的情感状态,这一过程就是情感识别。通常,能用来进行情绪识别的信号包括两个方面,一个是生理信号如呼吸、心率和体温,另一个是行为表现包括面部表情、语音和姿态等等。人脸与语音得益于简单的采集方式,经常被用来识别对象的情感。情感识别能帮助系统了解对象的情感状态以及其对某个话题或事务的态度。在人工智能(AI)产品和人的交互过程中,如果能够准确地把握人当前的情感状态,根据情感状态做出回应,可以极大地提升用户对AI产品的体验。这在商品推荐,舆论监控,人机对话等方面都有着重要的意义。例如,在销售过程中,了解用户对商品的满意度,可以帮助平台制定更好的销售策略;在影视行业,了解观众对节目的喜怒哀乐,能帮助制定更精彩的剧情以及安排特定节目的上线时间;在人机对话中,掌握人的情感状态可以帮助智能机器人做出恰当的回复,并适时地表达安抚和谅解,提升用户体验;在舆论方面,行政部门通过了解群众对热门事件的情感倾向、掌握舆论导向,从而更及时有效的进行舆情监控,为制定政策提供支持。情感识别还能应用于许多现实的场景中。情感识别算法具有很高的研究价值。考虑到采集难度、隐私等因素,本文的工作聚焦于使用语音来识别说话人情感的语音情感识别(SpeechEmotionRecognition,SER)任务。## 2.语音情感识别技术介绍语音是日常生活中交流的主要媒介,它不仅传达了思想,还表达了说话人的情感状态。语音情感识别的目标是从语音中识别出人类的情感状态。其主要包含两个步骤:特征提取与分类器构建。音频信号输入是近似连续的数值。提取音频特征通常首先对音频进行分帧,加窗,进行短时傅里叶变换(STFT)。然后得到了维度为T\\timesD_T_×_D_的频谱特征,其中T_T_表示帧数与时间长度相关,D_D_是特征维度,每个维度对应不同的频率。有一些工作也会对此频谱进行一些mel滤波操作。!(https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202109/17/234230j2p6hvnctfgqs7tv.png)频谱特征包含丰富的信息,比如说话内容、节奏、语气、语调等等。与情感相关的语音特征提取仍然是一个尚未成熟研究方向。深度学习的出现简化了人工特征提出过程,使用数据驱动的方法,利用情感标签作为监督信号来训练深度模型提取与情感相关的隐含语义特征。由于音频输入的序列化特点,深度特征提取通常也有基于CNN/GRU/LSTM方法,或者基于CRNN或CNN+Attention的方法。传统的机器学习方法可以基于人工语音特征或者深度语音特征构建分类器,例如高斯混合模型(GMM),隐马尔科夫模型(HMM),支持向量机(SVM)等经典方法。此外,得益于深度学习的发展,基于神经网络的分类器可以与深度特征提取器一起端到端(end-to-end)训练,得到情感分类器。## 3.语音情感识别面临的挑战我们前面介绍了语音情感分析中常用的方法,但语音情感识别在实际中也面临着一些挑战:1. 情感主观性与模糊性问题:语音情感识别是一个比较年轻的领域,在情感定义上缺乏官方标准。不同听者对同一段语音的情感可能有不同的观点。此外,一段语音往往有情感变化,主观性较强,导致许多研究工作没有普适性。2. 情感特征提取和选择问题:语音说话人各种各样,情感类别多变,语音片段长短不一等,这些问题导致人工设计特征无法涵盖全部情感信息。另一方面,深度特征虽然效果好,但不具有可解释性。3. 标注数据缺乏问题:深度学习方法取得很好的性能要求大量的高质量的标注数据。由于情感的主观性与模糊性,标注语音情感非常费时费力,同时要求大量专业人员。收集大量情感标注数据,是语音情感识别领域亟需解决的问题。## 4.如何解决数据缺乏的问题?数据是深度学习的驱动力,大规模高质量的数据是深度学习取得成功的关键。然而,在很多实际问题中,由于标注代价问题,只存在少量的标注数据,这严重限制深度学习方法的发展。随着互联网社交平台的发展,每天都回生产大量的多媒体数据,大规模无标注的数据很容易获得。这就促进了能同时使用标注数据和无标注数据的半监督学习(Semi-SupervisedLearning)方法的发展。另一方面,多媒体数据通常情况下都包含多个模态,因此也有一些工作探索利用一个模态的标注知识去加强在另一个模态上的任务的效果。下面介绍这两种方法。### 4.1半监督学习半监督学习一般有两个数据集,一个小规模的有标注数据集,一个大规模的无标注数据集。其目的是利用无标注数据来增强,监督学习的效果。经典半监督学习方法包含很多类别,例如self-training(自训练算法),generativemodels(生成模型),SVMs(半监督支持向量机),graph-basedmethods(图论方法),multiviewlearing(多视角算法)等等。下面介绍几类主要半监督学习方法。- 简单自训练算法(self-training) self-training算法的步骤为:(1)首先利用标注训练集数据训练分类器;(2)利用分类器对无标注数据进行分类,并计算误差;(3)选择分类结果中误差较小的样本,将分类结果作为其标签,加入到训练集。循环次训练过程,直到所有的无标注数据被标注。- 多视角学习(multiviewlearing) 这是self-training算法的一种。其假设每个数据可以从不同的角度进行分类。算法步骤如下:(1)在角度用标注数据集训练出不同的分类器;(2)用这些分类器从不同的角度对无标注数据进行分类;(3)根据多个分类结果来选出可信的无标签样本加入训练集。循环前面的训练过程。此方法的优点是不同角度的预测结果可以相互补充,从而提高分类精度。- 标签传播算法(LabelPropagationAlgorithm) 标签传播算法是一种基于图的半监督算法,通过构造图结构来找无标签数据和有标签数据之间的关系,然后通过这个关系来进行标签传播。在深度学习上的半监督学习方法,叫做半监督深度学习。半监督深度学习主要包括三类:Fine-tune;基于深度学习的self-training算法;半监督的方式训练神经网络。Fine-tune方式,利用无标签数据训练网络(重构自编码或基于伪标签训练),然后使用有标签数据在目标任务上进行微调。基于深度学习方法的self-training,基本的步骤:(1)利用有标注数据训练深度模型;(2)利用深度模型作为分类器或者利用深度特征对无标签数据进行分类;(3)选择执行度高的加入有标签训练集,重复此过程。半监督的方法训练深度网络包含许多技术,例如Pseudo-Label\[1\],LadderNetworks\[2\],TemporalEnsembling\[3\],Meanteachers\[4\]还有FixMatch等等。下面我们介绍几个主要的工作。1.Pseudo-Label方法\[1\] 此方法将网络对无标签数据的预测结果,作为无标签数据的标签,来训练网络。方法虽然简单,效果却很好。从下图我们可以看出,加了无标签数据之后,同一个类别的数据点聚集得更笼了。!(https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202109/17/2342479hi7qphj8yn4dozw.png)2.TemporalEnsembling\[3\] TemporalEnsembling是Pseudo-Label方法的发展。其目标是构造更好的伪标签。下图给出了此方法的结构图,此方法有两种不同的实现,即π_π_\-model和temporalensembling。!(https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202109/17/234254qbnapm8k6sig18xr.png)π_π_\-model的无监督代价是对同一个输入在不同的正则或数据增强的条件下模型输入应具有一致性,这样可以鼓励网络学习数据内部的不变性。 Temporalensembling对每一次迭代的预测z\_i_zi_进行移动平均得个\\hat{z\_i}_zi_^作为无监督训练的监督信号。3.Meanteacher\[4\] Meanteacher方法另辟蹊径,从模型的角度提高伪标签质量,其奉行“平均的就是最好的”原则。对每次迭代之后的student模型参数进行移动平均(weight-averaged)得到teacher模型,然后用teacher模型来构造高质量的伪标签,来监督student模型的无标签loss。4.FixMatch\[5\] FixMatch发扬了TemporalEnsembling方法中的一致性正则化(consistencyregularization)原则,即同一个样本的不同增广,模型应该得到一致的结果,从而学习数据内部的不变性。因此FixMatch方法利用弱增广的样本生成一个伪标签,利用此伪标签来监督模型对强增广样本的输出。### 4.2跨模态知识迁移跨模态知识迁移基于多媒体数据中各个模态之间的内在联系,将标注信息由一个模态向目标模态迁移从而实现数据标注。如下图所示,跨模态知识迁移包括视觉到语音的迁移,文本到图像的迁移等等。下面介绍几种经典的跨模态知识迁移工作。!(https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202109/17/2343056ythlubfmc3hfvsn.png)1.基于跨媒体迁移的图像情感分析\[6\] 此方法利用推特上成对的文本图像数据,完成图像情感分析任务,具体步骤如下图。!(https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202109/17/234312dacrze7syg8hypea.png)其使用训练好的文本情感分类器,对文本进行情感分类,然后将标签直接给对应的图片。然后使用具有伪标注的图片训练图片情感分类器。2.SoundNet\[7\]!(https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202109/17/234321lpls7zcvspwq9yqp.png)通过预训练的视频对象和场景识别网络实现从视觉模态到语音模态的知识迁移,利用迁移的标签训练语音模型,完成语音场景或语音对象分类。3.EmotionRecognitioninSpeechusingCross-ModalTransferintheWild\[8\]!(https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202109/17/234328k7rgnx0lappjmdyz.png)此方法利用预训练好的人脸情感识别模型作为teacher模型,然后利用teacher模型的预测结果来训练语音情感识别模型。## 5.我们的语音情感识别方案这一节将介绍我们处理标注数据缺乏的方案。### 联合跨模态知识迁移与半监督学习方法为了解决语音情感识别领域数据缺乏的问题,我们在2021年提出了联合跨模态知识迁移与半监督学习的架构,该方法在CH-SMIS以及IEMOCAP数据集上取得了语音情感识别任务当前最优的结果,同时我们将此工作发表在SCI一区期刊knowledge-basedsystem上发表论文Combiningcross-modalknowledgetransferandsemi-supervisedlearningforspeechemotionrecognition。下面是我们的方案的架构图:!(https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202109/17/234346nxi2svsmabtjvs6g.png)我们的方案基于两个观察:1. 直接跨模态标签迁移存在误差,因为人脸情感与语音语音情感之间的关系十分复杂,并不是完全一致。2. 半监督学习方法,标注数据很少的情况下,表现并不好。模型的预测错误可能会不断的得到加强,导致模型在某些类别上精度很低。我们的方法收到了多视角学习思路的启发,利用视频数据中存在两种模态,在两个模态上识别情感,融合它们获得更加准确的伪标签。为了进行语音情感识别,本方案首先提取了语音的STFT特征,然后进行了Specaugment数据增广。因为Transformer在建模序列数据的成功,本方案采用了Transformer的encoder进行语音的编码,最后利用均值池化来得到语音特征并分类情感。### 跨模态知识迁移为了进行跨模态情感迁移,本方案基于MobileNet模型利用大量的人脸表情数据集训练了一个性能强大的人脸表情识别模型。使用此模型对从视频中抽取的图片帧进行人脸表情识别。然后将多个帧识别的结果综合到一起得到整个视频段的人脸表情预测结果。### 半监督语音情感识别受到FixMatch中一致性正则化假设的启发,我们设计了半监督语音情感识别方法。具体的,此方法对语音样本输入采取了两种类型的增广,利用强增广方法SpecAugment算法获得到语音严重扭曲版频谱特征,利用弱增广方法(特征上的dropout等)得到变化不大的语音特征。模型使用弱增广的样本生成伪标签,来监督强增广的样本的训练。### 结合半监督学习与跨模态知识迁移在模型的每一次迭代中,本方法利用弱增广样本生成一个伪标签,然后将其与跨模态迁移的伪标签进行融合,以提高伪标签的质量。本工作探索了两种融合方法,一个是加权求和,一个是多视角一致性。得到高质量的伪标签之后,用此标签监督强增广样本的训练。模型通过多次迭代,不断提升伪标签质量。相对于半监督学习方法和跨模态方法,本方法在CH-SIMS和IEMOCAP数据集上均取得了最好的效果。结果如下:!(https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202109/17/2343550sskupdkpfk7izyp.png)!(https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202109/17/234401jtztpywzxncsioej.png)## 参考文献\[1\]Pseudo-Label:TheSimpleandEfficientSemi-SupervisedLearningMethodforDeepNeuralNetworks \[2\]Semi-SupervisedLearningwithLadderNetworks \[3\]TemporalEnsemblingforSemi-supervisedLearning \[4\]Meanteachersarebetterrolemodels:Weight-averagedconsistencytargetsimprovesemi-superviseddeeplearningresults \[5\]FixMatch:SimplifyingSemi-SupervisedLearningwithConsistencyandConfidence \[6\]Cross-MediaLearningforImageSentimentAnalysisintheWild \[7\]SoundNet:LearningSoundRepresentationsfromUnlabeledVideo \[8\]EmotionRecognitioninSpeechusingCross-ModalTransferintheWild
  • [其他] 人工智能 - 脉冲神经网络
    神经网络  脉冲神经网络 (SNN-Spiking Neuron Networks) 经常被誉为第三代人工神经网络。第一代神经网络  第一代神经网络是感知器,它是一个简单的神经元模型并且只能处理二进制数据。第二代神经网络包括比较广泛,包括应用较多的BP神经网络。编码  但是从本质来讲,这些神经网络都是基于神经脉冲的频率进行编码( rate coded)。模拟神经  脉冲神经网络,其模拟神经元更加接近实际,除此之外,把时间信息的影响也考虑其中。思路  思路是这样的,动态神经网络中的神经元不是在每一次迭代传播中都被激活(而在典型的多层感知机网络中却是),而是在它的膜电位达到某一个特定值才被激活。激活  当一个神经元被激活,它会产生一个信号传递给其他神经元,提高或降低其膜电位。脉冲  在脉冲神经网络中,神经元的当前激活水平(被建模成某种微分方程)通常被认为是当前状态,一个输入脉冲会使当前这个值升高,持续一段时间,然后逐渐衰退。解释  出现了很多编码方式把这些输出脉冲序列解释为一个实际的数字,这些编码方式会同时考虑到脉冲频率和脉冲间隔时间。模型  借助于神经科学的研究,人们可以精确的建立基于脉冲产生时间神经网络模型。脉冲编码  这种新型的神经网络采用脉冲编码(spike coding),通过获得脉冲发生的精确时间,这种新型的神经网络可以进行获得更多的信息和更强的计算能力。
  • [论文解析] 【转载】MindSpore优秀论文5:[AAAI] CycleCol:基于循环卷积神经网络对真实单色-彩色摄像系统着色
    MindSpore作为一个开源的全场景AI框架,为开发者带来端边云全场景协同、极致性能,极简开发、安全可信的体验,2020.3.28开源来得到数六十万以上的下载量,走入100+Top高校教学,已通过HMS在4000+App上商用,拥有数量众多的开发者,在AI计算中心,智能制造、云、无线、数通、能源、消费者1+8+N等端边云全场景逐步广泛应用,是Gitee指数最高的开源软件。欢迎大家参与开源贡献、模型众智、行业创新与应用、算法创新、学术合作、AI书籍合作等,贡献您在云侧、端侧、边侧以及安全领域的应用案例。基于MindSpore的AI顶会论文越来越多,我会不定期挑选一些优秀的论文来推送和解读,希望更多的产学研专家跟MindSpore合作,一起推动原创AI研究,MindSpore社区会持续支撑好AI创新和AI应用,本文是MindSpore AI顶会论文第五篇,我们选择了来自国内高校在AAAI 2021的一篇论文进行解读,感谢北邮董教授团队投稿。论文整体目录:1.MindSpore优秀论文解读:自此告别互信息:用于跨模态行人重识别的变分蒸馏技术2.MindSpore AI顶会论文系列2:EPRNet 应用于实时街景分割的高效金字塔表征网络3.MindSpore AI顶会论文3:[ACL2021]文本语义哈希在大规模信息检索系统的应用4.MindSpore AI顶会论文4:[CVPR2021]AECRNet:基于对比学习的紧凑图像去雾方法5.MindSpore优秀论文5:[AAAI] CycleCol:基于循环卷积神经网络对真实单色-彩色摄像系统着色-本文1.研究背景随着目前在市场上多摄设备的逐渐普及,尤其是在各种手机上的多摄硬件的全面铺开,利用该硬件系统的优势来进行拍照着色显得极具吸引力和可行性。在华为P30,Mate30等系列手机上现在已经配备了单色-彩色双摄系统,单色相机相较于彩色相机成像质量更高,拍摄效果更好。本文主要是利用彩色相机拍摄的相片作为参照来对单色相机的拍摄结果进行着色,并期望得到具有更高质量的彩色照片。目前的着色任务主要分为以下四个种类:自动着色任务(automatic colorization):在此任务中,输入的只是一张单色图片,该算法的目的是自动的进行学习,在没有任何参照的基础上对单色图片进行着色操作。在最近的基于深度学习的方法的实践中,该任务已经取得了重大的突破,然而这一任务在多摄场景下并没有充分利用彩色相机的信息。基于人工图画的着色任务(scribble-based colorization):这一任务的输入为一张单色图片和一些人工图画的图片。使用这些人工图画的图片作为参照。该方法在多摄场景下也难以得到人工标注图片。基于参照的着色任务(reference-based colorization):该任务的输入为一张单色和一张彩色参照图片,但该任务输入的彩色图片和单色图片在不同的地点或时间进行拍摄,因而也不适合本文探讨的应用场景。单色-彩色双摄着色任务(monochrome-color dual-lens colorization):这种方法可以看作特殊的基于参照的着色任务,目前该方向的工作所使用的数据集是基于彩色摄像又的输入进行合成的,使用人工合成的数据集进行训练得到的模型难以适用到现实的复杂情况之中。2.论文主要内容简介我们提出了一个适用于着色任务的CNN模型,实现了单色-彩色双摄着色算法,该算法能够融合由单色-彩色双摄系统拍摄的单色和彩色图像,能够最大化利用黑白图像的高信噪比图像像素数据并结合彩色图像的色彩信息得到最终输出的高质量彩色图像。相比于传统的监督学习算法,该模型能够克服缺少人工标注数据的挑战,可以基于真实数据进行训练,并且能够充分发挥单色图像成像质量高这一特点,提高单色-彩色双摄系统的着色质量。下面将对算法展开进行介绍。算法流程:算法会进行两次着色操作,首先,算法使用彩色图像作为参考图像为输入单色图像IG进行着色操作得到第一次着色结果IC;然后,算法以第一次着色结果IC作为参考图像为彩色图像RC的去色图像RG进行着色操作得到RC’;第三步使用RC作为基准训练RC’,目的是利用损失函数使得RC’ RC。损失函数设计:算法设计的损失函数有结构相似性损失LSS、循环一致性损失LCC,空域平滑损失Lsmooth。其中,结构相似性损失函数使得第一次着色结果IC的亮度通道和输入单色图像IG保持结构相似性,如图1所示,算法提出了一个卷积神经网络模型学习一个度量指标来获得IG和IC之间的结构相似性损失;循环一致性损失函数使得第二次着色结果RC’和原始彩色图像RC保持色彩一致性,该项损失使用SSIM作为度量指标;空域平滑损失函数使得最终着色结果的色彩值保持局部平滑性。图1结合上述三种损失函数,定义算法整体的优化目标,损失函数分别被定义为:3.代码链接会议名称:AAAI论文链接:https://ojs.aaai.org/index.php/AAAI/article/view/6700/6554代码链接:https://gitee.com/mindspore/contrib/tree/master/papers/CycleCol4.算法框架技术要点我们使用的算法基于循环卷积神经网络结构,采用自监督学习方法,在超过一千组数据集的测试和训练下进行实验。算法框架大致如图2所示:图25.实验结果该模型在自建数据集上的对比实验结果如表1所示:表16.MindSpore代码实现基于MindSpore的模型搭建模块数据读取处理模块:使用MindSpore的自动训练函数7.总结与展望论文提出了一个适用于着色任务的卷积神经网络模型,对其进行了深入阐述,并对算法的实验结果进行了对比分析验证。目前的算法只是针对单色-彩色双摄系统而展开研究的,如今三摄甚至四摄系统等更复杂的多摄系统的应用也越来越广泛,因此如何将此算法扩展到多摄系统中还有待研究和实现,同时也需要针对多摄系统中的遮挡区域着色、自监督神经网络模式崩溃等问题提出相应的解决方案。本文作者在MindSpore社区从事相关AI工作,欢迎您扫码加入QQ群,与数千MindSpore开发者一起交流,用MindSpore赋能千行百业,点亮您的智慧生活。官方QQ群: 871543426MindSpore官网:https://www.mindspore.cn/MindSpore论坛:https://bbs.huaweicloud.com/forum/forum-1076-1.html代码仓地址:Gitee-https://gitee.com/mindspore/mindspore.gitGitHub-https://github.com/mindspore-ai转自文章链接:https://zhuanlan.zhihu.com/p/412090076感谢作者的努力与分享,侵权立删!
  • [其他] 华人学生团队获国际神经网络验证大赛佳绩:总分第一,五大单项第一
    由来自卡内基梅隆大学、美国东北大学、哥伦比亚大学、加州大学洛杉矶分校的成员共同开发的工具α,β-CROWN 获得了第二届国际神经网络验证大赛总分第一,以及 5 个单项第一!其中该团队的学生作者均为华人。近日,一年一度的国际神经网络验证大赛VNN-COMP落下帷幕。由来自卡内基梅隆大学(CMU)、美国东北大学、哥伦比亚大学、加州大学洛杉矶分校(UCLA)的成员共同研发的工具α,β-CROWN获得了第二届国际神经网络验证大赛总分第一,比分大幅度领先。该工具由华人学者张欢(CMU)、许凯第(东北大学)和王世褀(哥伦比亚大学)带领的团队开发。本文中,我们将介绍神经网络验证的基本问题、国际神经网络验证大赛的背景和本次竞赛获胜算法 α,β-CROWN。神经网络已经成为了现代人工智能中非常重要的元素。然而由于其复杂性,神经网络常常被视为「黑盒」,因为我们很难精确的刻画神经网络所表达的函数。例如,对抗样本 (adversarial examples) 是神经网络中的一个常见的问题:当在神经网络的输入中加入少量对抗扰动时,神经网络的输出可能产生错误的改变,比如将物体识为和输入毫不相关的类。这对于把神经网络应用到对安全性、鲁棒性要求较高的应用中提出了很大的挑战。神经网络验证的主要任务是为神经网络的行为提供严格的理论保证,用严格的数学方法保证鲁棒性、正确性、公平性、安全性等。比如,在鲁棒性验证问题中,我们需要证明对于一个给定的网络,在某张图片上无论采用何种对抗攻击方法,只要对抗扰动的大小不超过某个阀值,任何攻击都一定不会成功。
  • [其他] SPPNet - 原理
    原理  SPPNet也称为空间金字塔池化卷积网络,它可以将CNN的输入从固定尺寸图片改进为任意尺寸的图片。  SPPNet在普通的CNN结构中加入了ROI池化层,使得网络的输入可以是任意尺寸的。  ROI池化层一般跟在卷积层后面,它的输入是任意大小的卷积,输出是固定维数的向量。分析  1)设卷积层输出的宽度为w,高为h,通道为c。不管输入图像尺寸是多少,卷积层的通道数是不会变,也就是说c是一个常数。而w,h会随着输入图像的尺寸的变化而变化,可以看做是两个变量。  2)ROI池化层首先将卷积层划分为44的网格,每个网格的宽为w/4,高为h/4,通道数为c。当不能整除时,取整数。  3)对于网格中的每个通道,都取出最大值(即对每个网格内的特征做最大值池化),这个44的网格最终就形成了16c维的特征。  4)然后,再将网络划分成22的网格,用同样的方法提取特征,提取的特征的长度是4c。再把网络划分为11的网格,提取出的特征的长度就是c(也就是取出卷积中每个通道的最大值)。  5)最后,将得到的特征拼接起来,得到的特征是16c+4c+c=21c维的特征。很显然,这个输出特征的长度与w,h无关,因此ROI池化层可以把任意宽度、高度的卷积特征转换为固定长度的向量。特征  将ROI应用到目标检测中,可以这样考虑:网络的输入是一张图像,中间经过若干卷积形成了卷积特征,这个卷及特征实际上和原始图像在位置上是有一定对应关系的。因此,原始图像中的候选框,实际上也可以对应到卷积特征中相同位置的框,而利用ROI可以将卷积特征中不同形状的区域对应到同样长度的向量特征。  综合上述步骤,就可以将原始图像中的不同长宽的区域都对应到一个固定长度的向量特征,这就完成了各个区域的特征提取工作。计算  采用ROI后,就可以先对图像进行一遍卷积计算,得到整个图像的卷积特征;  接着,对于原始图像中的各种候选框,只需要在卷积特征中找到对应的位置框,再使用ROI池化层对位置框中的卷积提取特征,就可以完成特征提取工作  R-CNN与SPPNet的不同在于,R-CNN要对每个区域计算卷积,而SPPNet只需要计算一次,所以SPPNet的效率要高得多。
  • [其他] Faster R-CNN
    原理  Fast R-CNN中还存在一个有点尴尬的问题,它需要使用Selective Search提取框,这个方法比较慢。分析  在Faster R-CNN中,用RPN(Region Proposal Network)网络取代了Selective Search,速度和准确度均得到了很大提高。  RPN还是需要先使用一个CNN网络对原始图片提取特征,对这个卷积特征再进行一次卷积计算,保持宽、高、通道不变。位置  下面定义一个“位置”的概念:对于一个5139256的卷积特征,称它一共有5139个位置。让新的卷积特征的每一个位置都负责原图中对应位置9种尺寸的框的检测,检测的目标是判断框中是否存在一个物体,因此,一共有51399个框,这些框统一称为“anchor”。  anchor的面积分别为128128,256256,512512,每种面积又分为三种长宽比:2:1,1:1,1:2  anchor的尺寸实际是属于可调的参数,不同的任务可以选择不同的尺寸。计算步骤  1、设k为单个位置对应的anchor的个数,此时k=9,首先使用一个33的滑动窗口,将每个位置转换为一个统一的256维的特征。 这个特征对应了两部分的输出:一部分表示该位置的anchor为物体的概率,这部分的总输出长度为2k(一个anchor对应两个概率,一个是是物体的概率,一个是不是物体的概率);另一部分为框回归(同Fast R-CNN),一个anchor对应四个框回归参数(w和h的平移量、缩放量),因此框回归部分的总输出的长度为4k  2、Faster R-CNN使用RPN生成候选框后,剩下的网络结构与Fast R-CNN一样  3、在训练过程中,需要训练两个网络:RPN和分类网络。通常的做法是交替训练,即在一个batch中,先训练RPN一次,再训练分类网络一次。
  • [其他] R-CNN 原理
    分析  传统的目标检测方法大多以图像识别为基础。一般可以在图片上使用穷举法选出所有物体可能出现的区域框,对这些区域框提取特征并使用图像识别方法分类,在得到所有分类成功的区域后,通过非极大值抑制(Non-maximum suppression)输出结果。  R-CNN的全称是Region-CNN,可以说是第一个成功将深度学习用到目标检测上的算法。  R-CNN同样遵循传统目标检测的思路,同样采用提取框、对每个提取框提取特征、图像分类、非极大值抑制四个步骤进行目标检测。只不过在提取特征这一步,将传统的特征换成了深度卷积网络(CNN)提取的特征。基本步骤  1)对于原始图像,首先使用Selective Search搜寻可能存在物体的区域。    Selective Search可以从图像中启发式地搜索出可能包含物体的区域,相比穷举法可以节省一部分计算量。  2)将取出的可能含有物体的区域送入CNN中提取特征。    CNN通常是接受一个固定大小的图像,而 Selective Search所取出的区域大小却各有不同,对此,R-CNN的做法是将区域缩放到统一大小,再使用CNN提取特征。  3)提取出特征后使用支持向量机SVM进行分类,最后通过非极大值抑制输出结果。R-CNN训练  1)在训练集上训练CNN,R-CNN论文中使用的CNN网络是AlexNet,数据集是ImageNet。  2)在目标检测的数据集上,对训练好的CNN进行微调  3)用Selective Search搜索候选区域,统一使用微调后的CNN对这些区域提取特征,并将提取的特征存储起来。  4)使用提取的特征,训练SVM分类器。算量  R-CNN的缺点在于计算量太大,因此,后续研究者又提出了Fast R-CNN和Faster R-CNN,这两者在一定程度上改进了R-CNN计算量大的缺点,不仅速度变快不少,识别准确率也得到了提高。在介绍Fast R-CNN和Faster R-CNN之前,需要先引入SPPNet,并介绍SPPNet的原理。
  • [其他] 人工神经网络 - 特点
    分析  神经网络是由存储在网络内部的大量神经元通过节点连接权组成的一种信息响应网状拓扑结构,它采用了并行分布式的信号处理机制,因而具有较快的处理速度和较强的容错能力。基本特点  神经网络模型用于模拟人脑神经元的活动过程,其中包括对信息的加工、处理、存储、和搜索等过程。  人工神经网络具有如下基本特点:  1)、高度的并行性:人工神经网络有许多相同的简单处理单元并联组合而成,虽然每一个神经元的功能简单,但大量简单神经元并行处理能力和效果,却十分惊人。人工神经网络和人类的大脑类似,不但结构上是并行的,它的处理顺序也是并行和同时的。在同一层内的处理单元都是同时操作的,即神经网络的计算功能分布在多个处理单元上,而一般计算机通常有一个处理单元,其处理顺序是串行的。  人脑神经元之间传递脉冲信号的速度远低于冯·诺依曼计算机的工作速度,前者为毫秒量级,后者的时钟频率通常可达108Hz 或更高的速率。但是,由于人脑是一个大规模并行与串行组合处理系统,因而在许多问题上可以做出快速判断、决策和处理,其速度可以远高于串行结构的冯·诺依曼计算机。人工神经网络的基本结构模仿人脑,具有并行处理的特征,可以大大提高工作速度。  2)、高度的非线性全局作用:人工神经网络每个神经元接受大量其他神经元的输入,并通过并行网络产生输出,影响其他神经元,网络之间的这种互相制约和互相影响,实现了从输入状态到输出状态空间的非线性映射,从全局的观点来看,网络整体性能不是网络局部性能的叠加,而表现出某种集体性的行为。  非线性关系是自然界的普遍特性。大脑的智慧就是一种非线性现象。人工神经元处于激活或抑制二种不同的状态,这种行为在数学上表现为一种非线性人工神经网络。具有阈值的神经元构成的网络具有更好的性能,可以提高容错性和存储容量。  3)、联想记忆功能和良好的容错性:人工神经网络通过自身的特有网络结构将处理的数据信息存储在神经元之间的权值中,具有联想记忆功能,从单一的某个权值并看不出其所记忆的信息内容,因而是分布式的存储形式,这就使得网络有很好的容错性,并可以进行特征提取、缺损模式复原、聚类分析等模式信息处理工作,又可以作模式联想、分类、识别工作。它可以从不完善的数据和图形中进行学习并做出决定。由于知识存在于整个系统中,而不只是一个存储单元中,预订比例的结点不参与运算,对整个系统的性能不会产生重大的影响。能够处理那些有噪声或不完全的数据,具有泛化功能和很强的容错能力。  一个神经网络通常由多个神经元广泛连接而成。一个系统的整体行为不仅取决于单个神经元的特征,而且可能主要由单元之间的相互作用、相互连接所决定。通过单元之间的大量连接模拟大脑的非局限性。联想记忆是非局限性的典型例子。  4)、良好的自适应、自学习功能:人工神经网络通过学习训练获得网络的权值与结构,呈现出很强的自学习能力和对环境的自适应能力。神经网络所具有的自学习过程模拟了人的形象思维方法,这是与传统符号逻辑完全不同的一种非逻辑非语言。自适应性根据所提供的数据,通过学习和训练,找出输入和输出之间的内在关系,从而求取问题的解,而不是依据对问题的经验知识和规则,因而具有自适应功能,这对于弱化权重确定人为因素是十分有益的。  5)、知识的分布存储:在神经网络中,知识不是存储在特定的存储单元中,而是分布在整个系统中,要存储多个知识就需要很多链接。在计算机中,只要给定一个地址就可得到一个或一组数据。在神经网络中要获得存储的知识则采用“联想”的办法,这类似人类和动物的联想记忆。人类善于根据联想正确识别图形,人工神经网络也是这样。神经网络采用分布式存储方式表示知识,通过网络对输入信息的响应将激活信号分布在网络神经元上,通过网络训练和学习使得特征被准确地记忆在网络的连接权值上,当同样的模式再次输入时网络就可以进行快速判断。  6)、非凸性:一个系统的演化方向,在一定条件下将取决于某个特定的状态函数。例如能量函数,它的极值相应于系统比较稳定的状态。非凸性是指这种函数有多个极值,故系统具有多个较稳定的平衡态,这将导致系统演化的多样性。总结  正是神经网络所具有的这种学习和适应能力、自组织、非线性和运算高度并行的能力,解决了传统人工智能对于直觉处理方面的缺陷,例如对非结构化信息、语音模式识别等的处理,使之成功应用于神经专家系统、组合优化、智能控制、预测、模式识别等领域。
  • [主题讨论] 【一周AI资讯】20210917:华人学生团队获国际神经网络验证大赛佳绩:总分第一,五大单项第一
    盘点本周AI科技热点热点一:MIT给激光雕刻机安上AI,自动辨别材料确定雕刻力度,准确率达98%MIT最近发表了一项有意思的研究:激光雕刻机装上AI,混合材料T恤上都能雕出花,自动变换力度保证不割破他们给现有的激光雕刻机安上了一个AI,就可以自动识别30种不同的切割材料,准确率高达98%。不仅告诉你是啥,还能告诉你切割/雕刻所需的力度、速度。当然,如果这是一种危险材料,直接就把一个大大的“Caution”甩给你。这样一来,就能免去对一些人为识别失误造成的危险(尤其是一些未贴/贴错名称标签的材料),比如冒个有毒烟雾什么的,以及切割力度不对破坏材料造成的浪费。原文链接:https://www.qbitai.com/2021/09/28675.html 热点二:华人物理学家叶军斩获基础物理学突破奖,他的钟150亿年不差一秒近日,科学突破奖基金会及其创始赞助商宣布了第十届科学突破奖的获奖者。其中,华人物理学家叶军和日本物理学家香取秀俊拿到了基础物理学突破奖,他们的研究成果光晶格钟运行 150 亿年误差也不到 1 秒,对于探测引力波、寻找暗物质、验证相对论都有重要作用。科学突破奖(Breakthrough Prize),又被誉为「科学界的奥斯卡」,现已进入第十个年头。该奖项于 2012 年由俄罗斯亿万富翁尤里 · 米尔纳夫妇设立,现由谷歌联合创始人谢尔盖 · 布林、Facebook 联合创始人马克 · 扎克伯格夫妇、腾讯公司联合创始人马化腾、尤里 · 米尔纳夫妇,以及基因技术公司 23andMe 联合创始人安妮 · 沃西基等知名实业家赞助。原文链接:https://www.jiqizhixin.com/articles/2021-09-11-4 热点三:华人学生团队获国际神经网络验证大赛佳绩:总分第一,五大单项第一由来自卡内基梅隆大学、美国东北大学、哥伦比亚大学、加州大学洛杉矶分校的成员共同开发的工具α,β-CROWN 获得了第二届国际神经网络验证大赛总分第一,以及 5 个单项第一!其中该团队的学生作者均为华人。近日,一年一度的国际神经网络验证大赛VNN-COMP落下帷幕。由来自卡内基梅隆大学(CMU)、美国东北大学、哥伦比亚大学、加州大学洛杉矶分校(UCLA)的成员共同研发的工具α,β-CROWN获得了第二届国际神经网络验证大赛总分第一,比分大幅度领先。该工具由华人学者张欢(CMU)、许凯第(东北大学)和王世褀(哥伦比亚大学)带领的团队开发。本文中,我们将介绍神经网络验证的基本问题、国际神经网络验证大赛的背景和本次竞赛获胜算法 α,β-CROWN。神经网络已经成为了现代人工智能中非常重要的元素。然而由于其复杂性,神经网络常常被视为「黑盒」,因为我们很难精确的刻画神经网络所表达的函数。例如,对抗样本 (adversarial examples) 是神经网络中的一个常见的问题:当在神经网络的输入中加入少量对抗扰动时,神经网络的输出可能产生错误的改变,比如将物体识为和输入毫不相关的类。这对于把神经网络应用到对安全性、鲁棒性要求较高的应用中提出了很大的挑战。原文链接:https://www.jiqizhixin.com/articles/2021-09-12-2 热点四:SIGKDD2021 | 中科大利用神经网络和端到端训练框架,探究教育情境对学生能力的影响情境信息或者说上下文信息目前在信息检索相关领域(如推荐系统,web 搜索,广告等)有着非常广泛的应用,它们反映着一个心理学的通识:情境信息往往通过影响人的内在特质来影响人的外在表现。如推荐系统中,情境信息通过影响用户的内在偏好,从而引导用户的消费行为。而在教育领域,教育情境信息则影响着学生的知识状态,进而反映在学生的练习作答结果中。教育情境信息在传统教育学中讨论已久,它们主要延续着实证研究的思路(提出假设 - 收集数据 - 实验分析 - 得出结论),先获取学生的得分或者能力作为衡量标准,再使用主成分分析、线性回归等方法对教育情境信息的作用进行分析。其中学生得分可比要求学生所做练习相同,因此在大规模的情境信息分析中,往往采用基于传统认知诊断理论得到的学生能力作为衡量的方式。认知诊断研究可以追溯到教育心理学领域,代表性的工作有项目反映理论(Item Response Theory,IRT)。近年来,随着人工智能以及智慧教育的兴起,作为智慧教育应用的基础任务之一,基于机器学习、深度学习的认知诊断方法被广泛研究,其中经典的工作有将项目反映理论拓展的多维项目反映理论(Multidimensional Item Response Theory,MIRT),使用神经网络学习认知函数的神经认知诊断框架(Neural Cognitive Diagnosis,NeuralCD)。然而,目前认知诊断的工作往往只关注于试题相关信息(如试题知识点矩阵、知识点的关系、试题文本等)的挖掘,对于学生学习过程相关的教育情境信息则关注很少。原文链接:https://www.jiqizhixin.com/articles/2021-09-14-10 热点五:视觉-语言表征学习新进展:提词优化器「琥珀」带你用好CLIP你是否还在为设计 CLIP 模型的提词器(prompt)而烦恼?到底是「a photo of a [class]」还是「a [class] photo」?对于特定任务(例如食物分类或是卫星图像识别),如何添加符合语境的上下文(context)?本文提出的提词优化器 CoOp(中文名:琥珀)能够给你答案。结合视觉和语言的预训练方法(Vision-Language Pretraining)最近成为视觉表征学习一种有前景的方向。不同于使用图像和离散标签进行学习的传统分类器,以 CLIP 为代表的视觉语言预训练模型利用了两个独立的编码器来对齐图像和原始文本。在这种范式下,监督来源变得更加灵活多样且容易获取(如图片评论或网络配图文案都可以做图片监督)。更重要的是,模型变得十分容易零样本(zero-shot)迁移到下游任务。这是因为下游任务的类别不必一定属于训练中离散标签的一种。只要提供下游任务的标签信息,通过适当提词器(prompt)生成的文本向量可以直接代替固定的离散标签。下图展示了 CLIP 模型的结构。原文链接:https://www.jiqizhixin.com/articles/2021-09-15-3 热点六: 北大数院校友最新成果登数学四大顶刊,偏微分方程突破,可用于W-GAN,现已回国任教中科大数学界神秘的偏微分方程领域,再次被突破了!来自中科大的陈世炳教授等人,开发了一套全新的数学方法,直接打破了领域内专家20多年来的既有认知。相关论文已被数学四大顶刊之一《数学年刊》接受,将在接下来的某一期正式发表。北大数院校友成果登数学四大顶刊,偏微分方程突破,可用于W-GAN这篇论文突破了一个关键的非线性偏微分方程,它与我们机器学习中熟悉的最优传输理论息息相关。最优传输理论,类似“找出把物品从A运到B的最佳方法”,用几何方法来衡量概率分布的距离、给概率分布建模。像机器学习中的W-GAN,就属于最优传输问题。让丘成桐院士1982年获菲尔茨奖的卡拉比猜想证明,就与这个方程相关。2018年的菲尔茨奖,再次颁给了在这个方程、以及最优传输问题上做出贡献的Alessio Figalli。究竟是什么方程如此关键,这次数学家们又做出了什么重要突破?一起来看看。原文链接:https://www.qbitai.com/2021/09/28283.html 热点七:TIOBE 9 月榜单:Python 和 C 之间差距仅剩 0.16%Python 以前所未有的姿态接近 TIOBE 指数的第一位置。TIOBE CEO Paul Jansen 指出,Python 只要再上涨 0.16% 就可以超越 C 跃升至榜单第一,且这一情况随时可能发生。“如果 Python 成为第一,其在 TIOBE 指数中就达到了一个新的里程碑。截至目前,只有另外两种语言曾经领先,即 C 和 Java。让我们看看下个月会发生什么。” 此外,这个月还有一些其他的有趣变化:汇编从第 9 位上升到第 8 位、Ruby 从第 15 位上升到第 13 位、Go 上升了 4 位 — 从第 18 位上升到第 14 位。原文链接:https://www.oschina.net/news/159955/tiobe-index-202109总结:每周七个小热点,帮助各位了解最新科技资讯。欢迎大家阅览评论哦,也可以留言发表您的关注点,我们根据大家的关注点,推送更多您喜欢的资讯。
  • [其他] 深度学习 - 图像检索
    一  随着深度学习的引入,基于深度学习的图像检索技术,主要是将深度学习方法应用在图像检索中的特征提取模块,利用卷积神经网络提取图片特征。二  主要步骤即给定一张图片,通过卷积神经网络对图片进行特征提取得到表征图片的特征,利用度量学习方法如欧式距离对图片特征进行计算距离。三  对图片距离进行排序,得到初级检索结果,再根据图片数据的上下文信息和流形结构对图像检索结果进行重排序,从而提高图像检索准确率,得到最终的检索结果。
  • [其他] 提升检索性能 - 思考
     检索目标背景杂乱  1)在实例检索中,复杂的背景噪声直接影响了最终的搜索性能。因此很多队伍首先尝试使用目标检测(比如faster-rcnn)RPN定位感兴趣的区域,然后在进一步地学习特征,比较相似度。另外,当没有bounding box训练数据时,弱监督的目标定位也是一种有效的方法。  2)预处理:自动定位用户感兴趣的商品,去除背景、多主体等因素的影响,也有利于抽取的语义特征的对齐。语义对齐方式,常见操作有商品检测框对齐、旋转对齐、局部关键点对齐等。(淘宝搜图用户可以手动调整选择检测框)类内差异性与类间相似性(高层语义和低层特征融合)       很多方法都是用最后一个卷积层或全连接层的特征进行检索,而由于高层的特征已经损失了很多细节信息(对于更深的网络,损失更严重。  高层语义和低层特征融合很重要。不同层的特征图谱(feature map)进行融合,这不仅利用了高层特征的语义信息,还考虑了低层特征的细节纹理信息,使得实例搜索更精准。  GoogLeNet-22网络,对于最后的8层特征图(从Inception 3b到Inception 5b),首先使用最大池化对这些不同尺度的特征图分别进行子采样(转换为相同尺寸的特征图),并使用的卷积对这些采样结果进一步地处理。  然后对这些特征图做线性加权(由的卷积完成),最后在此基础上,使用sum pooling得到最终的图像特征。在训练时,我们根据所提供的训练数据,通过优化基于余弦距离的triplet ranking loss来端到端学习这些特征。  因此在测试时,可以直接使用特征之间的余弦距离来衡量图像的相似度。(例如一件衣服除了一件是圆领另一件是V领,其他颜色,纹理都是一摸一样的,领口形状就是高层语义,颜色纹理就是低层特征。要想达到好的检索效果最好都要兼顾。(类似特征金子塔FPN))
总条数:590 到第
上滑加载中