神经网络_标签_开发者

博客(2.1k)
视频(0)
论坛(0)
云声(0)
代码示例(0)

[其他] 适合新手的深度学习综述（2）--相关研究

本文转载自机器之心。相关研究在过去的几年中，有许多关于深度学习的综述论文。他们以很好的方式描述了 DL 方法、方法论以及它们的应用和未来研究方向。这里，我们简要介绍一些关于深度学习的优秀综述论文。Young 等人（2017）讨论了 DL 模型和架构，主要用于自然语言处理（NLP）。他们在不同的 NLP 领域中展示了 DL 应用，比较了 DL 模型，并讨论了可能的未来趋势。Zhang 等人（2017）讨论了用于前端和后端语音识别系统的当前最佳深度学习技术。Zhu 等人（2017）综述了 DL 遥感技术的最新进展。他们还讨论了开源的 DL 框架和其他深度学习的技术细节。Wang 等人（2017）以时间顺序的方式描述了深度学习模型的演变。该短文简要介绍了模型，以及在 DL 研究中的突破。该文以进化的方式来了解深度学习的起源，并对神经网络的优化和未来的研究做了解读。Goodfellow 等人（2016）详细讨论了深度网络和生成模型，从机器学习（ML）基础知识、深度架构的优缺点出发，对近年来的 DL 研究和应用进行了总结。LeCun 等人（2015）从卷积神经网络（CNN）和递归神经网络（RNN）概述了深度学习（DL）模型。他们从表征学习的角度描述了 DL，展示了 DL 技术如何工作、如何在各种应用中成功使用、以及如何对预测未来进行基于无监督学习（UL）的学习。同时他们还指出了 DL 在文献目录中的主要进展。Schmidhuber（2015）从 CNN、RNN 和深度强化学习 (RL) 对深度学习做了一个概述。他强调了序列处理的 RNN，同时指出基本 DL 和 NN 的局限性，以及改进它们的技巧。Nielsen (2015) 用代码和例子描述了神经网络的细节。他还在一定程度上讨论了深度神经网络和深度学习。Schmidhuber (2014) 讨论了基于时间序列的神经网络、采用机器学习方法进行分类，以及在神经网络中使用深度学习的历史和进展。Deng 和 Yu (2014) 描述了深度学习类别和技术，以及 DL 在几个领域的应用。Bengio (2013) 从表征学习的角度简要概述了 DL 算法，即监督和无监督网络、优化和训练模型。他聚焦于深度学习的许多挑战，例如：为更大的模型和数据扩展算法，减少优化困难，设计有效的缩放方法等。Bengio 等人 (2013) 讨论了表征和特征学习即深度学习。他们从应用、技术和挑战的角度探讨了各种方法和模型。Deng (2011) 从信息处理及相关领域的角度对深度结构化学习及其架构进行了概述。Arel 等人 (2010) 简要概述了近年来的 DL 技术。Bengio (2009) 讨论了深度架构，即人工智能的神经网络和生成模型。最近所有关于深度学习（DL）的论文都从多个角度讨论了深度学习重点。这对 DL 的研究人员来说是非常有必要的。然而，DL 目前是一个蓬勃发展的领域。在最近的 DL 概述论文发表之后，仍有许多新的技术和架构被提出。此外，以往的论文从不同的角度进行研究。我们的论文主要是针对刚进入这一领域的学习者和新手。为此，我们将努力为新研究人员和任何对这一领域感兴趣的人提供一个深度学习的基础和清晰的概念。

@Wu 发表于2022-05-30 15:40:34 2022-05-30 15:40:34 最后回复运气男孩 2022-05-30 23:50:49
341 2

深度学习神经网络
[其他] 目标检测 | Anchor free之CenterNet深度解析（3）

文章来源于AI算法修炼营，作者周威Encode 前面提到过Encode的过程是将ground-truth bounding box信息映射为类似网络输出的格式。这样可以加速求解损失函数的计算。我们知道在CornerNet中将检测框的左上角点和右下角点映射到heatmap上的过程，并不是简单的一一对应关系的（也就是将原图中的某关键点映射到heatmap中的某一关键点中），而是将原图中的某关键点（在CenterNet中为检测框的中点）映射到heatmap中的某一高斯核区域内。如下图4所示，为每个检测框中心点的高斯核区域显示。又或者借用https://zhuanlan.zhihu.com/p/66048276中的图，为某一中心点在heatmap的映射可视化。可以直观地感受其呈现二维高斯分布。那么根据获得的heatmap，我们可以将ground-truth bbox的偏移信息和宽高信息按照该映射关系，等同地映射到前面提到的Offset特征图和Height&Width特征图中，实现整个encode的过程 4.损失函数的设置实现了encode过程后，设定损失函数就变得非常简单了。4.1 focal loss原论文中令为网络输出的heatmap，为ground_truth信息，即heatmap的标签/监督信息。类似CornerNet使用focal loss进行损失函数设定，实现过程如下这里的和为focal loss的超参数，N是图片中关键点的个数。4.2 offset loss为了弥补由于stride的原因造成的偏移误差，论文中设定了一个关于偏移的损失函数，使得训练后的网络能够有效计算offset值，从而修正检测框的位置。不妨这里引用一下论文中的offset loss公式。这里的p是检测框中心点（原图中）的真实坐标，p/R是理论上该中心点映射到特征图的准确位置区域（很可能是浮点型）。但是我们知道在特征图中，所有的点的位置都是整型的（即不存在某一个点的位置为（1.1，2.9）的），所以实际上，原图中坐标为p的点映射到特征图后的位置应该是是p向下取整的结果，所以这里就造成了误差了，那么这个误差就是公式中的是网络的offset输出特征图。那么这个指的是关键点实际落入的区域。说明该offset loss只关注在关键点区域的offset输出。

@Wu 发表于2022-05-30 15:37:18 2022-05-30 15:37:18 最后回复可爱又积极 2022-05-30 16:03:35
134 1

神经网络机器学习
[其他] 目标检测 | Anchor free之CenterNet深度解析

文章来源于AI算法修炼营，作者周威网络结构顾名思义,CornerNet以检测框的两个角点为基础进行物体的检测,而CenterNet以检测框的中心为基础进行物体位置的检测.CenterNet和CornerNet的网络结构类似，如下为CornerNet的网络结构。由于CornerNet需要进行两个关键点检测(左上角点和右下角点)来判断物体的位置，所以共有两个大分支（每个大分支中又包含了三个小分支）。而 CenterNet只需要进行一个关键点的检测（中心点的检测）来判断物体的位置，所以只有一个大的分支，该分支包含了三个小分支（虽然这三个小分支和CornerNet的还是有区别的）。基于Hourglass backbone的CenterNet结构如下图所示该网络要比CornerNet更简单，而且细心的小伙伴们应该也发现了和CornerNet分支输出存在一定的异同之处，该网络输出分支分别为（1）HeatMap，大小为（W/4,H/4,80），输出不同类别（80个类别）物体中心点的位置（2） Offset，大小为（W/4,H/4,2），对HeatMap的输出进行精炼，提高定位准确度（3） Height&Width,大小为（W/4,H/4,2），预测以关键点为中心的检测框的宽高显然，（1）（2）在CornerNet中也出现过，但是Corner的另一个分支是输出每个被检测角点的embedding，即左上点的embedding和右上点的embedding距离足够近，则被认定为同一检测框的角点对。另外在CornerNet中还有一个创新点，为Corner Pooling的提出，在CenterNet中被剔除了。那么结合CenterNet的结构图可以将其分为以下几个部分（1）pre,通过一个步长为2的7x7卷积和步长为2的残差单元，将图片宽高压缩为原来的1/4（2）Hourglass Module 1,第一个沙漏型的卷积神经网络模块（3）joint，连接Hourglass Module 2和Hourglass Module 2（4）Hourglass Module 2,第二个沙漏型的卷积神经网络模块（5）Head，输出三个分支输出

@Wu 发表于2022-05-30 15:30:22 2022-05-30 15:30:22 最后回复可爱又积极 2022-05-30 17:01:06
259 1

神经网络
[其他] 刻画与克服多模态深度神经网络中的学习贪心特性

我们假设，由于多模态深度神经网络学习的贪婪性质，这些模型往往只依赖于一种模态，而不拟合其他模态。根据我们的经验观察，这种行为是反直觉的，并且损害了模型的泛化。为了估计模型对每种模态的依赖性，我们计算当模型除了另一种模态外还可以访问它时，对精度的增益。我们把这个增益称为条件利用率。在实验中，我们始终观察到不同模态之间的条件利用率不平衡，跨多个任务和架构。由于在训练过程中不能有效地计算条件利用率，我们引入了一个基于模型从每个模态学习的速度的代理，我们称之为条件学习速度。我们提出了一种算法来平衡训练过程中模态之间的条件学习速度，并证明它确实解决了贪婪学习的问题该算法提高了模型在三个数据集上的泛化能力:Colored MNIST、ModelNet40和NVIDIA Dynamic Hand Gesture。https://www.zhuanzhi.ai/paper/a175b09bb7bfe5bc36d68b6fdf98fe86

可爱又积极 发表于2022-05-30 14:03:19 2022-05-30 14:03:19 最后回复 @Wu 2022-05-30 15:31:15
237 1

神经网络
[技术干货] 图神经网络入门，图神经网络的挑战

目录图神经网络背后的动机GNN 算法GNN 在 Karate 网络上的实现GNN 的应用GNN 的挑战GNN 研究论文图神经网络背后的动机由于图形能够以可以客观分析的方式表示现实世界，因此如今它们受到了很多关注。图可用于表示许多现实世界的数据集，如社交网络、分子结构、地图、网络链接数据、自然科学、蛋白质－蛋白质相互作用网络、知识图等。此外，非结构化数据，如图像文本可以以图形的形式建模。图是对一组对象（节点）及其关系（边）进行建模的数据结构。图分析作为一种独特的机器学习非欧数据结构，侧重于节点分类、图分类、链接预测、图聚类和图可视化等任务。图神经网络（GNN）是基于深度学习的方法，可在图域上运行。由于其在涉及非欧空间的现实世界问题中的良好表现，GNN 已成为近来广泛应用的图分析方法。图神经网络算法一个节点可以用它的特征和图中的相邻节点来表示。GNN 的目标是学习一个状态嵌入，它对每个节点的邻域信息进行编码。状态嵌入用于产生输出，例如预测节点标签的分布。GNNs 是信息扩散机制和神经网络的结合，代表了一组转换函数和一组输出函数。信息扩散机制由节点表示，节点在其中更新其状态，并通过将“消息”传递给其相邻节点来交换信息，直到它们达到稳定的平衡。转换函数以每个节点的特征、每个节点的边缘特征、相邻节点的状态和相邻节点的特征作为输入，输出是节点的新状态。图 2空手道俱乐部社交网络上的图神经网络实现在本节中，让我们看看如何将 GNN 应用于空手道网络，这是一种简单的图网络。1．空手道网络资料背景：两个 34×34 矩阵ZACHE 对称，二进制ZACHC 对称，有值。这些数据是 Wayne Zachary 从大学空手道俱乐部成员那里收集的。ZACHE 矩阵表示俱乐部成员之间是否存在联系；ZACHC 矩阵表示关联的相对强度（发生互动的俱乐部内外情况的数量）。Zachary （1977）利用这些数据和网络冲突解决的信息流模型来解释这个群体在成员之间发生纠纷后的分裂。2．使用的数据此数据可以转换为 2 个 CSV 文件：node．csv 存储每个俱乐部成员及其属性。34 名俱乐部成员用“Id”从 0 到 33 表示。他们所在的俱乐部 – Mr Hi（Node id 0）或 Mr Officer（Node id 1）用“Club”栏表示。edge．csv 存储两个俱乐部成员之间的成对交互。权重被赋予由“权重”特征表示的节点 id 之间的这些交互。Nodes．csv – Self ProjectEdges．csv – Self Project3．使用 DGL 库进行图形表示：然后我们构建一个图，其中每个节点都是俱乐部成员，每条边代表他们的互动。在 DGL 中，节点是从零开始的连续整数。因此，在准备数据时，重要的是重新标记或重新洗牌行顺序，以便第一行对应于第一个节点，依此类推。在本例中，我们已经按照正确的顺序准备了数据，因此我们可以通过edges．csv 表中的“Src”和“Dst”列创建图形。加载 DGL 图的代码：import dglsrc ＝ edges＿data［＇Src＇］．to＿numpy（）dst ＝ edges＿data［＇Dst＇］．to＿numpy（）＃ Create a DGL graph from a pair of numpy arraysg ＝ dgl．graph（（src， dst））出于可视化目的，我们可以将 DGL 图转换为网络图：import networkx as nx＃ Since the actual graph is undirected， we convert it for visualization purpose．nx＿g ＝ g．to＿networkx（）．to＿undirected（）＃ Kamada－Kawaii layout usually looks pretty for arbitrary graphspos ＝ nx．kamada＿kawai＿layout（nx＿g）nx．draw（nx＿g，pos， with＿labels＝True）DGL 图网络4．空手道网络上的 GNN 模型训练：将俱乐部特征添加到 DGL 图中：＃ The ＂Club＂ column represents whichcommunity does each node belong to．＃ The values are of string type， so we must convert it to either categorical＃ integer values or one－hot encoding．club ＝ nodes＿data［＇Club＇］．to＿list（）＃ Convert to categorical integer values with 0 for ＇Mr． Hi＇， 1 for ＇Officer＇．club ＝ torch．tensor（［c ＝＝＇Officer＇ for c in club］）．long（）＃ We can also convert it to one－hot encoding．club＿onehot ＝ F．one＿hot（club）print（club＿onehot）＃ Use ｀g．ndata｀ like a normal dictionaryg．ndata．update（｛＇club＇： club，＇club＿onehot＇： club＿onehot｝）将边缘特征更新为 DGL 图：＃ Get edge features from the DataFrame and feed it to graph．edge＿weight ＝ torch．tensor（edges＿data［＇Weight＇］．to＿numpy（））＃ Similarly， use ｀g．edata｀ for getting／setting edge features．g．edata［＇weight＇］＝ edge＿weight更新节点嵌入：node＿embed ＝ nn．Embedding（g．number＿of＿nodes（）， 5）＃ Every node has an embedding of size 5．inputs ＝ node＿embed．weight ＃ Use the embedding weight as the node features．nn．init．xavier＿uniform＿（inputs）更新 2 个组长的标签功能－ 0 和 33 ids 为：labels ＝ g．ndata［＇club＇］labeled＿nodes ＝［0， 33］使用 GraphSage 模型将 GNN 实现为：from dgl．nn import SAGEConv＃ build a two－layer GraphSAGE modelclass GraphSAGE（nn．Module）：def ＿＿init＿＿（self， in＿feats， h＿feats， num＿classes）： super（GraphSAGE， self）．＿＿init＿＿（） self．conv1 ＝ SAGEConv（in＿feats， h＿feats，＇mean＇） self．conv2 ＝ SAGEConv（h＿feats， num＿classes，＇mean＇）def forward（self， g， in＿feat）： h ＝ self．conv1（g， in＿feat） h ＝ F．relu（h） h ＝ self．conv2（g， h） return h＃ Create the model with given dimensions ＃ input layer dimension： 5， node embeddings＃ hidden layer dimension： 16＃ output layer dimension： 2， the two classes， 0 and 1net ＝ GraphSAGE（5， 16， 2）设置损失和优化器并将模型训练为：＃ in this case， loss will in training loopoptimizer ＝ torch．optim．Adam（itertools．chain（net．parameters（）， node＿embed．parameters（））， lr＝0．01）all＿logits ＝［］for e in range（100）：＃ forwardlogits ＝ net（g， inputs）＃ compute losslogp ＝ F．log＿softmax（logits， 1）loss ＝ F．nll＿loss（logp［labeled＿nodes］， labels［labeled＿nodes］）＃ backwardoptimizer．zero＿grad（）loss．backward（）optimizer．step（）all＿logits．append（logits．detach（））if e ％ 5 ＝＝ 0： print（＇In epoch ｛｝， loss：｛｝＇．format（e， loss））输出：获得结果为：pred ＝ torch．argmax（logits， axis＝1）print（＇Accuracy＇，（pred ＝＝ labels）．sum（）．item（）／ len（pred））输出：图神经网络的应用GNN 能够解决的问题：节点分类：手头的任务是通过利用其邻居的标签来确定节点的标签。通常，这种类型的问题是以半监督的方式训练的，只有一部分图被标记。图分类：该过程是将整个图分为不同的类别。示例：在生物信息学中确定蛋白质是否为酶，在 NLP或社交网络分析中对文档进行分类。图形可视化：它处理图形的可视化表示，揭示数据中可能存在的结构和异常，并帮助用户理解图形。正如本博客前面提到的，一些可视化图形的方法是网络和 dgl。链接预测：该算法用于理解图中实体之间的关系，并尝试预测两个实体之间是否存在连接。它还可以用于推荐系统和预测犯罪组织。它在社交网络中用于推断社交互动或向用户推荐潜在朋友。图聚类：这意味着以图的形式对数据进行聚类。有两种不同形式的聚类在图数据顶点和图聚类上执行。顶点聚类是指根据边权重或边距离将图的节点聚类成一组密集连接的区域。图聚类是将图作为待聚类的对象，根据聚类特征的相似性对这些对象进行聚类。图神经网络的挑战1．动态特性——由于 GNN 是动态图，处理具有动态结构的图可能是一个挑战。2．可扩展性——在社交网络或推荐系统中应用嵌入方法对于包括 GNN 在内的所有图嵌入算法来说在计算上可能很复杂。3．非结构化数据——GNNs 也难以应用于非结构化场景。为 GNN 寻找最佳图生成方法是一项具有挑战性的任务。图神经网络研究论文列出了一些论文，以深入了解 GNN 及其在某些应用领域中正在进行的工作——A Comprehensive Survey on Graph Neural Networks． arxiv 2019． https：／／arxiv．org／pdf／1901．00596．pdfZonghan Wu， Shirui Pan， Fengwen Chen， Guodong Long， Chengqi Zhang， Philip S． Yu．Graph Neural Networks： A Review of Methods and Applications． AI Open 2020． https：／／doi．org／10．1016／j．aiopen．2021．01．001Jie Zhou， Ganqu Cui， Zhengyan Zhang， Cheng Yang， Zhiyuan Liu， Maosong Sun．Supervised Neural Networks for the Classification of Structures． IEEE TNN 1997． https：／／ieeexplore．ieee．org／abstract／document／572108Alessandro Sperduti and Antonina Starita．A new model for learning in graph domains． IJCNN 2005． https：／／www．researchgate．net／profile／Franco＿Scarselli／publication／4202380＿A＿new＿model＿for＿earning＿in＿raph＿domains／links／0c9605188cd580504f000000．pdfMarco Gori， Gabriele Monfardini， Franco Scarselli．Deep Learning on Graphs： A Survey． arxiv 2018．Ziwei Zhang， Peng Cui， Wenwu Zhu．

小小啦啦 发表于2022-05-29 08:39:43 2022-05-29 08:39:43 最后回复多米诺的古牌 2022-06-19 20:53:48
333 1

神经网络
[技术干货] 使用TensorFlow从头开始实现这个架构

在此之前，我已经讨论了MobileNet的体系结构接下来，我们将看到如何使用TensorFlow从头开始实现这个架构。实现：MobileNet架构：图显示了我们将在代码中实现的MobileNet体系结构。网络从Conv、BatchNorm、ReLU块开始，并从其上跟随多个MobileNet块。它最终以一个平均池和一个完全连接的层结束，并激活Softmax。我们看到该体系结构有一个模式——Conv－dw／s1，后跟Conv／s1，依此类推。这里dw是深度层和步幅数，然后是Conv层和步幅数。这两条线是MobileNet区块。“Filter Shape”列给出了核大小和要使用的滤波器数量的详细信息。列的最后一个数字表示滤波器的数量。我们看到滤波器数量从32逐渐增加到64，从64逐渐增加到128，从128逐渐增加到256，以此类推。最后一列显示了随着我们深入网络，图像的大小是如何变化的。输入大小选择为224＊224像素，有3个通道，输出层分类为1000类。正常CNN架构块之间的差异（左），与MobileNet架构（右）：构建网络时需要记住的几件事：所有层之后都是批量标准化和ReLU非线性。与具有Conv2D层的普通CNN模型不同，MobileNet具有Depthwise Conv层，如图所示。工作流从TensorFlow库导入所有必要的层为MobileNet块编写辅助函数构建模型的主干使用helper函数构建模型的主要部分导入图层import tensorflow as tf＃导入所有必要的层from tensorflow．keras．layers import Input， DepthwiseConv2Dfrom tensorflow．keras．layers import Conv2D， BatchNormalizationfrom tensorflow．keras．layers import ReLU， AvgPool2D， Flatten， Densefrom tensorflow．keras import ModelKeras已经内置了一个DepthwiseConv层，所以我们不需要从头开始创建它。MobileNet块MobileNet块的表示要为MobileNet块创建函数，我们需要以下步骤：函数的输入：a．张量（x）b．卷积层的滤波器数量（滤波器）c．卷积层的步长（步长）运行：a．应用3x3分步卷积层，然后是批量标准化层和ReLU激活b．应用带有1x1卷积层的滤波器，然后是批量标准化层和ReLU激活返回张量（输出）这3个步骤在下面的代码块中实现。＃ MobileNet blockdef mobilnet＿block （x， filters， strides）：x ＝ DepthwiseConv2D（kernel＿size ＝ 3， strides ＝ strides， padding ＝＇same＇）（x）x ＝ BatchNormalization（）（x）x ＝ ReLU（）（x）x ＝ Conv2D（filters ＝ filters， kernel＿size ＝ 1， strides ＝ 1）（x）x ＝ BatchNormalization（）（x）x ＝ ReLU（）（x）return x构建模型的主干如图2所示，第一层为Conv／s2，滤波器形状为3x32。模型的主干＃模型的主干input ＝ Input（shape ＝（224，224，3））x ＝ Conv2D（filters ＝ 32， kernel＿size ＝ 3， strides ＝ 2， padding ＝＇same＇）（input）x ＝ BatchNormalization（）（x）x ＝ ReLU（）（x）模型的主要部分：＃模型的主要部分x ＝ mobilnet＿block（x， filters ＝ 64， strides ＝ 1）x ＝ mobilnet＿block（x， filters ＝ 128， strides ＝ 2）x ＝ mobilnet＿block（x， filters ＝ 128， strides ＝ 1）x ＝ mobilnet＿block（x， filters ＝ 256， strides ＝ 2）x ＝ mobilnet＿block（x， filters ＝ 256， strides ＝ 1）x ＝ mobilnet＿block（x， filters ＝ 512， strides ＝ 2）for ＿ in range （5）：x ＝ mobilnet＿block（x， filters ＝ 512， strides ＝ 1）x ＝ mobilnet＿block（x， filters ＝ 1024， strides ＝ 2）x ＝ mobilnet＿block（x， filters ＝ 1024， strides ＝ 1）x ＝ AvgPool2D （pool＿size ＝ 7， strides ＝ 1， data＿format＝＇channels＿first＇）（x）output ＝ Dense （units ＝ 1000， activation ＝＇softmax＇）（x）model ＝ Model（inputs＝input， outputs＝output）model．summary（）模型摘要的一个片段

小小啦啦 发表于2022-05-29 08:33:02 2022-05-29 08:33:02 最后回复多米诺的古牌 2022-06-19 21:02:52
322 1

神经网络 TensorFlow
[技术干货] 2022年最新深度学习入门指南

概述1. 深度学习是用于处理视觉相关任务的强大的方法。2. 卷积神经网络是一种深度学习模型，我们用它来处理与相关的应用程序。3. 在本指南中，我们将探索 CNN 的工作原理以及它们如何应用于图像分类任务。我们还将构建一个 CNN 模型，并使用 Keras 从头开始在训练数据集上对其进行训练。介绍我一直着迷于深度学习模型的潜力和力量，以及它们如何理解执行图像分类、图像分割、对象检测等任务。我们还遇到了一些分割算法，例如来自 X－的肿瘤／异常检测，他们在这方面的表现甚至优于医生。在本指南中，我们将全面介绍 CNN 及其在图像分类任务中的应用。我们将首先介绍卷积神经网络（CNN）背后的基本理论、它们的工作原理以及它们如何成为用于任何计算机视觉任务的最流行的模型之一。现在让我们开始吧……卷积神经网络CNN 或卷积神经网络是将图像作为输入并通过使用卷积运算学习图像中的局部模式的算法。而密集层／全连接层则从输入中学习全局模式。CNN 的学习局部模式具有两个特性：1. CNN 学习的模式是不变的，即在学习识别图像左下角的特定模式后，CNN 可以识别图像中的任何位置。但是，如果密集连接的网络出现在新位置的任何位置，则必须重新学习该模式。这使得 CNN 在处理和理解图像时具有数据效率。2. CNN 可以学习模式的空间层次，即第一个卷积层学习一个小的局部模式，如边缘或线，第二个卷积层学习由第一个卷积层学习的特征组成的更大的模式，依此类推。通过这种方式，CNN 学习和理解了越来越复杂和抽象的视觉概念。让我们看看下面的猫图，在这里我们可以看到，在第一个卷积层中，学习了边缘、曲线等模式。但在第二层 CNN 中，眼睛、鼻子或耳朵等特征是通过使用第一层的模式来检测的。通过这种方式，CNN了解图像并了解图像中的对象。参考特征提取现在让我们探索并了解它是如何工作的。卷积运算卷积是应用于 3D 张量的操作，称为特征图。这些特征图由两个空间轴（高度和宽度）和一个深度轴（或通道轴）组成。如果我们考虑 RGB 图像的示例，高度和宽度构成空间轴，3 个颜色通道表示深度轴。类似地，对于黑白图像，深度为 1。但在其他层的输出中，深度不是由颜色通道表示，而是代表过滤器。过滤器对输入数据的特定方面进行编码，即过滤器可以对“面部存在”或“汽车结构”等概念进行编码。卷积运算由两个关键参数组成，1. 内核大小：应用于图像的过滤器的大小。这些是典型的 3×3 或 5×5。2. 输出特征图的深度：这是卷积计算的输出滤波器的数量。卷积操作只是在输入特征图上乘加加权滤波器，以生成另一个具有不同宽度、高度和深度的 3D 张量。卷积操作通过在 3D 输入特征图上滑动这些大小为 3×3 或 5×5 过滤器的窗口，在每个可能的位置停止，然后计算特征。我们可以在下面的 gif 中看到操作，3×3 内核在 5×5 输入特征图上运行以生成 3×3 输出。参考卷积重要的是要注意网络从给定数据中学习所需的最佳过滤器。CNN 模型的权重是过滤器。现在让我们看看边框效果、填充和步幅。了解边框效果和填充现在再次让我们考虑 5×5 特征图（参考上面的 gif）。过滤器的大小为 3×3，因此有 9 个图块。现在在卷积操作期间，3×3 滤波器只能通过 5×5 特征图 9 次，因此我们的输出大小为 3×3。所以输出在这里从 5×5 缩小到 3×3，也就是说，在每个维度旁边缩小了两个图块。这里没有对输入特征图应用填充，因此称为有效填充。如果我们希望输出特征图与输入特征图的大小相同，我们需要使用填充。填充包括在输入特征图的每一侧添加适当数量的行和列，以使每个输入图块周围的中心卷积窗口成为可能。这种类型的填充称为相同的填充。以下 GIF 表示相同的填充。源边框效果和填充现在我们可以看到，当我们向 5×5 特征图添加额外的填充并应用 3×3 过滤器时，我们将能够获得与输入特征图大小相同的输出特征图。如何找到要添加到给定过滤器大小和特征图的填充？当我们遇到不同大小的特征图和过滤器以及我们如何确定对于有效和相同的情况应该使用多少填充时，自然会出现这个问题。所以要回答这个问题，我们有确定填充的公式，即1. 有效填充：因为有效填充意味着没有填充，所以padding的数量将为0。2. 相同填充：我们使用相同的填充来保留输入特征图的大小。但是卷积的输出主要取决于过滤器的大小，与输入大小无关。因此，可以根据过滤器大小确定填充，如下所示：相同填充＝（过滤器大小－ 1）／ 2现在让我们看看另一个可以影响输出大小的因素，即步幅。了解步幅步幅是影响输出特征图大小的因素之一。步幅是应用过滤器的两个连续窗口之间的距离。在上面的例子中，我们已经看到过滤器作为窗口被应用于输入特征图，并被移动一个单位或步幅。当这种转变大于1时，我们将其定义为跨步的CNN。下面的GIF是一个大步为2的CNN的例子。我们还可以观察到，当我们使用步幅的值为 2（或大于 1）时，与常规卷积（当 stride 的值＝ 1 时）相比，输出特征图的大小减小（下采样因子为 2）．因此我们可以说使用步幅是对输入特征图进行下采样的方法之一。但它们在实践中很少使用，但它仍然是 CNN 的重要概念之一，了解它是很好的。现在在开始 CNN 的实现之前，让我们看一下用于对输入特征进行下采样的另一个重要概念，即池化。理解池化池化操作可以定义为一种通过使用不同的策略（例如取平均值、最大值、总和等）来积极减小／下采样输入特征图的大小的方法。现在让我们看看不同类型的池化1．最大池化：最大池化是一种广泛使用的池化策略，用于对输入特征图进行下采样。在这一层中，确定大小的窗口通过输入特征图，然后获得最大值并计算为下一层或输出特征图。我们可以在下面的 GIF 中看到，当我们使用过滤器大小 2 执行最大池化时，输入特征被下采样因子 2 或减半。我们可以通过以下公式确定使用最大池化后输出的大小：输出大小＝输入大小／（池化过滤器大小）还有其他类型的池化策略，例如考虑窗口平均值的平均池化和考虑窗口权重总和的求和池化。但最大池化一直是最流行和最广泛使用的池化策略。这是因为当我们考虑过滤器窗口的最大值时，我们将能够将有关输入特征／当前特征图的大部分可用信息转移到下一个特征图。因此，当我们通过神经网络的层进行传播时，减少了数据的丢失。既然我们对 CNN 的工作原理有了一些了解，那么现在让我们从头开始实现一个 CNN。从头开始训练基于 CNN 的图像分类器现在让我们在 MNIST 数据集上训练一个 CNN 模型。MNIST 数据集由 0 到 9 的手写数字图像组成，即 10 个类。训练集由 60000 张图像组成，测试集由 10000 张图像组成。让我们使用 CNN 从头开始训练图像分类器。我们将在Keras框架中实现代码。Keras 是最受欢迎和使用最广泛的深度学习库之一。它是作为高级 API 构建的，可以轻松使用 TensorFlow。要完成以下代码实现，建议使用带有 GPU 的 Jupyter Notebook。可以通过Google Colaboratory访问相同的内容，该实验室提供基于云的 Jupyter Notebook环境和免费的 Nvidia GPU。现在让我们开始吧获取 MNIST 数据集在下载数据集之前，让我们进行必要的导入，from tensorflow．keras．datasets import mnistfrom tensorflow．keras．utils import to＿categoricalfrom tensorflow．keras import layersfrom tensorflow．keras import modelsimport numpy as npimport matplotlib．pyplot as pltfrom matplotlib import pyplot现在让我们下载数据，（train＿images， train＿labels），（test＿images， test＿labels）＝ mnist．load＿data（）上面的代码下载数据并缓存。由于我们正在加载预定义的数据集，因此该数据集已经被预处理并以元组的形式打包。现在让我们探索我们解压出来的这些张量的形状，int（＂Shape of training dataset：＂，train＿images．shape）print（＂Shape of test dataset：＂，test＿images．shape）print（＂Shape of training dataset labels：＂，train＿labels．shape）print（＂Shape of test dataset labels：＂，test＿labels．shape）输出：从上面的输出我们可以看到，训练数据集有 60000 张图片，每张图片的大小为 28×28。同样，测试数据集有 10000 张图像，图像大小为 28×28。我们还可以看到标签没有任何形状，即它是一个标量值。让我们看看一些标签，print（train＿labels）print（type（train＿labels））输出：我们可以看到标签都在一个 NumPy 数组中。现在让我们看看我们的一些训练图像，＃ plot first few imagesfor i in range（9）：＃ define subplot pyplot．subplot（330 ＋ 1 ＋ i）＃ plot raw pixel data pyplot．imshow（train＿images［i］， cmap＝pyplot．get＿cmap（＇gray＇））＃ show the figurepyplot．show（）输出：我们可以通过绘制它们来可视化训练样本。在我们继续模型训练之前，让我们对我们的数据进行一些预处理。基本预处理现在让我们将图像从（60000， 28， 28）重塑为（60000， 28， 28， 1）大小，其中最后一个维度表示图像的深度。我们之前已经看到，每个图像的特征图都有三个维度，即宽度、高度和深度。由于 MNIST 训练集由黑白图像组成，我们可以将深度定义为 1。接下来，我们应该对数据集进行归一化，即将输入的所有值都在 0 和 1 之间。由于图像层的最大值是 255，我们将整个数据集除以 255。train＿images ＝ train＿images．reshape（（60000， 28， 28， 1））train＿images ＝ train＿images．astype（＇float32＇）／ 255现在让我们也对测试集应用相同的预处理。test＿images ＝ test＿images．reshape（（10000， 28， 28， 1））test＿images ＝ test＿images．astype（＇float32＇）／ 255最后，让我们将标签转换为分类格式，即它们目前作为标量，但我们正在执行 One－Hot 编码以将每个标量唯一地映射到向量。train＿labels ＝ to＿categorical（train＿labels）test＿labels ＝ to＿categorical（test＿labels）train＿labels［：10］输出：我们可以看到训练标签是独热编码。现在让我们使用 Keras 创建一个基本的 CNN 模型。使用 Tensorflow－Keras 创建 CNN 模型现在让我们使用 Keras 库创建一个基本模型，model ＝ models．Sequential（）model．add（layers．Conv2D（32，（3，3）， activation＝＇relu＇， input＿shape＝（28，28，1）））model．add（layers．MaxPool2D（（2，2）））model．add（layers．Conv2D（64，（3，3）， activation＝＇relu＇））model．add（layers．MaxPool2D（（2，2）））model．add（layers．Conv2D（64，（3，3）， activation＝＇relu＇））现在我们来分析一下上面的代码，· 首先，我们正在创建一个Sequential类型类的对象。Sequential 模型是一种模型，我们可以在其中添加和堆叠层以形成端到端模型。· 使用＊＊．add＊＊我们通过根据层指定各种参数来将层添加到我们的模型中。· 在上面的模型中，我们添加了一个卷积层（即 Keras 中的 Conv2D），它接受许多过滤器、内核大小和激活函数作为参数。· 接下来，添加最大池化层（即 Keras 中的 MaxPool2D）以启用池化操作。· Keras 中提供了不同类型的层。模型的上述部分负责识别和检测输入数据中存在的模式。（我们上面讨论过的工作）现在最后让我们通过定义模型的输出数量来初始化头部。model．add（layers．Flatten（））model．add（layers．Dense（64， activation＝＇relu＇））model．add（layers．Dense（10， activation＝＇softmax＇））现在我们的模型已经准备好了。我们可以使用＊＊．summary（）＊＊方法查看模型中所有层的列表。model．summary（）输出：现在让我们通过分配优化器、损失函数和模型训练时使用的指标来编译模型。model．compile（optimizer＝＇rmsprop＇， loss＝＇categorical＿crossentropy＇， metrics＝［＇accuracy＇］）现在让我们用训练数据和标签拟合模型并训练 5 个 epochsmodel．fit（train＿images， train＿labels， epochs＝5， batch＿size＝64）结果：从训练结果中我们可以看出，该模型能够达到高达 99％的准确率，这真是令人印象深刻！！结论我们已经看到了卷积神经网络的底层功能以及它如何从图像中提取特征。因此，我们可以得出结论，卷积神经网络是在计算机视觉应用中产生最先进结果的技术之一。原文标题 : 2022年最新深度学习入门指南

小小啦啦 发表于2022-05-29 08:18:32 2022-05-29 08:18:32 最后回复小小啦啦 2022-05-29 08:18:32
132 0

卷积神经网络深度学习神经网络
[技术干货] 人工神经网络训练图像分类器

我们将仅使用全连接层在20000张图像上训练图像分类模型。所以没有卷积和其他花哨的东西，我们将把它们留到下一篇文章中。不用说，但你真的不应该使用普通的人工神经网络来分类图像。图像是二维的，通过展平图像，你将失去使图像可识别的模式。尽管如此，它还是很有趣且可行的，并且会让你洞察这种方法的所有错误。使用的数据集和数据准备我们将使用Kaggle的狗与猫数据集。它是根据知识共享许可证授权的，这意味着你可以免费使用它：图1：狗与猫数据集：该数据集相当大——25000张图像均匀分布在不同的类中（12500张狗图像和12500张猫图像）。它应该足够大，可以训练一个像样的图像分类器，但不能使用人工神经网络。唯一的问题是——它的结构不适合直接使用。你可以按照之前的文章创建一个适当的目录结构，并将其拆分为训练集、测试集和验证集：缩小、灰度化和展平图像让我们导入相关库。我们需要很多，需要安装Numpy、Pandas、TensorFlow、PIL和Scikit Learn：我们不能将图像直接传递到Dense层。单个图像是三维的——高度、宽度、颜色通道——而Dense层需要一维输入。让我们看一个例子。以下代码加载并显示训练集中的cat图像：src＿img ＝ Image．open（＇data／train／cat／1．jpg＇）display（src＿img）图2——猫的图片示例图像宽281像素，高300像素，有三个颜色通道（np．array（src＿img）．shape）。总的来说，它有252900个像素，在展平时转化为252900个特征。让我们尽可能节省一些资源。如果有意义的话，你应该对你的图像数据集进行灰度化。如果你能对不以颜色显示的图像进行分类，那么神经网络也应该如此。可以使用以下代码段将图像转换为灰色：gray＿img ＝ ImageOps．grayscale（src＿img）display（gray＿img）图3：灰色猫图像显然，它仍然是一只猫，所以颜色在这个数据集中并没有起到很大作用。灰度图像宽281像素，高300像素，但只有一个颜色通道。这意味着我们从252，900 像素减少到84，300 像素。仍然很多，但肯定是朝着正确的方向迈出了一步。数据集中的图像大小不同。这对于神经网络模型来说是个问题，因为它每次都需要相同数量的输入特征。我们可以将每个图像调整为相同的宽度和高度，以进一步减少输入特征的数量。下面的代码片段调整了图像的大小，使其既宽又高96像素：gray＿resized＿img ＝ gray＿img．resize（size＝（96， 96））display（gray＿resized＿img）图4：调整大小的猫图片当然，图像有点小而且模糊，但它仍然是一只猫。但是我们的特征减少到9216个，相当于将特征的数量减少了27倍。作为最后一步，我们需要将图像展平。你可以使用Numpy中的ravel函数来执行此操作：np．ravel（gray＿resized＿img）图5：扁平猫图片计算机就是这样看待猫的——它只是一个9216像素的数组，范围从0到255。问题是——神经网络更喜欢0到1之间的范围。我们将整个数组除以255．0即可：img＿final ＝ np．ravel（gray＿resized＿img）／ 255．0img＿final图6－扁平和缩放的猫图像作为最后一步，我们将编写一个process＿image函数，将上述所有转换应用于单个图像：让我们在随机的狗图像上进行测试，然后反转最后一步，以直观地表示图像：tst＿img ＝ process＿image（img＿path＝＇data／validation／dog／10012．jpg＇）Image．fromarray（np．uint8（tst＿img ＊ 255）．reshape（（96， 96）））图7：经过变换的狗形象就这样，这个函数就像字面意思。接下来，我们将其应用于整个数据集。将图像转换为表格数据进行深度学习我们将编写另一个函数——process＿folder——它迭代给定的文件夹，并在任何JPG文件上使用process＿image函数。然后，它将所有图像合并到一个数据帧中，并添加一个类作为附加列（猫或狗）：让我们将其应用于训练、测试和验证文件夹。每个文件夹需要调用两次，一次用于猫，一次用于狗，然后连接集合。我们还将把数据集转储到pickle文件中：下面是训练集的样子：＃ Training settrain＿cat ＝ process＿folder（folder＝pathlib．Path．cwd（）．joinpath（＇data／train／cat＇））train＿dog ＝ process＿folder（folder＝pathlib．Path．cwd（）．joinpath（＇data／train／dog＇））train＿set ＝ pd．concat（［train＿cat， train＿dog］， axis＝0）with open（＇train＿set．pkl＇，＇wb＇） as f： pickle．dump（train＿set， f）＃ Test settest＿cat ＝ process＿folder（folder＝pathlib．Path．cwd（）．joinpath（＇data／test／cat＇））test＿dog ＝ process＿folder（folder＝pathlib．Path．cwd（）．joinpath（＇data／test／dog＇））test＿set ＝ pd．concat（［test＿cat， test＿dog］， axis＝0）with open（＇test＿set．pkl＇，＇wb＇） as f： pickle．dump（test＿set， f）＃ Validation set valid＿cat ＝ process＿folder（folder＝pathlib．Path．cwd（）．joinpath（＇data／validation／cat＇））valid＿dog ＝ process＿folder（folder＝pathlib．Path．cwd（）．joinpath（＇data／validation／dog＇））valid＿set ＝ pd．concat（［valid＿cat， valid＿dog］， axis＝0）with open（＇valid＿set．pkl＇，＇wb＇） as f： pickle．dump（valid＿set， f）图8——训练集数据集包含所有猫的图像，然后是所有狗的图像。这对于训练集和验证集来说并不理想，因为神经网络会按照这个顺序看到它们。你可以使用Scikit Learn中的随机函数来随机排序：train＿set ＝ shuffle（train＿set）．reset＿index（drop＝True）valid＿set ＝ shuffle（valid＿set）．reset＿index（drop＝True）下面是它现在的样子：图9——随机后的训练集下一步是将特征与目标分离。我们将对所有三个子集进行拆分：X＿train ＝ train＿set．drop（＇class＇， axis＝1）y＿train ＝ train＿set［＇class＇］X＿valid ＝ valid＿set．drop（＇class＇， axis＝1）y＿valid ＝ valid＿set［＇class＇］X＿test ＝ test＿set．drop（＇class＇， axis＝1）y＿test ＝ test＿set［＇class＇］最后，使用数字编码目标变量。有两个不同的类（cat和dog），因此每个实例的目标变量应该包含两个元素。例如，使用factorize函数进行编码：y＿train．factorize（）图10－factorize函数标签被转换成整数——猫为0，狗为1。你可以使用TensorFlow中的to＿category函数，并传入factorize后的数组，以及不同类的数量（2）：y＿train ＝ tf．keras．utils．to＿categorical（y＿train．factorize（）［0］， num＿classes＝2）y＿valid ＝ tf．keras．utils．to＿categorical（y＿valid．factorize（）［0］， num＿classes＝2）y＿test ＝ tf．keras．utils．to＿categorical（y＿test．factorize（）［0］， num＿classes＝2）因此，y＿train现在看起来是这样的：图11——目标变量从概率的角度考虑——第一张图片有100％的几率是猫，0％的几率是狗。这些都是真实的标签，所以概率可以是0或1。我们现在终于有了训练神经网络模型所需的一切。用人工神经网络（ANN）训练图像分类模型我随机选择了层的数量和每层的节点数量，以下2部分不能更改：· 输出层——它需要两个节点，因为我们有两个不同的类。我们不能再使用sigmoid激活函数了，所以选择softmax。· 损失函数——我们使用分类交叉熵。其他部分可以随意更改：以下是我在100个epoch后得到的结果：图12：100个epoch后的ANN结果60％的准确率比猜测稍微好一点，但性能一般。尽管如此，我们还是来检查一下训练期间指标发生了什么变化。以下代码片段绘制了100个epoch中每个epoch的训练损失与验证损失：plt．plot（np．arange（1， 101）， history．history［＇loss＇］， label＝＇Training Loss＇）plt．plot（np．arange（1， 101）， history．history［＇val＿loss＇］， label＝＇Validation Loss＇）plt．title（＇Training vs． Validation Loss＇， size＝20）plt．xlabel（＇Epoch＇， size＝14）plt．legend（）；图13：训练损失与验证损失该模型能很好地学习训练数据，但不能推广。随着我们对模型进行更多epoch的训练，验证损失继续增加，这表明模型不稳定且不可用。让我们看看准确度：plt．plot（np．arange（1， 101）， history．history［＇accuracy＇］， label＝＇Training Accuracy＇）plt．plot（np．arange（1， 101）， history．history［＇val＿accuracy＇］， label＝＇Validation Accuracy＇）plt．title（＇Training vs． Validation Accuracy＇， size＝20）plt．xlabel（＇Epoch＇， size＝14）plt．legend（）；图14：训练准确度与验证准确度类似的图片。验证精度稳定在60％左右，而模型对训练数据的拟合度过高。对于一个包含20K训练图像的两类数据集，60％的准确率几乎是它所能达到的最差水平。原因很简单——Dense层的设计并不是为了捕捉二维图像数据的复杂性。结论现在你知道了——如何用人工神经网络训练一个图像分类模型，以及为什么你不应该这么做。这就像穿着人字拖爬山——也许你能做到，但最好不要。原文标题 : 人工神经网络训练图像分类器

小小啦啦 发表于2022-05-29 07:38:55 2022-05-29 07:38:55 最后回复小小啦啦 2022-05-29 07:38:55
20 0

神经网络机器学习
[基础知识] 【MindSpore易点通】深度学习系列-卷积神经网络

小Mi前天一不留意瞄了眼公众号，发现竟然已经有了YOLOv7，顿时感觉自己落后的不是一星半点，印象中还是YOLOv5来着，怎么大伙的科研速度跟火箭有的一拼？吓得小Mi赶紧补功课。废话不多说（是不是还是熟悉的配方），今天开始先跟大家从CNN开始复习吧~鼻祖来了好了，首先详细解释下，为什么要先从CNN 开始复习呢？因为我们常见的很多网络，比如LeNet、Alexnet、VGG、RCNN、Fast RCNN、Faster RCNN、YOLO、YOLOv2、SSD等等这些网络模型的鼻祖就是CNN，只不过后面的各个儿子孙子如神仙打架一般，在各自的领域发挥着自身的优势，比如Lenet、Alexnet、Googlenet、VGG主要面向图像分类任务，RCNN、fastRCNN、fasterRCNN等作为目标检测任务的算法，而YOLO、SSD、YOLOv2又是不同于RCNN系列的另一类目标检测算法。所以是不是鼻祖很重要呢！（鼻祖的创始人Yann LeCun是第一个通过卷积神经网络在MNIST数据集上解决手写数字问题的人。）网络结构在这之前，小Mi已经在之前的深度学习系列中对深度神经网络有过简单的介绍（https://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=171590），卷积神经网络结构包括：输入层Input layer、卷积层Convolution Layer、池化层Pooling layer、全连接层Full connection Layer和输出层Output Layer。输入层该层要做的处理主要是对原始图像数据进行预处理，比如去均值、归一化、PCA降维等等。卷积层好啦，为什么我们这个网络要叫卷积神经网络呢？那么重点就来了。首先让我们以最常见的二维卷积层为例，看下卷积层是如何工作的吧~在二维卷积层中，一个二维输入数组和一个二维核（kernel）数组通过互相关运算输出一个二维数组。如图所示，输⼊是一个3×3的二维数组，卷积核是一个2×2的二维数组。二维互相关运算输出结果中数字19的计算公式为：0×0+1×1+3×2+4×3=19在二维互相关运算中，卷积窗口从输⼊数组的最左上方开始，按从左往右、从上往下的顺序，依次在输入数组上滑动。当卷积窗口滑动到某一位置时，窗口中的输入子数组与核数组按元素相乘并求和，得到输出数组中相应位置的元素。那么剩下的三个元素计算公式为：1×0+2×1+4×2+5×3=25，3×0+4×1+6×2+7×3=37，4×0+5×1+7×2+8×3=43。二维卷积层输出的二维数组可以看作是输入在空间维度（宽和高）上某⼀级的表征，也叫特征图（feature map）。影响元素x的前向计算的所有可能输入区域（可能大于输入的实际尺寸）叫做x的感受野（receptive field）。以上图为例，输入中阴影部分的四个元素是输出中阴影部分元素的感受野。将输出记为Y，如果Y与另一个形状为2×2的核数组做互相关运算，输出单个元素 z。那么，z在Y上的感受野包括Y的全部四个元素，在输入上的感受野包括其中全部9个元素。可见，可以通过更深的卷积神经网络使特征图中单个元素的感受野变得更加⼴阔，从而捕捉输入上更大尺寸的特征。因此卷积层的输出形状由输入形状和卷积核窗口形状决定，其中最重要的两个超参数便是填充和步幅了。填充（padding）是指在输入高和宽的两侧填充元素（通常是为0）。下图中在原输入高和宽的两侧分别添加了0的元素，使得输入高和宽从3变成了5，并导致输出高和宽由2增加到4。在输入的高和宽两侧分别填充了0元素的二维互相关计算而卷积窗口从输入数组的最左上方开始，按从左往右、从上往下的顺序，依次在输入数组上滑动，每次滑动的行数和列数就叫做步幅（stride）。在高和宽两个方向上步幅均为1，当然也可以使用更大步幅。比如下图就展示了在高上步幅为3、在宽上步幅为2的二维互相关运算。可以看到，输出第一列第二个元素时，卷积窗口向下滑动了三行。而在输出第一行第二个元素时卷积窗口向右滑动了两列。当卷积窗口在输入上再向右滑动两列时，由于输入元素无法填满窗口，无结果输出。高和宽上步幅分别为3和2的二维互相关运算其实通过各种实验最终我们可以发现，填充可以增加输出的高和宽，可以使得输出与输入具有相同的高和宽，而步幅可以减小输出的高和宽，例如输出的高和宽仅为输入的高和宽的1/n（n为大于1的整数）。当然啦，为什么我们一直强调是二维卷积层呢？输出的结果肯定也会与输入的数组维度有关啦，大家可以自行研究下~池化层池化（pooling）层的提出是为了缓解卷积层对位置的过度敏感性。不同于卷积层里计算输入和核的互相关性，池化层直接计算池化窗口内元素的最大值或者平均值。在最大池化中，池化窗口从输⼊数组的最左上方开始，按从左往右、从上往下的顺序，依次在输入数组上滑动。当池化窗口滑动到某⼀位置时，窗口中的输入子数组的最大值即输出数组中相应位置的元素。池化窗口形状为2×2的最大池化阴影部分为第⼀个输出元素及其计算所使用的输入元素：max(0, 1, 3, 4) = 4剩下三个元素分别为：max(1, 2, 4, 5) = 5,max(3, 4, 6, 7) = 7,max(4, 5, 7, 8) = 8.那么平均池化的共作原理也就很好理解咯。因此池化操作就是图像的resize，就好比一张狗的图像被缩小了一倍我们还能认出狗，图像压缩时去掉的信息只是一些无关紧要的信息，而留下的信息则是具有尺度不变性的特征；同时还进行了特征降维，去除了很多无用或重复信息，并在一定程度上防止过拟合，更方便优化。全连接层这里的全连接与我们之前讲到的全连接并没有任何差异，经过池化层处理得到的结果中的所有元素都有权重连接：其中，x1、x2、x3为全连接层的输入，a1、a2、a3为输出，总结当然啦，今天跟大家分享的卷积神经网络都是从最简单的方面逐步介绍的，既然是深度学习网络系列，我们平常遇到的网络可不是只有几个二维数组，一两个卷积层那么简单，CNN在本质上是一种输入到输出的映射，它能够学习大量的输入与输出之间的映射关系，而不需要任何输入和输出之间的精确的数学表达式，只要用已知的模式对卷积网络加以训练，网络就具有输入输出对之间的映射能力。希望大家在我的基础上，继续学习开始跟大家提到的各种“子孙”网络吧（LeNet、Alexnet、VGG、RCNN、YOLO等等等等）！

Skytier 发表于2022-05-28 17:08:33 2022-05-28 17:08:33 最后回复 Skytier 2022-05-28 17:08:33
575 0

卷积神经网络神经网络
[行业资讯] 移动物联网卡如何办理激活使用？

移动物联卡是移动运营商面向企业提供物联网通讯接入服务，可提供数据传输上网功能、短信基础服务等，采用三网专用号段和独立网元为终端设备提供支持，移动物联卡的外观和手机SIM卡的外观没有太大的区别。移动物联卡又可以分为工业级物联卡和普通型物联卡。一、移动物联网卡和手机SIM卡有什么不同？工业级移动物联网卡可以适应特殊环境，因为物联网智能设备的使用环境不同，有的常年在室外，芯片硬件和制作材料以及封装工艺是要高于普通SIM卡的。移动物联卡和手机SIM卡的号码不同，移动物联卡使用的是13位号码，号码资源丰富，而普通的手机SIM卡使用的是11位号码。两者的特性不同，物联卡的使用需要物联卡平台管理，在物联卡平台管理可以进行流量查询、设备是否在线、流量充值等功能，普通手机SIM卡只需要在手机端充值查询即可。二、移动物联网卡的应用场景有哪些？移动物联卡目前主要应用于安防监控（电梯监控、家用监控、楼宇监控、交通监控），车联网（北斗定位、车载监控、GPS导航、智能后视镜），智能安防（烟雾报警器、烟感器、智能水电表），智慧农业（智能喷灌、农业果园、智能大棚）等领域广泛应用。三、移动物联网卡怎么用？物联卡是面向集团企业和相关专业领域使用的，是一种属于“集团客户”范畴的套餐卡。个人用户在营业厅是无法办理集团客户套餐的，此外，运营商也有通过各渠道的物联卡供应商出售。运营商的物联网卡资费可以分为3个标准：全国统一的资费标准、地方区域的资费标准、集团客户的资费标准。在这3种标准当中，集团客户套餐的性价比往往是最高的。四、移动物联网卡如何办理激活使用？物联卡办理可以提前考察几家物联卡代理公司，对这几家公司进行综合衡量选择其中的一家合作，一是为了靠谱，二是可以综合报价给自己的企业做足保障。然后根据企业设备使用流量的情况订购合理的套餐，还可以向合作公司申请物联卡测试，当物联卡拿到后就可以直接插入设备自动激活。

一览芳华 发表于2022-05-23 21:31:39 2022-05-23 21:31:39 最后回复 huohaohao 2022-05-31 12:48:50
378 11

IoT 神经网络
[其他] 人工智能-语音交流

第一个基于电子计算语音识别统出现在1952年，AT&T贝尔实验室开发了一款Audrey的语音识别系统，能够识别10个英文数字，正确率高达98％。 70年代开始出现了大规模的语音识别研究，但当时的技术还处于萌芽阶段，停留在对孤立词、小词汇量句子的识别上。 80年代是技术取得突破的时代，一个重要原因是**全球性的电传业务**积累了大量文本，这些文本可作为机读语料用于模型的训练和统计。研究的重点也逐渐转向大词汇量、非特定人的连续语音识别。那时最主要的变化来自用**基于统计的思路**替代传统的基于匹配的思路，其中的一个关键进展是隐马尔科夫模型(HMM)的理论和应用都趋于完善。工业界也出现了广泛的应用，德州仪器研发了名为Speak&Spell语音学习机，语音识别服务商SpeechWorks成立，美国国防部高级研究计划局（DARPA）也赞助支持了一系列语音相关的项目。 90年代是语音识别基本成熟的时期，主流的高斯混合模型GMM-HMM框架逐渐趋于稳定，但与实用还有一定距离，语音识别研究的进展也逐渐趋缓。由于80年代末90年代初神经网络技术的热潮，神经网络也被用于语音识别，提出了多层感知器一隐马尔科夫模型(MLP-HMM)混合模型。但是性能上无法超越GMMHMM框架。突破的产生始于深度学习的出现。随着深度神经网络（DNN）被应用到语音的声学建模中，人们陆续在音素识别任务和大词汇量连续语音识别任务上取得突破。基于GMM-HMM的语音识别框架被基于DNN-HMM的语音识别系统所替代，而随着系统的持续改进，又出现了深层卷积神经网络和引人长短时记忆模块（LSTM）的循环神经网络(RNN)，识别效果得到了进一步提升，在许多（尤其是近场）语音识别任务上达到了可以进人人们日常生活的标准。于是我们看到以Apple Siri为首的智能语音助手、以Echo为首的智能硬件人口等等。而这些应用的普及，又进一步扩充了语料资源的收集渠道，为语言和声学模型的训练储备了丰富的燃料，使得构建大规模通用语言模型和声学模型成为可能。

黄生 发表于2022-05-22 15:53:42 2022-05-22 15:53:42 最后回复运气男孩 2022-05-22 22:59:17
149 1

语音通话 VoiceCall 人工智能神经网络
[其他] 图神经网络！打开企业盈利的下一个风口

【转载】华为云社区作者： Chenyi --- 深度学习作为一个相对成熟的AI技术，在过去作为互联网红利的出口被广泛应用在工业级生产和企业的发展中，但随着数据量的指数级增加和规则型数据类型的限制，深度学习的业务场景拓展变得更加困难。于是，市场开始将目光放在了图神经网络（GNN）技术上。图神经网络能够做出更精准的预测，为每一位用户提供不同的个性化服务，实现精准化营销，这也是如今互联网企业进行二次转型的技术突破口。 **图神经网络的行业应用** 当前的主流深度学习还是CNN、RNN等技术（对应图像识别、文本挖掘等领域）。但传统深度学习技术（CNN、RNN）并不能有效的处理结构数据，如金融领域、基因蛋白质网络、社交网络、商品推荐等。如果深度学习想要拓展到更多的关系场景，在图数据上的高阶学习采用图神经网络（GNN）技术将会取得更佳的效果。 ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20225/21/1653137228869586398.png) **金融网络：** 金融行业的数据网络是由资金交易网络，社交关系网络，媒介网络等构成的天然数据网络。并且金融网络作为最有价值的图网络之一，图神经网络GNN能挖掘出数据中巨大的潜在价值。其中一个模块是对客户的筛选，金融用户的获客成本高达几百，但图神经网络能够给予拓扑信息进行特质提取挖掘出最有价值的潜在客户，深层挖掘客户潜在需求，帮助金融业务提升效率、提高盈利。另一模块是风险控制：金融行业内部存在大量风控需求，如反洗钱、防身份欺诈、防车险骗保、防金融欺诈、信用卡伪造交易套现等等。图神经网络的拓展性和线上预测能力能够根据资金交易关系网络构建动态图模型，发现个体或群体的异常交易行为，对金融业务中的每一笔业务进行风险预测。 **社交网络：** 社交网络是另一个典型的天然图网络，根据六度空间理论，我们的社交网络存在高度重合性。利用图表征学习和图嵌入技术，图神经网络可以在社交网络和电商领域等深度网络结构场景中，构建监督或者半监督框架进行关系挖掘和高匹配度推荐操作，挖掘更多的关系，深层次的发现用户的兴趣，精确用户的属性，为用户提供多样性的服务。现实场景下提高用户精准度意味着可以改变过去传统的高投放的营销方式，极大降低获客成本。图神经网络对于社交网络的应用并不仅限于对于用户（点）的挖掘，还可以对信息的传播方式进行舆情分析，意见领袖（KOL）的挖掘等等。 **知识图谱：** 知识图谱作为图神经网络的应用比起技术本身它的场景更为人所熟知。生活中有很多场景都有知识图谱的身影，如语义搜索引擎，智能客服，生活小助手等。由图神经网络构建的知识图谱可以提供视频/直播字幕、内容审核、智能客服，保险赔付，医疗图谱、知识消岐等服务。借助知识图谱还可以将专属的行业知识定制成图网络，为行业信息进行分析，帮助企业进行转型升级。 ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20225/21/1653137252433930777.png) **基因网络：** 蛋白质的结构和相互作用关系是一个规则性很强的图网络，整体的蛋白质网络异常复杂，节点数量和边数量非常大，借助图神经网络GNN可以对基因蛋白质网络进行深度挖掘。利用蛋白质的相互作用信息，构建蛋白质相互作用网络、基因共表达网路推断蛋白质结构，从_基因_序列中预测_蛋白质_的属性，量化蛋白质和肿瘤异质性。此外，除了典型的图结构网络，图神经网络还可以用于组织分析，企业投资等等拥有潜在关系的应用场景。通过图的可视化和基本指标来分析组织结构，如HR可以根据人力资源图来判断公司发展处于哪个阶段、结构是否健康、资源倾斜在哪个业务线，分析人力交叉情况、信息流通成本等。未来，人工智能的运作将会更加接近人脑，图神经网络的出现使人工智能开始理解世界，认识世界，而不再只是进行统计拟合。如何让图深度学习充分挖掘其应用价值实现高维稀疏数据的应用场景落地，将是在接下来的十年中，同质化的企业进行重新洗牌的关键。 **以华为云图神经网络为例，解析图深度学习落地的实践** 2019年9月20日华为云全联接大会上，华为云重磅发布一站式AI开发管理平台ModelArts2.0。宣布华为云在图深度学习领域做出突破，华为云图神经网络正式落地。此次ModelArts2.0发布的十余项新特性及服务，包含智能数据筛选、智能数据标注、智能数据分析、多元模型自动搜索、ModelArts SDK、图神经网络、强化学习、模型评估/诊断、模型压缩/转换、自动难例发现、在线学习等，覆盖了AI模型的全生命周期。可以看得出来，华为云ModelArts在下一盘很大的棋，图神经网络的落地是ModelArts在深度学习领域实现因果推理的一次突破，也是实现自动化AI能力必不可少的一环。目前图深度学习依旧是AI领域最前沿的技术之一，想要设计出符合工业生产标准和企业应用的图深度学习服务仍有许多需要克服的问题。华为云图神经网络已经率先做出突破，并在一站式AI开发管理平台ModelArts完成落地。通过这个项目我们能看到更多图深度学习领域在落地过程中需要解决的问题以及实现的思路。华为云图神经网络是GES图引擎与ModelArts联手打造的新型图神经网络技术，通过采用分布式图计算平台和深度学习计算平台并行的方式构建新的架构以此来实现大规模图神经网络分析能力。华为云图神经网络的架构师表示华为云图神经网络（GNN）框架设计原则是：职责分明，架构归一。对单个算法，将数据预处理、领域采样等稀疏处理操作下压到图引擎；深度学习层则专注于算子的优化，多种GNN算法框架统一化，复用统一的算子。 **图神经网络的发展难题** 华为云图神经网络（GNN）在漫长的开发过程中遇到了许多瓶颈，传统的深度学习框架对非规则数据考虑欠周，不会提供原生的图数据的支持，图数据访问中数据局部性差并且对延时敏感。而目前开源的GNN算法（多由学术界论文作者提供）大多是单点且零散的，尽管在TF、Pytorch等深度学习框架中能够实现各种GNN算法，但是效率通常比较低下，真正用于训练的计算时间仅占20%~40%，远低于传统深度学习训练过程中的耗时比；大量时间消耗在数据局部采样、负样本采集等IO密集的操作上。在图规模大时尤为如此，在大规模图训练时，大部分图深度学习框架的耗时非常严重，完全达不到能实际应用到工业生产中的水平。企业级图深度学习的计算中，图的规模将会根据业务需求达到百亿甚至千亿的规模，因此，一个成熟的图深度学习将会把超大规模的图网络的计算交给独立的分布式图计算平台。 **分布式图计算平台进行大规模图网络处理** 当前大部分图神经网络框架都是在处理静态图，这是由于大多数框架是把图神经网络算法当做离线计算任务来对待的，离线计算的数据是不变的（静态），对于每次计算，都需要将完整数据加载一遍，因此不适合处理动态图。但是图数据本身却往往是变化的（动态），算法在运行过程中需要不断的对图进行遍历，然后将图数据从内存中调用给深度学习进行建模，然后还要在建模过程中进行不断的回传，这个问题在小图上不是很明显，但是在亿级图网络中，就会变成严重的性能问题，并且遍历的时间将会呈指数级上升，甚至造成宕机。华为在动态图方面的主张是，采用自研GES图引擎来维护图数据，保证数据可以动态增删改。同时在一份数据上，执行多种不同的算法，无需重复加载数据；尤其是对于大规模图来说，能明显节省端到端时间。目前动态图的处理仍有可优化的地方，比如动态图上的数据更改可以当做是增量数据，最佳做法是设计增量算法来对增量数据进行分析，而不是对全量数据进行邻域采样、随机游走、求梯度等操作。对于增量的图神经网络算法的研究还比较前沿，尚未形成完备理论。 GES图引擎目前拥有20多种图场景算法和大量的图优化算法，性能上能将亿级图查询在秒级计算完成。在图算法上GES图引擎根据工业和企业需求，集成实现PageRank等二十多种常用算法，应用场景覆盖城市工业生产、管道监控、商品推荐、社交推荐、项目分析、企业洞察、知识图谱、金融风险管控、企业IT应用、关系挖掘等多项领域，并支持点查、边查、属性过滤等基本查询将查询存储等功能。 ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20225/21/1653137272530162496.png) 以Pixie算法为例，Pixie算法是华为云尝试了将多元数据构建到同一张图，并在这个异构图上配置相应的schema、点边属性、权重而设计的算法。Pixie算法是一种全新的实时推荐算法，克服了异构图的数据获取和融合问题，支持多请求节点下综合推荐，能满足各种复合型、时变、多样性推荐场景需求；大数据量下，无需预先训练模型，就能适应数据的动态变化，达到较好的实时推荐效果，可扩展性很强。 **新框架解决图算法与深度学习的高频交互问题** 基于原生图引擎提升数据处理的效率和统一的算法框架，是当前图神经网络平台研发的重难点，而图数据的遍历以及与深度学习的交互会导致图的运算效率大大降低，这也是图深度学习一直无法落地的瓶颈之一。因此，如果图深度学习想要在性能上有所突破就需要重新设计一个新的GNN框架，以下是AI前线授权得到的华为云图神经网络框架图。 ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20225/21/1653137285176453702.png) 图1：基于图引擎的GNN新框架（1）基于图引擎的GNN新框架：在ModelArts中的高效神经网络训练算子的基础上，结合GES既有的高性能图计算框架平台能力，利用图引擎高并发、低延时的特点，将GNN的训练过程高度并行化，如将边上的跳转概率估计、顶点邻域采样、负样本构建等等，都化解为每个顶点的局部操作；系统提供了动态调度器，让这些局部操作可高度并行化执行，就能极大提升系统的总体吞吐量。（2）多种GNN算法框架统一化：使用统一架构实现了非监督的大规模图嵌入（例如DeepWalk, Node2Vec）和半监督的图卷积（例如GCN, GraphSage）等多类GNN算法，降低了系统的维护成本。 ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20225/21/1653137295823437442.png) 图2：基于统一GNN架构的图嵌入与图卷积计算示意（3）GNN与图数据管理一体化：企业级GNN应用通常都不会是一次性计算，而且数据规模也很大，因此这些数据必须要被维护和管理起来。而现有的GNN通常不具这样的考量，用户只能另建数据库维护，计算的时候再把数据整体导出。不仅资源消耗大，也引入数据一致性等诸多问题。而GES采用属性图数据模型(Property Graph)和生态兼容的事实标准Gremlin图查询语言进行分布式图数据管理和维护，需要训练的时候则在图引擎内本地调用(in situ)各类算子，并发执行，降低了端到端的性能损耗。研发人员在相同平台上对比了本产品与多个开源版本在数据预处理、各类采样方式下的实验表现（来自华为云内部数据）： ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/20225/21/1653137307325401543.png) 图3：（上）相同平台上与开源版本在数据预处理、各类采样方式下的性能对比；（下）系统可扩展性测试结果华为云图神经网络借助ModelArts的高效神经网络训练优势，以及GES的高性能图计算优势，大幅度提升了GNN的总体计算效率，以node2vec算法为例，在PPI数据集上，华为云图神经网络从采样到训练可在2min内完成，较传统开源实现提升20倍。 **精度和资源的权衡** 在图神经网络模型的精度方面，华为云图神经网络通过设置参数调节模型精度，并使用CPU或者GPU来训练图神经网络算法，由于图数据的特殊性，通常情况下，对于大多数类型的数据，CPU训练的性能和效果并不逊于GPU。同时针对图嵌入和图卷积两大类算法，华为云图神经网络采用了不同的优化方式来降低资源占用率，提高计算性能，图嵌入类算法利用并行加速和存储设计进行正采样和负采样的优化；图卷积部分则由于其复杂度高的是layer和layer之间的数学变化，着重优化加速矩阵。华为云方面在未来还会考虑基于自己的人工智能芯片从混合硬件架构进一步提升图神经网络的计算性能。华为云图神经网络模型的生命周期管理则依托华为云一站式AI开发管理平台ModelArts，训练的模型可以一键部署，且整个数据-算法-模型-推理的生命周期可以通过平台提供的溯源图查看。目前，业界要实现大规模的图神经网络应用还需要一段时间，但华为云图神经网络的落地为后续开发者提供了可供参考的理论经验和社交，金融，基因，图像语义等多关系场景的实践基础，目前华为云图神经网络已在全球机器学习与数据挖掘类学术会议上发表多篇论文，并获得2019中国人工智能峰会“紫金龙蟠奖”。图神经网络是人工智能实现真正智能化的一步，也是人工智能开始解决深度学习难以处理的关系数据的开端。从现在开始人工智能够认识并学习世界的复杂关系，相信接下来它会以更多姿态出现在我们的生活中。

运气男孩 发表于2022-05-21 20:45:57 2022-05-21 20:45:57 最后回复可爱又积极 2022-05-24 13:39:41
595 2

神经网络
[其他] 基于注意力超图网络的交互协同聚类

作者：北邮 GAMMA Lab 博士生杨天持题目：Co-clustering Interactions via Attentive Hypergraph Neural Network会议：SIGIR2022论文链接：http://shichuan.org/doc/137.pdf代码链接：https://github.com/ytc272098215/CIAH1. 引言在社交媒体飞速发展、复杂网络激增的时代，各行各业的交互数据越来越多，比如推荐系统中的用户-商品交互网络、学术领域中的论文引文网络等。交互可以看作是发生在多个对象之间的动作。因此，研究人员通常会将对象及其中的成对关系建模为图里的节点和边。聚类作为一种最基本的数据挖掘任务，交互数据上的聚类（即图上的聚类）可以揭示有价值的交互聚类模式，从而作为下游任务的先验知识。早期的研究通常使用图表示方法只编码结构信息然后对对象进行聚类。然后，为了考虑属性的增益，研究人员基于属性图来探索结合结构信息和属性信息的优势以获得更好的聚类性能。最近，逐渐有研究进一步开发了异质图方法，通过进一步考虑节点或边的不同类型来更准确地对交互进行建模和编码。除了聚类的性能，聚类结果的可释性可以帮助理解模型决策背后的原因，因此也是一个重要的问题。具体地，大多数方法试图选择重要且简洁的属性来作为聚类结果的解释。尽管交互数据的聚类已经得到了广泛的探索，但实际中的交互数据仍然要更加复杂得多。在实际应用中，一个完整交互通常会包含多个带有属性的交互对象和如时空上下文的交互环境。例如，在电子购物领域中，如上图所示，一个完整交互包括但不限于"什么人在什么情况下在哪个商店购买了什么商品"。此外，完整交互的每一个部分对于发现交互模式都很必要。如上图上半部分所示，白领为了高效工作经常在下午点咖啡。如果我们忽略这种时间上下文中"下午"的条件，可能会得出一种片面的模式，从而可能导致在午夜向其推荐咖啡，而这违反了常识。然而，现有的聚类方法仅对真实交互中的部分信息进行了建模和利用，即要么将整个交互分解为了若干个成对的子交互以进行简化，要么只专注于对某些特定类型的交互对象进行聚类，而不是针对完整交互。因此，现有的聚类方法无法全面表征和利用完整交互过程中的信息。此外，从完整交互中选择出重要属性也可对聚类结果作出更准确的解释。相反，基于交互的不完整的建模，则可能会遗漏一些有助于解释的关键信息，例如上例中的"下午"。但是到目前为止，很少有人尝试探索完整交互中的丰富属性以进行聚类解释。在本文中，我们将首次尝试对完整交互进行聚类，而不是对传统聚类方法中的简单交互。它还可以进一步通过从完整交互的任一部分中选择出关键的属性，以此作为聚类结果的解释。但由于以下挑战，这并不是一项简单的任务：（1）如何有效地对完整交互进行建模和编码？每个完整交互都涉及了不确定个数带有属性的交互对象和交互环境以及多个对象之间的交互关系。因此，使用前文提到的图方法是不足以对这种完整交互进行建模和编码的。（2）如何从完整交互中选择出可解释的关键属性？使用注意力机制来选择属性是一种常见的解决方案。然而它在解释性能力上备受质疑，因为注意力权重有时会与属性的真正重要性不一致，尤其是在面对完整交互中的丰富属性时。（3）如何同时提高对完整交互的聚类性能和可解释性？如先前工作中所研究的，在注意力机制中，聚类与属性选择的分布之间没有严格的相关性，这将导致损害聚类的性能。为了解决上述问题，我们提出通过注意力超图神经网络对完整交互进行协同聚类。具体地，为了对完整交互进行建模，我们首先构建了一个超图，其中由于超边可以连接任意数量的节点，因此超边非常适用于表示完整交互。然后，我们提出了一个注意力超图神经网络来显式地学习完整交互（超边）的表示，其中我们采用注意力机制来选择出重要的属性以作为聚类结果的解释。为了解决注意力权重和真实重要性之间的不一致问题，由于显著性方法在计算机视觉领域中通常被认为是重要性的真实标准，因此受显著性方法的启发，我们提出了基于显著性的一致性来使属性选择（即注意力权重）的分布与显著性方法给出的重要性保持一致。此外，为了确保类簇和属性选择分布之间的对应关系，受现有工作启发，我们提出了基于聚类的一致性：属于同一类簇内的完整交互应具有相似的属性选择分布，而不同类簇中的属性选择分布应不同。为此，我们提出了一种新颖的协同聚类方法，它对完整交互的表示和相应的属性选择分布进行协同聚类，从而提高聚类的性能和可解释性。综上所述，本文的主要贡献可归纳如下：据我们所知，这是对完整交互进行聚类的首次尝试，这可以从复杂的交互数据中发现更全面和可解释性更强的聚类模式。为此，我们为完整交互提出了一种基于注意力超图神经网络的协同聚类方法，称为CIAH。通过超图建模完整交互后，我们设计了一个注意力超图神经网络，以及一个具有基于显著性和基于聚类的一致性的新颖协同聚类方法。大量实验证明了我们的方法在完整交互的聚类上的有效性。此外，离线和在线的推荐实验也验证了其在下游应用中的实用价值。2. 方法在本节中，我们为完整交互提出了一种新颖的基于超图的协同聚类方法。如上所示，我们首先构建一个超图来对完整交互进行建模，其中每个完整交互都表示为连接所有相关对象的超边。然后我们设计了一个注意力超图神经网络来显式地学习完整交互（超边）的表示，同时我们通过注意力机制来选择相关的关键属性以作为聚类结果的解释。此外，我们还提出了一种基于显著性的一致性，即通过显著性方法使属性选择的分布与属性的真实重要性保持一致，我们将引入积分梯度方法来知道注意力。最后，我们提出了一种新颖的协同聚类方法，对完整交互和相应的属性选择分布进行协同聚类，以实现基于聚类的一致性。

可爱又积极 发表于2022-05-20 17:22:42 2022-05-20 17:22:42 最后回复 @Wu 2022-05-23 15:11:24
550 6

神经网络
[技术干货] 【论文分享】基于IR-VGG的多分类皮fu病实时诊断

基于IR-VGG的多分类皮fu病实时诊断谈玲1, 荣杉山1, 夏景明2, SajibSarker2, 马雯杰11 南京信息工程大学计算机与软件学院，江苏南京 2100442 南京信息工程大学人工智能学院，江苏南京 2100443 南京信息工程大学雷丁学院，江苏南京 210044摘要恶性的皮肤病变在早期阶段的治愈率极高，基于深度学习的皮肤病诊断研究近年来受到持续关注，其诊断准确率较高，然而计算资源消耗大，且依赖于医院大型计算设备。为在物联网移动设备上实现快速准确皮肤病诊断，提出一种基于IR-VGG（inverted residual visual geometry group）的多分类皮肤病实时诊断系统，使用轮廓检测算法分割出皮肤病图像病灶区域，并用反转残差块替换 VGG16 第一层卷积块以降低网络参数权重和内存开销；将原图像和分割后的病灶图像输入IR-VGG网络，通过全局和局部特征提取后，输出皮肤病诊断结果。实验结果表明，IR-VGG网络结构在SkinData-1和SkinData-2皮肤病数据集上的准确率分别可达到94.71%和85.28%，并且可以有效降低复杂度，使诊断系统较容易在物联网移动设备上进行皮肤病实时诊断。关键词：皮肤病 ; 边缘检测分割 ; 反转残差块 ; 深度学习 ; 物联网移动设备1 引言皮肤恶性病变大概率会发生癌变。早期诊断和治疗癌前皮肤病变可以较好地预防癌症的发生。世界卫生组织（WHO, World Health Organization）的统计数据表明，全球每年发生200万至300万例非黑色素瘤皮肤癌和132万例黑色素瘤皮肤癌[1-2]。一般来说，皮肤病变的诊断需要经验丰富的皮肤科专家对病变图像进行细致的人工检查。随着物联网的发展，人体传感器网络、人工智能、云计算和无线网络通信让认知医疗服务、远程健康监控、健康指导和反馈可以通过多种传感器进行数据融合帮助实现。本文提出一种基于计算机视觉技术的皮肤病实时诊断系统，该系统资源消耗较少，便于移植到移动设备上，患者可通过手机等智能设备实现皮肤病初诊，从而为皮肤病患者提供快捷可靠的物联网化公共医疗服务奠定了基础。传统的病灶检测方法主要靠人工的ABCDE规则（不对称、边界、颜色、皮镜结构和进化）[3]、3点检查表[4]、7 点检查表[5]、Menzies方法[6]和CASH （颜色、建筑、对称、均匀）[7]特征等方法进行特征提取。近年来，计算机视觉在物联网医疗服务和医学影像智能诊断中开始获得应用。其自主检测病变的优势减少了对皮肤科医生的依赖。基于图像处理的皮肤病诊断包括：图像输入、病灶点特征提取和特征分类3部分。目前许多算法提出了自动皮镜图像分析。文献[8,9,10,11]全面总结了过去几十年的相关工作。总的来说，用计算机辅助分析模型通常包括以下4个步骤：1) 图像预处理，如去除毛发[12,13,14]和图像增强[15-16]；2) 边界检测或分割[17]；3) 特征提取，即颜色、纹理、边界梯度、形状相关描述符[17-19]；4) 分类，如k-近邻（KNN, k-nearest neighbor）分类算法[18]、支持向量机（SVM, support vector machine）[17]， AdaBoost分类器[20]等。现有的研究大多是进行特征提取工程和分类，并且假设输入图像中包含一个完整的、大小合适的病灶图像[19]。但是皮肤镜图像有时无法捕获整个病灶区域，或病灶区域只占图像的一小部分。一些研究建议使用BOF（bag-of-feature）图像检索算法在复杂情况下检测局部病变特征[20]。尽管BOF图像检索算法中的特征编码如基本直方图[21]、VLAD（vector of local aggregated descriptors）[22]特征方法和FV（fisher vector）[23]已经广泛应用于多图像分类任务中[24]。但是这种手动提取特征的方式只能有限提高分类性能，此外这些方法复杂烦琐的操作步骤使其不适用于临床实践。与手工提取特征不同，卷积神经网络（CNN, convolutional neural network）近来在图像识别领域中占据了主导地位[25,26,27,28]。卷积神经网络的主要优势在于其可靠的视觉表示能力，能对给定的训练数据集进行识别和检测[29]，Jayalakshmi等[30]在卷积神经网络中加入批标准化操作，减小了模型的过拟合，在皮肤损伤图像的二分类中获得较好的分类效果，对国际皮肤影像协作组织（ISIC, International Skin Imaging Collaboration）的良性和恶性皮肤损伤的识别精度达到89.3%。胡海根等[31]通过掩盖的数据增强与深度卷积残差网络相结合的集成分类方法对黑色素瘤的诊断进行预测，通过随机和非随机掩盖的数据增强法增加了训练数据集的数量，但是对提取病灶区域的关键信息意义不大，精度为86.7%。Yu 等[32]提出用于分割的全卷积神经网络和用于分类的深度残差网络，识别精度达到85.5%。Mahbod等[33]通过多尺度、多网络集成的迁移学习对皮肤损伤分类，该方法分别以多个尺寸作为网络特征输入，由3个网络通道作为特征提取器，最后获得分类结果，该方法仅通过少量的皮肤损伤图片的训练便可得到较好的分类效果。李航等[34]通过迁移学习将预训练的 ResNet-152 的残差神经网络用来提取皮肤病变的深度卷积层特征，然后利用 SVM 对提取的黑色素瘤特征进行分类。Guha 等[35]使用自定义的卷积神经网络和 VGG16 进行迁移学习对多种皮肤疾病进行分类，与直接使用卷积神经网络架构相比，该方法识别准确率更高。Chen 等[36]在云服务器端进行自主的深度学习，构建了一个基于深度学习的全方位皮肤病识别系统。上述皮肤病分类模型虽然在准确率方面达到了较高水平，但其权重参数都非常大。上述模型也难以在高分辨率图像上达到实时的诊断速度，所以在计算资源和内存资源受限的移动设备上难以应用，也不适用于移动公共医疗服务。解决这一问题不仅要保证皮肤病诊断的准确率，还需要减少计算资源消耗，加快计算速率，这对皮肤病诊断模型提出了极高的要求。为此本文设计了一个可以在移动端设备上运行的基于IR-VGG 的多分类皮肤病实时诊断系统，本文主要贡献如下。1) 对皮肤病图片进行轮廓检测和分割，筛除图片噪声。2) 将分割后的图片和原图片同时输入特征提取器，分别提取病灶区域局部特征和皮肤病图像的全局特征，以此提升诊断模型的精准性和鲁棒性。3) 提出IR-VGG，利用反转残差块在特征提取初期减少网络参数量，保留大量特征信息。4) 使用 TensorFlow Lite 框架将皮肤病分类模型移植到Android系统的移动设备上运行。本文所提出的皮肤病诊断系统结合边缘检测分割算法和IR-VGG网络结构，一方面，通过提取全局和局部特征进行分析，提高诊断模型在皮肤疾病分类中的性能，降低医疗诊断的误诊概率；另一方面，引入反转残差块改进 VGG16 网络结构，降低诊断模型的算法复杂度，保证医疗服务在移动设备上运行的实时性。2 结束语为解决传统皮肤病诊断计算资源消耗大、实时性差的问题，提高公共医疗服务质量，实现数据共享互联的物联网医疗服务体系，本文提出一种基于IR-VGG 的多分类皮肤病实时诊断系统。在传统的VGG16分类算法中，引入反转残差块、边缘检测分割、全局和局部特征提取，不仅实现了皮肤病诊断准确率的提升，而且其网络的参数量比 VGG16 降低了90%。在数据集SkinData-1、SkinData-2上进行的实验结果表明，本文所提模型的准确率分别为94.71%、85.28%，比VGG16提升了9.69%、5.61%，而本文模型所消耗的计算资源仅为VGG16的1/10。表明本文模型在计算资源有限和实时性要求较高情况下，可以有效解决皮肤病实时诊断问题，为提高公共医疗服务质量提供了一种可行的解决方案。同时展望之后可以建立算力更充足的物联网计算基站，本文的计算设备作为边缘子节点，将采集的数据和初诊结果上传至物联网计算基站进行数据挖掘和分析，从而形成完备的物联网医疗服务体系。3 原文链接http://www.infocomm-journal.com/wlw/article/2021/2096-3750/2096-3750-5-3-00115.shtml

乔天伊 发表于2022-05-20 08:37:37 2022-05-20 08:37:37 最后回复 kswil 2022-05-20 09:15:33
267 2

深度学习神经网络
[其他] 基于图注意力机制和Transformer的异常检测

异常检测对电力行业的发展有着重要的影响，如何根据大规模电力数据进行异常检测是重要的研究热点.目前，大多数研究通过聚类或神经网络进行异常检测. 但是这些方法忽略了时序数据之间潜在的关联关系及某些特点的重要信息，没有充分挖掘出数据的潜在价值. 因此，提出了一种基于图注意力和Transformer的异常检测模型. 该模型首先根据数据中台中获取的电力数据（主要包括用户ID、电能表ID、用户类型、电流、电压、功率等数据）构建一个异构信息网络；然后，为了减少模型参数和避免出现过拟合的现象，在图卷积网络（Graph Convolutional Network，GCN）模型的基础上，引入非负矩阵分解（Non-Negative Matrix Factorization，NNMF）的方法来进行相似性学习；最后采用图注意力网络（Graph Attention Network，GAT）和Transformer共同捕获数据间的相互关联关系，从而提高检测精度. 以中国某地区的电力数据为基础进行验证，实验结果表明所提出的方法可以有效进行异常检测. http://www.ejournal.org.cn/CN/10.12263/DZXB.20211209 引言异常检测指出从预期正常数据中检测出扭曲或偏差的数据［1，3］，这些数据通常被称为异常值 . 异常检测已被用于许多重要领域，如视频监控、网络入侵检测、信用欺诈检测、电力行业和医疗保健. 对于电力行业，随着电力系统信息化水平的提高，各种电力设备和系统需要处理大量数据［4］ . 然而，需要处理的事件信息类型多样，难以从数据中提取有用信息［5］ . 此外，由于各种通信故障［6］、设备故障［7］、电网波动［8］和用户行为异常等原因，出现了大量的异常数据 . 这些异常数据往往包含电网信息中的重要信息，对电力数据的准确性和完整性有着重要影响. 因此，基于大规模电力数据，研究异常检测算法，分析、识别、处理异常信息，对电力行业挖掘事件信息和智能电网的分析具有重要意义［9，10］ . 目前，传统数据异常检测方法主要依靠数据专家、业务专家等人力进行排查［11，12］ . 随着各行业及各专业数据化建设规模的逐渐扩大，依靠传统方法对海量、实时、异构的数据异常检测方法渐显不足. 主要问题在于人工成本大、时间周期长，依赖专家经验无法并发批量工作，人工治理还会引发错漏现象等，无法快速、准确、低成本地满足业务数据的使用需求；同时缺乏异构数据环境下数据拓扑关系高效管理的手段，无法实现复杂逻辑数据管理智能化及数据脉络关系可视化和清晰化，与真正实现“追根溯源”式的数据核查理念还存在一定的差距. 近年来，随着数据科学的进步以及人工智能技术的发展，提出了一些基于数据挖掘和智能优化算法的异常检测方法［13，14］ . Wang 等人［13］采用不同的聚类算法，根据电表收集的平均损失、线路损耗变化效率和电流表开路记录来检测10个kV非技术损失，最后对各种聚类算法的检测效果进行了分析和比较 . 基于异常用户用电的差异行为特征和正常用户，Buzau等人［14］使用长期和短期的记忆网络和多层感知器混合的深度神经网络来进行异常检测，它们比其他分类器具有更高的精度. 针对考虑时序数据的关联性方面，Chahla等人［15］提出了一种基于长短期记忆的异常检测方法，用于从单变量时间序列数据中进行不和谐搜索，然后根据观测的数据预测误差，最后通过统计策略进行异常检测. Barua等人［16］提出了一个基于层次时空记忆（Hierarchi⁃ cal Temporal Memory，HTM）的新型神经认知启发架构，用于利用微相位测量单元数据进行智能电网的实时异常检测 . 其关键的技术思想是，HTM 学习连续数据的稀疏性和关联性的时间表示，这对于实时的异常检测非常有用 . Rouzbahani 等人［17］提出了一种用于智能电网ETD的集合深度卷积神经网络（EDCNN）算法. 该算法首先采用随机下采样技术来处理不平衡数据，然后利用深度卷积神经网络（DCNN）来挖掘数据之间的相互依赖性，最后，通过嵌入一个投票机制来实现窃电检测. 这些方法虽然取得了不错的检测效果，但是可能会忽略掉特定用户的某些重要信息. 针对上述问题，本文提出了一种基于图注意力和 Transformer 的异常检测模型 . 该模型首先根据数据中台中收集的电力数据构建一个异构信息网络；然后采用图卷积网络（Graph Convdutional Netword，GCN）和非负矩阵分解（Non-Negathe Matrix Factorization， NNMF）相结合的方法进行相似性分组；最后采用图注意力机制和 Transformer 相结合的方式进行分组异常检测。

可爱又积极 发表于2022-05-19 20:31:57 2022-05-19 20:31:57 最后回复 @Wu 2022-05-24 08:16:28
432 2

人工智能神经网络

推荐直播

0.25

从AI基础到昇腾：大模型初探、DeepSeek解析与昇腾入门
2025/04/02 周三 16:00-17:30

不易 / 华为云学堂技术讲师

昇腾是华为研发的AI芯片，其具有哪些能力？我们如何基于其进行开发？本期直播将从AI以及大模型基础知识开始，介绍人工智能核心概念、昇腾AI基础软硬件平台以及昇腾专区，旨在为零基础或入门级学习者搭建从AI基础知识到昇腾技术的完整学习路径。
回顾中
基于开源鸿蒙+海思星闪开发板：嵌入式系统开发实战（Day1）
2025/03/29 周六 09:00-18:00

华为开发者布道师

本次为期两天的课程将深入讲解OpenHarmony操作系统及其与星闪技术的结合应用，涵盖WS63E星闪开发板的详细介绍、“OpenHarmony+星闪”的创新实践、实验环境搭建以及编写首个“Hello World”程序等内容，旨在帮助学员全面掌握相关技术并进行实际操作
回顾中
基于开源鸿蒙+海思星闪开发板：嵌入式系统开发实战（Day2）
2025/03/30 周日 09:00-12:00

华为开发者布道师

本次为期两天的课程将深入讲解OpenHarmony操作系统及其与星闪技术的结合应用，涵盖WS63E星闪开发板的详细介绍、“OpenHarmony+星闪”的创新实践、实验环境搭建以及编写首个“Hello World”程序等内容，旨在帮助学员全面掌握相关技术并进行实际操作
回顾中
从AI基础到昇腾：大模型初探、DeepSeek解析与昇腾入门
2025/04/02 周三 16:00-17:30

不易 / 华为云学堂技术讲师

昇腾是华为研发的AI芯片，其具有哪些能力？我们如何基于其进行开发？本期直播将从AI以及大模型基础知识开始，介绍人工智能核心概念、昇腾AI基础软硬件平台以及昇腾专区，旨在为零基础或入门级学习者搭建从AI基础知识到昇腾技术的完整学习路径。
回顾中
基于开源鸿蒙+海思星闪开发板：嵌入式系统开发实战（Day1）
2025/03/29 周六 09:00-18:00

华为开发者布道师

本次为期两天的课程将深入讲解OpenHarmony操作系统及其与星闪技术的结合应用，涵盖WS63E星闪开发板的详细介绍、“OpenHarmony+星闪”的创新实践、实验环境搭建以及编写首个“Hello World”程序等内容，旨在帮助学员全面掌握相关技术并进行实际操作
回顾中

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript

开发者空间

了解空间

工作台

开发工具

实战案例

空间活动

空间论坛

开发平台

软件开发生产线 CodeArts

AI平台ModelArts

数据治理中心 DataArts Studio

数字内容生产线 MetaStudio

精选服务

云数据库 GaussDB

云数据库 RDS for MySQL

MapReduce服务 MRS

数据仓库服务 DWS

分布式缓存服务Redis版

分布式消息服务 DMS

华为云实时音视频 SparkRTC

媒体处理 MPC

主机迁移服务 SMS

对象存储迁移服务 OMS

云消息服务 KooMessage

云手机服务 KooPhone

企业搜索服务 KooSearch

云地图服务 KooMap

更多开放能力

开发工具

API生态

CodeArts API

API Explorer

Terraform Explorer

KooCLI

API 中心

SDK 中心

开发服务

Codelabs

DevStar

低代码平台Astro

CodeArts IDE

Huawei Cloud Toolkit

Classroom

开发资源

开源镜像站

开源资源

开发语言

开发实践

入门精选

分发资源

企业应用中心

企业通用专区

教育专区

华为应用专区

政务云专区

硬件云服务商城

医疗健康专区

跳蚤市场

华为云开发者日

直播专区

开发者精品活动

DTSE Tech Talk

加入HCDE

加入HCDG

加入HCSD

加入HCWD

鲁班会

沃土云创计划·企业

沃土云创计划·高校

沃土云创计划·个人

沃土云创计划·开源共创

博客

论坛

专题

开发者榜单

学习路径

在线课程

动手实验

考试认证

培训服务