• [其他] 分享适合科学研究深度学习模型
       数据的一个非常常见的属性是具有顺序结构,例如视频中的帧、蛋白质的氨基酸序列或句子中的单词。开发神经网络模型来处理序列数据一直是过去几年来最广泛的研究领域之一。其中很大一部分是由自然语言处理任务的进展所推动,该领域的重点是让计算机读懂人的工作。这个领域的机器翻译和问题回答两个热门的任务已经取得了一些进展。当前需要处理序列数据的核心人物包括:语言建模、序列到序列转换、问答等  深度学习模型那么多,科学研究选哪个?序列到序列预测任务的图示语言建模(Next Token Prediction)作为一种训练方法,将时间或者位置t的序列标记作为输入,然后用这些标记来预测t+1的标记。在NLP任务中,该方法体现在:将句子或者单词作为输入送到神经网络中,然后预测下一个单词。具体例子,如:给定一个句子 "The cat sat on the roof", "The "作为作为神经网络的输入,要求预测 "cat",然后被喂入 "The cat",并要求预测 "sat",以此类推。这种方法已经成为自然语言中流行的方法,另外,在一些科学项目中也应用广泛,例如蛋白质功能预测,AlphaFold预测蛋白质结构中部分使用此方法。
  • [行业动态] "AI画廊"用前沿技术为生活添彩
    --- 8月23日,2021中国国际智能产业博览会(以下简称“智博会”)在重庆国际博览中心正式开幕。大会以“智能化:为经济赋能,为生活添彩”为主题,紧扣工业互联网、智能制造、工业软件、产业基础再造等重点领域,交流、展示智能产业发展的新成效、新技术、新趋势,以求加快推动数字经济和实体经济深度融合,携手共创智能时代,共享智能成果。 本次大会,腾讯携旗下多项业务、产品参展,其中,腾讯优图实验室带来了一款通过其首次对外开源的AI推断框架—ncnn来实现风格迁移案例的全新互动程序——“AI画廊”,并与现场参会观众开展互动体验,以更直接的方式,让更多人切身感受到智能化产业发展所带来的成果。 ![image.png](https://bbs-img.huaweicloud.com/data/forums/attachment/forum/202108/29/2353534bsnjebaril8dydb.png) **“AI画廊”智博会首次亮相** **腾讯优图****实验室用AI打造艺术世界** 腾讯优图的“AI画廊”为参加大会的线下观众提供了丰富多彩的互动体验。体验者只要在屏幕前拍摄一张照片,就可以通过“AI画廊”内集成的算法生成不同艺术形式和风格的图片,并且可以下载到手机上保存,获得一套由AI量身打造的定制艺术照。现场的观众纷纷被这种有趣的黑科技吸引并驻足体验。 “AI画廊”其实是一款通过AI推断框架——ncnn来实现风格迁移案例的互动程序,在本次智博会迎来了首次正式亮相。 ncnn是腾讯优图推出的首个高性能神经网络前向计算开源框架,在2017年首次开源,这也是腾讯优图第一次对外公开深度学习的研究成果。 作为一个专门针对移动设备的开源深度学习前向框架,ncnn无第三方依赖,可跨平台运行,在手机端cpu运算效率在目前已知的开源框架中处于领先水平。基于ncnn,开发者能够将深度学习算法轻松移植到手机端高效执行, 在极大程度上提升了人工智能APP的开发效率。 目前,ncnn多用在图像处理方面的工作中,如人像自动美颜、照片风格化、超分辨率、物体识别等。基于ncnn轻量级、可跨平台的特性,未来将有望广泛应用于智能家居、推荐系统、智能机器人等适合实时化的应用场景中。 **专注AI技术的研究与落地** **腾讯优图****实验室助力建设智能时代** 作为腾讯旗下顶级的人工智能实验室,腾讯优图始终聚焦计算机视觉技术,专注人脸识别、图像识别、OCR等领域,致力于在工业制造、医疗应用、金融保险、娱乐社交等多行业场景的研究与落地,以求让AI更好地融入生活,创造更多有趣的研究与应用。 一方面,为了让技术能够更好地解决行业实际问题,加速AI技术应用与落地的进程,腾讯优图于2017年实现了业界首个专注移动端的神经网络推断框架,即“AI画廊”核心组件——ncnn的开源,为业界和广大开发者提供了更优质、高效的服务。 另一方面,腾讯优图也积极携手生态伙伴,为自主信息技术创新应用的持续推进提供助力。近期,ncnn在国产CPU龙芯和D1上进行了较为全面的适配和性能优化,最高速度提升70倍,携手龙芯和全志科技共同打通了AI应用和国产CPU硬件间的壁垒,帮助国产CPU在AI软件生态实现从“可用”到“好用”。 截止目前,凭借在视觉AI技术上的研究成果,腾讯优图拥有超过1000件全球AI专利,更有300余篇论文被AAAI、ICCV等国际顶级AI会议收录。此外,腾讯优图还通过腾讯云输出超过20项AI解决方案,100+AI原子能力,还打造了如跨年龄AI寻人、青少年内容审核、AI探星等技术能力,践行腾讯“科技向善”的使命和愿景。 如今,人工智能作为推动数字经济快速发展的重要基础设施之一,对推动各行各业实现数字化转型都发挥着重要作用。一直以来,腾讯优图专注发展人工智能技术,致力于AI基础设施的研发和推进,未来,将持续为智能产业的发展贡献力量,为推动产业数字化转型提供助力,做到真正的为经济赋能,为生活添彩。 ___
  • [其他] 分享论文——收敛一致性可能解释不了深度学习中的泛化现象
    收敛一致性可能解释不了深度学习中的泛化现象推荐理由:为了探究深度学习泛化能力背后的原理,学术界提出了泛化边界的概念,然后尝试用「收敛一致性」理论推导、设计出了各种各样的泛化边界描述方法,似乎已经取得了不少成果。但这篇论文中作者们通过大量实验发现,虽然其中的许多泛化边界从数值角度看起来挺大,但随着训练数据集大小变大,这些泛化边界也会跟着变大。在此基础上,作者们用过参数化的线性分类器和梯度下降训练的神经网络为例,证明了收敛一致性并不能解释模型的泛化性,即便完全考虑了梯度下降可能带来的隐式偏倚也解释不了。更严谨地说,作者们实验表明,根据收敛一致性得到的泛化边界要比根据梯度下降得到的泛化边界大得多。根据这一系列结果,作者们对「用基于收敛的方法解释泛化能力」的做法提出严重的质疑。虽然这篇论文并没能解决(也没打算解决)深度神经网络中的泛化性问题,但它显然为整个领域指出「此路不通,考虑重来」。这篇论文获得 NeurIPS 2019 杰出新方向论文奖。论文地址:https://papers.nips.cc/paper/9336-uniform-convergence-may-be-unable-to-explain-generalization-in-deep-learning
  • [其他] 深度学习之虚拟对抗样本
    对抗样本也提供了一种实现半监督学习的方法。在与数据集中的标签不相关联的点 x 处,模型本身为其分配一些标签 yˆ。模型的标记 yˆ 未必是真正的标签,但如果模型是高品质的,那么 yˆ 提供正确标签的可能性很大。我们可以搜索一个对抗样本 x′,导致分类器输出一个标签 y′ 且 y′ ̸= yˆ。不使用真正的标签,而是由训练好的模型提供标签产生的对抗样本被称为虚拟对抗样本(virtual adversarial example)(Miyato et al., 2015)。我们可以训练分类器为 x 和 x′ 分配相同的标签。这鼓励分类器学习一个沿着未标签数据所在流形上任意微小变化都很鲁棒的函数。驱动这种方法的假设是,不同的类通常位于分离的流形上,并且小扰动不会使数据点从一个类的流形跳到另一个类的流形上。
  • [其他] 深度学习之对抗样本
    Goodfellow et al. (2014b) 表明,这些对抗样本的主要原因之一是过度线性。神经网络主要是基于线性块构建的。因此在一些实验中,它们实现的整体函数被证明是高度线性的。这些线性函数很容易优化。不幸的是,如果一个线性函数具有许多输入,那么它的值可以非常迅速地改变。如果我们用 ϵ 改变每个输入,那么权重为w 的线性函数可以改变 ϵ ∥w∥1 之多,如果 w 是高维的这会是一个非常大的数。对抗训练通过鼓励网络在训练数据附近的局部区域恒定来限制这一高度敏感的局部线性行为。这可以被看作是一种明确地向监督神经网络引入局部恒定先验的方法。对抗训练有助于体现积极正则化与大型函数族结合的力量。纯粹的线性模型,如逻辑回归,由于它们被限制为线性而无法抵抗对抗样本。神经网络能够将函数从接近线性转化为局部近似恒定,从而可以灵活地捕获到训练数据中的线性趋势同时学习抵抗局部扰动。
  • [其他] 深度学习之对抗训练
    在许多情况下,神经网络在独立同分布的测试集上进行评估已经达到了人类表现。因此,我们自然要怀疑这些模型在这些任务上是否获得了真正的人类层次的理解。为了探索网络对底层任务的理解层次,我们可以探索这个模型错误分类的例子。 Szegedy et al. (2014b) 发现,在精度达到人类水平的神经网络上通过优化过程故意构造数据点,其上的误差率接近100%,模型在这个输入点 x′ 的输出与附近的数据点 x 非常不同。在许多情况下,x′ 与 x 非常近似,人类观察者不会察觉原始样本和对抗样本(adversarial example)之间的差异,但是网络会作出非常不同的预测。对抗样本在很多领域有很多影响,例如计算机安全,这超出了本章的范围。然而,它们在正则化的背景下很有意思,因为我们可以通过对抗训练(adversarial training)减少原有独立同分布的测试集的错误率——在对抗扰动的训练集样本上训练网络 (Szegedy et al., 2014b; Goodfellow et al., 2014b)。
  • [其他] 深度学习之噪声
    Dropout的另一个重要方面是噪声是乘性的。如果是固定规模的加性噪声,那么加了噪声 ϵ 的整流线性隐藏单元可以简单地学会使 hi 变得很大(使增加的噪声 ϵ 变得不显著)。乘性噪声不允许这样病态地解决噪声鲁棒性问题。另一种深度学习算法——批标准化,在训练时向隐藏单元引入加性和乘性噪声重新参数化模型。批标准化的主要目的是改善优化,但噪声具有正则化的效果,有时没必要再使用Dropout。
  • [其他] 深度学习之隐藏单元
    Dropout强大的大部分原因来自施加到隐藏单元的掩码噪声,了解这要的。这可以看作是对输入内容的信息高度智能化、自适应破坏的一种形式,而不是对输入原始值的破坏。例如,如果模型学得通过鼻检测脸的隐藏单元 hi,那么丢失 hi 对应于擦除图像中有鼻子的信息。模型必须学习另一种 hi,要么是鼻子存在的冗余编码,要么是脸部的另一特征,如嘴。传统的噪声注入技术,在输入端加非结构化的噪声不能够随机地从脸部图像中抹去关于鼻子的信息,除非噪声的幅度大到几乎能抹去图像中所有的信息。破坏提取的特征而不是原始值,让破坏过程充分利用该模型迄今获得的关于输入分布的所有知识。
  • [其他] 深度学习之Bagging的集成模型
    目前为止,我们将Dropout介绍为一种纯粹高效近似Bagging的方法。然而,还有比这更进一步的Dropout观点。Dropout不仅仅是训练一个Bagging的集成模型,并且是共享隐藏单元的集成模型。这意味着无论其他隐藏单元是否在模型中,每个隐藏单元必须都能够表现良好。隐藏单元必须准备好进行模型之间的交换和互换。Hinton et al. (2012c) 由生物学的想法受到启发:有性繁殖涉及到两个不同生物体之间交换基因,进化产生的压力使得基因不仅是良好的而且要准备好不同有机体之间的交换。这样的基因和这些特点对环境的变化是非常稳健的,因为它们一定会正确适应任何一个有机体或模型不寻常的特性。因此Dropout正则化每个隐藏单元不仅是一个很好的特征,更要在许多情况下是良好的特征。Warde-Farley et al. (2014) 将Dropout与大集成的训练相比并得出结论:相比独立模型集成获得泛化误差,Dropout会带来额外的改进。
  • [其他] 深度学习之Dropout启发
    Dropout启发其他以随机方法训练指数量级的共享权重的集成。DropConnect是Dropout的一个特殊情况,其中一个标量权重和单个隐藏单元状态之间的每个乘积被认为是可以丢弃的一个单元 (Wan et al., 2013)。随机池化是构造卷积神经网络集成的一种随机池化的形式 (见第 9.3 节),其中每个卷积网络参与每个特征图的不同空间位置。目前为止,Dropout仍然是最广泛使用的隐式集成方法。一个关于Dropout的重要见解是,通过随机行为训练网络并平均多个随机决定进行预测,实现了一种参数共享的Bagging形式。早些时候,我们将Dropout描述为通过包括或排除单元形成模型集成的Bagging。然而,这种参数共享策略不一定要基于包括和排除。原则上,任何一种随机的修改都是可接受的。在实践中,我们必须选择让神经网络能够学习对抗的修改类型。在理想情况下,我们也应该使用可以快速近似推断的模型族。我们可以认为由向量 µ 参数化的任何形式的修改,是对 µ 所有可能的值训练 p(y | x, µ) 的集成。注意,这里不要求 µ 具有有限数量的值。例如, µ 可以是实值。Srivastava et al. (2014) 表明,权重乘以 µ ∼ N (1, I) 比基于二值掩码Dropout表现得更好。由于 E[µ] = 1,标准网络自动实现集成的近似推断,而不需要权重比例推断规则。
  • [其他] 深度学习之快速 Dropout
    使用Dropout训练时的随机性不是这个方法成功的必要条件。它仅仅是近似所有子模型总和的一个方法。Wang and Manning (2013) 导出了近似这种边缘分布的解析解。他们的近似被称为快速 Dropout(fast dropout),减小梯度计算中的随机性而获得更快的收敛速度。这种方法也可以在测试时应用,能够比权重比例推断规则更合理地(但计算也更昂贵)近似所有子网络的平均。快速 Dropout在小神经网络上的性能几乎与标准的Dropout相当,但在大问题上尚未产生显著改善或尚未应用。随机性对实现Dropout的正则化效果不是必要的,同时也不是充分的。为了证明这一点,Warde-Farley et al. (2014) 使用一种被称为 Dropout Boosting(Dropout Boosting)的方法设计了一个对照实验,具有与传统Dropout方法完全相同的噪声掩码,但缺乏正则化效果。Dropout Boosting训练整个集成以最大化训练集上的似然。从传统Dropout类似于Bagging的角度来看,这种方式类似于Boosting。如预期一样,和单一模型训练整个网络相比,Dropout Boosting几乎没有正则化效果。这表明,使用Bagging解释Dropout比使用稳健性噪声解释Dropout更好。只有当随机抽样的集成成员相互独立地训练好后,才能达到Bagging集成的正则化效果。
  • [其他] 深度学习之Dropout优点
    Dropout的另一个显著优点是不怎么限制适用的模型或训练过程。几乎在所有使用分布式表示且可以用随机梯度下降训练的模型上都表现很好。包括前馈神经网络、概率模型,如受限玻尔兹曼机(Srivastava et al., 2014),以及循环神经网络(Bayer and Osendorfer, 2014; Pascanu et al., 2014a)。许多效果差不多的其他正则化策略对模型结构的限制更严格。虽然Dropout在特定模型上每一步的代价是微不足道的,但在一个完整的系统上使用Dropout的代价可能非常显著。因为Dropout是一个正则化技术,它减少了模型的有效容量。为了抵消这种影响,我们必须增大模型规模。不出意外的话,使用Dropout时最佳验证集的误差会低很多,但这是以更大的模型和更多训练算法的迭代次数为代价换来的。对于非常大的数据集,正则化带来的泛化误差减少得很小。在这些情况下,使用Dropout和更大模型的计算代价可能超过正则化带来的好处。只有极少的训练样本可用时,Dropout不会很有效。在只有不到 5000 的样本的Alternative Splicing数据集上 (Xiong et al., 2011),贝叶斯神经网络 (Neal, 1996)比Dropout表现得更好 (Srivastava et al., 2014)。当有其他未分类的数据可用时,无监督特征学习也比Dropout更有优势。
  • [其他] 深度学习之权重比例
    权重比例推断规则在其他设定下也是精确的,包括条件正态输出的回归网络以及那些隐藏层不包含非线性的深度网络。然而,权重比例推断规则对具有非线性的深度模型仅仅是一个近似。虽然这个近似尚未有理论上的分析,但在实践中往往效果很好。Goodfellow et al. (2013b) 实验发现,集成预测权重比例推断规则比蒙特卡罗近似的效果更好(在分类精度方面)。即使允许蒙特卡罗近似采样多达 1000 子网络时也比不过集成。Gal and Ghahramani (2015) 发现一些模型可以通过二十个样本和蒙特卡罗近似获得更好的分类精度。似乎推断近似的最佳选择是与问题相关的。
  • [其他] 深度学习之权重比例推断规则
    涉及Dropout的一个重要观点 (Hinton et al., 2012b) 是,我们可以通过评估模型中 p(y | x) 来近似 pensemble:该模型具有所有单元,但我们将模型的权重修改为和单元 i 的概率的乘积。这个修改的动机是得到从该单元输出的正确期望值。我们把这种方法称为权重比例推断规则(weight scaling inference rule)。目前还没有在深度非线性网络上对这种近似推断规则的准确性作任何理论分析,但经验上表现得很好。然后像平常一样使用模型。实现相同结果的另一种方法是在训练期间将单元的状态乘 2。无论哪种方式,我们的目标是确保在测试时一个单元的期望总输入与在训练时该单元的期望总输入是大致相同的(即使近半单位在训练时丢失)。
  • [其他] 深度学习之多个概率分布
    因为这个求和包含多达指数级的项,除非该模型的结构允许某种形式的简化,否则是不可能计算的。目前为止,无法得知深度神经网络是否允许某种可行的简化。相反,我们可以通过采样近似推断,即平均许多掩码的输出。即使是 10 − 20 个掩码就足以获得不错的表现。然而,一个更好的方法能不错地近似整个集成的预测,且只需一个前向传播的代价。要做到这一点,我们改用集成成员预测分布的几何平均而不是算术平均。 Warde-Farley et al. (2014) 提出的论点和经验证据表明,在这个情况下几何平均与算术平均表现得差不多。多个概率分布的几何平均不能保证是一个概率分布。为了保证结果是一个概率分布,我们要求没有子模型给某一事件分配概率 0,并重新标准化所得分布。