建议使用以下浏览器,以获得最佳体验。 IE 9.0+以上版本 Chrome 31+ 谷歌浏览器 Firefox 30+ 火狐浏览器
温馨提示

抱歉,您需设置社区昵称后才能参与社区互动!

前往修改
我再想想

华为云大赛技术圈

话题 : 467 成员 : 405

加入HCSD

探究预训练语言模型中的位置编码

火星木拉提... 2021/3/9 1767

Transformer结构被广泛地应用在各类NLP任务上。Transformer结构除去位置编码将不能建模输入的顺序,所以位置编码及其重要。在现有的预训练模型中,已经发展出了多种位置编码(例如:完全可学习的位置编码[6],固定的三角函数式位置编码[12],相对位置编码[13]等),试验上都有不错的表现,但当前学界对位置编码仍然没有较系统性的对比和研究,缺少一个统一的框架来理解和评价这些位置编码。在我们最新的ICLR-2021《On Position Embeddings in BERT》工作中,提出了统一的框架来探究各种不同的位置编码。首先我们对位置编码特性所应具有的一些原则性上的属性(平移不变、单调和对称性)进行了形式化的表述,对现有的位置编码在何种程度上满足上述属性进行了归类,并定量地评估了这些属性如何对不同类型的下游任务造成影响。本文发现,完全可学习的位置编码在整句分类场景表现优秀;相对位置编码则在span prediction(比如:阅读理解任务SQuAD)上效果更佳,这是由于其能更好地满足位置编码的理想属性。最后,本文给出了基于上述发现的经验性总结:[CLS]所在位置编码和普通token的位置编码进行解耦更加有利于下游任务表现;满足位置编码的平移不变性和单调性尤为重要,而不必要严格满足对称性。

本文已经被ICLR 2021接受,链接如下:https://openreview.net/forum?id=onxoVA9FxMw


研究背景

Transformer结构因其在更多的数据和更大的参数规模下依然有着不俗的表现,已经在预训练语言模型中大放光彩,这股风潮甚至开始蔓延到计算机视觉、蛋白质结构预测等领域。Transformer结构中的重要组件是自注意力机制:通过Q向量和K向量的点积计算所有输入序列中token两两之间的注意力,并以此来线性加权得到V向量,并通过FFN(Feed-Forward Network)对V向量做一些非线性变化。在layer normalization,残差连接,dropout等技巧帮助下,可以使得模型更容易做到更深,增大参数量,为模型赋予更强的表达能力。
Transformer结构的自注意力机制也自然地导致了网络结构本身是对输入token的位置和顺序不敏感,若在Transformer输入的embedding中去掉位置编码(Position Embedding, PE),Transformer将退化成一个词袋模型—任意变换输入token的位置,其输出保持不变。
虽说位置编码在Transformer中不可或缺,但是大家用起来却参差不齐,不一而足。一众国内外炼丹师们目前在不同的模型上试用了不同的配方:

Models

PE types

Transformers (machine translation)

fixed sinusoidal APEs

BERT/Roberta/Albert/BART/GPT/Electra, etc.

fully-learnable APEs

T5

relative position biases

vanilla RPE (machine translation)

fully-learnable RPEs

XLNET/NEZHA

fixed sinusoidal RPE

APE和RPE分别指绝对位置编码(Absolute PE)和相对位置编码(Relative PE),其区别在于在计算两两token的注意力时,是根据两个token在输入序列中对应的绝对位置,或是根据一个token到另一个token的之间的距离。两种典型的APE和RPE的实现方式如下所示:

image.png


典型的位置编码

PE的参数化主要可分为两种方式:1)完全可学习的PE;2)不可学习的三角函数参数化的PE。为了在研究中对PE的种类进行更全面的覆盖,我们提出了一个综合了上述两种方式的PE—半可学习的三角函数PE,称为“learnable sinusoidal PE”,将原始三角函数PE中固定的角频率(固定为
)修改为可以训练参数的角频率。将APE和RPE分别以上述三种不同的参数化方法实现,我们得到了如下表所示的六种不同形式的PE:

image.png

本文分别使用这六种不同形式的PE替换预训练好的BERT base模型中的PE,并在替换后使用相同的预训练任务对的模型继续训练了5至7个epoch。为公平比较,同时原始的BERT-base的fully learnable APE也接着训练了相同的epoch数。

所以他们通用的模式到底是什么?


位置编码的通用Desiderata

Desiderata是拉丁语“thing desired” ,这里我们想了解“任意一组向量满足如何的性质才能成为一个不错的位置编码”。那么我们首先重新回顾一下位置编码是什么?
位置编码可以被定义成一个从
的映射。将原始的整数形式的位置表示映射成向量空间里面的向量。如果把他看成一个经典的表示学习(representation learning)的问题。

image.png

左边的位置编码是在一根数轴上的整数,右边是预训练后的BERT-base中的fully-learnable APE形式的位置编码,通过T-SNE降维并可视化到二维平面上。我们发现向量化的位置编码经由预训练后,仍一定程度上保留着整数空间上的邻近关系。更加形式化地,我们对向量化的PE所所需的属性做出如下假设:
假设1:如果位置x和位置y更近(整数位置上),那么在向量空间上他们的向量表示更接近;如果位置x和位置y更远(整数位置上),那么在向量空间上他们的向量表示也更远。
假设1可以简单概括为单调性:即两个位置向量的相似度,随着其所表示的位置在原始整数空间上距离的增加单调递减。

image.png

假设2:若两个位置向量对在整数空间上距离相同,那么其在向量空间的相似度也相同,与其绝对位置无关。

image.png

文献[11]根据假设2和位置向量有界假设导出了一个形式优美的复数的位置向量,该位置向量等于是在极坐标上以词向量为半径,根据位置长短对其做了一个旋转。这是一个非常强的假设,而且其背后也有很强的归纳偏置。

假设2意味着,任意一个词/词组/子句/句子的含义与其所在的绝对位置无关,而只关心它们与其他单元的相对距离(词/词组/子句/句子)。这个假设的另一个动机来自于BERT的数据预处理机制:token的绝对位置是任意可替换的 — 例如第二个句子的绝对位置依赖于第一个句子的长度;当句子长度超过给定长度时,句首有多少词被随机丢掉了。因此一些随机因素可以导致token的绝对位置的偏移,其绝对位置并不能带来多少信息量。
 假设3:相似度和距离定义本身是对称的。而且对方向有什么额外的先验假设,假设其是对称的。

image.png

这样我们得到了单调性、平移不变性和对称性。然后我们研究一下存在的位置编码是否满足这些原则上的属性。


定量分析位置编码的属性

虽然完全可学习的位置编码,没有任何假设和约束,难以分析其属性。但是我们可以做一些马后炮式分析,把学好的位置编码拿出来看看。首先我们需要一个简单的函数来度量两个位置向量之间的距离或者相似度,一个简单的指标是直接算两个位置向量的点积,但是在Transformer中,他们的交互是比较复杂的,同时image.png image.png相关。

image.png

这儿我们尝试直接用attention矩阵来检验位置向量之间的关系如上式子,但是计算两个词的attention时候同时也会考虑词语之间的关系。这样我们提出一个新的probing任务:给BERT喂进去128个相同的词,这样attention矩阵就会主要体现位置向量的关系—以及位置向量在平均意义上给attention矩阵额外带来的bias。

这里我们的probing测试选取第一层的attention的矩阵,并采样一些词给attention矩阵做平均。取第一层的attention而不是选取其他层的原因是因为,研究发现越底层的transformer跟位置相关性更大,参见 [4].

image.png

以上是attention矩阵没有softmax激活之前平均,激活后的平均请参看文章附录。我们看到,没有位置编码的时候,位置将不会对attention计算带来很直接的影响。后面大家可以看到不同的位置编码都或多或少有一些通用模式:颜色由对角线向两边逐渐变浅,左上到右下方向颜色一致,基本对称,分别对应于我们的三个属性。

为了进一步定量分析上述的性质,我们提出了三个量化的指标(定义见附录),结果如下

image.png

主要观察如下:

1. 如果不装配位置编码,注意力机制对不同位置几乎没有任何有规律的倾向;
2. 装配几乎所有不同位置编码的BERT在考虑20位置偏移以内都较好地满足单调性;考虑更长位置编码,单调性满足地更差 -- 这大致因为模型对更长位置的attending不敏感。
3. 在不考虑特殊token([CLS])所在的位置时,所有BERT模型会更好地满足平移不变性满。特别是完全可学习的位置编码(fully-learnable APE)考虑CLS时满足地不好,但是去掉之后却满足得很好。-- [CLS] 所在的位置和普通token所在的位置并不兼容。
4. 对称性大体满足,但是都在平均意义上稍微更多地attend到前面的词。       

 

不同位置编码在GLUE和SQuAD上结果

我们把不同位置编码拉到GLUE 和Squad上练练,任务均使用标准设置,我们报告了Dev上的均值和标准差(五个不同随机种子求平均)

image.png

如上表所示,从GLUE结果的平均值(去掉WNLI结果)来看,BERT原来的完全可学习的位置编码的结果相当不错,仅仅比一种APE和RPE混合版本低一点(但是其没有统计显著性)。可以看到完全可学习的位置编码在分类任务上优势很大。

image.png

但是在SQuAD任务上,BERT原来的位置编码几乎是最差的结果(仅仅好于fixed sin. APE)。
也就是说BERT完全可学习的APE位置编码在分类任务上有优势,但是在spanprediction上表现不佳
完全可学习的APE在两种不同任务的结果上的差异,本文认为其体现在对[CLS]的处理上,在完全可学习的APE(BERT-style)中,[CLS]所在的位置向量(也就是第一个位置向量)和正常的位置向量是是相互独立的。但是其他的位置编码(如sin. APE或者所有RPE)在参数化的时候就将[CLS]当成了一个正常的位置向量,比如参数化时其满足平移不变性;但是并非如此,[CLS]的位置不会平移,一直都是在第一个位置。
另外,在去掉了位置编码后,GLUE的结果有所下降,但是其结果下降幅度相对不大,但是在SQuAD中结果下降幅度很大,这也侧面说明分类任务本身对位置的敏感程度不及span prediction。当前分类用的时只用到[CLS]位置输出的隐层变量,但是span prediction用到了所有token的位置输出的隐层变量。关于不同任务对位置编码不同敏感程度也可以从[4]中看到。
一些其他的小发现如下:
1在sinusoidal APE,学习频率可以稳定提升结果,但是提升的幅度不一定显著。
2在span prediction任务上,结合APE和RPE可以稍微提升结果。在分类任务上其结合的优势不一定观察到
3RPE 并不适合用sinusoidal参数化,其中一个原因是,模型对远距离的相对位置向量不敏感,实际训练后的结果比20偏移更大的相对位置向量(不管前向还是后向)非常相似(其cosine similarity 接近0.95),这些现象不能通过sinusoidal 参数化体现。


属性如何影响结果

根据以上13种不同位置编码的probing的结果,我们可以定量地得到这13种位置编码多大程度上违背我们定义的属性,我们还计算了这些定量的属性可以跟他们在不同任务上结果之间的相关性(Pearson correlation)如下

image.png

我们可以观察到:

1在二十个偏移内,违背单调性对GLUE和SQuAD结果均有害
2不考虑特殊tokens,违背平移不变性对GLUE和SQuAD结果均有害
3违背对称性和方向平衡性对GLUE和SQuAD结果均有益
结果是较近偏移内的单调性和不考虑特殊token的平移不变性应该是是位置编码的通用模式 ,但是不同场景(不容任务,不同语言)对方向性和对称性的需求不相同,一般不需要绝对的对称性


什么是理想的PE

本文的结论是说理想的PE应该有如下两个性质
1普通token所在的位置向量和[CLS]所在的位置向量解耦;
2可以在L个位置附加一种position bias,比如计算attention的时候,得到一个
的attention map时附加一个position bias 如下:

image.png

image.png对应到我们的属性为:完全满足单调性和平移不变性,且不要求对称性。

为了简单检验我们这么一个朴素的假设,我们测试了T5中的position bias,输出了其中encoder的position bias如下:
image.png

左图时T5 small setting 右图时T5-3B setting(见[9])。多头position bias的平均值,与理想的三条属性相同,唯一的一个多的模式在于:词基本不喜欢attend他们自己(在T-3B扩展到附近的几个词),在本文中称为”white band effect“,同时见于Kevin et.al;其具体的原因还不明确。


其他场景的位置编码

我们同时比较了Encoder-only, Encoder-decoder(英法翻译)和Decoder中的位置编码probing的结果


image.png

image.png

与Encoder-only 不同的是
1)Decoder 会额外attend最前面的词;越到后面的词需要参看相对偏移更大范围的词;不会attend到后面的词防止信息泄露
2)Encode-Decoder里的Encoder,词会额外attend更多后面的词而不是前面的词,这与BERT相反;当然这个翻译的语言有关,本文是用的英法翻译模型,其他语言还未测试。
 
以一个有趣开放的问题作为结束,从CV里面的二维位置编码(下图来自[10])中,大家是否可以观察到一些简单的平移不变性,单调性?
image.png

[1] Clark, Kevin, Urvashi Khandelwal,Omer Levy, and Christopher D. Manning. "What does bert look at? an analysis of BERT's attention." arXiv preprint arXiv:1906.04341 (2019).

[2] Wang, Yu-An, and Yun-Nung Chen."What Do Position Embeddings Learn? An Empirical Study of Pre-Trained Language Model Positional Encoding." arXiv preprint arXiv:2010.04903(2020).

[3] Ke, Guolin, Di He, and Tie-Yan Liu."Rethinking the Positional Encoding in Language Pre-training." arXiv preprint arXiv:2006.15595 (2020).

[4] Shane Steinert-Threlkeld Special Topic 1: Analysis of positional embeddings (Group 9) [LING 575: Analyzing Neural Language Models Win '20] (https://www.shane.st/teaching/575/win20/index.html#page-top)

[5] Amirhossein Kazemnejad's Blog,Transformer Architecture: The Positional Encoding.

https://kazemnejad.com/blog/transformerarchitecturepositional_encoding/

[6] Gehring, Jonas, Michael Auli, David Grangier, Denis Yarats, and Yann N. Dauphin. "Convolutional sequence to sequence learning." In International Conference on Machine Learning, pp. 1243-1252. PMLR, 2017.

[7] Benyou WangLifeng ShangChristina LiomaXin Jiang,Hao YangQun LiuJakob Grue Simonsen On Position Embeddings in BERT, accepted in ICLR 2021.

[8] Giambattista Parascandolo, Heikki Huttunen,Tuomas Virtanen Taming the waves: sine as activation function in deep neural networks. 2017

[9] T5-3b checkpoint https://huggingface.co/t5-3b and T5-small: https://huggingface.co/t5-small

[10] Alexey Dosovitskiy, Lucas Beyer,Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner,Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR 2021.

[11] Benyou Wang
, Donghao Zhao
, Christina Lioma, Qiuchi Li, Peng Zhang, Jakob Grue Simonsen. Encoding word order in complex embeddings. ICLR 2020

[12] Vaswani, Ashish, Noam Shazeer, NikiParmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, and Illia Polosukhin. "Attention is all you need." In Proceedings of the 31st International Conference on Neural Information Processing Systems, pp.6000-6010. 2017.

[13]Shaw, Peter, Jakob Uszkoreit, and Ashish Vaswani. "Self-Attention with Relative Position Representations." In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers), pp. 464-468.2018.


位置编码相关博客推荐

苏剑林的 https://kexue.fm/archives/8130

夕小瑶的卖萌屋的 https://zhuanlan.zhihu.com/p/121126531

Hinrich Schütze组的综述:Position Information in Transformers: An Overview https://arxiv.org/abs/2102.11090


回复 (0)

没有评论
上划加载中
标签
您还可以添加5个标签
  • 没有搜索到和“关键字”相关的标签
  • 云产品
  • 解决方案
  • 技术领域
  • 通用技术
  • 平台功能
取消

火星木拉提2号

角色:导师

话题:43

发消息
发表于2021年03月09日 18:37:18 17670
直达本楼层的链接
楼主
正序浏览 只看该作者
[技术干货] 探究预训练语言模型中的位置编码

Transformer结构被广泛地应用在各类NLP任务上。Transformer结构除去位置编码将不能建模输入的顺序,所以位置编码及其重要。在现有的预训练模型中,已经发展出了多种位置编码(例如:完全可学习的位置编码[6],固定的三角函数式位置编码[12],相对位置编码[13]等),试验上都有不错的表现,但当前学界对位置编码仍然没有较系统性的对比和研究,缺少一个统一的框架来理解和评价这些位置编码。在我们最新的ICLR-2021《On Position Embeddings in BERT》工作中,提出了统一的框架来探究各种不同的位置编码。首先我们对位置编码特性所应具有的一些原则性上的属性(平移不变、单调和对称性)进行了形式化的表述,对现有的位置编码在何种程度上满足上述属性进行了归类,并定量地评估了这些属性如何对不同类型的下游任务造成影响。本文发现,完全可学习的位置编码在整句分类场景表现优秀;相对位置编码则在span prediction(比如:阅读理解任务SQuAD)上效果更佳,这是由于其能更好地满足位置编码的理想属性。最后,本文给出了基于上述发现的经验性总结:[CLS]所在位置编码和普通token的位置编码进行解耦更加有利于下游任务表现;满足位置编码的平移不变性和单调性尤为重要,而不必要严格满足对称性。

本文已经被ICLR 2021接受,链接如下:https://openreview.net/forum?id=onxoVA9FxMw


研究背景

Transformer结构因其在更多的数据和更大的参数规模下依然有着不俗的表现,已经在预训练语言模型中大放光彩,这股风潮甚至开始蔓延到计算机视觉、蛋白质结构预测等领域。Transformer结构中的重要组件是自注意力机制:通过Q向量和K向量的点积计算所有输入序列中token两两之间的注意力,并以此来线性加权得到V向量,并通过FFN(Feed-Forward Network)对V向量做一些非线性变化。在layer normalization,残差连接,dropout等技巧帮助下,可以使得模型更容易做到更深,增大参数量,为模型赋予更强的表达能力。
Transformer结构的自注意力机制也自然地导致了网络结构本身是对输入token的位置和顺序不敏感,若在Transformer输入的embedding中去掉位置编码(Position Embedding, PE),Transformer将退化成一个词袋模型—任意变换输入token的位置,其输出保持不变。
虽说位置编码在Transformer中不可或缺,但是大家用起来却参差不齐,不一而足。一众国内外炼丹师们目前在不同的模型上试用了不同的配方:

Models

PE types

Transformers (machine translation)

fixed sinusoidal APEs

BERT/Roberta/Albert/BART/GPT/Electra, etc.

fully-learnable APEs

T5

relative position biases

vanilla RPE (machine translation)

fully-learnable RPEs

XLNET/NEZHA

fixed sinusoidal RPE

APE和RPE分别指绝对位置编码(Absolute PE)和相对位置编码(Relative PE),其区别在于在计算两两token的注意力时,是根据两个token在输入序列中对应的绝对位置,或是根据一个token到另一个token的之间的距离。两种典型的APE和RPE的实现方式如下所示:

image.png


典型的位置编码

PE的参数化主要可分为两种方式:1)完全可学习的PE;2)不可学习的三角函数参数化的PE。为了在研究中对PE的种类进行更全面的覆盖,我们提出了一个综合了上述两种方式的PE—半可学习的三角函数PE,称为“learnable sinusoidal PE”,将原始三角函数PE中固定的角频率(固定为
)修改为可以训练参数的角频率。将APE和RPE分别以上述三种不同的参数化方法实现,我们得到了如下表所示的六种不同形式的PE:

image.png

本文分别使用这六种不同形式的PE替换预训练好的BERT base模型中的PE,并在替换后使用相同的预训练任务对的模型继续训练了5至7个epoch。为公平比较,同时原始的BERT-base的fully learnable APE也接着训练了相同的epoch数。

所以他们通用的模式到底是什么?


位置编码的通用Desiderata

Desiderata是拉丁语“thing desired” ,这里我们想了解“任意一组向量满足如何的性质才能成为一个不错的位置编码”。那么我们首先重新回顾一下位置编码是什么?
位置编码可以被定义成一个从
的映射。将原始的整数形式的位置表示映射成向量空间里面的向量。如果把他看成一个经典的表示学习(representation learning)的问题。

image.png

左边的位置编码是在一根数轴上的整数,右边是预训练后的BERT-base中的fully-learnable APE形式的位置编码,通过T-SNE降维并可视化到二维平面上。我们发现向量化的位置编码经由预训练后,仍一定程度上保留着整数空间上的邻近关系。更加形式化地,我们对向量化的PE所所需的属性做出如下假设:
假设1:如果位置x和位置y更近(整数位置上),那么在向量空间上他们的向量表示更接近;如果位置x和位置y更远(整数位置上),那么在向量空间上他们的向量表示也更远。
假设1可以简单概括为单调性:即两个位置向量的相似度,随着其所表示的位置在原始整数空间上距离的增加单调递减。

image.png

假设2:若两个位置向量对在整数空间上距离相同,那么其在向量空间的相似度也相同,与其绝对位置无关。

image.png

文献[11]根据假设2和位置向量有界假设导出了一个形式优美的复数的位置向量,该位置向量等于是在极坐标上以词向量为半径,根据位置长短对其做了一个旋转。这是一个非常强的假设,而且其背后也有很强的归纳偏置。

假设2意味着,任意一个词/词组/子句/句子的含义与其所在的绝对位置无关,而只关心它们与其他单元的相对距离(词/词组/子句/句子)。这个假设的另一个动机来自于BERT的数据预处理机制:token的绝对位置是任意可替换的 — 例如第二个句子的绝对位置依赖于第一个句子的长度;当句子长度超过给定长度时,句首有多少词被随机丢掉了。因此一些随机因素可以导致token的绝对位置的偏移,其绝对位置并不能带来多少信息量。
 假设3:相似度和距离定义本身是对称的。而且对方向有什么额外的先验假设,假设其是对称的。

image.png

这样我们得到了单调性、平移不变性和对称性。然后我们研究一下存在的位置编码是否满足这些原则上的属性。


定量分析位置编码的属性

虽然完全可学习的位置编码,没有任何假设和约束,难以分析其属性。但是我们可以做一些马后炮式分析,把学好的位置编码拿出来看看。首先我们需要一个简单的函数来度量两个位置向量之间的距离或者相似度,一个简单的指标是直接算两个位置向量的点积,但是在Transformer中,他们的交互是比较复杂的,同时image.png image.png相关。

image.png

这儿我们尝试直接用attention矩阵来检验位置向量之间的关系如上式子,但是计算两个词的attention时候同时也会考虑词语之间的关系。这样我们提出一个新的probing任务:给BERT喂进去128个相同的词,这样attention矩阵就会主要体现位置向量的关系—以及位置向量在平均意义上给attention矩阵额外带来的bias。

这里我们的probing测试选取第一层的attention的矩阵,并采样一些词给attention矩阵做平均。取第一层的attention而不是选取其他层的原因是因为,研究发现越底层的transformer跟位置相关性更大,参见 [4].

image.png

以上是attention矩阵没有softmax激活之前平均,激活后的平均请参看文章附录。我们看到,没有位置编码的时候,位置将不会对attention计算带来很直接的影响。后面大家可以看到不同的位置编码都或多或少有一些通用模式:颜色由对角线向两边逐渐变浅,左上到右下方向颜色一致,基本对称,分别对应于我们的三个属性。

为了进一步定量分析上述的性质,我们提出了三个量化的指标(定义见附录),结果如下

image.png

主要观察如下:

1. 如果不装配位置编码,注意力机制对不同位置几乎没有任何有规律的倾向;
2. 装配几乎所有不同位置编码的BERT在考虑20位置偏移以内都较好地满足单调性;考虑更长位置编码,单调性满足地更差 -- 这大致因为模型对更长位置的attending不敏感。
3. 在不考虑特殊token([CLS])所在的位置时,所有BERT模型会更好地满足平移不变性满。特别是完全可学习的位置编码(fully-learnable APE)考虑CLS时满足地不好,但是去掉之后却满足得很好。-- [CLS] 所在的位置和普通token所在的位置并不兼容。
4. 对称性大体满足,但是都在平均意义上稍微更多地attend到前面的词。       

 

不同位置编码在GLUE和SQuAD上结果

我们把不同位置编码拉到GLUE 和Squad上练练,任务均使用标准设置,我们报告了Dev上的均值和标准差(五个不同随机种子求平均)

image.png

如上表所示,从GLUE结果的平均值(去掉WNLI结果)来看,BERT原来的完全可学习的位置编码的结果相当不错,仅仅比一种APE和RPE混合版本低一点(但是其没有统计显著性)。可以看到完全可学习的位置编码在分类任务上优势很大。

image.png

但是在SQuAD任务上,BERT原来的位置编码几乎是最差的结果(仅仅好于fixed sin. APE)。
也就是说BERT完全可学习的APE位置编码在分类任务上有优势,但是在spanprediction上表现不佳
完全可学习的APE在两种不同任务的结果上的差异,本文认为其体现在对[CLS]的处理上,在完全可学习的APE(BERT-style)中,[CLS]所在的位置向量(也就是第一个位置向量)和正常的位置向量是是相互独立的。但是其他的位置编码(如sin. APE或者所有RPE)在参数化的时候就将[CLS]当成了一个正常的位置向量,比如参数化时其满足平移不变性;但是并非如此,[CLS]的位置不会平移,一直都是在第一个位置。
另外,在去掉了位置编码后,GLUE的结果有所下降,但是其结果下降幅度相对不大,但是在SQuAD中结果下降幅度很大,这也侧面说明分类任务本身对位置的敏感程度不及span prediction。当前分类用的时只用到[CLS]位置输出的隐层变量,但是span prediction用到了所有token的位置输出的隐层变量。关于不同任务对位置编码不同敏感程度也可以从[4]中看到。
一些其他的小发现如下:
1在sinusoidal APE,学习频率可以稳定提升结果,但是提升的幅度不一定显著。
2在span prediction任务上,结合APE和RPE可以稍微提升结果。在分类任务上其结合的优势不一定观察到
3RPE 并不适合用sinusoidal参数化,其中一个原因是,模型对远距离的相对位置向量不敏感,实际训练后的结果比20偏移更大的相对位置向量(不管前向还是后向)非常相似(其cosine similarity 接近0.95),这些现象不能通过sinusoidal 参数化体现。


属性如何影响结果

根据以上13种不同位置编码的probing的结果,我们可以定量地得到这13种位置编码多大程度上违背我们定义的属性,我们还计算了这些定量的属性可以跟他们在不同任务上结果之间的相关性(Pearson correlation)如下

image.png

我们可以观察到:

1在二十个偏移内,违背单调性对GLUE和SQuAD结果均有害
2不考虑特殊tokens,违背平移不变性对GLUE和SQuAD结果均有害
3违背对称性和方向平衡性对GLUE和SQuAD结果均有益
结果是较近偏移内的单调性和不考虑特殊token的平移不变性应该是是位置编码的通用模式 ,但是不同场景(不容任务,不同语言)对方向性和对称性的需求不相同,一般不需要绝对的对称性


什么是理想的PE

本文的结论是说理想的PE应该有如下两个性质
1普通token所在的位置向量和[CLS]所在的位置向量解耦;
2可以在L个位置附加一种position bias,比如计算attention的时候,得到一个
的attention map时附加一个position bias 如下:

image.png

image.png对应到我们的属性为:完全满足单调性和平移不变性,且不要求对称性。

为了简单检验我们这么一个朴素的假设,我们测试了T5中的position bias,输出了其中encoder的position bias如下:
image.png

左图时T5 small setting 右图时T5-3B setting(见[9])。多头position bias的平均值,与理想的三条属性相同,唯一的一个多的模式在于:词基本不喜欢attend他们自己(在T-3B扩展到附近的几个词),在本文中称为”white band effect“,同时见于Kevin et.al;其具体的原因还不明确。


其他场景的位置编码

我们同时比较了Encoder-only, Encoder-decoder(英法翻译)和Decoder中的位置编码probing的结果


image.png

image.png

与Encoder-only 不同的是
1)Decoder 会额外attend最前面的词;越到后面的词需要参看相对偏移更大范围的词;不会attend到后面的词防止信息泄露
2)Encode-Decoder里的Encoder,词会额外attend更多后面的词而不是前面的词,这与BERT相反;当然这个翻译的语言有关,本文是用的英法翻译模型,其他语言还未测试。
 
以一个有趣开放的问题作为结束,从CV里面的二维位置编码(下图来自[10])中,大家是否可以观察到一些简单的平移不变性,单调性?
image.png

[1] Clark, Kevin, Urvashi Khandelwal,Omer Levy, and Christopher D. Manning. "What does bert look at? an analysis of BERT's attention." arXiv preprint arXiv:1906.04341 (2019).

[2] Wang, Yu-An, and Yun-Nung Chen."What Do Position Embeddings Learn? An Empirical Study of Pre-Trained Language Model Positional Encoding." arXiv preprint arXiv:2010.04903(2020).

[3] Ke, Guolin, Di He, and Tie-Yan Liu."Rethinking the Positional Encoding in Language Pre-training." arXiv preprint arXiv:2006.15595 (2020).

[4] Shane Steinert-Threlkeld Special Topic 1: Analysis of positional embeddings (Group 9) [LING 575: Analyzing Neural Language Models Win '20] (https://www.shane.st/teaching/575/win20/index.html#page-top)

[5] Amirhossein Kazemnejad's Blog,Transformer Architecture: The Positional Encoding.

https://kazemnejad.com/blog/transformerarchitecturepositional_encoding/

[6] Gehring, Jonas, Michael Auli, David Grangier, Denis Yarats, and Yann N. Dauphin. "Convolutional sequence to sequence learning." In International Conference on Machine Learning, pp. 1243-1252. PMLR, 2017.

[7] Benyou WangLifeng ShangChristina LiomaXin Jiang,Hao YangQun LiuJakob Grue Simonsen On Position Embeddings in BERT, accepted in ICLR 2021.

[8] Giambattista Parascandolo, Heikki Huttunen,Tuomas Virtanen Taming the waves: sine as activation function in deep neural networks. 2017

[9] T5-3b checkpoint https://huggingface.co/t5-3b and T5-small: https://huggingface.co/t5-small

[10] Alexey Dosovitskiy, Lucas Beyer,Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner,Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR 2021.

[11] Benyou Wang
, Donghao Zhao
, Christina Lioma, Qiuchi Li, Peng Zhang, Jakob Grue Simonsen. Encoding word order in complex embeddings. ICLR 2020

[12] Vaswani, Ashish, Noam Shazeer, NikiParmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, and Illia Polosukhin. "Attention is all you need." In Proceedings of the 31st International Conference on Neural Information Processing Systems, pp.6000-6010. 2017.

[13]Shaw, Peter, Jakob Uszkoreit, and Ashish Vaswani. "Self-Attention with Relative Position Representations." In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers), pp. 464-468.2018.


位置编码相关博客推荐

苏剑林的 https://kexue.fm/archives/8130

夕小瑶的卖萌屋的 https://zhuanlan.zhihu.com/p/121126531

Hinrich Schütze组的综述:Position Information in Transformers: An Overview https://arxiv.org/abs/2102.11090


点赞 举报
分享

分享文章到朋友圈

分享文章到微博

游客

您需要登录后才可以回帖 登录 | 立即注册