Transformer结构被广泛地应用在各类NLP任务上。Transformer结构除去位置编码将不能建模输入的顺序,所以位置编码及其重要。在现有的预训练模型中,已经发展出了多种位置编码(例如:完全可学习的位置编码[6],固定的三角函数式位置编码[12],相对位置编码[13]等),试验上都有不错的表现,但当前学界对位置编码仍然没有较系统性的对比和研究,缺少一个统一的框架来理解和评价这些位置编码。在我们最新的ICLR-2021《On Position Embeddings in BERT》工作中,提出了统一的框架来探究各种不同的位置编码。首先我们对位置编码特性所应具有的一些原则性上的属性(平移不变、单调和对称性)进行了形式化的表述,对现有的位置编码在何种程度上满足上述属性进行了归类,并定量地评估了这些属性如何对不同类型的下游任务造成影响。本文发现,完全可学习的位置编码在整句分类场景表现优秀;相对位置编码则在span prediction(比如:阅读理解任务SQuAD)上效果更佳,这是由于其能更好地满足位置编码的理想属性。最后,本文给出了基于上述发现的经验性总结:[CLS]所在位置编码和普通token的位置编码进行解耦更加有利于下游任务表现;满足位置编码的平移不变性和单调性尤为重要,而不必要严格满足对称性。
研究背景
Models |
PE types |
Transformers (machine translation) |
fixed sinusoidal APEs |
BERT/Roberta/Albert/BART/GPT/Electra, etc. |
fully-learnable APEs |
T5 |
relative position biases |
vanilla RPE (machine translation) |
fully-learnable RPEs |
XLNET/NEZHA |
fixed sinusoidal RPE |
APE和RPE分别指绝对位置编码(Absolute PE)和相对位置编码(Relative PE),其区别在于在计算两两token的注意力时,是根据两个token在输入序列中对应的绝对位置,或是根据一个token到另一个token的之间的距离。两种典型的APE和RPE的实现方式如下所示:

典型的位置编码
PE的参数化主要可分为两种方式:1)完全可学习的PE;2)不可学习的三角函数参数化的PE。为了在研究中对PE的种类进行更全面的覆盖,我们提出了一个综合了上述两种方式的PE—半可学习的三角函数PE,称为“learnable sinusoidal PE”,将原始三角函数PE中固定的角频率(固定为
)修改为可以训练参数的角频率。将APE和RPE分别以上述三种不同的参数化方法实现,我们得到了如下表所示的六种不同形式的PE:

所以他们通用的模式到底是什么?
位置编码的通用Desiderata
的映射。将原始的整数形式的位置表示映射成向量空间里面的向量。如果把他看成一个经典的表示学习(representation learning)的问题。


假设2:若两个位置向量对在整数空间上距离相同,那么其在向量空间的相似度也相同,与其绝对位置无关。

文献[11]根据假设2和位置向量有界假设导出了一个形式优美的复数的位置向量,该位置向量等于是在极坐标上以词向量为半径,根据位置长短对其做了一个旋转。这是一个非常强的假设,而且其背后也有很强的归纳偏置。

定量分析位置编码的属性
虽然完全可学习的位置编码,没有任何假设和约束,难以分析其属性。但是我们可以做一些马后炮式分析,把学好的位置编码拿出来看看。首先我们需要一个简单的函数来度量两个位置向量之间的距离或者相似度,一个简单的指标是直接算两个位置向量的点积,但是在Transformer中,他们的交互是比较复杂的,同时和
和
相关。

这儿我们尝试直接用attention矩阵来检验位置向量之间的关系如上式子,但是计算两个词的attention时候同时也会考虑词语之间的关系。这样我们提出一个新的probing任务:给BERT喂进去128个相同的词,这样attention矩阵就会主要体现位置向量的关系—以及位置向量在平均意义上给attention矩阵额外带来的bias。

以上是attention矩阵没有softmax激活之前平均,激活后的平均请参看文章附录。我们看到,没有位置编码的时候,位置将不会对attention计算带来很直接的影响。后面大家可以看到不同的位置编码都或多或少有一些通用模式:颜色由对角线向两边逐渐变浅,左上到右下方向颜色一致,基本对称,分别对应于我们的三个属性。

主要观察如下:
不同位置编码在GLUE和SQuAD上结果


属性如何影响结果
根据以上13种不同位置编码的probing的结果,我们可以定量地得到这13种位置编码多大程度上违背我们定义的属性,我们还计算了这些定量的属性可以跟他们在不同任务上结果之间的相关性(Pearson correlation)如下

我们可以观察到:
什么是理想的PE
的attention map时附加一个position bias 如下:

且
对应到我们的属性为:完全满足单调性和平移不变性,且不要求对称性。

其他场景的位置编码



[1] Clark, Kevin, Urvashi Khandelwal,Omer Levy, and Christopher D. Manning. "What does bert look at? an analysis of BERT's attention." arXiv preprint arXiv:1906.04341 (2019).
[2] Wang, Yu-An, and Yun-Nung Chen."What Do Position Embeddings Learn? An Empirical Study of Pre-Trained Language Model Positional Encoding." arXiv preprint arXiv:2010.04903(2020).
[3] Ke, Guolin, Di He, and Tie-Yan Liu."Rethinking the Positional Encoding in Language Pre-training." arXiv preprint arXiv:2006.15595 (2020).
[4] Shane Steinert-Threlkeld Special Topic 1: Analysis of positional embeddings (Group 9) [LING 575: Analyzing Neural Language Models Win '20] (https://www.shane.st/teaching/575/win20/index.html#page-top)
[5] Amirhossein Kazemnejad's Blog,Transformer Architecture: The Positional Encoding.
https://kazemnejad.com/blog/transformerarchitecturepositional_encoding/
[6] Gehring, Jonas, Michael Auli, David Grangier, Denis Yarats, and Yann N. Dauphin. "Convolutional sequence to sequence learning." In International Conference on Machine Learning, pp. 1243-1252. PMLR, 2017.
[7] Benyou Wang, Lifeng Shang, Christina Lioma, Xin Jiang,Hao Yang, Qun Liu, Jakob Grue Simonsen On Position Embeddings in BERT, accepted in ICLR 2021.
[8] Giambattista Parascandolo, Heikki Huttunen,Tuomas Virtanen Taming the waves: sine as activation function in deep neural networks. 2017
[9] T5-3b checkpoint https://huggingface.co/t5-3b and T5-small: https://huggingface.co/t5-small
[10] Alexey Dosovitskiy, Lucas Beyer,Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner,Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR 2021.
[11] Benyou Wang
, Donghao Zhao
, Christina Lioma, Qiuchi Li, Peng Zhang, Jakob Grue Simonsen. Encoding word order in complex embeddings. ICLR 2020
[12] Vaswani, Ashish, Noam Shazeer, NikiParmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, and Illia Polosukhin. "Attention is all you need." In Proceedings of the 31st International Conference on Neural Information Processing Systems, pp.6000-6010. 2017.
[13]Shaw, Peter, Jakob Uszkoreit, and Ashish Vaswani. "Self-Attention with Relative Position Representations." In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers), pp. 464-468.2018.
位置编码相关博客推荐
苏剑林的 https://kexue.fm/archives/8130
夕小瑶的卖萌屋的 https://zhuanlan.zhihu.com/p/121126531
Hinrich Schütze组的综述:Position Information in Transformers: An Overview https://arxiv.org/abs/2102.11090
