华为诺亚方舟实验室语音语义团队联合推荐搜索团队提出一种序列推荐模型NOVA-BERT《Non-invasive Self-attention for Side Information Fusion in Sequential Recommendation》,已被AAAI 2021接收。(论文地址:http://arxiv.org/abs/2103.03578)。该工作研究如何在Transformer框架下高效地融入推荐问题中的各类序列旁信息,并提出一种不侵入主信息表示空间的旁信息融合机制:Non-invasive Self-attention。作者在两个公开数据集与产品数据集上进行验证,实验结果表明,非侵入式的旁信息融合方式相比传统的旁信息融合方式,有更加稳定的融合收益。
研究背景
序列推荐是根据用户与系统的历史交互行为预测用户未来兴趣点的推荐任务。除了建模主信息(Item ID,即预测对象)外,如何利用丰富的序列旁信息(例如item类别,用户行为发生时间等)提升预测效果,是一个非常重要的研究课题。目前已有工作BERT4Rec [1]基于BERT预训练任务验证了推荐任务中Transformer强大的序列建模能力,然而Transformer模型最初的设计并未专门考虑多序列建模(每个序列点都有丰富旁信息)的情况。一种自然的做法是直接在Embedding层将同一个位置点的所有旁信息连同主信息进行融合,得到融合表示后再进行序列建模,如图1 (a)所示。我们通过试点试验发现,直接在Embedding层将所有信息融合后再进行序列建模,相比只使用主信息建模,效果提升收益较小,甚至可能损坏模型预测效果。因此,本文提出一种不侵入主信息表示空间的旁信息融合方式,希望能更加安全鲁棒地使用各类序列旁信息。具体地,两种不同的旁信息融合方式定义如下:序列推荐是根据用户与系统的历史交互行为预测用户未来兴趣点的推荐任务。除了建模主信息(Item ID,即预测对象)外,如何利用丰富的序列旁信息(例如item类别,用户行为发生时间等)提升预测效果,是一个非常重要的研究课题。目前已有工作BERT4Rec [1]基于BERT预训练任务验证了推荐任务中Transformer强大的序列建模能力,然而Transformer模型最初的设计并未专门考虑多序列建模(每个序列点都有丰富旁信息)的情况。一种自然的做法是直接在Embedding层将同一个位置点的所有旁信息连同主信息进行融合,得到融合表示后再进行序列建模,如图1 (a)所示。我们通过试点试验发现,直接在Embedding层将所有信息融合后再进行序列建模,相比只使用主信息建模,效果提升收益较小,甚至可能损坏模型预测效果。因此,本文提出一种不侵入主信息表示空间的旁信息融合方式,希望能更加安全鲁棒地使用各类序列旁信息。具体地,两种不同的旁信息融合方式定义如下:

方法概述

上图2为BERT4Rec [1]框架,是推荐领域第一个使用BERT预训练任务进行序列建模的框架。在BERT4Rec框架下,最直接的旁信息融合方式是将同一个位置点的所有信息通过融合器F进行融合,得到融合表示

上式中ID表示Item ID主信息,也是最终模型预测的信息类型,
和
分别表示该位置的Item旁信息(例如Item类别)和用户行为旁信息(例如用户评分)。以融合表示作为最底层输入,模型通过多层Transformer block建模序列,从而预测特定时刻的主信息。

上述建模过程中,融合表示空间不再是独立的主信息表示空间,因此我们称该旁信息融合方式为“侵入式”旁信息融合。与之相反,我们提出的Non-invasive Self-attention机制希望能够在保证主信息空间独立的情况下,旁信息仍能发挥作用。在Embedding层,除了生成上述融合信息
对应的序列
外,还生成一个仅包含主信息的序列
:

如图3所示,在Transformer block中,包含了旁信息的融合表示序列被建模在Query,Key向量中,而Value向量仅建模主信息序列:


上述机制保证了Value向量始终为不同位置主信息的线性加权,从而保证了每一层Transformer block的输出始终维持在主信息空间,这和最终要预测的对象空间保持了一致。
我们称上述旁信息融合机制为Non-invasiveSelf-attention,并基于此构建了NOVA-BERT框架,如下图4所示。在NOVA-BERT框架中,旁信息在每一层都需要通过Non-invasive Self-attention机制进行融合。

实验验证
我们在公开数据集Movie-Lens以及工业级产品数据集上验证NOVA-BERT算法,对比基线模型有不使用旁信息的BERT4Rec及其侵入式旁信息融合版本。
准确性

从上图实验结果可以看出,相比于原始的只用ID建模的原始方法,通过非侵入式的旁信息融合,包括加和、拼接和门控,NOVA-BERT算法在不同数据集上均取得最优表现。可以看到,直接地侵入式地信息融合方法对精度带来有限,甚至可能带来负向的提升。另外,NOVA方式在不同数据集上带来的提升不同,这主要与数据集的样本量大小相关。
旁信息消融分析

上图展示了在ML-1m数据集上物品属性旁信息(出版年份等)与用户行为旁信息(评分)对模型的贡献度,None表示不加入额外信息,All表示加入全部信息。从结果可见,融合用户行为信息旁信息比融合物品属性旁信息更有效。
模型可视化

我们可视化了NOVA-BERT最底层的注意力得分分布,考察模型的可解释性。上图中左右两个4行6列分布图分别来自BERT4Rec以及NOVA-BERT算法在随机选出的6个物品上4个头的注意力得分,颜色越深代表相关性越高。由于是物品与物品间注意力得分,对角线上表示物品与其本身的注意力。时序上接近的Item往往可能共享相同的Item旁信息,可以看到NOVA-BERT沿对角线周边呈现出更强的局部注意趋势,说明NOVA-BERT有效建模了序列中的旁信息。
总结
本工作提出了一种用于序列旁信息融合的非侵入式自注意力机制,并以此为基础构建了NOVA-BERT序列推荐模型。和传统的旁信息融合思路不同,NOVA-BERT并不将旁信息直接融合到主信息(Item ID)表示中,而是将旁信息作为辅助信号引导主信息之间进行更好的相互关联,这样可以保持序列建模中主信息表示空间和旁信息空间的独立性,避免过多旁信息带来的主信息淹没。NOVA-BERT在两个公开数据集和商业数据集上均呈现出比传统的“侵入式”方式更好的融合收益,同时,线上A/B测试也表明NOBA-BERT在序列建模上优于基线算法。
参考文献
原创 诺亚方舟实验室
