近年来，放眼业界广告推荐领域的算法获得了长足的发展，从几篇奠定基础的序列学习、大规模图学习、在线学习&增强学习、多模态推荐问题等起步，业内算法不断迭代发展并在学术和工业场景上取得不错的应用。

京东广告团队不仅在工业场景上非常重视实践，并不断为由“广告主”、“消费者”、“京东”三方的生态正循环中进行技术加码，提供更优的匹配效率、更好的用户体验、更健康的广告生态建设。此外，在近期的学术会议CIKM 2023 （Conference on Information and Knowledge Management ）上也在这几个领域发表了学术论文，获得了学术领域的认可。

一、近年来广告算法发展及要突破的问题

排序算法、多模态算法是推荐系统中的关键组成部分，用于根据用户的兴趣和历史行为来推荐个性化内容。以下是近年来的演进：

1. 深度学习方法的兴起：

近年来，深度学习在排序算法中的应用迅速增加。通过使用深度神经网络来建模用户和物品之间的复杂关系，推荐系统能够更准确地理解用户的兴趣。这些方法包括各种神经网络架构，如卷积神经网络（CNN）、循环神经网络（RNN）和自注意力机制（Transformer）。例如，YouTube的深度学习排序模型可以根据用户的观看历史和行为来推荐视频。

2. 序列建模：

推荐系统越来越注重对用户行为序列的建模。这意味着算法不仅考虑用户当前的兴趣，还考虑他们的历史行为。这可以通过RNN、LSTM（长短时记忆网络）等模型来实现。这使得推荐系统能够更好地理解用户的演变兴趣，例如新闻阅读历史或商品浏览历史。

3. 自监督学习：

自监督学习方法在排序算法中也有广泛应用。这种方法通过从未标记的数据中自动生成标签来进行训练。例如，通过使用用户点击行为生成正样本和负样本，可以训练排序模型。这种方法降低了标记数据的依赖性，提高了模型的可扩展性。

4. 在线学习和增强学习：

排序算法也在采用在线学习和增强学习技术。在线学习可以实时调整推荐模型，以适应用户行为的快速变化。增强学习方法则允许模型通过与用户的互动来进行优化，以最大化长期奖励。这些方法在工业界应用中具有潜力，尤其是在广告推荐领域。

5. 多模态推荐：

随着多模态数据（如文本、图像和视频）的普及，排序算法也越来越关注如何融合和利用多种类型的信息来进行推荐。这涉及到多模态嵌入、多模态对齐和跨模态推荐等领域的研究。

6. 可解释性和公平性：

排序算法的可解释性和公平性问题也备受关注。研究人员努力开发可解释的推荐模型，以增强用户对推荐的信任，并确保模型的决策不会引入不公平性或偏见。

而在上述的发展中，京东广告业务发展中重点解决了_“更高效学习”、“更精细建模”、“更优交互能力”、“更美观智能”_四个要点进行了突破，后文将分别阐释。

二、四个主要突破

1. “更高效学习”——基于数据先验的增量学习框架《An Incremental Update Framework for Online Recommenders with Data-Driven Prior》

1.1 简介

在线推荐系统引起了广泛的关注，并为企业创造了巨大的收益。在众多用户和物品的情况下，增量更新成为工业场景中学习大规模模型的主流范式，其中只有滑动窗口内的最新数据被送到模型中，以满足线上快速响应的目的。然而，这种策略模型容易过拟合新增的数据上。

当数据分布存在显著偏移时，长期信息将被丢弃，这会损害推荐性能。传统方法通过基于模型的持续学习方法来解决这个问题，而没有分析在线推荐系统的数据特性。为了解决上述问题，我们提出了一种带有数据驱动先验（DDP）的在线推荐系统增量更新框架，它由特征先验（FP）和模型先验（MP）组成。FP对每个特定值进行点击率估计，以增强训练过程的稳定性。MP根据贝叶斯法则，将先前的模型输出合并到当前更新中，从而得到一个在理论上可证的用于稳健更新的先验。通过这种方式，FP和MP都被很好地集成到统一框架中，该框架与模型无关，并且可以适应各种先进的交互模型。在两个公开可用的数据集以及一个工业数据集的大量实验证明了所提出框架的卓越性能。

1.2 介绍

随着互联网应用的快速发展，推荐系统已经成为解决信息过载问题的有效解决方案，旨在为用户在众多候选集中找到潜在的偏好。许多电子商务公司从推荐系统中获得了重要的收入，其中点击率越高，获得更大收益的可能性就越高。因此，点击率（CTR）预测在当今的在线推荐中起着至关重要的作用。近年来，为了更好地适应大规模数据，提出了多种表达能力强的模型，用于捕捉多个特征之间的复杂交互。这些模型倾向于更复杂的结构，以充分捕捉多个高阶组合特征。然而，在大量用户和商品情况下，这些模型需要大量的计算资源，阻碍了在线推荐的快速部署和更新。主流框架是将模型与增量数据（即滑动窗口内的新数据）一起输入，以连续训练最新的模型，而不是从头训练。这种策略大大减少了时间开销，并适应在线数据分布的动态变化。

然而，当在线数据的分布发生显著变化时，这种框架容易出现对最近数据过拟合的现象。例如，在双11购物狂欢节和黑色星期五等大型促销活动中，特定商品在短时间内会受到很大关注，导致其分布与以前收集到的反馈不同。训练框架会因此受到影响，倾向于最近的曝光情况。造成模型过多地关注新到达的数据，并逐渐忽视用户兴趣的长期信息，限制了推荐性能。此外，由于长尾商品的相对曝光比例减少，模型对这些项目的关注度较低，加剧了长尾效应的发生。

现有研究已经应用持续学习来缓解在线推荐系统中的这个问题。现有研究通过利用基于模型的先验知识，直接预测每个实例的CTR，从而解决了这个问题。然而，这些研究是受传统持续学习的策略启发，没有分析在线推荐中的数据特点。数据的极端稀疏性和特征的多样性是其中两个显著的特点。在众多用户和商品中，用户的点击非常稀疏，这使得准确估计用户偏好变得困难。最近的研究表明，每个物品需大约10,000次的显示才能收敛。有限的曝光量在增量更新过程中阻碍了稳健的估计。CTR预测的最近成功归功于使用复杂特征，其中具有与热门物品相似特征的长尾物品获得了更准确的估计。此外，考虑到特征也是影响模型效果的最重要因素，我们动机是将特征先验知识纳入模型学习以提高性能。

为此，我们提出了一个具有数据驱动先验（DDP）的稳健统一增量学习框架，以改进现今主流的训练框架下的性能。它以端到端的方式整合了特征先验，并提供了更具理论证明的模型先验。具体而言，特征先验旨在明确估计特定特征值的平均CTR。在特征粒度上，CTR值的分布比实例级别上的分布更稳定，因为数据更集中在每个特征上。特征先验最终起到辅助特征信息的作用，并为模型的更新提供更稳定的学习方向，从而有利于优化长尾项目。此外，基于贝叶斯法则，我们构建了模型先验，通过在增量数据上最大化似然函数，并降低当前模型到先前模型的函数空间距离，来近似完整数据上的后验估计。因此，可以将以前模型的输出轻松集成到框架中，以实现模型先验，其中以前模型的输出用于监督当前模型。

1.3 方法

1.3.1 预备知识

京东广告研发近期入选国际顶会文章系列导读——CIKM 2023篇

1.3.2 框架总览

京东广告研发近期入选国际顶会文章系列导读——CIKM 2023篇

我们提出了一个统一的框架，即基于数据驱动先验知识的增量更新框架 (Data-Driven Prior, DDP)，它由两个重要组件组成，如上图所示：

特征先验 (FP) 估计每个特征字段特定值的平均CTR，其动机在于相比实例级别的CTR频繁变化，特征级别的分布更为稳定。FP 的目标是帮助模型更稳健地学习，并对长尾数据进行更准确的CTR估计。
模型先验 (MP) 基于贝叶斯法则提供更稳健的更新，作为正则化项来最小化增量更新与整体数据训练之间的差异。MP 的目的是辅助模型稳定学习，并避免在增量数据上过拟合。

这两个基于数据驱动的部分可以轻松集成到现有的先进模型中，从而产生一个与模型无关且通用的框架。此外，该框架可以以端到端的方式进行更新，很容易集成到在线推荐系统中。

1.3.3 特征先验

先前的研究采用朴素的持续学习方法，通过利用基于模型的信息帮助学习每个实例的CTR。一个主要的问题是增量更新所加剧的极度数据稀疏问题。模型参数对这些数据非常敏感，稀疏的数据会导致模型的不稳定性，从而使其过度拟合最新的数据。直观上，实例中的特征数据出现更加频繁，估计结果比实例本身更加稳定。因此，我们受到启发，设计了一个模块来估计特征的CTR值，并将其作为稳定且有用的信息输入CTR模型，以提高推荐系统的性能。这种特征级别的值可以泛化到长尾项目中，使CTR模型能够更准确地估计长尾特征。为此，我们提出了特征先验 (FP)，它可以为每个特征维护长期的先验信息，从而更稳定地表达长尾特征。

京东广告研发近期入选国际顶会文章系列导读——CIKM 2023篇

其中，Concat(⋅)表示连接函数。通过这种方式，特征先验被很好地集成到原始的嵌入模块中，然后通过任何交互模块来捕捉不同特征之间的交互。

1.3.4 模型先验

京东广告研发近期入选国际顶会文章系列导读——CIKM 2023篇

1.4 实验

我们在公开数据集上做了大量实验，实验效果如上表格所示，我们的最终框架DDP和只引入特征先验的FP，在Criteo数据集和CIKM2019数据集上，增量学习下的整体表现和在长尾表现都体现了我们方法的优越性。同时，长尾数据上的效果证明了特征先验在长尾数据上估计的稳定性。

2. “更精细建模”——从“千人一模”、“千人千模”到“千群千模” 《Dynamic Group Parameter Modeling for Click-Through-Rate Prediction》

2.1 摘要

点击率预估模型在推荐系统和在线广告系统中发挥着重要作用。近年来，许多工作致力于通过挖掘数据的潜在模式来提高点击率预估的准确度。这些工作通常将数据划分为多个群体，为每个群体学习其独特的参数，从而提升模型参数的多样性。然而，当前工作中的群体通常通过手动划分的方式完成，这种方式难以获取最优的群体划分结果，限制了用户的兴趣表达。

针对该问题，我们提出了一种新的动态群体参数建模方法（DGPM)，实现自动的群体划分与群体参数学习。我们的方法包括三个模块：群体信息选择模块用来获取与用户群体划分相关的信息、群体表示学习模块用于学习每个群体的有效表示，群体参数生成模块用于为每个群体动态生成参数。我们在公开数据集和工业数据集上进行了实验，实验结果证明了DGPM的有效性。同时，我们还在在线广告系统中部署了该模型，在点击率和RPM指标上都取得了显著提升。

2.2 背景

点击率预估是在线广告系统中的一个重要环节。随着近年来深度学习的不断发展，基于深度网络的CTR模型也取得了重大进步。然而，当前大多数 CTR 模型使用相同的结构和参数来预测所有样本，这种方式很难适应所有样本或用户的特性，因此通常不是最优的。实际上，用户兴趣具有明显的群体模式，通过将用户划分为不同的群体，每个群体的分布和点击率也会表现出较大差异。从这个角度来看，点击率预估可以通过分群的方式进行，以同时考虑群体的特性和群体之间的共性，提升预估准确率。

基于分群的点击率预估通常有两个主要挑战：一是如何进行群体划分，二是如何学习群体特有模型。对于第一个挑战，大多数现有工作都用一些手动定义的准则来划分数据，例如用户的属性、所属的任务或域。然而，这种分群方式不够灵活，且难以得到性能最优的结果。基于不同的划分准则，用户可以划分到多个群体中，一方面，我们很难穷尽所有的划分方式；另一方面，数据的分布可能会随时间而变化，因此当前划分方式的效果可能可能在后期会出现下降。对于第二个挑战，常见的方法是采用现有的多任务学习和多域学习的方式，为每个群体设立其特有的结构，并将群体特有结构和共享结构相结合，来同时学习群体特性与共性。这种方式的问题是在分组固定后，每个用户所对应的结构和参数也是固定的，仅依靠共享结构部分难以使用户学习到用户跨群体的兴趣。

针对上述问题，我们提出了一种新的动态群体参数建模的方法，实现自动的群体划分与动态的群体参数学习。我们的方法主要包含三个阶段：首先是群体信息选择阶段，用于获取最相关的用户特征进行群体划分。在这个阶段，我们利用SENET模块这种典型的特征交互方法来计算特征重要性并组合不同类型的特征。之后，在群体表示学习模块，我们根据选定的群体特征使用Memory Network学习显式的群体表示。最后，我们以“软划分”的方式进行群体选择，生成用户属于不同群体的概率，并组合来自多个群体的参数，以更好地表达用户兴趣。

2.3 方法

京东广告研发近期入选国际顶会文章系列导读——CIKM 2023篇

2.3.1 CTR预估模型

在推荐系统中，每个用户请求会依次经过召回、粗排等环节，最终有大概几百个广告会到达精排模块。精排模块需要对每个候选广告进行评分，以选择最合适的广告进行展示，其中CTR预估为精排模块的主要任务。

京东广告研发近期入选国际顶会文章系列导读——CIKM 2023篇

2.3.2 群体信息选择

京东广告研发近期入选国际顶会文章系列导读——CIKM 2023篇

2.3.3 群体表示学习

京东广告研发近期入选国际顶会文章系列导读——CIKM 2023篇

2.3.4 群体参数生成

京东广告研发近期入选国际顶会文章系列导读——CIKM 2023篇

2.3.5 损失函数

京东广告研发近期入选国际顶会文章系列导读——CIKM 2023篇

2.4 实验

我们在公开数据集与工业数据集都进行了实验，并与多个经典的CTR模型进行了对比，实验结果证明了方法的有效性。我们同样将模型部署到了在线广告系统中，取得了CTR和RPM的显著提升。

京东广告研发近期入选国际顶会文章系列导读——CIKM 2023篇

3. “更优交互能力”——双向考虑大规模图上的用户/商品《BI-GCN: Bilateral Interactive Graph Convolutional Network for Recommendation》

3.1 背景

在信息爆炸的时代，推荐系统（Recommender System, RS）可以帮助我们过滤掉大量无用信息并直接接触到感兴趣的信息。推荐系统从电子商务、广告、社交媒体到新闻媒体等许多在线服务中都发挥着核心作用。深入推荐系统的本质，其核心任务是预测一个基本问题：目标用户与目标商品发生交互（点击、购买、评分等）的可能性有多大。协同过滤（Collaborative Filtering, CF）利用大量用户-商品历史交互行为，成功地解决了这个交互预测问题，这使得它成为了许多现实世界推荐系统的默认框架。

一般来说，协同过滤通常是利用学习到的代表用户和商品潜在特征的嵌入/表达（Embeddings）进行融合以预估出用户对商品的偏好/交互概率，而融合手段通常是内积，欧式距离，或者多层感知机。因此，如何得到特征富有表现力的用户/商品嵌入对于预测准确性至关重要。早期的协同过滤算法，例如矩阵分解 (Matrix Factorization)，大多直接将用户/商品 ID 投影到嵌入向量。后来，许多工作通过在嵌入表达学习中引入用户的历史交互行为，以增强目标用户嵌入。

京东广告研发近期入选国际顶会文章系列导读——CIKM 2023篇

近年涌现了许多基于图卷积神经网络（Graph Convolutional Neural Network, GCN）的协同过滤算法的新兴研究，这些研究通过用户-商品之间的多跳连接进一步增强了嵌入表达能力。具体而言，协同过滤的数据可以天然的用二分图组织：用户u和商品i作为节点，交互行为作为边。节点u/i的k阶特征是由k层堆叠的图卷积层聚合而来，汇总了其k跳邻域内的信息。而这样k跳邻域形成了一个树状结构，用户/商品树。图1(a)给出了推荐系统中图卷积的双树结构。

3.2 我们的方案

尽管基于GCN的协同过滤算法已经被广泛研究，但现有的方法都有一个主要的局限：在协同过滤层进行最终融合之前，用户树和商品树缺乏交互。这主要归因于现有的聚合方式大都继承自传统的针对节点分类任务而提出的GCN算法。然而，推荐任务和分类任务是十分不同的，它并未要求对用户或者商品进行通用刻画，如用户购买力或是商品评分，而是需要用户和商品的交互特征，即用户选择商品时的考量或是商品吸引用户的部分特性，来进行用户商品偏好预估。

现有方法仅在最终融合用户商品表达，这样的次优结构缺乏对有价值的交互特征的捕捉，导致它们在用户商品偏好预估上效果有限。当要预估用户对某个商品的偏好时，用户树和商品树独立地聚合自己的邻居来学习各自的表达。因此，用户树聚合时无法感知目标商品，反之亦然。现有的图注意力方法大部分都应用于节点包含丰富信息的图中，并不适合用户-商品这样的只包含ID类特征的二分图。并且，注意力机制的权重的计算也局限在中心节点和它邻居之间，即自注意力机制。

考虑到后融合用户商品高阶特征带来的负面影响，本文提出了一种交互式图卷积网络结构（Interactive Graph Convolutional Neural Network, IA-GCN），用于基于协和过滤的推荐系统。它采用了一种早融合方式，通过在用户树和商品树之间建立交互引导来提取交互特征，可以为用户提供更为有效精确的个性化推荐服务（参见图1（b））。

本文提出的IA-GCN是业界首个在推荐系统领域针对动态交互式图卷积网络的尝试。IA-GCN利用外部注意力机制，强调特定于目标的信息，可以以端到端（end-to-end）的方式与各种已有的基于图神经网络的协同过滤算法相结合，兼备可解释性和可扩展性。我们在三个基准数据集的广泛实验以及和多个sota基线的对比，验证了BI-GCN的有效性和优越性。

4. “更美观智能”——借助几何关系感知生成更优美的海报布局《Relation-Aware Diffusion Model for Controllable Poster Layout Generation》

4.1 摘要

海报布局是海报设计的一个重要环节，过去的方法主要关注视觉内容与布局元素之间的关系。然而一个高质量的布局也应该考虑到视觉与文本内容之间的关系以及布局元素彼此之间的关系。在这项研究中，我们构建了一个考虑到上述两种关系的扩散模型用于布局海报生成。首先，我们设计了一个视觉文本关系感知模块用于对齐视觉和文本之间的模态，通过传递文本信息进而增强布局效果。随后我们提出了一个几何关系感知模块用于综合考虑元素之间上下文信息进而学习元素之间的几何关系。除此之外，所提出的方法可以基于用户约束生成不同的布局。为促进这一领域的研究，我们构建了一个名为CGL-Dateset V2的海报布局数据集，我们提出的方法在该数据集上取得了SOTA结果。

4.2 背景

海报布局的生成旨在预测图像上视觉元素的位置和类别。此任务对于海报的美学吸引力和信息传播起到了至关重要的作用。创建一流的海报布局需要同时考虑到布局元素的彼此关系和图像组成，因此这项要求很高的任务通常由专业设计师完成。但是人工设计是一件既耗时又费财的事情。为了以低成本生成高质量的海报布局，自动布局生成在学术界和工业界越来越流行。

随着深度学习的出现，一些内容无关的方法被提出用于学习布局元素之间的关系。但这些方法更关注元素之间的图形关系而忽略视觉内容对海报布局的影响，直接将这些方法用于海报布局生成可能会产生负面影响。为了解决这些问题，一些内容有关的方法被提出用于布局生成。尽管这些方法考虑了图像本身的内容信息，甚至额外引入了图片的空间信息，但是两个重要的因素仍该被考虑进去。一方面，文字在海报的信息传递中扮演了重要的作用；另一方面，一个好的布局不仅要考虑单个元素的坐标是否准确，也要考虑到元素之间的坐标关系。

针对上述问题，我们提出了一个关系感知扩散模型用于海报布局生成领域，该模型同时考虑了视觉-文本和几何关系因素。由于扩散模型有在许多生成任务中取得了巨大成功，我们遵循噪声到布局的范式，通过学习去噪模型逐渐调整噪声来生成海报布局。在每个采样步骤中，给定一组以高斯采样的框分布或最后一个采样步骤的估计框为输入，我们通过图像编码器提取RoI特征作为生成的特征图。然后是视觉文本关系感知模块（VTRAM）被提出用于建模视觉和文本特征之间的关系，这使得布局结果由图像和文本内容同时决定。与此同时，我们设计一个几何关系感知模块 (GRAM)基于RoI彼此的相对位置关系增强每个 RoI 的特征表达，这使得模型能够更好地理解布局元素之间的上下文信息。受益于新提出的VTRAM和GRAM模块，用户可以通过预定义布局或改变文本内容以控制布局生成过程。

4.3 数据集

京东广告研发近期入选国际顶会文章系列导读——CIKM 2023篇

CGL-Dataset V2是用于广告海报设计自动布局任务的数据集，包含60548个训练样本和1035个测试样本。它是CGL-Dataset的扩展。原始的CGL-Dataset包含4种类型的元素：logo、文本、衬底和装饰如图(a)所示。每个元素由类别和坐标信息组成，然而它不包含文本的内容信息，这对于海报的布局有着至关重要的影响。如图（a）所示，为了研究文本内容对于布局的影响，我们补充了文本内容标签。在训练集中，为了获得干净的背景图像模型训练，我们使用一个inpaiting模型来擦除布局元素，结果如图（b）所示。

由于文本信息在原始CGL-Dataset的测试集中没有提供，所以我们另外收集 1035 张带有可用文字描述的海报图像来替换原来的测试集。如图(c)所示，收集海报图像的处理方式与训练集相同进而获得干净的背景图像。与此同时，我们收集了当前商品的所有促销信息以分析不同文字内容对于海报布局的影响。由于收集到的文字内容聚焦于电商领域，我们使用基于海量电商文本语料预训练的模型来提取文本特征。

4.4 方法

我们的方法的概述如上图所示。方法由四部分组成：特征提取器、视觉文本关系感知模块 (VTRAM)、几何关系感知模块（GRAM）和布局解码器。特征提取器分别提取文本和图像的特征，VTRAM模块建模布局的视觉和文本关系，GRAM用于增强RoI特征的彼此位置关系表达能力。最后，基于VTRAM和GRAM的输出以及RoI特征，布局解码器预测元素的坐标和类别。

4.4.1 基于扩散模型的海报布局生成

扩散模型是一类使用马尔可夫链将噪声转换为数据样本的概率生成模型。如图所示，我们将海报布局生成问题作为一个噪声到布局的生成过程，通过学习去噪模型以逐步调整噪声布局。因此扩散模型生成的海报布局也同样包括两个过程：扩散过程和去噪过程。给定一个海报布局，我们逐渐添加高斯噪声以破坏确定性的布局结果，我们称这个操作为扩散过程。相反给定初始随机布局，我们通过逐步去噪的方式获得最终海报布局称为去噪过程。

4.4.2 基于扩散模型的海报布局生成

图像编码

给定一个干净的背景图像，我们使用ResNet-50与特征金字塔网络（FPN）提取视觉特征。ResNet-50由于在计算机视觉方面的卓越性能已获得广泛应用。除此之外，我们使用 FPN 生成多尺度特征图𝐹，𝐹中包括从低到高级别的图像特征。基于𝐹，我们用前面提到的噪声布局 𝑥 提取RoI特征𝑉 如下：

𝑉 = 𝑅𝑜𝐼𝑃𝑜𝑜𝑙𝑖𝑛𝑔(𝐹, 𝑥),

其中 𝑉 的形状为 (𝐶,𝑊,𝐻)。在训练阶段，RoI特征来自添加高斯噪声的真实布局，推理阶段来自随机布局的去噪。

文本编码

给定海报上所有的商品宣传标语，我们先通过预训练方法RoBERTa提取文本特征。我们注意到产品的宣传标语不是简单的重复产品名称，而是突出它的卖点。针对这个问题，我们从电商平台收集了2亿商品语料进行预训练，这使得模型预测卖点更准确。同时为了让模型感知文本长度和布局之间的关系，我们补充了文本长度embedding作为特征表示的一部分。最后我们融合内容和长度特征作为文本编码器的输出。

4.4.3 视觉文本关系先验模块

代替直接concat视觉和文本特征，我们设计了一个视觉文本关系感知模块来实现图像和文本的域对齐。该模块能够感知视觉和文本元素之间的关系并使其充分利用图像和文本的特征信息，这让模型对于内容有了更全面的理解。为了确保文本数量恒定，我们采用填充向量方法以达到固定数量𝐷𝑛，这样处理的好处是模型具有处理不同长度文本信息的能力。

4.4.4 对齐关系先验模块

我们通过结合去噪过程的结果和图像特征构建 RoI 特征，但是这些RoI特征是独立的。为了加强 RoI 之间的位置感知关系，我们设计了几何关系感知模块（GRAM）让模型更好的学习内容信息关系图形元素之间，具体细节如下：首先，给定 𝑁 个 RoIs，两个盒子 𝑙𝑖 和 𝑙𝑗 (𝑖, 𝑗 ∈ {1, 2, . . . , 𝑁})的相对位置特征 𝑅𝑖𝑗 计算方式如下：

京东广告研发近期入选国际顶会文章系列导读——CIKM 2023篇

需要强调的是不同类型元素应该有不同的定位策略，例如垫层应覆盖在文本类型元素上但是其他种类的元素之间应避免重叠，因此我们提取RoI 特征作为元素的类别信息。为了合并位置和类别信息，提取视觉特征𝑉被展开并且被投影函数P转换为𝑑𝑡维度的向量。最后，视觉embedding乘以几何权重进而得到最终的几何特征𝑇：

京东广告研发近期入选国际顶会文章系列导读——CIKM 2023篇

其中，V′是V的展开形式。

4.4.5 布局解码器

与目标检测任务类似，布局解码器用于预测各种元素的类别和坐标信息。我们基于VTRAM和GRAM的融合结果以及RoI特征构建布局解码器的输入，然后这些融合的特征会被送入坐标回归器和类别预测器获取最后的结果，最后我们用坐标回归损失和分类损失指导模型学习。除此之外，为了避免预测框彼此过度重叠，我们采用giou损失作为补充，最终的损失函数形式如下：

京东广告研发近期入选国际顶会文章系列导读——CIKM 2023篇