京东零售广告创意:基于人类反馈的可信赖图像生成

京东云开发者
• 阅读 20

作者:京东零售 冯伟

京东零售广告创意:基于人类反馈的可信赖图像生成



ECCV2024: Towards Reliable Advertising Image Generation Using Human Feedback

链接:https://arxiv.org/abs/2408.00418

摘要:在电商领域,吸引顾客注意力的广告图片至关重要。尽管生成模型可以自动生成图像,但它们往往会产生不符合广告标准的图片,可能误导顾客,并需要大量人工成本进行检查。本文探讨了如何提高可用生成图像的比例。我们首先引入了一种多模态可信赖反馈网络(RFNet),用于自动检查生成的图像。将RFNet整合到一个循环过程——循环生成中,可以提高可用广告图像的数量。为了进一步提升生产效率,我们通过一种创新的一致性条件正则化方法,利用RFNet的反馈来微调扩散模型(RFFT)。这显著提高了生成图像的可用率,减少了循环生成中的尝试次数,并提供了一种高效的生产过程,同时不牺牲视觉效果。我们还构建了一个包含超过一百万张由人工标注的生成广告图像的可信赖反馈一百万(RF1M)数据集,这有助于训练RFNet准确评估生成图像的可用性,并真实反映人工反馈。总的来说,我们的方法为广告图像生成提供了一个可信赖的解决方案。



一、背景及现状

吸引人的广告图片对于电子商务的成功至关重要。由于手动设计图片需要大量的人工成本,因此对自动广告图像生成的需求正在上升。最近,通过结合先进的扩散模型(Stable Diffusion)和ControlNet,可以为产品生成和谐的背景,同时保持商品细节不变。

尽管生成模型有潜力创造出吸引人的背景,但我们观察到其经常会生成质量欠佳的广告图片,如下图所示,这些图片存在空间和尺寸不匹配、不显著以及形状幻觉等问题。

京东零售广告创意:基于人类反馈的可信赖图像生成



这些有缺陷的图片可能导致顾客对产品产生误解,进而带来不佳的购物体验,因此需要大量人工来检查生成的图像。这些缺陷限制了生成模型在广告图像生产中的广泛应用。因此,我们要解决的问题是如何建立一个可信赖的广告图像生成流程,以高可用率生成图像。



二、信赖反馈模型

一个自然的解决方案是利用生成过程中的随机性,反复生成图像直到获得可用的图像(循环生成)。为了替代人工检查,我们提出了一种新颖的信赖反馈网络(RFNet),充当人工检查员来评估生成的广告图像的可用性。由于仅依赖单一生成的图像,模型无法有效获得进行精确检查所需的关键知识,例如产品是什么以及产品如何出现在背景中。因此,RFNet整合了多种辅助模态,以提供对判断不同不可用情况至关重要的信息。RFNet的结构如下所示:

京东零售广告创意:基于人类反馈的可信赖图像生成

通过使用RFNet判别生成结果,可利用随机性提升可用率。我们将这种提升可用率的方法称之为循环生成,伪代码如下所示:

京东零售广告创意:基于人类反馈的可信赖图像生成

三、可信赖人类反馈

虽然循环生成大大增加了可用图像的数量,但因为生成模型本身能力有限,多次尝试会显著延长生成过程。利用人类反馈(RLHF)来增强扩散模型的能力提供了一种可行的选择,这些方法在提高生成图像的视觉质量方面已经取得显著结果。类似的,在训练完信赖反馈模型后,我们将其输出看作人类对于生成图片的评价,通过将其结果反传回生成模型来提升生成图片中可用的比例。该流程如下所示:

京东零售广告创意:基于人类反馈的可信赖图像生成 京东零售广告创意:基于人类反馈的可信赖图像生成

其中,yd为一个one-hot向量,其中合格类别的概率为1,而其他类别的概率为0。oi为生成图像输入给信赖反馈模型后得到的概率,N为一次训练中样本的总数。所得到的梯度被反传至生成模型中,来使其朝着更高概率生成合格图像的方向优化。沿用ControlNet原有的设定,只有ControlNet部分参与梯度更新,而Stable Diffusion部分是不更新参数的。



尽管通过梯度反传微调能够提升合格样本出现的概率,然而由于图像可用率和美观度是对抗的目标,这使得提升图片的可用率会导致美观度的下降。例如,直接将商品放置于空白背景中将获得极低的bad case比例,然而这种方式将严重破坏图片的美感。如下图(a)所示,随着模型达到极高的图片可用率,商品的背景区域将产生美学崩塌的结果。

京东零售广告创意:基于人类反馈的可信赖图像生成

为了实现提升图片的可用比例并保持图片的美观,简单的方式是训练中加入KL损失约束,该损失可以保证模型的分布不偏离目标分布。利用该约束,可以使得模型在微调后的输出分布和微调前近似,从而达到不影响美观的结果。该过程可写作:

京东零售广告创意:基于人类反馈的可信赖图像生成

KL损失约束的目的是为了保持图像不变,而F_AC是希望图像朝着可用率更高的方向改变,这样的对抗的目标难以产生双赢的结局。为了解决该问题,我们将重点从保持图像本身不变,迁移至输入文本条件的指导不变。由于在文生图模型中,文本内容和图像内容是高度相关的,因此我们提出了一种条件一致约束来保证文本条件不变。根据classifier-free的训练方法,可以推导出文本条件对图像生成过程的影响方向为:

京东零售广告创意:基于人类反馈的可信赖图像生成

为了保证图像可用率的梯度方向不影响文本条件的影响方向,我们提出了条件约束损失L_CC如下: 京东零售广告创意:基于人类反馈的可信赖图像生成

上图(b)显示了L_CC相对于L_KL的优势,其中L_KL希望逆转F_AC的梯度方向,而L_CC提供了一个双赢的策略,它保持了文本条件的梯度,同时允许模型朝着可用率更高的方向更新梯度。因此,最终微调生成模型的损失可以写作:

京东零售广告创意:基于人类反馈的可信赖图像生成

四、实验结果

(1)广告图像审核性能

如表1显示,RFNet在所有指标上表现更优,突出了整合多模态信息和其有效结构的优势。我们进一步评估RFNet中各个组件的影响,结果如表2所示。实验表明,RFNet中每个组件对最终AP有显著影响。

京东零售广告创意:基于人类反馈的可信赖图像生成

(2)广告图像可信赖性能

如表3所示,我们的RFFT相较其他方法获得了更高的可用率。“Ava”和“Human Ava”的相同趋势进一步证明了RFNet能够忠实反映人类反馈。如图6所示,循环生成(RG)通过多次尝试可以大幅提高可用图像的比例。由于我们模型拥有更强的生成能力,它需要更短的生产时间,这证明我们的方法提供了可靠且高效的解决方案。

京东零售广告创意:基于人类反馈的可信赖图像生成

如下图所示,我们对不同方法的美学质量进行了评估,所提出的方法在美学质量上可以与原始模型相媲美,这受益于所提出的条件一致约束。

京东零售广告创意:基于人类反馈的可信赖图像生成

(3)定性对比

下图展示了部分例子来说明我们的方法在提高可用率和生产效率方面的增强能力,同时保持视觉表现的稳定性。

京东零售广告创意:基于人类反馈的可信赖图像生成

(4)泛化性

为了评估我们方法的灵活性,我们考察了微调后的ControlNet在与各种LoRA和扩散模型权重整合时的通用能力。如表4所示,经过微调的ControlNet显著提高了不同LoRA和扩散模型权重的可用率。

京东零售广告创意:基于人类反馈的可信赖图像生成

点赞
收藏
评论区
推荐文章
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Wesley13 Wesley13
3年前
CSCNN:新一代京东电商广告排序模型
导读:随着电商平台对图像信息的大量引入,通过图像分析来进行广告点击率判断就成了新的趋势。本次分享的主题为CSCNN:新一代京东电商广告排序模型,主要介绍视觉信息在CTR排序模型中的应用。一方面,我们将介绍在工业场景下使用CNN将图像加入CTR模型联合建模的方法;另一方面,我们指出传统用于分类任务的CNN并不适合电商场景。将电商场景中丰富的、具有强视觉先验的"
liam liam
10个月前
一文掌握 Stable Diffusion API:调用指南
StableDiffusion是一个先进的深度学习模型,用于创造和修改图像。这个模型能够基于文本描述来生成图像,让机器理解和实现用户的创意。使用这项技术的关键在于掌握其API,通过编程来操控图像生成的过程。在探索StableDiffusionAPI的世界前
京东云开发者 京东云开发者
5个月前
京东商家智能助手:Multi-Agents 在电商垂域的探索与创新
电商助手是一款集合了多种电商经营决策功能的工具软件,旨在帮助电商从业者完成从商品发布到订单管理、客服沟通、数据分析等一系列电商运营任务。京东零售基于MultiAgents理念搭建了商家助手大模型在线推理服务架构,这一系统的核心是算法层基于ReAct范式定制
京东云开发者 京东云开发者
2个月前
京东广告投放平台整洁架构演进之路
作者:京东零售赵嘉铎前言从去年开始京东广告投放系统做了一次以领域驱动设计为思想内核的架构升级,在深入理解DDD思想的同时,我们基于广告投放业务的本质特征大胆地融入了自己的理解和改造。新架构是从设计思想到落地框架都进行了彻底的革新,涉及内容比较多,因此我们希
京东云开发者 京东云开发者
3星期前
大数据实时链路备战——数据双流高保真压测
作者:京东零售京东零售一、大数据双流建设1.1数据双流大数据时代,越来越多的业务依赖实时数据用于决策,比如促销调整,点击率预估、广告分佣等。为了保障业务的顺利开展,也为了保证整体大数据链路的高可用性,越来越多的0级系统建设双流,以保证日常及大促期间数据流的
京东云开发者 京东云开发者
2星期前
【玩转金融素材生成】探索交互式AIGC组合素材生成技术
作者:京东科技蒋煜襄本文介绍了一种交互式可控组合素材生成技术,本方案基于StableDiffusion模型,结合位置控制生成技术,实现了金融领域中的多元素素材组合交互式生成能力,增加了素材生成的丰富性以及使用上的易用性,可以帮助设计师和运营人员快速制作ba
京东云开发者 京东云开发者
1星期前
揭秘JDQ限流架构:实时数据链路的多维动态带宽管控
作者:京东零售饶璐1、背景在数字化转型的浪潮席卷之下,大数据和云计算技术已成为企业创新和发展的关键驱动力。尤其是以京东为代表的电商平台为例,其日常运营中持续生成海量数据,涵盖实时交易记录、点击曝光统计及用户行为轨迹等,这些数据对精准业务决策、深化用户体验优
京东云开发者 京东云开发者
1星期前
探索设计稿自动生成Flutter代码的技术方案
作者:京东物流冷先锋近年来,随着人工智能和大模型技术的发展,设计稿(UI视图)自动生成代码的技术也在不断进步。本文将探讨几家知名企业在这一领域的探索和实践,包括美团、京东、微软等,以及一些常见的工具和方法,最后尝试大模型生成flutter代码在项目中的实践
京东云开发者 京东云开发者
11个月前
直播预告 | 大模型时代 “应用变了”:看大模型如何跑进零售电商应用
走进零售电商,大模型能做什么?今年11.11,应用大模型带来成效显著今天下午2:00,京东云视频号准时直播看京东零售如何破题新解法,大小模型协同大模型将走向多模态,走向具身智能