点击上方“机器学习与生成对抗网络”,关注"星标"
获取有趣、好玩的前沿干货!
今天分享一篇港中文周博磊老师组的工作。
Image Processing Using Multi-Code GAN Prior
https://arxiv.xilesou.top/pdf/1912.07116.pdf
尽管生成对抗网络(GAN)在图像生成里取得了巨大成功,但是将训练好的GAN模型应用到真实的图像处理任务仍然具有挑战性。无监督的GAN中,生成器通常将潜在空间Z映射到图像空间image,也就是没有地方提供去采纳一个真实图像作为输入,这导致训练好的模型无法进行很好地进行后续图像处理。
为了让训练好的GAN能用于处理图像,现有方法尝试以重新反向传播(寻找合适的Z)或者添加一个额外的编码器encoder将图像映射到潜在空间。但多数情况下两者的重建并不理想。
在这项工作中提出一种新的逆映射(image->Z)方法,将训练好的GAN作为一个有效的先验去处理多种图像处理任务。具体而言,给定需要做逆映射的GAN模型,使用多个潜码Z利用该GAN模型生成多个特征图(映射到生成器的某个中间层),然后计算它们的重要性系数最终组合并生成目标图像。这种多参数化潜码Z训练的方式可以显著提高图像的重建质量。而高质量的图像重建可以使得训练好的GAN作为一种先验应用于许多真实场景下的应用,例如:图像上色、超分辨率、图像修复、图像语义物体操作编辑等等。同时论文还进一步分析了训练好的模型中每一层的表征属性,去解释每层所能表示的知识。
1、GAN逆映射(GAN inversion)
一个无监督、训练好的GAN可以通过从潜在空间Z中采样然后合成高质量的图像,也就是Z->image。而所谓的GAN逆映射指的是,找到一个合适Z去恢复目标图像,也就是image->Z(Z此时是一个待优化的参数)。
2、特征组合
作者认为单码(single latent code)去恢复重建目标图像的所有细节so hard,所以使用多码,期待它们可以更全方面的去重建更细致的部分(将复杂任务细化、分而治之)。本文引进的所谓多码(multiple latent codes),如何将它们结合在一起优化是一个关键问题。
作者的方法是将生成器“分为”两部分,G1和G2,L是中间某层的特征输出,提出“自适应通道重要性”(Adaptive Channel Importance)去做融合后重建。
3、优化目标
最终整个框架是求解Z和α
重建损失使用的是MSE和VGG的感知损失距离:
4、图像处理任务的应用
对于图像上色
对于图像超分
对于图像修复
5、GAN里的知识表征
分别使用face、church、conference room、bedroom四个数据集预训练PGGAN,并以此作为先验。当使用single latent code去重建时,很难“覆盖先验”,出来的结果会呈现原训练集图像内容,而无法重建到目标图像。
结论
本文提出了一种新颖的GAN逆映射方法。基于预训练的无监督GAN,使用多码(multiple latent codes)去重建目标图像的方法。实验表明该方法可以有效利用预训练好的GAN进行多种图像处理任务。
公众号近期荐读:
GAN&CV 交流群 ,无论小白还是大佬,诚挚邀您加入!
一起讨论交流!长按备注【进群】加入:
更多分享、长按关注本公众号:
本文分享自微信公众号 - 看那个码农(gh_31e9c1ac7ce4)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。