Video Object Detection with an Aligned Spatial

摘要：

　　本文针对视频目标检测问题提出时空记忆网络(STMN)。它的核心是时空记忆模块，作为一种递归计算单元去建模长时间目标外观和运动信息。STMN可以用一个预训练的CNN backbone进行初始化，这对提高检测精度非常重要。本文为了建模目标运动提出匹配变换去对齐帧到帧的特征。本文的方法在VID数据集上获得了state-of-the-art的结果，我们的消融学习清楚地证明了本文设计架构的有效性，代码和模型都公开在：http://fanyix.cs._ucdavis.edu/project/stmn/project.html._

1.简介

视频目标检测的问题在于视频中的运动模糊、遮挡和极端视角等情况会使得静态图像检测器出问题，但是视频提供了丰富的时空和运动信息，应当学习去利用这些信息，使得视频目标检测器更加鲁棒。

　　从Fig1可以看出图像检测器在模糊、遮挡和极端视角下出现了误检，但是本文模型会聚合前两帧质量较好的图像所以检测成功率会高一些。最近，很多研究者开始研究视频目标检测问题，比较有名的微软的DFF和FGFA，商汤的T-CNN，2016年代的SEQ-NMS，牛津VGG组的D&T，其实视频目标检测的研究最早约在2015年左右，ImageNet用VID数据集进行比赛。其中有很多工作是通过后处理的方式，不能避免单帧检测器所存在的问题，D&T，FGFA，THPVOD等开在在模型的训练中，通过预测帧间的平移，将帧与帧之间的特征聚合起来。然而这些方法处理的是固定长度窗口的图像，不能建模较长的依耐性，Tubelet Proposal Network开始考虑建模长时间的信息，但是速度较慢，对tubelet的初始化依赖严重。

　　为了解决这些问题，本文提出Spatial-Temporal memory Network(STMN),用一个网络统一建模长时间的外观和运动。它的核心为Spatial-Temporal Memory Module(STMM)，一种卷积递归计算单元，可以集成到从静态图像训练得到的预训练模型中。这种设计在实际应用中是有用的，因为一个一百万张图像的图片数据集多样性要比一百万张图片的视频数据集好很多。本文显示这种设计比标准的ConvGRU要好。考虑到图像数据的二维特性，STMN中保留了每帧图像的二维空间信息。为了实现帧间的像素级对齐，本文提出了MatchTrans模块显式建模帧间的平移。由于将每帧图像做了对齐聚合，这样的得到的特征对于区域的定位是有好处的，而且包含多帧信息也有助于识别。同时，每个区域的特征可以用ROI pooling从记忆模块中提取。

　　基于以上的工作，本文在VID数据集中用不同的backbone和检测器均获得了state-of-the-art的效果。

3.方法

3.1. 概述

系统框架如Fig2所示，假设视频序列的长度为T，每一帧图像首先各自提取其卷积特征得到\(F_1,F_2,\cdots,F_T\)作为表观特征，为了沿时间轴集成这些特征，每一帧的表观特征都被送入STMM。STMM在时间t得到当前帧的表观特征\(F_t\)以及在时间步t-1得到的带有之前所有帧信息的时空记忆\(M_{t-1}^{\to}\)，然后更新得到当前时间步的时空记忆单元\(M_t^{\to}\)。为了同时捕获过去帧和之后帧的信息，我们使用了两个STMM，进行双向特征聚合，同时聚合\(M^{\to}\)和\(M^{\gets}\)。将包含了时间信息的\(M_t\)送到卷积/全连接层进行分类和回归。这种做法的提升在于，如Fig2，图像检测器往往只看过自行车的俯视图，所以看到前视图的时候会识别不出来，但是本文的方法，因为模型已经看过了两边的侧视图，所以识别出前视图会容易一些。

3.2. STMM

　　在每一帧输入\(F_t\)和\(M_{t-1}\)，按下面的式子更新\(M_t\):