个人总结:
第一次看到这个方面的论文,方法上还是用了后验概率来建立模型,不过代码并没有开源,具体细节还要商榷。
摘要
提出的问题:传统的手工定制的特征只能定义有限范围内的关系。在一个集体内,个体之间复杂的依赖关系不能很好地建立模型。
解决方法:通过在特征空间(feature space)嵌入潜在变量(embedding latent variable),利用深度学习框架学习特征映射函数。
嵌入的潜在变量包含了:
- 个人-集体之间互动的全局关系
- 通过联合建模,容纳更多范围内个体的上下文信息
另外在嵌入过程中,还利用了注意力机制,实现更为紧凑的表示(compact representation)。
介绍
我们通过将潜在变量嵌入在特征空间中来来推断拥有复杂依赖的潜在变量,而不是用人为定义的传统图模型。
两方面优点:
- 使用嵌入式的方法,模型可以对更为复杂的集体结构进行建模,而不是对个人-个人之间逐对建模。
- 个人与集体之间的非线性依赖关系可以通过在深度框架中有区分的学习过程推断出来。
为了获得更为精确的集体活动表示,在嵌入的过程中,为每一个个体设定不同的影响系数,一个注意力机制被引入去修正上下文结构。
:捕捉person 局部的person-group之间的互动。表示第 个个体的隐藏变量
:通过整合所有的局部互动信息,挖掘全局互动。表示第 个scene场景的隐藏变量
为了有效的建模复杂的依赖,我们学习嵌入在特征空间的潜在变量的表示。
我们的方法
不采用直接推断潜在状态的方法,我们利用嵌入的潜在变量(已经在深度神经网络当中参数化)在一个全局的视角去表征结构信息,然后利用person-group互动建模来进行集体活动识别(collective activity recognition)工作。
Modeling Collective Activity with Latent Variable
变量定义:
:表示person 的可见变量,
:集体场景涉及的所有个人
:一个scene可见变量
后验概率:
表示:隐藏变量 捕捉到了person 与group之间的互动信息。
表示:从一个全局的视角,捕捉到所有的集体场景内的互动。
基于潜在变量,联合考虑局部person-group 的互动和全局context两方面,完成collective activity识别。
公式一: as the embedding of latent variable , 可以表示 “the local person-group interaction" 这中局部person-group 交互
通过一下方式来构造它:
- 联合考虑person 的一元的图像特征
- person 的所有邻居的平均表面特征
- 上一步的嵌入式全局场景 , 其实就是全局上下文信息
- 其中: 表示 person 的所有邻居们,
- ";" 表示向量垂直连在一起
- 表示线性修正单元(RELU)
- 表示更新步值
同样的,是 the embedding of latent variable , 其作用是从一个全局的角度捕捉集体交流(collective interaction)。可以将其看作是全局关系的表示,因为它把个体和它附近的局部关系以非线性依赖的形式建模。
公式二:
通过一下方式来构造它:
- global image feature 全局图像特征
- 池化所有人的低层特征,即
- 平均累计嵌入式的个人,即
公式三:基于嵌入式的潜在变量,我可以定义后验概率,y表示一个活动标签名。
- 其中表示一个激活函数,本文设置为softmax
公式四:使用了cross entropy 交叉熵损失函数来评判模型输出与实际注释的一致性。
- 其中是模型参数,需要被学习到。
- 是activity 的标签数
- =1,如果这一帧图像属于类k;否则为0
公式五:引入注意力机制
公式六:在一个集体情景里,给定个体的关联之后,我们可以测量起源于individual 的个人-集体之间交互的重要程度。
- 其中是softmax函数的温度参数。
公式七:考虑到给定集体情景里所有的个体,我们可以构造嵌入式的场景方程如上。
实验
For feature representation, we used the feature maps obtained in the “pool5” layer of two-stream ResNet-50 net
(pretrained on the UCF101 action set [21]) as our twostream feature.使用了ResNet-50