(摘自王逍同学的论文arxiv-2019+Pedestrian Attribute Recognition A Survey)

1. 数据集

Dataset

Pedestrians

Attribute

Source

PETA Dataset

19000

61 binary and 4 multi-class attributes

outdoor & indoor

RAP Dataset

41585

69 binary and 3 multi-class attributes

indoor

RAP 2.0 Dataset

84928

69 binary and 3 multi-class attributes

indoor

PA-100K Dataset

10w

26 binary attributes

outdoor

WIDER Attribute Dataset

13789

14 binary attributes

WIDER images

Market-1501_Attribute

32668

26 binary and 1 multi-class attributes

outdoor

DukeMTMC-Attribute

34183

23 binary attributes

outdoor

Parse27k Dataset

27000

8 binary and 2 multi-class orientation attributes

outdoor

APiS

3661

11 binary and 2 multi-class attributes

KITTI , CBCL Street Scenes,INRIA and SVS

Database of Human Attributes

9344

27 binary attributes

image site Flickr

CRP Dataset

27454

1 binary attributes and 13 multi-class attributes

outdoor

Clothing Attributes Dataset

1856

23 binary attributes and 3 multi-class attributes

Sartorialist and Flickr

Berkeley-Attributes of People dataset

8035

9 binary attributes

H3D dataset PASCAL VOC 2010

备注: 加粗的数据集是已经获取到的,RAP和RAP2.0数据集需要联系作者,之后会拿到.

2. 实现方法总结及已有资源

Attribute Github资源(图中橙色框标注):

D baseline model ( pytorch implementation ) for person attribute recognition task, training and testing on Market1501-attribute and DukeMTMC-reID-attribute dataset. <一个案例,模型未知>

DeepMAR from "Multi-attribute learning for pedestrian attribute recognition"

Multi-attribute Learning for Pedestrian Attribute Recognition in Surveillance Scenarios, Dangwei Li and Xiaotang Chen and Kaiqi Huang, ACPR 2015

Multi-label Image Recognition by Recurrently Discovering Attentional Regions (Pytorch implementation):<注意力>

A Richly Annotated Pedestrian Dataset for Person Retrieval in Real Surveg 2019: <提出了RAP数据集>

PANDA (CVOR-2014): <局部>

HydraPlus-Net (ICCV-2017):<注意力>

WPAL-network (BMVC-2014)<改进损失函数>

Deep Imbalanced Attribute Classification using Visual Attention (ECCV-2018):<注意力>

3.详细介绍

3.1 基于全局特征的属性检测方法

###3.1.1 FT-CNN(Re-id Using CNN Features Learned from Combination of Attributes（ICPR2016）) 在Alexnet的4096维特征上，用多个全连接分类器表征各个特征。很明显惨不忍睹。

3.2 基于局部特征的行人属性检测方法

3.2.1 Poselets (ICCV-2011)

Attribute

3.2.2 PANDA(CVPR-2014)

其中关键poselet采用3.2.1《Describing people: A poselet-based approach to attribute classification》中的划分方法。通过融合局部特征和整体特征，提高了准确率。

3.2.3 MLCNN (ICB-2015)

Attribute 采用网格划分，部分融合

3.2.4 ARAP (BMVC2016)

Attribute 自适应检测关键点和对应Bbox,然后进行属性检测。端到端。

3.2.5 PGDM (ICME-2018)

Attribute

3.2.6 LGNet (BMVC-2018)

Attribute

3.2.7 总结

算法结合了全局和细粒度部件的特征，其中身体部位的定位是通过分割算法得到，如：part detection, pose estimation, poselets or proposal generation algorithm. 算法整体准确率和部件分割的算法有很大关系。

3.3 基于注意力机制的属性检测方法

3.3.1 HydraPlus-Net (ICCV-2017)

SenseTime的论文，将多层注意力机制图多向映射到不同的特征层。。HP-net包含两部分，M-Net和AF-Net。

Main Net（M-Net）：单纯的CNN结构，论文的实现是基于inception_v2，包含三个inception block，还包含几个低层卷积层;
Attentive Feature Net（AF-Net）：三个分支，每个分支有三个inception_v2 block和一个MDA AF-Net包含三个子网络分支，并使用MDA模块增强，即F(αi)F(αi)，其中αiαi是由inception块输出特征生成的注意力图，图中使用黑实线标记。随后应用到kth块的输出，图中用虚红线标示。每个MDA模块，有一条注意力生成链接，三条注意力特征构造链接。不同的MDA模块，注意力图由不同的inception模块生成，之后乘到不同层的特征图，生成不同层在注意特征。 MDA模块的一个示例如下图所示：以下是可视化特征：