计算机视觉中手语识别研究

手语识别的目的就是通过计算机提供一种有效的、准确的机制将聋哑人常用的手语手势识别出来，使得他们与健全人之间的交互变得更方便、快捷。同时，手语识别的应用还可以提供更自然的人机交互方式，方便聋哑人对计算机等常用信息设备的使用。目前手语识别可以分为基于视觉（图像）的识别系统和基于数据手套（佩戴式设备）的识别系统。基于视觉的手势识别系统采用常见的视频采集设备作为手势感知输入设备，价格便宜、便于安装。鉴于基于视觉的手势识别方法交互自然便利，适于普及应用，且更能反映机器模拟人类视觉的功能，所以目前是手势识别的研究重点。

手语识别的研究开始于1982年，Shantz和Poizner实现了一个合成美国手语的计算机程序。之后，中国、美国、日本、德国等许多国家都进行了自己国家的手语识别与合成研究，并取得了许多重要的研究成果。Triesch和Malsburg开发了一种弹性图模板匹配技术对复杂背景下的手形进行分类，在相对复杂的背景下的识别率达到86.2%。Davis和Shah将戴上指间具有高亮标记的视觉手套的手势作为系统的输入，可识别7种手势。Starner等在对美国手语中带有词性的40个词汇随机组成的短句子识别率达到99.2%。Yang等人采用7Hu不变矩特征量进行手语字母识别，最好识别率为90%。计算机视觉中手语识别研究

在图像特征提取方面，为了能够同时表征图像的全局特性和局部特性，需要同时提取图像的全局特征和局部特征，并且这些特征中用以描述图像整体形状的特征应当具备平移、旋转和尺度不变性。SIFT（Scale Invariant Feature Transform）是一种对尺度空间、图像缩放、旋转甚至仿射不变的图像局部特征描述算子;而7Hu不变矩特征量具有平移、旋转和尺度不变性的特点，具有很好的稳定性，适合描述目标整体形状。

数据堂自制版权的系列数据集产品为“手势识别”这一技术路径的实现提供了强有力的支持。

1314,178张18种手势识别数据

314,178张18种手势识别数据涵盖多种场景、18种手势、5种拍摄角度、多年龄段、多种光照条件。在标注方面，标注21关键点（每个关键点有可见不可见属性）、手势类别和手势属性。314,178张18种手势识别数据可用于手势识别、人机交互等任务。

基于线性核函数的SVM平均识别率为95.556%，基于径向基核函数的SVM平均识别率为83.1282%。实验表明，采用径向基核函数的SVM识别率普遍低于采用线性核函数的SVM。

本文提出了一种采用7Hu不变矩特征量等多种图像特征相融合的SVMs手语识别方法。实验表明，在手语识别中，采用图像全局和局部特征相结合的方法，可获得较高的识别率，为手语识别方法的早日推广应用提供了理论依据。