计算机视觉的手势识别技术研究

人的手具有复杂的解剖结构，由许多相连的部分和关节组成，它们之间的复杂关系提供了大约27个自由度（DOF）。用户界面的开发需要对人的手的解剖结构有深刻的了解，以便确定可以舒适地做出哪些姿势和手势。尽管通常认为手势和手势动作相同，但是需要分清它们之间的区别。手势是静态手势，不涉及动作。例如，握拳是一个手势。而手势动作定义为动态运动，是指在短时间范围内通过连续运动（如挥手告别）所连接的一系列手势。借助手势的这种复合特性，可以将手势识别问题分解为两个级别：低级手势检测和高级手势识别。在基于视觉的手势识别系统中，手的运动由摄像机记录。将该输入视频分解为一组功能，并识别各个帧。还可以对帧执行某种形式的过滤，以去除不必要的数据，并突出显示必要的信息。例如，使手与其他身体部位以及其他背景物体隔离，从而识别出独立的手所表达出的不同姿势。由于手势不过是通过连续运动连接的一系列手势，因此可以针对可能的语法训练识别器。这样，就可以将手势动作指定为以各种构图方式从一组手势中建立起来，就像用词来建立短语一样。识别出的手势可用于驱动各种应用程序

3.2 可用算法

基于视觉的手势和手势识别方法可分为两类：基于3D手模型的方法和基于外观的方法。基于3D手模型的方法提供了丰富的选择路径，可能允许使用各种各样的手势。但是，由于3D手模型具有边缘特征提取的问题，与运动学模型的拟合较为困难，因此本文暂且不讨论此种方法。基于外观的方法使用图像特征来建模手的视觉外观，并将这些参数与从视频输入中提取的图像特征进行比较。一般而言，基于外观的方法由于采用了更容易的2D图像特征而具有实时性能的优势。基于外观的方法主要有以下两种算法。

3.3基于肤色区域

尽管这种方法很受欢迎，但是它有一些缺点。首先，肤色检测对光照条件非常敏感。尽管存在于受控和已知照明下进行皮肤颜色检测的实用有效方法，但是变化灵活的皮肤模型并随时间对其进行适应的问题仍然具有挑战性。其次，很明显这仅在我们假设场景中不存在其他类似皮肤的对象的情况下有效。有些研究人员使用比例空间颜色特征来识别手势。他们的手势识别方法基于特征检测和用户独立性，但仅在实时应用中显示场景中没有其他肤色对象。因此，在严格控制的工作环境下，肤色检测是一种可行且快速的方法，但很难在现实场景中稳健地应用它。

3.4基于局部不变特征

基于局部不变的方法寻求一个正交基，该正交基跨越一个低阶子空间，该子空间占一组示例图像中方差的大部分。为了重建训练集中的图像，采用基本向量（图像）的线性组合，其中基本向量的系数是将要重建的图像投影到各个基本向量的结果。同时还有一种基于特征空间的手跟踪方法。通过对原始特征空间方法的公式提供了三项重大改进，即对遮挡的不变性，对输入图像和训练图像的背景差异的某些不变性，以及处理输入图像大小仿射变换（即缩放和旋转）的能力。该方法能够使用25个基本图像跟踪四个手势。对于少量手势，此方法可能就足够了。对于较大的手势词汇（例如，美国手语），视图空间很大，这就给收集足够的训练集带来了问题，更严重的是，可能失去高效处理所需的子空间的紧凑性。

最近，人们对使用局部不变特征的方法越来越感兴趣。AdaBoost学习算法与尺度不变特征变换（一种表示小图像块内梯度方向和幅度信息的直方图）一起使用使用，利用共享特征概念，可以达到97.8％的效率。然而，为了实现手部姿态的实时识别，需要研究和应用背景直方图等不同的特征。而类Haar特征用于手部检测任务。类Haar特征更多地关注图像特定区域内的信息，而不是每个像素。为了提高分类精度和实时性，可以使用AdaBoost学习算法，该算法能够自适应地选择每一步的最佳特征，并将它们组合成一个强分类器。基于AdaBoost学习算法的训练算法采用一组“正”样本，其中包含感兴趣的对象和一组“负”样本，即不包含感兴趣对象的图像。在训练过程中，我们会选取不同的类Haar特征对图像进行分类，包含每个阶段感兴趣的对象。还有一种用于人脸跟踪和检测的统计方法。在这种算法中，“积分图像”的概念被用来计算一组丰富的类Haar特征。与其他必须在多个图像尺度上操作的方法相比，积分图像不需要计算多尺度图像金字塔就可以实现真正的尺度不变性，大大缩短了图像处理时间。这种算法的速度大约是以前任何方法的15倍，同时获得的精度也非常高。然而，使用这种方法进行训练在计算上是昂贵的，因为它禁止了对许多手的外观进行适合检测的评估。

基于局部不变特征背后的思想是，如果能够识别对象上的特征点或区域，则可以将对象表示为这些区域的集合，即与其将对象建模为整体，不如将其建模为特征部分的集合。这样做的优点是可以很容易地处理对象的部分遮挡，以及视点中的大量变形或更改。只要能识别出足够数量的特征区域，就可以找到目标。因此，这些方法对于实时手部检测的任务是相当有希望的。

3.5 手势分类

(1)基于规则的方法

基于规则的方法由特征输入之间的一组手动编码的规则组成。给定一个输入手势，提取其中的一组特征并将其与编码规则进行比较，然后输出与刚刚输入相匹配的手势。规则需要为所考虑的每个动作定义与手部动作的低级特征相关的谓词。当在固定数量的连续帧上满足手势谓词时，将返回手势。基于规则的方法的主要问题在于它们依赖于人类对规则进行编码和制定的能力。

(2)基于机器学习的方法

一种流行的机器学习方法是将手势视为随机过程的输出。在这类方法中，迄今为止，隐马尔可夫模型（HMM）在文献中对手势进行分类最为受关注。

四、手势识别的发展问题

基于视觉的手势识别仍然是一个重要的研究领域，因为现有的技术与哺乳动物的视觉相比还较为原始。阻碍大多数方法的一个主要问题是，它们依赖于几个基本假设，这些假设可能适用于受控的实验室设置，但不能泛化为任意设置。几种常见的假设包括：假设高对比度的静止背景和环境照明条件。此外，文献中给出的识别结果是基于每个作者自己收集的数据，因此无法对各种方法进行比较，也会引起对一般适用性的怀疑。而且，大多数方法都有一个有限的特征集。手势识别的最新趋势是利用人工智能训练分类器，但训练过程通常需要大量的数据，而选择能够表征被检测对象特征的特征是一项耗时的任务。

另一个悬而未决的问题是从手的连续运动中识别有意义手势的时间起点和终点。这个问题有时被称为时间手势分割。如何减少训练时间，开发一个对环境和光照条件具有稳健性且不需要额外硬件的实时手势识别系统，是一个巨大而令人兴奋的研究挑战。

五、结论

手势识别的重要性在于建立有效的人机交互。它的应用范围从手语识别到医疗卫生再到虚拟现实。在当今的数字化世界中，处理速度已大大提高，计算机已发展到可以帮助人类完成复杂任务的水平。考虑到与基于视觉的手势识别相关的研究尚处于发展阶段，因此未来将会取得显著进步。为了实现此目标，很明显需要进一步进行特征提取，分类方法和手势表示等方面的研究，以实现人类以自然状态与机器交互的最终目标。

首页上一页 1 2 下一页尾页 2/2/2

计算机视觉的手势识别技术研究(二)