基于超像/体素图的手势识别方法
国家自然科学基金 青年项目
手势交互是智能人机交互技术的研究热点之一,在多媒体交互、人车交互、行为分析等领域有着广泛应用前景。手势识别的准确性、实时性、抗干扰性等是手势交互系统的关键。
本研究在充分研究深度和彩色图像联合处理和超像素图特征表示的基础上,提出了新的高性能静态手势识别算法,并结合三维深度卷积网络和时域卷积网络,提出了一种动态手势识别模型。本研究利用深度和骨架信息,快速且准确地提取手势图像块。并利用手掌面的法向量估计有效地了抑制旋转、形变等干扰。在此基础上,基于概率的局部多项式回归算法能高质量地修复深度图像,大大减少噪声对识别准确性的影响。本研究在结合了超像素分割、手势结构和EMD距离的基础上,提出了一种新的手势表示形式(超像素图)和一种新的距离度量标准(基于标准化超像素图的EMD距离)。基于此研究结果,所构建的静态手势识别算法,对训练数据依赖度低,同时识别精度高。
在五个公开数据集上,与多个最先进算法进行比较,均取得了最好的识别准确率(99.7%, 99.4%, 97.9%, 96.6%, 97.4%)。同时,本研究设计了一种用三维卷积网络提取动态手势的短时空时特征的网络结构,结合时间卷积网络和时域注意力机制,提出了新的短时时间卷积网络模型用于动态手势识别。提出的模型能够很好的分析动态手势的时域信息,在VIVA和NVGesture这两个公开数据集上,针对不同类型的数据,取得了与最新算法相当或更高的识别精度(91.54%, 86.10%, 86.21%, 86.93%)。
在提出的识别算法的基础上,本研究通过三维打印制造了机械手,并实现了两个实际应用1) 五指机器人灵巧手的镜像操控和2) 三维场景漫游。本研究对静态和动态手势识别从方法到系统搭建进行细致而全面的研究,对基于手势的人机交互系统所需要解决的问题进行了理论探索,有着重要的科学意义和应用前景。