随着技术的发展,研发人员越来越希望寻找一些不同的人机交互方式,其中实时手部姿态估计就是科学家们重点关注的研究方向之一 。简单的说,手部姿态估计是让计算机理解人体肢体语言的一种手段。通过该技术,人机交互不再限于文字接口或者鼠标键盘控制的用户图像界面。
近日,快手上线了手部姿态估计功能,成为行业首家。
用户只要按照说明做出相应的手势,就可以被加上各种有意思的特效。用户在使用这款产品拍摄时,算法会自动识别出手型类别,并估计手部关键点位置。根据关键点位置和手型类别,可以产生不同的特效效果或者跟画面内容进行人机交互。用户既可以通过手型触发相应的特效效果,也可以实现指节级精准控制和跟随。
揭秘手势识别,快手解决了哪些问题?
手势识别技术由快手 2016 年组建的 Y-Lab 团队手势研发小组研发。这一年,为了研发出更多能给用户带来新奇体验的新技术,快手组建了一支由高学历研发人员组成的队伍,研究领域涉及人工智能、机器学习、计算机视觉、计算机图形学和增强现实等。2018 年,为了让技术能更好的和产品结合,快手将 Y-Lab 更名为 Y-tech。
据 Y-tech 手势研发组负责人介绍,手势识别技术是指检测图片或视频中的人手,并预测检出人手的手型以及关键点位置的技术。
常见的手势识别技术包括:手型识别、二维手部姿态估计和三维手部姿态估计。从手型识别到三维手部姿态估计,需要识别的信息越来越多,研发困难指数级增加。在上面演示的功能里,就包含了:人手检测、手型识别和二维手部姿态估计。
目前手型识别在业界已比较成熟,而二维手部姿态估计目前还不是很成熟,据介绍,快手应该是业界首家在移动端上应用该技术的公司。而三维手部姿态估计技术难度较大,目前只能通过特殊的硬件,比如双目和深度摄像头才能实现。
研发手势识别过程中,Y-tech 团队积累了很多技术和解决方案,包括算法策略、网络结构设计、模型优化和底层加速等,这些经验也完全可以复用到其他场景中。
相比于目前人工智能领域落地比较广泛的人脸识别,手势识别技术存在着一些技术难点,Y-tech 手势研发负责人表示:“手部的自由度很高,自遮挡严重,特征不明显,相对人脸会更难一些。”
以快手为例,目前这一功能可同时检测多手,支持多达 17 种手型识别,并能够识别任意手势 21 个二维关键点。为了实现这些功能,研发团队克服了不少难题:
•人手在相机中的占比较小,高效的进行小目标检测目前在业界是很难的问题;
•人手自遮挡严重、关节活动自由度高;
•用户手机只有单目图像,需纯靠视觉算法实现;
•用户手机摄像头拍摄质量不同,用户在摆同样手型时方式多样。
该负责人表示,团队先是改进了检测算法的框架,提高了小目标的检测能力,并且根据人手的特点,融合先验知识,降低问题复杂度,达到了提升预测效果。
由于不同用户手机的运算能力是不同的,而同一款软件要想被更多用户使用,就要兼顾各种机型的情况,快手 AI 实验室通过两方面解决了这一难题:
一、在算法层面,研发人员设计了高效的神经网络结构,并且在不同的机型上采用了不同算法策略;
二、在工程实现上,通过快手自研的 YCNN 对不同手机的硬件架构做了高度的适配和性能优化,能够使用 CPU、GPU、NPU、DSP 等多种运行模式,解决了 AI 技术运行受限于用户设备计算量的问题。
下一步:未来将尝试三维手部重建
对于快手来说,在手机应用中增加手势识别功能是一项尝试,功能上肯定是有不少需要完善的地方,研发团队告诉我们,目前该产品算法对运动模糊和手部重叠的处理还不完善,是接下来需要重点解决的问题,并且未来团队会尝试在端上进行三维手部重建,为更精确的动作识别和交互做技术储备。除了在短视频领域有所应用,在游戏、增强现实、直播、教育等领域应用手势识别技术也将成为一种趋势,同样也是快手探索的方向。
手势识别技术发展至今,已经有不少企业在不同的领域进行过尝试,未来手势识别的应用场景也是十分广阔的,除了小手识别和运动模糊等传统问题之外,如何结合端上双目摄像头和深度摄像头信息提升手势识别效果也将是行业重点关注的问题。