采集器的自动识别算法( 基于深度学习的人体动作识别的研究多,出现了基于不同数据源:深度图或RGB视频)
优采云 发布时间: 2022-01-12 13:12采集器的自动识别算法(
基于深度学习的人体动作识别的研究多,出现了基于不同数据源:深度图或RGB视频)
一、基础知识
近年来,基于深度学习的人体动作识别研究越来越多,出现了基于不同数据源的人体动作分类和特征表示的方法:深度图或RGB视频中的人体关节。
本文重点关注人体动作识别领域的进展和挑战,总结了基于深度学习的动作分类技术和方法。本文重点关注数据预处理、公开可用的基准和常用的准确度指标。此外,本文还根据所使用的特征,介绍了基于深度学习的人类行为分类(包括基于无监督学习的行为识别、基于卷积神经网络的行为识别、循环神经网络以及一些扩展模型方法)的最新研究。分类。当然,这里提到的很多模型都不是最新的技术,还有很多更新的模型和技术没有包括在内。以大佬的论文为自己的阐述。
参考文章:基于3D骨骼的人体动作分类:调查。
RMPE:区域多人姿势估计
文章 和相关代码链接:(PDF) 3D Skeleton-based Human Action Classification: a Survey
/research/alphapose.html
二、本文结构
本文首先提出了多个人体手势识别相关的数据集及其链接,然后提出了人体手势识别领域的几个经典深度学习应用模型,包括他论文中提出的思想、模型结构、实验数据集和应用。加速硬件(如有),本文不提供相关实现方法。
三、数据集简介
相关数据集的链接:/research/adha/adha.html
3.1 KTH
基础链接:人类行为的识别
视频数据集包括人体的多种肢体动作(如:走路、慢跑、跑步、拳击、挥手、拍手等),均由不同的人演示,并结合不同类型的场景。AVI 视频文件:
片。
3.2 魏茨曼
基本链接:作为时空形状的动作
该数据集中共有 90 个视频文件,由 9 个人展示,每个展示 10 个动作。
3.3 哈哈
基本链接:Ivan Laptev > 项目 > 人类行为分类
该数据集来自 采集 电影中的真实人类活动。
3.4 凯克手势
基础链接:/~zhuolin/Keckgesturedataset.html
该数据集收录 14 种不同的手势(军事信号),由彩色相机以分辨率为
,每个手势由三个人演示。在每个视频序列中,一个人重复展示相同的手势 3 次。总共
视频序列。而且拍摄角度是固定的,背景也是固定的。总测验
一个视频序列,用运动相机拍摄,背景杂乱无章,有移动的物体。视频格式为AVI。
3.5 MSR 动作
基本链接:~jyu410/index_filesactiondetection.html
简介:数据集收录16个视频序列,共63个动作,每个视频序列收录复合动作,有些序列是不同人的不同动作,同时有室内和室外场景,所有视频都是杂乱无章的,动人的在后台。视频分辨率为
,帧率为15fps,视频序列长度在32-76秒之间
3.6 YouTube 动作
基本链接:YouTube 动作数据集
简介:收录11种动作。对于每种动作,视频分为25组,每组有4个动作(同一组中的视频有一些共同特征)
四、主流动作识别思路
(1)两步框架,就是先进行行人检测,得到bounding box,然后在每个bounding box中检测出人体的关键点,连接*敏*感*词*形。缺点是受检测框和漏检、误检、IOU大小等影响太大,会影响结果,代表方法是RMPE。
(2)part-based framework,就是先在整个图像上检测出每个人体的关键点部位,然后将检测到的部位拼接成一个人形。缺点是不同人的不同部位会被一个人进行拼接,代表性的方法是openpose。
其中,RMPE的基本结构忘记了:
整个框架由3部分组成,
Symmetric Spatial Transformer Network SSTN(Symmetric Spatial Transformer Network)由STN和SDTN组成。STN负责接收人体候选帧,SDTN负责生成候选姿势,PNMS(Parametric PoseNonMaximum-Suppression)负责过滤掉多余的姿势估计。,其中PGPG(Pose-Guided Proposals Generator)是SPPE的一部分,可以为训练过程生成各种pose图片。具体训练过程如图:
Open Pose 的经典代表就是 R-CNN 系列:我会转写这本小书里写的文章做详细介绍。
五、深度学习算法
5.1 基于无监督学习的行为识别
5.1.1 案例 1
论文 [1]:通过独立子空间分析学习用于动作识别的分层不变时空特征。
论文链接:robots.ox.ac.uk/~vgg/rg/papers/LeZouYeungNg11.pdf
本文将独立子空间分析 (ISA) 扩展到 3D 视频数据,使用无监督学习算法对视频块进行建模。该方法首先在一个小的输入块上使用 ISA 算法,然后将学习到的网络与一个更大的输入图像块进行卷积,并将卷积过程的响应组合为下一层的输入。描述方法应用于视频数据。
论文中使用的模型(Model)
文章 提出,为了克服 ISA 算法因数据量过多而导致的效率低下,将 ISA 改为堆叠卷积 ISA 网络,网络结构如下:
自然视频中的 ISA 模型
ISA网络首先用小批量的数据进行训练,然后将训练好的网络与较大的输入进行卷积,然后使用PCA算法进行处理,最后通过一层ISA网络进行训练。为了适应三维视频信息,将一个视频序列压缩成一个向量作为输入,得到最终模型如下图所示:
可以看出作者将两个ISA层的输出结合起来作为最终的特征向量,因为这样可以提高识别的准确率。还有两点需要提一下:1.作者训练ISA模型中的参数是批量投影梯度下降法。具体的优化过程在论文中没有提到,我也没有继续深入研究。但是,原则上,这个优化算法应该是一个比较经典的算法。
ISA的基本实现是:
ISA是一种无监督学习方法,具有两层网络的生成模型,可以有效模拟人类视觉系统V1区域内简单细胞和复杂细胞感受野的层次响应模式。
1)模型第一层学习线性变换的权重W(类似FC),
2)第二层合并同一子空间的元素,进行固定的非线性变换V(L2-pooling),得到对相位变化响应不变的特征。
比如自然二维图像的应用:
自然图像中的 ISA 模型
Natural image中ISA模型图中的第一层是输入图像的路径。第二层实际上是ISA第一层的输出。第二层和第一层之间的W就是我们需要学习的权重。输出层的第二层和第三层的权重V是固定的,不需要学习。可以看到第二层的两个绿色圆圈与第三层的一个红色圆圈相邻,所以 sub 的空格数为2。第一层的输入是转换图像的2D patch成一维向量。当然,W的学习过程就是优化图中的下式,满足权重矩阵W是正交矩阵。
本文的实验结果:
作者在UCF、Hollywood2、Youtube、KTH等数据库上进行了测试,测试结果表明作者提出的算法优于此前其他算法的最佳结果,这是一个令人惊讶的地方。算法精度结果如下:
上述模型的特征学习的学习能力还是很强的,应该是未来的一个研究热点,未来在AI各个领域的作用会大大提升。
5.2 基于卷积神经网络的行为识别
5.2.1 案例 2
论文:用于人类行为识别的 3D 卷积神经网络
论文链接:mypapers/ICML10_Ji_Xu_Yang_Yu.pdf
上述论文将传统的 CNN 扩展到具有时间信息的 3D-CNN,在视频数据的时间和空间维度上进行特征计算,并将卷积过程中的特征图与多个连续帧中的数据连接起来。
模型
简单来说,3D-CNN 将连续的视频帧视为一个盒子,使用三维卷积核进行卷积。通过这种结构,可以捕获动作信息。三维卷积如下:
3D-CNN网络结构如下:
图中的 3D CNN 架构由一个硬连线层、3 个卷积层、2 个下采样层和一个全连接层组成。每个3D卷积核的卷积立方体为连续7帧,每帧的patch size为60x40;在第一层,我们应用一个固定的硬连线内核来处理原创帧以生成多个通道的信息,然后分别处理多个通道。最后结合所有通道的信息,得到最终的特征描述。这个实线层实际上编码了我们对特征的先验知识,它比随机初始化执行得更好。
每帧提取5个信息通道,分别是:灰度、x、y方向的梯度、x、y方向的光流。其中,前三个可以每帧计算一次。那么水平和垂直方向的光流场需要两个连续的帧来确定。所以 7x3 + (7-1)x2=33 个特征图。然后我们使用一个 7x7x3 的 3D 卷积核(空间上为 7x7,时间上为 3)分别对五个通道中的每一个进行卷积,以增加数量的特征图(实际上是提取不同的特征),我们在每个位置使用两个不同的卷积核,这样在C2层的两个特征图组中,每组收录23个特征图。23是(7-3+1)x3+(6-3+1)x2(这样会减少卷积后的两个特征图,见图2),front 即:连续七帧,每帧灰度、x和y方向梯度三个通道各有7帧,然后水平和垂直光流场只有6帧。54x34 为 (60-7+1)x(40-7+1)。在下一个下采样层 S3 层最大池化中,我们在 C2 层的特征图中使用 2x2 窗口进行下采样,这将得到相同的数字,但特征图的空间分辨率降低。下采样后,它是 27x17=(52/2)*(34/2)。C4 是每个 7x6x3 的 3D 卷积核5个通道。为了增加特征图的数量,我们在每个位置使用3个不同的卷积核,这样就可以得到6组不同的特征图,每组有13个特征图。13是((7-3+ 1)@前面的那个>-3+1)
在这个阶段,时间维度的帧数已经非常少了。在这一层,我们只对空间维度进行卷积,此时我们使用一个 7x4 的核,然后将输出的特征图缩小到 1x1 大小。C6层收录128个特征图,每个特征图全连接到所有78个(S5层中的13x6)个特征图,这样每个特征图都是1x1,就是一个值,而这就是最终特征向量,共128维。
由于时间问题,我先写一部分,后续部分将在下一篇继续!!谢谢!