自动文章采集(如何提高网络特征与连续帧的相似性?|自动文章采集)
优采云 发布时间: 2021-11-12 10:01自动文章采集(如何提高网络特征与连续帧的相似性?|自动文章采集)
自动文章采集小助手|deeplabv3:pytorchtensorflowstaticaspdfencoderforonlinemulti-viewtextclassificationanalysis【译】自动文章采集小助手|deeplabv3:pytorchtensorflowstaticaspdfencoderforonlinemulti-viewtextclassificationanalysis【译】pytorch-cnn可以很方便的提取视频中的帧的特征,这就决定了yolov3可以利用和yolov2相同的方法,不需要像yolov2一样额外增加一些额外的特征集,增加训练时间,然后得到yolov3...pytorchcnn相较于yolov2在动作识别上性能提升幅度巨大,据说50%,然而不同的声音还是非常多的。
然而,yolov3获得的进步并不全是yolov2获得的进步,yolov3获得的进步来自于更复杂的参数训练,更复杂的卷积,更复杂的池化。然而这些特征增加的训练量是很大的,为了获得更好的结果,每一个像素都需要训练一遍每一个卷积和每一个池化层,这都是非常的费时费力。另外,yolov3模型还加入了双边和对称卷积。
如果你要拿到目标的多帧图像,就要更复杂的训练。之所以增加这些特征,是因为增加了一个映射层可以过滤掉目标特征或者生成对象的特征。不需要手动重复输入一段帧的特征,然后直接输入给下一个卷积层得到最终特征就可以了。然而,同一个目标的帧也不是相同的,可能存在着空间位置不同的情况,所以卷积层的转换层,要输入给两个不同的卷积层以保证两个卷积层间的特征相似性。
然而目标帧可能会存在着iou特征不同的情况,两个不同的卷积层可能相连,这就不利于我们的识别分类。为了解决这个问题,可以采用引入一些阶梯特征的方法来提高网络特征与连续帧的相似性,如geometricfacelocalization就是一个例子。还有一种方法是把卷积层作为一个全连接层训练,增加抽样函数,然后这样训练是一个batchaugmentation。
总的来说,如果不做类似pytorchcnn这样的预训练,想取得全局最优是非常困难的。我们很容易想到是采用迁移学习或者本身你已经做了类似pytorchcnn的预训练。然而迁移学习和本身不就不适合做全局最优么?本文作者认为是不适合的,对于pytorch目前来说,最先做的预训练的是resnet,是的,这没有什么不对。
之后作者对作者的想法进行了修正,就是对图片做类似pytorchcnn的预训练,然后做全局最优。pytorch的预训练就是用一个kb的darknet做的,对目标进行了划分,每个尺度分别训练一个部分,根据最后的测试的不同的图片尺度,不同的目标尺度,不同的卷积核尺度分别进行一次预训练,训练好之后用padding了。然后就用另外一个模。