深度学习|Two-Stream Consensus Network论文阅读


目录

  • 介绍
  • 方法
    • 特征提取
    • 双流网络
    • 伪标签生成及帧级监督
  • 消融实验
    • 损失
    • 伪标签
    • 视频级标签和帧级伪标签

论文下载地址:https://arxiv.org/abs/2010.11594
介绍 本文是双流网络在弱监督时间动作定位任务上的应用。与动作识别上的双流网络不同,本文的双流网络是针对于弱监督时间动作定位来改造的,最终解决作者提出的在动作定位任务上难以解决的两个问题:
  1. 消除 false positive的动作提议
  2. 生成有更精确的时间边界的动作提议
为了解决上面两个问题,作者提出的 Two-Stream Consensus Network(TSCN)有两种解决方法:
  1. 迭代细化的训练方法,通过生成帧级伪标签,进行帧级监督训练,迭代更新帧级伪标签,来达到类似于强监督的效果,以消除false positive的动作提议。
  2. 提出 attention normalization loss 使得文中所说的attention的值趋向于0或1,进行更精确的选择,以达到生成精确时间边界的效果。
方法 深度学习|Two-Stream Consensus Network论文阅读
文章图片

特征提取 在特征提取部分,一般是用预训练的Untrimednet或者I3D来直接对视频snippet进行特征提取,本文采用预训练的I3D来提取视频的RGB和optical flow特征。与其他论文一致,针对snippet也是采样不重叠的帧。最后得到的特征就是图中的 { fi }Ti=1,上面的模型是光流的特征,下面的是RGB特征。
双流网络 首先需要考虑用双流模型进行分类,之后使用双流模型的attention来生成伪标签,进行进一步细化。
上面的两个双流网络模型结构是一致的,但参数不共享。具体流程如下:
  1. { fi }Ti=1特征的shape是(T,D),经过1D 时间卷积,得到{ xi }Ti=1
    它的shape是(T,D’)
  2. 之后经过一个FC+Sigmoid ,得到文中所说的attention,Ai,其shape为T
  3. 对特征序列进行注意力加权池化,以生成单个前景特征xfg,其shape为D’
    深度学习|Two-Stream Consensus Network论文阅读
    文章图片
  4. 由前景特征产生分类得分,并计算分类损失
    深度学习|Two-Stream Consensus Network论文阅读
    文章图片

    深度学习|Two-Stream Consensus Network论文阅读
    文章图片
  5. 除了分类损失之外,文章提出attention normalization loss,使得Ai的值趋向于0或1,产生更有区分度的attention
    深度学习|Two-Stream Consensus Network论文阅读
    文章图片
  6. 将分类损失与attention损失求加权和
    深度学习|Two-Stream Consensus Network论文阅读
    文章图片
伪标签生成及帧级监督 在细化迭代0时,只使用视频级标签用于训练。细化迭代n+1时,在细化迭代n时生成一个帧级的伪标签,并为当前的Ai提供帧级的监督。文章的直觉是,仅仅通过RGB或者光流其中之一,高激活度的位置可能是false positive 动作提议,或者可能是只有一个检测到的真实动作实例。因此需要同时考虑两个部分。
为了得到伪标签,需要先聚合两部分的 Ai ,如下,其中β取值【0,1】
深度学习|Two-Stream Consensus Network论文阅读
文章图片

得到了Afuse 之后,就可以正式得到伪标签了,文中对此又做了两种方案:
  1. 软伪标签,软伪标签包含了一个snippet作为前景动作的概率,也增加了模型的不确定性。说白了就是直接拿Afuse当作伪标签。
  2. 硬伪标签,与attention normalization loss的思想近乎一致,是为了得到具有区分度的伪标签
    深度学习|Two-Stream Consensus Network论文阅读
    文章图片

    最后使用伪标签与两个模型中的Ai 计算损失,迭代细化Ai
    深度学习|Two-Stream Consensus Network论文阅读
    文章图片
    深度学习|Two-Stream Consensus Network论文阅读
    文章图片

    总结:本文的核心其实就是Ai,文中提出的两个创新点(伪标签进行帧级监督,attention loss)全部都是为了让Ai的值趋向于0或1,就是为了让attention产生更具区分度的值,来更精确的选择出前景动作。
消融实验 损失 深度学习|Two-Stream Consensus Network论文阅读
文章图片

此消融通过对比证明了背景分类损失虽然可以起正面作用,但也会带来一些负面影响,比如同时使用背景分类损失和attention loss时,结果是不如只使用attention loss好的。
伪标签 深度学习|Two-Stream Consensus Network论文阅读
文章图片

硬伪标签与软伪标签相比更胜一筹,这在直觉上也是说得通的,硬伪标签消除了模型的不确定性。
在相同的标签监督下,光流的性能远大于RGB,我认为是光流对动作的识别度过高导致的,并且光流和RGB聚合后的同时考虑两方面影响,达到了最佳的性能。文中如果再多一个RGB+flow upper bound,我觉得会更好。
视频级标签和帧级伪标签 【深度学习|Two-Stream Consensus Network论文阅读】深度学习|Two-Stream Consensus Network论文阅读
文章图片

通过表中可以看出,伪标签在两种模式和聚合模式下,对性能都有有所提高,说明了伪标签确实有助于消除false positive的动作提议

    推荐阅读