Few-shot Object Detection via Feature Reweighting (ICCV2019)

时间:2019-11-29 SuperLab 人气:1

论文：https://arxiv.org/abs/1812.01866

代码：https://github.com/bingykang/Fewshot_Detection

1.研究背景

深度卷积神经网络最近在目标检测方面的成功很大程度上依赖于大量带有准确边界框标注的训练数据。当标记数据不足时，CNNs会严重过度拟合而不能泛化。计算机视觉系统需要从少量样本中进行检测的学习能力，因为一些对象类别天生就样本稀缺，或者很难获得它们的注释。

这种只有少量样本的检测称为few-shot目标检测问题。获得一个few-shot的检测模型对许多应用都是有用的。然而，目前任然缺乏有效的方法。最近，元学习为类似的问题提供了很多可行的解决方案。但是目前的一些模型都是用于few-shot分类，而目标检测在本质上要困难得多，因为它不仅涉及到类的预测，还涉及到目标的定位，因此现成的few-shot分类方法不能直接应用于few-shot检测问题。以匹配网络和原型网络为例，由于图像中可能存在无关类的分散注意力的对象或根本没有目标对象，如何构建匹配和定位的对象原型还不清楚。

2.本文解决方案

本文提出了一种新的检测模型，该模型通过充分利用一些基类的检测训练数据，并根据几个support examples快速调整检测预测网络来预测新的类，从而提供few-shot的学习能力。提出的模型首先从基类中学习元特征，这些基类可泛化为检测不同的对象类。然后利用一些support examples有效地识别出对检测新类有重要区别意义的元特征，并相应地将检测知识从基类转移到新类。

因此，本文的模型引入了一个新的检测框架（如图2所示），包含两个模块，即，元特征学习器和轻量级特征权重调整模块。给出一个query image和一些新类的support images，特征学习器从query image中提取元特征。权重调整模块学习捕获support images的全局特征，并将其嵌入到权重调整系数中，以调整query image的元特征。因此，query image的元特征能够有效地接收支持信息，并适应于新类的检测。然后自适应的元特征被送入检测预测模块中预测query的类和边界框。

对元特征学习器和加权模块以及检测预测模块进行端到端的训练。为了保证few-shot的泛化能力，采用两阶段学习方案对整个few-shot检测模型进行训练：首先从基类中学习元特征和良好的权值调整模块；然后对检测模型进行微调以适应新的类。为了解决检测学习中的困难(例如，存在分散注意力的对象)，它引入了一个新的损失函数。

3.方案具体实施

关于数据集

本文针对few-shot目标检测，设置了两种数据，即，基类和新类。基类包含丰富的带标签的样本，而新类只有少数带标签的样本。目标是通过利用基类的先验知识，使得模型能够在测试中检测新类的目标。

关于模型

该模型将元特征学习器D和权重调整模块M引入到一个one-stage检测框架中。通过检测预测模块P，将每个anchor的特征直接回归到检测相关输出，包括分类得分和目标边界框坐标（如图2所示）。模型采用YOLOv2的backbone（DarkNet-19）作为元特征提取器D，并遵循与YOLOv2相同的anchor设置。对于权重调整模块M，模型采用一个轻量级的CNN。

具体来说，让I表示一个输入的图像。其对应的元特征由D产生；F=D（I）。生成的元特征有m个特征映射。我们将表示要检测的目标类的support images及其相关的边界框注释分别表示为Ii和Mi（i表示不同的类，i = 1，…，N）。权重调整模块M以一个支持图像（Ii, Mi）为输入，将其嵌入到一个类特定的表示向量wi=M（Ii, Mi），它将负责调整元特征的权重，并突出更重要、更相关的特征，以检测来自类i的目标对象。具体来说，模型在获得类特定的权重系数wi后，通过以下方式应用它来获得新类i的特定特征Fi：

在获得类特定的特征Fi之后，我们将它们输入到预测模块P中，对每个预定义anchor的目标度评分o、bbox位置偏移量(x、y、h、w)和分类分数ci进行回归：

其中ci为one-vs-all分类得分，表示对应对象属于第i类的概率。

训练方法

训练分为两个阶段，第一阶段是基础训练阶段。在这个阶段，虽然每个基类都有丰富的标签，但是我们仍然会联合训练元特征学习器D，检测预测模块P和权重调整模块M。这是为了使它们以期望的方式进行协调：模型需要通过引用一个良好的重权向量来学习检测感兴趣的对象。第二阶段是少few-shot微调。在这个阶段，对模型进行基类和新类的联合训练。由于只有k个标记的边界框可用于新类，为了平衡来自基类和新类的样本，每个基类也只能包含k个box。训练过程与第一阶段相同，不同之处在于，模型收敛所需的迭代次数明显减少。

损失函数

损失函数为：