We consider the task of weakly supervised one-shot detection. In this task, we attempt to perform a detection task over a set of unseen classes, when training only using weak binary labels that indicate the existence of a class instance in a given example. The model is conditioned on a single exemplar of an unseen class and a target example that may or may not contain an instance of the same class as the exemplar. A similarity map is computed by using a Siamese neural network to map the exemplar and regions of the target example to a latent representation space and then computing cosine similarity scores between representations. An attention mechanism weights different regions in the target example, and enables learning of the one-shot detection task using the weaker labels alone. The model can be applied to detection tasks from different domains, including computer vision object detection. We evaluate our attention Siamese networks on a one-shot detection task from the audio domain, where it detects audio keywords in spoken utterances. Our model considerably outperforms a baseline approach and yields a 42.6% average precision for detection across 10 unseen classes. Moreover, architectural developments from computer vision object detection models such as a region proposal network can be incorporated into the model architecture, and results show that performance is expected to improve by doing so.
翻译:我们考虑的是监督不力的单发检测任务。 在这一任务中, 我们试图对一组看不见的类进行检测任务, 培训时只使用微弱的二进制标签, 显示某个特定实例中存在一个类实例。 模型的设置条件是, 单一的隐形类示例, 以及一个可能或可能不包含与示例相同的类实例的目标示例。 我们用一个Siamees神经网络来绘制目标示例的地图, 以图示示示空间和区域, 然后再计算代表间对焦距的评分。 注意机制对目标示例中的不同区域进行加权, 并且能够光用较弱的标签学习一分检测任务。 模型可以用于探测不同领域的任务, 包括计算机视觉对象的检测。 我们用Siamees网络从音域中检测一分的检测任务来评估我们的注意力。 我们的模型大大超越了基线方法, 并产生一个42.6%的平均精确度, 用于在10个隐形类中进行检测的模型。 此外, 建筑的测试结果可以用来显示预期的网络的模型, 将改进为模型, 。 改进计算机的测试结果, 改进 改进 改进 改进 改进 改进 改进 将 建模 将 建模 将 将 将 改进 改进为 建模 改进为 改进为 建模 改进 改进 将 建模 改进 为 改进 改进 改进 为 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建 建