Few-shot image classification remains difficult under limited supervision and visual domain shift. Recent cache-based adaptation approaches (e.g., Tip-Adapter) address this challenge to some extent by learning lightweight residual adapters over frozen features, yet they still inherit CLIP's tendency to encode global, general-purpose representations that are not optimally discriminative to adapt the generalist to the specialist's domain in low-data regimes. We address this limitation with a novel patch-driven relational refinement that learns cache adapter weights from intra-image patch dependencies rather than treating an image embedding as a monolithic vector. Specifically, we introduce a relational gated graph attention network that constructs a patch graph and performs edge-aware attention to emphasize informative inter-patch interactions, producing context-enriched patch embeddings. A learnable multi-aggregation pooling then composes these into compact, task-discriminative representations that better align cache keys with the target few-shot classes. Crucially, the proposed graph refinement is used only during training to distil relational structure into the cache, incurring no additional inference cost beyond standard cache lookup. Final predictions are obtained by a residual fusion of cache similarity scores with CLIP zero-shot logits. Extensive evaluations on 11 benchmarks show consistent gains over state-of-the-art CLIP adapter and cache-based baselines while preserving zero-shot efficiency. We further validate battlefield relevance by introducing an Injured vs. Uninjured Soldier dataset for casualty recognition. It is motivated by the operational need to support triage decisions within the "platinum minutes" and the broader "golden hour" window in time-critical UAV-driven search-and-rescue and combat casualty care.


翻译:在有限监督和视觉域偏移条件下,少样本图像分类仍面临挑战。近期基于缓存的适应方法(如Tip-Adapter)通过基于冻结特征学习轻量级残差适配器,在一定程度上应对了这一挑战,但这些方法仍继承了CLIP倾向于编码全局通用表征的特性,导致在低数据场景下难以将通用模型最优地适配到专业领域。我们通过一种新颖的补丁驱动关系细化机制克服了这一局限,该机制从图像内部补丁依赖关系(而非将图像嵌入视为单一向量)学习缓存适配器权重。具体而言,我们提出一种关系门控图注意力网络,该网络构建补丁图并执行边缘感知注意力以强化信息性补丁间交互,从而生成上下文增强的补丁嵌入。随后,可学习的多聚合池化操作将这些嵌入组合成紧凑且具有任务判别性的表征,使缓存键与目标少样本类别更好对齐。关键的是,所提出的图细化仅在训练阶段用于将关系结构蒸馏至缓存中,在推理阶段除标准缓存检索外不产生额外计算成本。最终预测通过缓存相似度分数与CLIP零样本逻辑值的残差融合获得。在11个基准数据集上的广泛实验表明,本方法在保持零样本效率的同时,相较于最先进的CLIP适配器及基于缓存的基线方法实现了持续性能提升。我们进一步通过引入“受伤与未受伤士兵”伤亡识别数据集验证了战场应用价值。该研究旨在满足无人机驱动的时效性搜救与战伤救护中,在“白金十分钟”及更广泛的“黄金一小时”窗口内支持伤员分诊决策的作战需求。

0
下载
关闭预览

相关内容

专知会员服务
41+阅读 · 2021年6月19日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员