State-of-the-art Extreme Multi-Label Text Classification models rely on multi-label attention to focus on key tokens in input text, but learning good attention weights is challenging. We introduce PLANT - Pretrained and Leveraged Attention - a plug-and-play strategy for initializing attention. PLANT works by planting label-specific attention using a pretrained Learning-to-Rank model guided by mutual information gain. This architecture-agnostic approach integrates seamlessly with large language model backbones such as Mistral-7B, LLaMA3-8B, DeepSeek-V3, and Phi-3. PLANT outperforms state-of-the-art methods across tasks including ICD coding, legal topic classification, and content recommendation. Gains are especially pronounced in few-shot settings, with substantial improvements on rare labels. Ablation studies confirm that attention initialization is a key driver of these gains. For code and trained models, see https://github.com/debjyotiSRoy/xcube/tree/plant


翻译:当前最先进的极端多标签文本分类模型依赖多标签注意力机制来聚焦输入文本中的关键标记,但学习有效的注意力权重具有挑战性。我们提出了PLANT——预训练与杠杆化注意力——一种用于初始化注意力的即插即用策略。PLANT通过利用互信息增益指导的预训练排序学习模型,植入特定于标签的注意力。这种与架构无关的方法可无缝集成到大型语言模型骨干中,例如Mistral-7B、LLaMA3-8B、DeepSeek-V3和Phi-3。PLANT在包括ICD编码、法律主题分类和内容推荐在内的多项任务中超越了现有最先进方法。其增益在少样本设置下尤为显著,在稀有标签上实现了大幅改进。消融研究证实,注意力初始化是这些增益的关键驱动因素。代码和训练模型请访问:https://github.com/debjyotiSRoy/xcube/tree/plant

0
下载
关闭预览

相关内容

在搭建网络模型时,需要随机初始化参数,然后开始训练网络,不断调整直到网络的损失越来越小。在训练的过程中,一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来,以便训练好的模型可以在下次执行类似任务时获得较好的结果。
[CVPR 2021] 序列到序列对比学习的文本识别
专知
10+阅读 · 2021年4月14日
知识图谱嵌入的Translate模型汇总(TransE,TransH,TransR,TransD)
深度学习自然语言处理
31+阅读 · 2020年6月12日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员