Foundation models have revolutionized artificial intelligence across numerous domains, yet their transformative potential remains largely untapped in Extreme Multi-label Classification (XMC). Queries in XMC are associated with relevant labels from extremely large label spaces, where it is critical to strike a balance between efficiency and performance. Therefore, many recent approaches efficiently pose XMC as a maximum inner product search between embeddings learned from small encoder-only transformer architectures. In this paper, we address two important aspects in XMC: how to effectively harness larger decoder-only models, and how to exploit visual information while maintaining computational efficiency. We demonstrate that both play a critical role in XMC separately and can be combined for improved performance. We show that a few billion-size decoder can deliver substantial improvements while keeping computational overhead manageable. Furthermore, our Vision-enhanced eXtreme Multi-label Learning framework (ViXML) efficiently integrates foundation vision models by pooling a single embedding per image. This limits computational growth while unlocking multi-modal capabilities. Remarkably, ViXML with small encoders outperforms text-only decoder in most cases, showing that an image is worth billions of parameters. Finally, we present an extension of existing text-only datasets to exploit visual metadata and make them available for future benchmarking. Comprehensive experiments across four public text-only datasets and their corresponding image enhanced versions validate our proposals' effectiveness, surpassing previous state-of-the-art by up to +8.21\% in P@1 on the largest dataset. ViXML's code is available at https://github.com/DiegoOrtego/vixml.


翻译:基础模型已在众多领域彻底改变了人工智能,但其变革潜力在极端多标签分类(XMC)中仍很大程度上未被开发。XMC中的查询与来自极大标签空间的相关标签相关联,其中在效率与性能之间取得平衡至关重要。因此,许多近期方法通过从仅编码器的小型Transformer架构学习嵌入,将XMC高效地表述为最大内积搜索问题。本文中,我们探讨了XMC中的两个重要方面:如何有效利用更大的仅解码器模型,以及如何在保持计算效率的同时利用视觉信息。我们证明这两者在XMC中各自发挥着关键作用,并可结合使用以提升性能。研究表明,数十亿参数的仅解码器模型能在保持计算开销可控的情况下带来显著改进。此外,我们提出的视觉增强极端多标签学习框架(ViXML)通过池化每张图像的单个嵌入,高效整合了基础视觉模型。这限制了计算量的增长,同时释放了多模态能力。值得注意的是,在大多数情况下,采用小型编码器的ViXML性能优于纯文本解码器,表明一张图像的价值相当于数十亿参数。最后,我们扩展了现有的纯文本数据集以利用视觉元数据,并将其公开供未来基准测试使用。在四个公开纯文本数据集及其对应的图像增强版本上的全面实验验证了我们方案的有效性,在最大数据集上的P@1指标上超越先前最优方法达+8.21%。ViXML代码发布于https://github.com/DiegoOrtego/vixml。

0
下载
关闭预览

相关内容

【KDD2024】HiGPT:异构图语言模型
专知会员服务
19+阅读 · 2024年7月9日
RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
87+阅读 · 2024年5月3日
大型语言模型图表示学习:技术的全面综述
专知会员服务
53+阅读 · 2024年2月14日
基于PyTorch/TorchText的自然语言处理库
专知
28+阅读 · 2019年4月22日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
495+阅读 · 2023年3月31日
VIP会员
相关VIP内容
【KDD2024】HiGPT:异构图语言模型
专知会员服务
19+阅读 · 2024年7月9日
RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
87+阅读 · 2024年5月3日
大型语言模型图表示学习:技术的全面综述
专知会员服务
53+阅读 · 2024年2月14日
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员