Neural information retrieval systems excel in high-resource languages but remain underexplored for morphologically rich, lower-resource languages such as Turkish. Dense bi-encoders currently dominate Turkish IR, yet late-interaction models -- which retain token-level representations for fine-grained matching -- have not been systematically evaluated. We introduce TurkColBERT, the first comprehensive benchmark comparing dense encoders and late-interaction models for Turkish retrieval. Our two-stage adaptation pipeline fine-tunes English and multilingual encoders on Turkish NLI/STS tasks, then converts them into ColBERT-style retrievers using PyLate trained on MS MARCO-TR. We evaluate 10 models across five Turkish BEIR datasets covering scientific, financial, and argumentative domains. Results show strong parameter efficiency: the 1.0M-parameter colbert-hash-nano-tr is 600$\times$ smaller than the 600M turkish-e5-large dense encoder while preserving over 71\% of its average mAP. Late-interaction models that are 3--5$\times$ smaller than dense encoders significantly outperform them; ColmmBERT-base-TR yields up to +13.8\% mAP on domain-specific tasks. For production-readiness, we compare indexing algorithms: MUVERA+Rerank is 3.33$\times$ faster than PLAID and offers +1.7\% relative mAP gain. This enables low-latency retrieval, with ColmmBERT-base-TR achieving 0.54 ms query times under MUVERA. We release all checkpoints, configs, and evaluation scripts. Limitations include reliance on moderately sized datasets ($\leq$50K documents) and translated benchmarks, which may not fully reflect real-world Turkish retrieval conditions; larger-scale MUVERA evaluations remain necessary.


翻译:神经信息检索系统在高资源语言中表现出色,但对于形态丰富、资源相对匮乏的语言(如土耳其语)仍缺乏深入探索。目前,稠密双编码器在土耳其语信息检索中占据主导地位,而延迟交互模型——通过保留词元级表示以实现细粒度匹配——尚未得到系统评估。本文介绍了TurkColBERT,这是首个针对土耳其语检索的稠密编码器与延迟交互模型的综合性基准测试。我们采用两阶段适应流程:首先在土耳其语自然语言推理/语义文本相似性任务上对英语和多语言编码器进行微调,然后利用在MS MARCO-TR上训练的PyLate将其转换为ColBERT风格的检索器。我们在涵盖科学、金融和论证领域的五个土耳其语BEIR数据集上评估了10个模型。结果显示出色的参数效率:拥有100万个参数的colbert-hash-nano-tr比拥有6亿个参数的turkish-e5-large稠密编码器小600倍,同时保持了其平均平均精度均值(mAP)的71%以上。比稠密编码器小3至5倍的延迟交互模型显著优于后者;ColmmBERT-base-TR在特定领域任务上实现了高达+13.8%的mAP提升。针对生产就绪性,我们比较了索引算法:MUVERA+重排序比PLAID快3.33倍,并带来+1.7%的相对mAP增益。这实现了低延迟检索,ColmmBERT-base-TR在MUVERA下达到0.54毫秒的查询时间。我们发布了所有检查点、配置和评估脚本。局限性包括对中等规模数据集(≤50K文档)和翻译基准的依赖,这可能无法完全反映真实世界的土耳其语检索条件;更大规模的MUVERA评估仍有必要。

0
下载
关闭预览

相关内容

KnowledGPT:基于知识库的检索和存储访问增强大型语言模型
《用于代码弱点识别的 LLVM 中间表示》CMU
专知会员服务
14+阅读 · 2022年12月12日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员