Searching for information on the internet and digital platforms requires effective retrieval solutions. However, such solutions are not yet available for Tetun, making it difficult to find relevant documents for search queries in this language. To address this gap, we investigate Tetun text retrieval with a focus on the ad-hoc retrieval task. The study begins with the development of essential language resources -- including a list of stopwords, a stemmer, and a test collection -- that serve as a foundation for Tetun text retrieval. Various strategies are evaluated using document titles and content. The results show that retrieving document titles, after removing hyphens and apostrophes but without applying stemming, improves performance compared to the baseline. Efficiency increases by 31.37%, while effectiveness achieves an average relative gains of +9.40% in MAP@10 and +30.35% in NDCG@10 with DFR BM25. Beyond the top-10 cutoff point, Hiemstra LM demonstrates strong performance across multiple retrieval strategies and evaluation metrics. The contributions of this work include the development of Labadain-Stopwords (a list of 160 Tetun stopwords), Labadain-Stemmer (a Tetun stemmer with three variants), and Labadain-Avaliad\'or (a Tetun test collection comprising 59 topics, 33,550 documents, and 5,900 qrels). These resources are publicly available to support future research in Tetun information retrieval.


翻译:在互联网和数字平台上搜索信息需要有效的检索解决方案。然而,此类解决方案尚未适用于德顿语,导致难以用该语言为搜索查询找到相关文档。为弥补这一空白,我们研究了德顿语文本检索,重点关注临时检索任务。本研究首先开发了必要的语言资源——包括停用词表、词干提取器和测试集——作为德顿语文本检索的基础。我们使用文档标题和内容评估了多种策略。结果表明,在移除连字符和撇号但未应用词干提取的情况下检索文档标题,相比基线方法提升了性能。使用DFR BM25模型时,效率提高了31.37%,而有效性在MAP@10指标上平均相对增益达到+9.40%,在NDCG@10指标上达到+30.35%。在top-10截断点之外,Hiemstra LM模型在多种检索策略和评估指标中均表现出强劲性能。本工作的贡献包括开发了Labadain-Stopwords(包含160个德顿语停用词的列表)、Labadain-Stemmer(具有三种变体的德顿语词干提取器)以及Labadain-Avaliad'or(包含59个主题、33,550篇文档和5,900个相关性判断的德顿语测试集)。这些资源已公开提供,以支持未来德顿语信息检索领域的研究。

0
下载
关闭预览

相关内容

FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
34+阅读 · 2019年10月18日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
163+阅读 · 2019年10月12日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
IJCAI | Cascade Dynamics Modeling with Attention-based RNN
KingsGarden
13+阅读 · 2017年7月16日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
IJCAI | Cascade Dynamics Modeling with Attention-based RNN
KingsGarden
13+阅读 · 2017年7月16日
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员