Lexical-semantic resources (LSRs), such as online lexicons and wordnets, are fundamental to natural language processing applications as well as to fields such as linguistic anthropology and language preservation. In many languages, however, such resources suffer from quality issues: incorrect entries, incompleteness, but also the rarely addressed issue of bias towards the English language and Anglo-Saxon culture. Such bias manifests itself in the absence of concepts specific to the language or culture at hand, the presence of foreign (Anglo-Saxon) concepts, as well as in the lack of an explicit indication of untranslatability, also known as cross-lingual lexical gaps, when a term has no equivalent in another language. This paper proposes a novel crowdsourcing methodology for reducing bias in LSRs. Crowd workers compare lexemes from two languages, focusing on domains rich in lexical diversity, such as kinship or food. Our LingoGap crowdsourcing platform facilitates comparisons through microtasks identifying equivalent terms, language-specific terms, and lexical gaps across languages. We validated our method by applying it to two case studies focused on food-related terminology: (1) English and Arabic, and (2) Standard Indonesian and Banjarese. These experiments identified 2,140 lexical gaps in the first case study and 951 in the second. The success of these experiments confirmed the usability of our method and tool for future large-scale lexicon enrichment tasks.


翻译:词汇语义资源(LSRs),例如在线词典和词网,不仅是自然语言处理应用的基础,也对语言人类学和语言保护等领域至关重要。然而,在许多语言中,此类资源存在质量问题:包括错误条目、不完整性,以及一个较少被讨论的偏向英语和盎格鲁-撒克逊文化的问题。这种偏向表现为缺失特定语言或文化的概念、存在外来(盎格鲁-撒克逊)概念,以及缺乏对不可译性的明确标注——即跨语言词汇缺口,指一个术语在另一种语言中没有对应词。本文提出了一种新颖的众包方法,以减少LSRs中的偏向。众包工作者比较两种语言的词位,重点关注词汇多样性丰富的领域,如亲属关系或食物。我们的LingoGap众包平台通过微任务促进比较,识别对等术语、语言特定术语以及跨语言词汇缺口。我们通过两个专注于食物相关术语的案例研究验证了该方法:(1)英语与阿拉伯语,以及(2)标准印度尼西亚语与班贾尔语。这些实验在第一个案例中识别了2,140个词汇缺口,在第二个案例中识别了951个。实验的成功证实了我们的方法和工具在未来大规模词典丰富任务中的可用性。

0
下载
关闭预览

相关内容

【ICML2024】社区不变图对比学习
专知会员服务
24+阅读 · 2024年5月4日
专知会员服务
23+阅读 · 2021年2月6日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Arxiv
0+阅读 · 11月24日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员