We introduce WikiDoMiner, a tool for automatically generating domain-specific corpora by crawling Wikipedia. WikiDoMiner helps requirements engineers create an external knowledge resource that is specific to the underlying domain of a given requirements specification (RS). Being able to build such a resource is important since domain-specific datasets are scarce. WikiDoMiner generates a corpus by first extracting a set of domain-specific keywords from a given RS, and then querying Wikipedia for these keywords. The output of WikiDoMiner is a set of Wikipedia articles relevant to the domain of the input RS. Mining Wikipedia for domain-specific knowledge can be beneficial for multiple requirements engineering tasks, e.g., ambiguity handling, requirements classification, and question answering. WikiDoMiner is publicly available on Zenodo under an open-source license (DOI: 10.5281/zenodo.6671357).
翻译:我们引入了维基Dominer( WikiDominer ), 这是一个通过爬行维基百科自动生成特定域子公司的工具。 维基Dominer 帮助工程师要求创建与特定要求规格(RS) 基本领域相关的外部知识资源。 能够建立这种资源很重要, 因为特定域数据集稀缺。 维基Dominer 首次从给定的RS 中提取一套特定域子, 并询问维基百科获取这些关键词。 维基Dominer 的输出是一套与输入RS 领域相关的维基百科文章。 用于特定域知识的开采维基百科可以用于多项要求工程任务, 例如, 模糊性处理、 要求分类和问题解答。 维基Dominer 在Zenodo 上公开提供公开源许可证( DOI: 105281/zenodo.6671357 )。