This paper introduces the Forgotten Realms Wiki (FRW) data set and domain specific natural language generation using FRW along with related analyses. Forgotten Realms is the de-facto default setting of the popular open ended tabletop fantasy role playing game, Dungeons & Dragons. The data set was extracted from the Forgotten Realms Fandom wiki consisting of more than over 45,200 articles. The FRW data set is constituted of 11 sub-data sets in a number of formats: raw plain text, plain text annotated by article title, directed link graphs, wiki info-boxes annotated by the wiki article title, Poincar\'e embedding of first link graph, multiple Word2Vec and Doc2Vec models of the corpus. This is the first data set of this size for the Dungeons & Dragons domain. We then present a pairwise similarity comparison benchmark which utilizes similarity measures. In addition, we perform D&D domain specific natural language generation using the corpus and evaluate the named entity classification with respect to the lore of Forgotten Realms.
翻译:本文介绍FRW(FRW) 的FRW(FRW) 数据集和域名特定自然语言生成。 FORW(FRW) 是流行的开放式桌面幻想角色游戏、 Dungeons & Dongs 的默认设置。 数据集来自 FARW (FORW) 共45 200多篇文章的Fandom Wiki( Fandrom Wiki) 数据集。 FRW (FRW) 数据集由11个子数据集组成, 格式如下: 原始文本、 以文章标题附加说明的纯文本、 定向链接图、 由 Wiki 文章标题附加说明的 Wiki Info- boxes 、 Poincar\'e 嵌入第一个链接图、 多个 WOW2Vec 和 DOC2Vec 模型。 这是D2Vec 域域域域中第一个如此大小的数据集。 我们然后提出一个使用相似度测量尺度的相近比基准。 此外, 我们使用该文体进行具体的DDD域域域域特定自然语言生成, 并评价与FORGelongs 相关的实体分类。