We introduce ArGoT, a data set of mathematical terms extracted from the articles hosted on the arXiv website. A term is any mathematical concept defined in an article. Using labels in the article's source code and examples from other popular math websites, we mine all the terms in the arXiv data and compile a comprehensive vocabulary of mathematical terms. Each term can be then organized in a dependency graph by using the term's definitions and the arXiv's metadata. Using both hyperbolic and standard word embeddings, we demonstrate how this structure is reflected in the text's vector representation and how they capture relations of entailment in mathematical concepts. This data set is part of an ongoing effort to align natural mathematical text with existing Interactive Theorem Prover Libraries (ITPs) of formally verified statements.
翻译:我们引入了ArGot, 这是一组数学术语的数据集, 从arXiv网站主页上的文章中摘取。 术语是指文章中定义的任何数学概念。 使用文章源代码中的标签和其他流行数学网站的示例, 我们将所有术语都埋存在 arXiv 数据中, 并汇编一个全面的数学术语词汇表。 然后, 每个术语都可以通过使用术语的定义和 arXiv 元数据, 组织成一个依赖性图表。 使用双曲和标准词嵌入, 我们演示了该结构如何在文本的矢量表达中反映出来, 以及它们如何在数学概念中捕捉隐含的关系。 这套数据是当前努力的一部分, 目的是将自然数学文本与现有的经正式验证的互动式理论质库( IPPrever 图书馆) 保持一致 。