Wikipedia is written in the wikitext markup language. When serving content, the MediaWiki software that powers Wikipedia parses wikitext to HTML, thereby inserting additional content by expanding macros (templates and mod-ules). Hence, researchers who intend to analyze Wikipediaas seen by its readers should work with HTML, rather than wikitext. Since Wikipedia's revision history is publicly available exclusively in wikitext format, researchers have had to produce HTML themselves, typically by using Wikipedia's REST API for ad-hoc wikitext-to-HTML parsing. This approach, however, (1) does not scale to very large amounts ofdata and (2) does not correctly expand macros in historical article revisions. We solve these problems by developing a parallelized architecture for parsing massive amounts of wikitext using local instances of MediaWiki, enhanced with the capacity of correct historical macro expansion. By deploying our system, we produce and release WikiHist.html, English Wikipedia's full revision history in HTML format. We highlight the advantages of WikiHist.html over raw wikitext in an empirical analysis of Wikipedia's hyperlinks, showing that over half of the wiki links present in HTML are missing from raw wikitext and that the missing links are important for user navigation.
翻译:维基百科用维基文本标记语言写成 维基百科。 当提供内容时, 维基百科的MediaWikiki 软件将维基文本缩入 HTML, 从而通过扩展宏( 模板和模块模块) 插入更多内容。 因此, 打算分析读者所看到的维基百科的研究人员应该使用 HTML, 而不是 wiki text 。 由于维基百科的修订历史完全以维基百科格式公开提供, 研究人员不得不自己制作 HTML, 通常使用 维基百科的 REST API 进行 ad- hoc wikitext 到 HTML 解析。 但是, 这个方法, (1) 不至非常大的数据量和 (2) 不正确扩展历史文章修改中的宏。 因此, 我们通过开发一个平行的架构来分析, 利用本地的MediaWikiki 来区分大量维基文本, 并辅之以正确的历史宏观扩展能力。 通过部署我们的系统, 我们制作并发布和发布WikiHTML格式的完整订正历史历史历史。 我们强调的原始维基文本中的重要链接的半链接, 展示了Wikist.html的原始维基文本的优势。