Inscriptis provides a library, command line client and Web service for converting HTML to plain text. Its development has been triggered by the need to obtain accurate text representations for knowledge extraction tasks that preserve the spatial alignment of text without drawing upon heavyweight, browser-based solutions such as Selenium. In contrast to related software packages, Inscriptis (i) provides a layout-aware conversion of HTML that more closely resembles the rendering obtained from standard Web browsers; and (ii) supports annotation rules, i.e., user-provided mappings that allow for annotating the extracted text based on structural and semantic information encoded in HTML tags and attributes. These unique features ensure that downstream knowledge extraction components can operate on accurate text representations, and may even use information on the semantics and structure of the original HTML document.


翻译:指令提供将 HTML 转换为纯文本的图书馆、命令行客户和网络服务。它的开发是因为需要获得保存文本空间一致性而无需借助重力和浏览器解决方案(如Selenium)的知识提取任务准确的文字表述。与相关的软件包相比,Inrmitis (一) 提供了更加接近标准网络浏览器的图像的 HTML 版图转换;以及 (二) 支持说明规则,即用户提供的绘图,以便根据以 HTML 标记和属性编码的结构和语义信息对抽取的文字进行说明。这些独特的特征确保了下游知识提取组成部分能够以准确的文本表述方式运作,甚至可以使用关于原 HTML 文档的语义和结构的信息。

0
下载
关闭预览

相关内容

【干货书】开放数据结构,Open Data Structures,337页pdf
专知会员服务
16+阅读 · 2021年9月17日
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
117+阅读 · 2020年5月10日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
MIT新书《强化学习与最优控制》
专知会员服务
275+阅读 · 2019年10月9日
谷歌足球游戏环境使用介绍
CreateAMind
33+阅读 · 2019年6月27日
学术会议 | 知识图谱顶会 ISWC 征稿:Poster/Demo
开放知识图谱
5+阅读 · 2019年4月16日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
如何编写完美的 Python 命令行程序?
CSDN
5+阅读 · 2019年1月19日
已删除
将门创投
6+阅读 · 2019年1月11日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【推荐】用Python/OpenCV实现增强现实
机器学习研究会
15+阅读 · 2017年11月16日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
CSKG: The CommonSense Knowledge Graph
Arxiv
18+阅读 · 2020年12月21日
Arxiv
6+阅读 · 2019年9月4日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
3+阅读 · 2019年3月1日
Arxiv
4+阅读 · 2017年10月30日
VIP会员
相关VIP内容
【干货书】开放数据结构,Open Data Structures,337页pdf
专知会员服务
16+阅读 · 2021年9月17日
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
117+阅读 · 2020年5月10日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
MIT新书《强化学习与最优控制》
专知会员服务
275+阅读 · 2019年10月9日
相关资讯
谷歌足球游戏环境使用介绍
CreateAMind
33+阅读 · 2019年6月27日
学术会议 | 知识图谱顶会 ISWC 征稿:Poster/Demo
开放知识图谱
5+阅读 · 2019年4月16日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
如何编写完美的 Python 命令行程序?
CSDN
5+阅读 · 2019年1月19日
已删除
将门创投
6+阅读 · 2019年1月11日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【推荐】用Python/OpenCV实现增强现实
机器学习研究会
15+阅读 · 2017年11月16日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
相关论文
CSKG: The CommonSense Knowledge Graph
Arxiv
18+阅读 · 2020年12月21日
Arxiv
6+阅读 · 2019年9月4日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
3+阅读 · 2019年3月1日
Arxiv
4+阅读 · 2017年10月30日
Top
微信扫码咨询专知VIP会员