Web search is an essential way for humans to obtain information, but it's still a great challenge for machines to understand the contents of web pages. In this paper, we introduce the task of structural reading comprehension (SRC) on web. Given a web page and a question about it, the task is to find the answer from the web page. This task requires a system not only to understand the semantics of texts but also the structure of the web page. Moreover, we proposed WebSRC, a novel Web-based Structural Reading Comprehension dataset. WebSRC consists of 400K question-answer pairs, which are collected from 6.4K web pages. Along with the QA pairs, corresponding HTML source code, screenshots, and metadata are also provided in our dataset. Each question in WebSRC requires a certain structural understanding of a web page to answer, and the answer is either a text span on the web page or yes/no. We evaluate various baselines on our dataset to show the difficulty of our task. We also investigate the usefulness of structural information and visual features. Our dataset and baselines have been publicly available at https://x-lance.github.io/WebSRC/.


翻译:网络搜索是人类获取信息的重要方式, 但对于机器来说, 获取信息仍然是一个巨大的挑战。 在本文中, 我们引入了在网络上结构阅读理解(SRC)的任务。 根据一个网页和关于它的一个问题, 任务就是从网页上找到答案。 这项任务要求不仅一个系统来理解文本的语义, 而且还要了解网页的结构结构。 此外, 我们建议WebSRC, 一个基于网络的新型结构性阅读数据集。 WebSRC 由400K的问答对组成, 从6. 4K 网页上收集。 与 QA 配对、 相应的 HTML 源代码、 屏幕截图和元数据一起, 也在我们的数据集中提供。 WebSRC 的每个问题都需要对网页的某种结构理解, 答案要么是网页上的文本, 要么是/ 是/ 否。 我们评估了我们数据集上的各种基线, 以显示我们的任务的难度。 我们还调查结构信息和视觉特征的有用性。 我们的数据设置和基线已经在 https/x/Webgio/Webs.

0
下载
关闭预览

相关内容

【干货书】开放数据结构,Open Data Structures,337页pdf
专知会员服务
16+阅读 · 2021年9月17日
专知会员服务
42+阅读 · 2021年9月5日
专知会员服务
50+阅读 · 2021年8月8日
【2020新书】Web应用安全,331页pdf
专知会员服务
23+阅读 · 2020年10月24日
【论文】结构GANs,Structured GANs,
专知会员服务
14+阅读 · 2020年1月16日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
【资源】问答阅读理解资源列表
专知
3+阅读 · 2020年7月25日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
【数据集】新的YELP数据集官方下载
机器学习研究会
16+阅读 · 2017年8月31日
Arxiv
0+阅读 · 2022年1月5日
Arxiv
3+阅读 · 2018年11月29日
Knowledge Based Machine Reading Comprehension
Arxiv
4+阅读 · 2018年9月12日
QuAC : Question Answering in Context
Arxiv
4+阅读 · 2018年8月21日
Arxiv
9+阅读 · 2016年10月27日
VIP会员
相关论文
Arxiv
0+阅读 · 2022年1月5日
Arxiv
3+阅读 · 2018年11月29日
Knowledge Based Machine Reading Comprehension
Arxiv
4+阅读 · 2018年9月12日
QuAC : Question Answering in Context
Arxiv
4+阅读 · 2018年8月21日
Arxiv
9+阅读 · 2016年10月27日
Top
微信扫码咨询专知VIP会员