E-commerce product pages on the web often present product specification data in structured tabular blocks. Extraction of these product attribute-value specifications has benefited applications like product catalogue curation, search, question answering, and others. However, across different Websites, there is a wide variety of HTML elements (like <table>, <ul>, <div>, <span>, <dl> etc.) typically used to render these blocks that makes their automatic extraction a challenge. Most of the current research has focused on extracting product specifications from tables and lists and, therefore, suffers from recall when applied to a large-scale extraction setting. In this paper, we present a product specification extraction approach that goes beyond tables or lists and generalizes across the diverse HTML elements used for rendering specification blocks. Using a combination of hand-coded features and deep learned spatial and token features, we first identify the specification blocks on a product page. We then extract the product attribute-value pairs from these blocks following an approach inspired by wrapper induction. We created a labeled dataset of product specifications extracted from 14,111 diverse specification blocks taken from a range of different product websites. Our experiments show the efficacy of our approach compared to the current specification extraction models and support our claim about its application to large-scale product specification extraction.


翻译:网上的电子商务产品页面通常以结构化表格块的形式提供产品规格数据。这些产品属性-价值规格的提取使产品目录整理、搜索、问答等应用受益。然而,在不同的网站中,通常使用多种HTML元素(如<table>、<ul>、<div>、<span>、<dl>等),使这些块成为自动提取的挑战。目前大部分研究侧重于从表格和列表中提取产品规格,因此,在大规模提取设置时会回顾这些产品属性-价值规格。在本文件中,我们介绍了一种产品规格提取方法,它超越了表格或列表,并概括了用于制作规格块的各种HTML元素。我们使用手工编码特征和深学到的空间和象征性特征的组合,首先确定了产品页面上的规格块。我们随后根据包装诱导的方法从这些区块中提取了产品属性-价值配对。我们制作了一个标签数据集,从14,111个不同规格区块中提取的产品规格区块,从各种规格区块,从各种表格或清单中取出,并概括了用于绘制规格块块块块块块块块块块块块块图。我们从一系列不同规格的规格的规格的规格的模型的模型的规格,然后将展示我们用于各种规格的模型的模型的模型的规格,比较了我们不同的规格,然后比较了我们为各种规格的模型的模型的规格,并比较了我们为各种规格的规格的模型的规格的规格的规格图。我们用。我们试验了各种规格的模型的模型的模型的模型的模型的模型的模型的规格,比较了我们比较了我们比较了我们的模型的规格,比较了我们的模型的模型的规格的规格的规格的规格,比较了我们的模型的规格的规格,比较了我们比较了我们的模型的规格,比较了我们比较了我们的模型的规格的规格的规格的规格的规格,比较了我们比较了我们比较了我们的模型的模型的规格的规格的规格的规格的规格的规格的规格的规格的规格的规格的规格的规格的规格的规格的规格的规格的规格的规格的规格的规格的规格的规格,我们的规格的规格的规格的规格的规格的规格的规格的规格的规格的规格的规格的规格的规格,我们的规格的规格,我们的试验。比较了我们

0
下载
关闭预览

相关内容

Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
征稿 | CFP:Special Issue of NLP and KG(JCR Q2,IF2.67)
开放知识图谱
1+阅读 · 2022年4月4日
【ICIG2021】Latest News & Announcements of the Tutorial
中国图象图形学学会CSIG
3+阅读 · 2021年12月20日
【ICIG2021】Latest News & Announcements of the Plenary Talk2
中国图象图形学学会CSIG
0+阅读 · 2021年11月2日
【ICIG2021】Latest News & Announcements of the Plenary Talk1
中国图象图形学学会CSIG
0+阅读 · 2021年11月1日
征稿 | 国际KG大会IJCKG 2021投稿延期!推荐 SCI 一区期刊
开放知识图谱
0+阅读 · 2021年9月29日
会议交流 | IJCKG: International Joint Conference on Knowledge Graphs
【ICIG2021】Latest News & Announcements of the Industry Talk2
中国图象图形学学会CSIG
0+阅读 · 2021年7月29日
【ICIG2021】Latest News & Announcements of the Industry Talk1
中国图象图形学学会CSIG
0+阅读 · 2021年7月28日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月18日
GitTables: A Large-Scale Corpus of Relational Tables
Arxiv
0+阅读 · 2022年4月15日
Arxiv
33+阅读 · 2021年12月31日
Arxiv
28+阅读 · 2021年10月1日
VIP会员
相关资讯
征稿 | CFP:Special Issue of NLP and KG(JCR Q2,IF2.67)
开放知识图谱
1+阅读 · 2022年4月4日
【ICIG2021】Latest News & Announcements of the Tutorial
中国图象图形学学会CSIG
3+阅读 · 2021年12月20日
【ICIG2021】Latest News & Announcements of the Plenary Talk2
中国图象图形学学会CSIG
0+阅读 · 2021年11月2日
【ICIG2021】Latest News & Announcements of the Plenary Talk1
中国图象图形学学会CSIG
0+阅读 · 2021年11月1日
征稿 | 国际KG大会IJCKG 2021投稿延期!推荐 SCI 一区期刊
开放知识图谱
0+阅读 · 2021年9月29日
会议交流 | IJCKG: International Joint Conference on Knowledge Graphs
【ICIG2021】Latest News & Announcements of the Industry Talk2
中国图象图形学学会CSIG
0+阅读 · 2021年7月29日
【ICIG2021】Latest News & Announcements of the Industry Talk1
中国图象图形学学会CSIG
0+阅读 · 2021年7月28日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员