【ECML-PKDD 2019】基于种子样本的Web数据抽取（Web Data Extraction with Seed Samples） - 专知VIP

会员服务 ·

1

机器学习 · 南开大学 · 山东大学 · Jie Liu · 人工智能 ·

2019 年 12 月 3 日

【ECML-PKDD 2019】基于种子样本的Web数据抽取（Web Data Extraction with Seed Samples）

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

题目： Web Data Extraction with Seed Samples

摘要： web包含了大量的半结构化数据，已经成为知识库填充的丰富资源。从庞大的网站中提取结构化数据已经吸引了大量的努力。本文提出了一种从种子样本中提取web数据的新方法。该方法利用具有种子样本的连体网络学习相似度度量。该方法从种子样本中建立提取模式，并通过相似性度量寻找越来越多的样本进行连续优化，在大规模网页上的实验表明了该方法的有效性和有效性。

作者简介： Jun Ma，分别在中国山东大学、日本茨城大学和日本九州大学获得学士、硕士和博士学位。现任山东大学计算机与科学技术学院副院长、计算机建筑研究所所长、中国计算机联合会会员、IEEE会员。他是《中国计算机杂志》、《软件杂志》和一些国际会议的编辑。国家高新技术研究开发计划（863）和国家自然科学基金评审员。拥有教育部、山东省劳动和科学委员会颁发的各类奖项/荣誉，主要包括国家教育部大学骨干教师基金（2001年）和山东大学的领导学者和有前途的骨干教师。个人主页：http://ir.sdu.edu.cn/~junma/~junma_en.htm

Jie Liu,中国天津南开大学获得计算机科学博士学位。南开大学计算机与控制工程学院教授。他的研究兴趣包括机器学习、模式识别、信息检索和数据挖掘。他在参考文献和期刊上发表过多篇论文，如KDD、AAAI、IJCAI、CIKM、ICDM、TKDE、TIST、KAIS、模式识别、信息科学、Springer WWW等。个人主页：http://jieliu.me/

成为VIP会员查看完整内容

8

相关内容

机器学习

“机器学习是近20多年兴起的一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论，机器学习与统计推断学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。很多推论问题属于无程序可循难度，所以部分的机器学习研究是开发容易处理的近似算法。” ——中文维基百科

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

专知会员服务

25+阅读 · 2019年12月26日

【AAAI2020-北航】基于规则指导的知识图谱成分表示学习（Rule-Guided Compositional Representation Learning on Knowledge Graphs）

【AAAI2020-北航】基于规则指导的知识图谱成分表示学习（Rule-Guided Compositional Representation Learning on Knowledge Graphs）

专知会员服务

85+阅读 · 2019年11月24日

【CIKM 2019论文】基于Motif注意力的图卷积网络（Graph Convolutional Networks with Motif-based Attention），John Boaz Lee，Ryan Rossi，孔祥南

【CIKM 2019论文】基于Motif注意力的图卷积网络（Graph Convolutional Networks with Motif-based Attention），John Boaz Lee，Ryan Rossi，孔祥南

专知会员服务

53+阅读 · 2019年11月20日

【CCL 2019】刘康、韩先培：做失败科研的10个方法

【CCL 2019】刘康、韩先培：做失败科研的10个方法

专知会员服务

28+阅读 · 2019年11月12日

【CCL 2019】ATT-第19期：预训练模型--自然语言处理的新范式（车万翔）

【CCL 2019】ATT-第19期：预训练模型--自然语言处理的新范式（车万翔）

专知会员服务

41+阅读 · 2019年11月12日

【CIKM2019 Tutorial】Synergy of Database Techniques and Machine Learning Models for String Similarity Search and Join(字符串相似性搜索与连接：数据库技术与机器学习模型的协同)，附论文免费下载

【CIKM2019 Tutorial】Synergy of Database Techniques and Machine Learning Models for String Similarity Search and Join(字符串相似性搜索与连接：数据库技术与机器学习模型的协同)，附论文免费下载

专知会员服务

10+阅读 · 2019年11月3日

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

专知会员服务

14+阅读 · 2019年10月25日

问答与对话-技术与系统之任务型对话系统【车万翔张伟男】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第13期

问答与对话-技术与系统之任务型对话系统【车万翔张伟男】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第13期

专知会员服务

63+阅读 · 2019年10月23日

异质信息网络的表示学习与应用，北京邮电大学计算机学院石川教授，SMP 2019 前沿技术讲习班第十五期（CIPS ATT 15）

异质信息网络的表示学习与应用，北京邮电大学计算机学院石川教授，SMP 2019 前沿技术讲习班第十五期（CIPS ATT 15）

专知会员服务

28+阅读 · 2019年10月23日

【VLDB2019 tutorial】TextCube：自动构建和多维探索，TextCube: Automated Construction and Multidimensional Exploration，韩家炜，Jingbo Shang

【VLDB2019 tutorial】TextCube：自动构建和多维探索，TextCube: Automated Construction and Multidimensional Exploration，韩家炜，Jingbo Shang

专知会员服务

27+阅读 · 2019年8月29日

论文浅尝 | 利用知识图谱嵌入和图卷积网络进行长尾关系抽取

论文浅尝 | 利用知识图谱嵌入和图卷积网络进行长尾关系抽取

开放知识图谱

30+阅读 · 2019年7月5日

论文浅尝 | GraphIE:基于图的信息抽取框架

论文浅尝 | GraphIE:基于图的信息抽取框架

开放知识图谱

17+阅读 · 2019年6月2日

基于统计关系学习的自动数据清洗

基于统计关系学习的自动数据清洗

FCS

7+阅读 · 2019年3月1日

基于差分隐私的地理社交网络发布

基于差分隐私的地理社交网络发布

FCS

9+阅读 · 2019年2月22日

干货 | 清华大学刘知远 CCL 2018学生研讨会报告（附完整PPT下载）

干货 | 清华大学刘知远 CCL 2018学生研讨会报告（附完整PPT下载）

数据派THU

13+阅读 · 2019年1月8日

小样本如何进行深度学习？西北工夏勇教授这一份54页《医学影像小数据深度学习》PPT为你讲解

小样本如何进行深度学习？西北工夏勇教授这一份54页《医学影像小数据深度学习》PPT为你讲解

GAN生成式对抗网络

23+阅读 · 2018年12月2日

刘知远 | 语义表示学习

刘知远 | 语义表示学习

开放知识图谱

16+阅读 · 2018年8月9日

论文浅尝 | Distant Supervision for Relation Extraction

论文浅尝 | Distant Supervision for Relation Extraction

开放知识图谱

4+阅读 · 2017年12月25日

活动 | 这周日，北理工邀大咖研讨“知识图谱与智能问答”

活动 | 这周日，北理工邀大咖研讨“知识图谱与智能问答”

AI科技评论

7+阅读 · 2017年9月6日

基于聚类和决策树的链路预测方法

基于聚类和决策树的链路预测方法

计算机研究与发展

9+阅读 · 2017年8月25日

AdarGCN: Adaptive Aggregation GCN for Few-Shot Learning

AdarGCN: Adaptive Aggregation GCN for Few-Shot Learning

Arxiv

64+阅读 · 2020年2月28日

Web Table Extraction, Retrieval and Augmentation: A Survey

Arxiv

7+阅读 · 2020年2月5日

Text Summarization with Pretrained Encoders

Arxiv

5+阅读 · 2019年8月22日

Span Based Open Information Extraction

Arxiv

3+阅读 · 2019年3月1日

Learning to Predict the Cosmological Structure Formation

Arxiv

3+阅读 · 2018年11月15日

Multiple Object Tracking in Urban Traffic Scenes with a Multiclass Object Detector

Multiple Object Tracking in Urban Traffic Scenes with a Multiclass Object Detector

Arxiv

4+阅读 · 2018年9月6日

AceKG: A Large-scale Knowledge Graph for Academic Data Mining

AceKG: A Large-scale Knowledge Graph for Academic Data Mining

Arxiv

6+阅读 · 2018年8月7日

Japanese Predicate Conjugation for Neural Machine Translation

Arxiv

3+阅读 · 2018年5月25日

The Users' Perspective on the Privacy-Utility Trade-offs in Health Recommender Systems

Arxiv

5+阅读 · 2018年4月13日

Learning with Heterogeneous Side Information Fusion for Recommender Systems

Arxiv

10+阅读 · 2018年1月8日

VIP会员

相关主题

相关VIP内容

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

专知会员服务

25+阅读 · 2019年12月26日

【AAAI2020-北航】基于规则指导的知识图谱成分表示学习（Rule-Guided Compositional Representation Learning on Knowledge Graphs）

【AAAI2020-北航】基于规则指导的知识图谱成分表示学习（Rule-Guided Compositional Representation Learning on Knowledge Graphs）

专知会员服务

85+阅读 · 2019年11月24日

【CIKM 2019论文】基于Motif注意力的图卷积网络（Graph Convolutional Networks with Motif-based Attention），John Boaz Lee，Ryan Rossi，孔祥南

【CIKM 2019论文】基于Motif注意力的图卷积网络（Graph Convolutional Networks with Motif-based Attention），John Boaz Lee，Ryan Rossi，孔祥南

专知会员服务

53+阅读 · 2019年11月20日

【CCL 2019】刘康、韩先培：做失败科研的10个方法

【CCL 2019】刘康、韩先培：做失败科研的10个方法

专知会员服务

28+阅读 · 2019年11月12日

【CCL 2019】ATT-第19期：预训练模型--自然语言处理的新范式（车万翔）

【CCL 2019】ATT-第19期：预训练模型--自然语言处理的新范式（车万翔）

专知会员服务

41+阅读 · 2019年11月12日

【CIKM2019 Tutorial】Synergy of Database Techniques and Machine Learning Models for String Similarity Search and Join(字符串相似性搜索与连接：数据库技术与机器学习模型的协同)，附论文免费下载

【CIKM2019 Tutorial】Synergy of Database Techniques and Machine Learning Models for String Similarity Search and Join(字符串相似性搜索与连接：数据库技术与机器学习模型的协同)，附论文免费下载

专知会员服务

10+阅读 · 2019年11月3日

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

专知会员服务

14+阅读 · 2019年10月25日

问答与对话-技术与系统之任务型对话系统【车万翔张伟男】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第13期

问答与对话-技术与系统之任务型对话系统【车万翔张伟男】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第13期

专知会员服务

63+阅读 · 2019年10月23日

异质信息网络的表示学习与应用，北京邮电大学计算机学院石川教授，SMP 2019 前沿技术讲习班第十五期（CIPS ATT 15）

异质信息网络的表示学习与应用，北京邮电大学计算机学院石川教授，SMP 2019 前沿技术讲习班第十五期（CIPS ATT 15）

专知会员服务

28+阅读 · 2019年10月23日

【VLDB2019 tutorial】TextCube：自动构建和多维探索，TextCube: Automated Construction and Multidimensional Exploration，韩家炜，Jingbo Shang

【VLDB2019 tutorial】TextCube：自动构建和多维探索，TextCube: Automated Construction and Multidimensional Exploration，韩家炜，Jingbo Shang

专知会员服务

27+阅读 · 2019年8月29日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型智能体强化学习：全景综述

《城市滨海地区：理解复杂多变环境下的指挥控制框架》50页报告

【伯克利博士论文】从推理服务到训练：面向大规模 LLM 智能体的高效系统

美空军“顶点2025”实验：推进AI在C2、动态目标锁定与联盟集成中的应用

相关资讯

论文浅尝 | 利用知识图谱嵌入和图卷积网络进行长尾关系抽取

论文浅尝 | 利用知识图谱嵌入和图卷积网络进行长尾关系抽取

开放知识图谱

30+阅读 · 2019年7月5日

论文浅尝 | GraphIE:基于图的信息抽取框架

论文浅尝 | GraphIE:基于图的信息抽取框架

开放知识图谱

17+阅读 · 2019年6月2日

基于统计关系学习的自动数据清洗

基于统计关系学习的自动数据清洗

FCS

7+阅读 · 2019年3月1日

基于差分隐私的地理社交网络发布

基于差分隐私的地理社交网络发布

FCS

9+阅读 · 2019年2月22日

干货 | 清华大学刘知远 CCL 2018学生研讨会报告（附完整PPT下载）

干货 | 清华大学刘知远 CCL 2018学生研讨会报告（附完整PPT下载）

数据派THU

13+阅读 · 2019年1月8日

小样本如何进行深度学习？西北工夏勇教授这一份54页《医学影像小数据深度学习》PPT为你讲解

小样本如何进行深度学习？西北工夏勇教授这一份54页《医学影像小数据深度学习》PPT为你讲解

GAN生成式对抗网络

23+阅读 · 2018年12月2日

刘知远 | 语义表示学习

刘知远 | 语义表示学习

开放知识图谱

16+阅读 · 2018年8月9日

论文浅尝 | Distant Supervision for Relation Extraction

论文浅尝 | Distant Supervision for Relation Extraction

开放知识图谱

4+阅读 · 2017年12月25日

活动 | 这周日，北理工邀大咖研讨“知识图谱与智能问答”

活动 | 这周日，北理工邀大咖研讨“知识图谱与智能问答”

AI科技评论

7+阅读 · 2017年9月6日

基于聚类和决策树的链路预测方法

基于聚类和决策树的链路预测方法

计算机研究与发展

9+阅读 · 2017年8月25日

相关论文

AdarGCN: Adaptive Aggregation GCN for Few-Shot Learning

AdarGCN: Adaptive Aggregation GCN for Few-Shot Learning

Arxiv

64+阅读 · 2020年2月28日

Web Table Extraction, Retrieval and Augmentation: A Survey

Arxiv

7+阅读 · 2020年2月5日

Text Summarization with Pretrained Encoders

Arxiv

5+阅读 · 2019年8月22日

Span Based Open Information Extraction

Arxiv

3+阅读 · 2019年3月1日

Learning to Predict the Cosmological Structure Formation

Arxiv

3+阅读 · 2018年11月15日

Multiple Object Tracking in Urban Traffic Scenes with a Multiclass Object Detector

Multiple Object Tracking in Urban Traffic Scenes with a Multiclass Object Detector

Arxiv

4+阅读 · 2018年9月6日

AceKG: A Large-scale Knowledge Graph for Academic Data Mining

AceKG: A Large-scale Knowledge Graph for Academic Data Mining

Arxiv

6+阅读 · 2018年8月7日

Japanese Predicate Conjugation for Neural Machine Translation

Arxiv

3+阅读 · 2018年5月25日

The Users' Perspective on the Privacy-Utility Trade-offs in Health Recommender Systems

Arxiv

5+阅读 · 2018年4月13日

Learning with Heterogeneous Side Information Fusion for Recommender Systems

Arxiv

10+阅读 · 2018年1月8日

微信扫码咨询专知VIP会员