题目: Web Data Extraction with Seed Samples

摘要: web包含了大量的半结构化数据,已经成为知识库填充的丰富资源。从庞大的网站中提取结构化数据已经吸引了大量的努力。本文提出了一种从种子样本中提取web数据的新方法。该方法利用具有种子样本的连体网络学习相似度度量。该方法从种子样本中建立提取模式,并通过相似性度量寻找越来越多的样本进行连续优化,在大规模网页上的实验表明了该方法的有效性和有效性。

作者简介: Jun Ma,分别在中国山东大学、日本茨城大学和日本九州大学获得学士、硕士和博士学位。现任山东大学计算机与科学技术学院副院长、计算机建筑研究所所长、中国计算机联合会会员、IEEE会员。他是《中国计算机杂志》、《软件杂志》和一些国际会议的编辑。国家高新技术研究开发计划(863)和国家自然科学基金评审员。拥有教育部、山东省劳动和科学委员会颁发的各类奖项/荣誉,主要包括国家教育部大学骨干教师基金(2001年)和山东大学的领导学者和有前途的骨干教师。个人主页:http://ir.sdu.edu.cn/~junma/~junma_en.htm

Jie Liu,中国天津南开大学获得计算机科学博士学位。南开大学计算机与控制工程学院教授。他的研究兴趣包括机器学习、模式识别、信息检索和数据挖掘。他在参考文献和期刊上发表过多篇论文,如KDD、AAAI、IJCAI、CIKM、ICDM、TKDE、TIST、KAIS、模式识别、信息科学、Springer WWW等。个人主页:http://jieliu.me/

成为VIP会员查看完整内容
7

相关内容

“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。” ——中文维基百科

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【CCL 2019】刘康、韩先培:做失败科研的10个方法
专知会员服务
27+阅读 · 2019年11月12日
论文浅尝 | GraphIE:基于图的信息抽取框架
开放知识图谱
17+阅读 · 2019年6月2日
基于统计关系学习的自动数据清洗
FCS
7+阅读 · 2019年3月1日
基于差分隐私的地理社交网络发布
FCS
9+阅读 · 2019年2月22日
刘知远 | 语义表示学习
开放知识图谱
16+阅读 · 2018年8月9日
论文浅尝 | Distant Supervision for Relation Extraction
开放知识图谱
4+阅读 · 2017年12月25日
基于聚类和决策树的链路预测方法
计算机研究与发展
8+阅读 · 2017年8月25日
AdarGCN: Adaptive Aggregation GCN for Few-Shot Learning
Arxiv
5+阅读 · 2019年8月22日
Arxiv
3+阅读 · 2019年3月1日
VIP会员
相关VIP内容
【CCL 2019】刘康、韩先培:做失败科研的10个方法
专知会员服务
27+阅读 · 2019年11月12日
相关资讯
论文浅尝 | GraphIE:基于图的信息抽取框架
开放知识图谱
17+阅读 · 2019年6月2日
基于统计关系学习的自动数据清洗
FCS
7+阅读 · 2019年3月1日
基于差分隐私的地理社交网络发布
FCS
9+阅读 · 2019年2月22日
刘知远 | 语义表示学习
开放知识图谱
16+阅读 · 2018年8月9日
论文浅尝 | Distant Supervision for Relation Extraction
开放知识图谱
4+阅读 · 2017年12月25日
基于聚类和决策树的链路预测方法
计算机研究与发展
8+阅读 · 2017年8月25日
微信扫码咨询专知VIP会员