Accurately linking news articles to scientific research works is a critical component in a number of applications, such as measuring the social impact of a research work and detecting inaccuracies or distortions in science news. Although the lack of links between news and literature has been a challenge in these applications, it is a relatively unexplored research problem. In this paper we designed and evaluated a new approach that consists of (1) augmenting latest named-entity recognition techniques to extract various metadata, and (2) designing a new elastic search engine that can facilitate the use of enriched metadata queries. To evaluate our approach, we constructed two datasets of paired news articles and research papers: one is used for training models to extract metadata, and the other for evaluation. Our experiments showed that the new approach performed significantly better than a baseline approach used by altmetric.com (0.89 vs 0.32 in terms of top-1 accuracy). To further demonstrate the effectiveness of the approach, we also conducted a study on 37,600 health-related press releases published on EurekAlert!, which showed that our approach was able to identify the corresponding research papers with a top-1 accuracy of at least 0.97.


翻译:将新闻文章与科学研究工作准确地联系起来是若干应用中的一个关键组成部分,例如衡量研究工作的社会影响和发现科学新闻中的不准确或扭曲现象。虽然在这些应用中,新闻和文献之间缺乏联系是一个挑战,但这是一个相对未探索的研究问题。在本文中,我们设计并评价了一种新的方法,其中包括:(1) 增加最新的命名实体识别技术,以提取各种元数据;(2) 设计一个新的弹性搜索引擎,以便利使用丰富的元数据查询。为了评估我们的方法,我们制作了两套配对新闻文章和研究论文的数据集:一套用于培训模型提取元数据,另一套用于评估。我们的实验表明,新方法比altrography.com(0.89 vs 0.32 ) 使用的基线方法要好得多。为了进一步证明这一方法的有效性,我们还对EurekAlert上公布的37,600份与健康有关的新闻稿进行了研究。该方法表明,我们的方法能够确定相应的研究论文的准确度至少为0.9。

0
下载
关闭预览

相关内容

机器学习系统设计系统评估标准
【如何做研究】How to research ,22页ppt
专知会员服务
108+阅读 · 2021年4月17日
专知会员服务
85+阅读 · 2021年1月7日
专知会员服务
60+阅读 · 2020年3月19日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
已删除
将门创投
4+阅读 · 2019年5月8日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Arxiv
0+阅读 · 2021年9月14日
Neural Architecture Search without Training
Arxiv
10+阅读 · 2021年6月11日
Arxiv
5+阅读 · 2018年1月30日
VIP会员
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
已删除
将门创投
4+阅读 · 2019年5月8日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Top
微信扫码咨询专知VIP会员