Tools to explore scientific literature are essential for scientists, especially in biomedicine, where about a million new papers are published every year. Many such tools provide users the ability to search for specific entities (e.g. proteins, diseases) by tracking their mentions in papers. PubMed, the most well known database of biomedical papers, relies on human curators to add these annotations. This can take several weeks for new papers, and not all papers get tagged. Machine learning models have been developed to facilitate the semantic indexing of scientific papers. However their performance on the more comprehensive ontologies of biomedical concepts does not reach the levels of typical entity recognition problems studied in NLP. In large part this is due to their low resources, where the ontologies are large, there is a lack of descriptive text defining most entities, and labeled data can only cover a small portion of the ontology. In this paper, we develop a new model that overcomes these challenges by (1) generalizing to entities unseen at training time, and (2) incorporating linking predictions into the mention segmentation decisions. Our approach achieves new state-of-the-art results for the UMLS ontology in both traditional recognition/linking (+8 F1 pts) as well as semantic indexing-based evaluation (+10 F1 pts).


翻译:科学文献的探索工具对于科学家来说至关重要,特别是在生物医学方面,每年出版约100万份新论文。许多此类工具通过跟踪文件中提及的具体实体(如蛋白质、疾病),使用户能够通过跟踪文件中的提及,搜索特定实体(如蛋白质、疾病)。最著名的生物医学文件数据库PubMed依靠人类管理者添加这些说明。这可能需要几周时间来编写新论文,而不是所有论文都贴上标签。已经开发了机器学习模型,以便利科学论文的语义索引化。然而,他们在生物医学概念的更全面理论学上的表现并没有达到NLP研究的典型实体识别问题的程度。这在很大程度上是由于他们的资源低,因为其本性很大,缺乏描述大多数实体的描述性文字,而且标签数据只能涵盖本科学的一小部分。在本文中,我们开发了一种克服这些挑战的新模型,即(1) 将培训时看不到的实体概括化,以及(2) 将预测与引用的分类决定相联系。我们的方法是,我们的方法是将新的状态-艺术成果结果作为传统学认识的FLS+Flink1 。

0
下载
关闭预览

相关内容

专知会员服务
38+阅读 · 2020年9月6日
数据科学导论,54页ppt,Introduction to Data Science
专知会员服务
39+阅读 · 2020年7月27日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
76+阅读 · 2020年7月26日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理
深度学习自然语言处理
18+阅读 · 2020年5月22日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
人工智能 | 国际会议/SCI期刊约稿信息9条
Call4Papers
3+阅读 · 2018年1月12日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【计算机类】期刊专刊/国际会议截稿信息6条
Call4Papers
3+阅读 · 2017年10月13日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
18+阅读 · 2020年10月9日
A Survey on Deep Learning for Named Entity Recognition
Arxiv
26+阅读 · 2020年3月13日
Arxiv
5+阅读 · 2019年11月22日
VIP会员
相关资讯
Top
微信扫码咨询专知VIP会员