论文千千万,如何发现和综述新研究?这里有个利用AI技术的热门开源项目

2020 年 12 月 13 日 机器之心

机器之心报道

作者:魔王
paperai 利用 AI 技术发现和综述医疗 / 科学论文。

 

在研究领域,每天都会涌现大量论文,如何发现优秀论文并快速获取信息是一个难题。最近,有开发者开源了一个 AI 支持的文献发现和综述引擎 paperai,可用于医疗 / 科学论文。

GitHub 地址:https://github.com/neuml/paperai

paperai 可以自动执行繁琐的文献综述工作,使研究人员不必为此耗费精力,从而能够聚焦自己的核心工作。该工具运行 query 筛选出符合特定标准的论文,并执行基于问答提取技术的 report 功能,从一组医疗 / 科学论文中找出关键问题的答案。


 如上图所示,paperai 运行 query 和 report,得到问题的答案,并在论文中标注出来。

据介绍,paperai 已被用于分析 COVID-19 开放研究数据集 (CORD-19),并在 CORD-19 Kaggle 挑战赛中获得了多个奖项。

paperai 背后的 AI 技术

paperai 使用 Python 构建,并使用 FastText + BM25 创建句子嵌入索引。

详情参见:https://towardsdatascience.com/building-a-sentence-embedding-index-with-fasttext-and-bm25-f07e7148d240

paperai 模型利用句子嵌入索引和 SQLite 数据库处理文章。

具体而言,模型将每篇文章解析成多个句子,并和文章元数据一起存储进 SQLite 数据库,然后基于整个数据库构建 FastText 向量。句子嵌入索引仅使用标记文章,从而帮助输出最具相关性的结果。

用户可以通过多个入口点与模型进行互动:

  • paperai.report:为一系列 query 构建 markdown 格式的报告。对于每条 query,模型显示最匹配的文章,并用高亮形式标示出与 query 嵌入搜索最具相关性的文章部分。

  • paperai.query:在终端运行一条 query。

  • paperai.shell:在终端运行多条 query。


项目作者展示了 paperai 在 CORD-19 挑战赛中的应用:

 


如何安装和使用

GitHub 项目详细介绍了 paperai 的安装和使用方法。

安装

最简单的方式是通过 pip 和 PyPI 安装:

pip install paperai

也可以直接从 GitHub 安装 paperai,推荐使用 Python 虚拟环境,支持 Python 3.6+:

pip install git+https://github.com/neuml/paperai

构建模型

用户可以利用以下代码为 SQLite 数据库构建索引:

# Can optionally use pre-trained vectors# https://www.kaggle.com/davidmezzetti/cord19-fasttext-vectors cord19-300d.magnitude# Default location: ~/.cord19/vectors/cord19-300d.magnitudepython -m paperai.vectors
#Build embeddings indexpython -m paperai.index

模型将存储在 ~/.cord19。

构建报告文件

调用报告的示例如下:

python -m paperai.report tasks/risk-factors.yml

报告支持多种格式:Markdown(默认格式)、CSV 和标注格式(即在原始 PDF 文件上显示标注结果)。

运行 query

最快速的方式是启动 paperai shell:

paperai

将出现提示。query 会被直接输入到控制台中。

「WAVE SUMMIT+2020 深度学习开发者峰会」由深度学习技术及应用国家工程实验室与百度联合主办,来自行业内的人工智能专家和开发者们将分享 AI 时代的最新技术发展和产业应用经验,诸多顶级高校人工智能专家将就 AI 人才培养展开对话,AI 开源产品及社区专家也将共话开源趋势。
本次峰会既有干货满满的分享、讨论,又有丰富多彩的展示、体验、互动,为开发者打造专属的 AI Party。
12 月 20 日,北京 798 艺术园区 751 罐,点击阅读原文,参与报名。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

登录查看更多
0

相关内容

论文(Paper)是专知网站核心资料文档,包括全球顶级期刊、顶级会议论文,及全球顶尖高校博士硕士学位论文。重点关注中国计算机学会推荐的国际学术会议和期刊,CCF-A、B、C三类。通过人机协作方式,汇编、挖掘后呈现于专知网站。
专知会员服务
7+阅读 · 2021年4月20日
专知会员服务
55+阅读 · 2021年4月20日
自动文本摘要研究综述
专知会员服务
67+阅读 · 2021年1月31日
专知会员服务
143+阅读 · 2020年8月21日
领域知识图谱研究综述
专知会员服务
142+阅读 · 2020年8月2日
实体关系抽取方法研究综述
专知会员服务
176+阅读 · 2020年7月19日
【综述】交通流量预测,附15页论文下载
专知会员服务
131+阅读 · 2020年4月23日
专知会员服务
109+阅读 · 2020年3月12日
知识图谱本体结构构建论文合集
专知会员服务
106+阅读 · 2019年10月9日
2019热门开源机器学习项目汇总
专知
9+阅读 · 2020年1月3日
解读!清华、谷歌等10篇强化学习论文总结
学术头条
7+阅读 · 2019年11月18日
10月机器学习开源项目Top10
机器学习算法与Python学习
3+阅读 · 2018年10月30日
6月份最热门的机器学习开源项目Top10
AI前线
8+阅读 · 2018年7月3日
9款超赞的AI开源项目!| 本周Github精选
数据派THU
7+阅读 · 2018年4月13日
如何用人工智能帮你找论文?
AI100
10+阅读 · 2018年2月21日
Python 开源项目 Top30 | 值得收藏
人工智能头条
8+阅读 · 2018年1月19日
GitHub上12月份最热门开源项目
程序猿
4+阅读 · 2018年1月9日
Python & 机器学习之项目实践 | 赠书
人工智能头条
14+阅读 · 2017年12月26日
A Comprehensive Survey on Transfer Learning
Arxiv
121+阅读 · 2019年11月7日
Arxiv
9+阅读 · 2019年11月6日
Graph Analysis and Graph Pooling in the Spatial Domain
Arxiv
30+阅读 · 2019年3月13日
Arxiv
9+阅读 · 2018年10月18日
Arxiv
11+阅读 · 2018年9月28日
VIP会员
相关VIP内容
专知会员服务
7+阅读 · 2021年4月20日
专知会员服务
55+阅读 · 2021年4月20日
自动文本摘要研究综述
专知会员服务
67+阅读 · 2021年1月31日
专知会员服务
143+阅读 · 2020年8月21日
领域知识图谱研究综述
专知会员服务
142+阅读 · 2020年8月2日
实体关系抽取方法研究综述
专知会员服务
176+阅读 · 2020年7月19日
【综述】交通流量预测,附15页论文下载
专知会员服务
131+阅读 · 2020年4月23日
专知会员服务
109+阅读 · 2020年3月12日
知识图谱本体结构构建论文合集
专知会员服务
106+阅读 · 2019年10月9日
相关资讯
2019热门开源机器学习项目汇总
专知
9+阅读 · 2020年1月3日
解读!清华、谷歌等10篇强化学习论文总结
学术头条
7+阅读 · 2019年11月18日
10月机器学习开源项目Top10
机器学习算法与Python学习
3+阅读 · 2018年10月30日
6月份最热门的机器学习开源项目Top10
AI前线
8+阅读 · 2018年7月3日
9款超赞的AI开源项目!| 本周Github精选
数据派THU
7+阅读 · 2018年4月13日
如何用人工智能帮你找论文?
AI100
10+阅读 · 2018年2月21日
Python 开源项目 Top30 | 值得收藏
人工智能头条
8+阅读 · 2018年1月19日
GitHub上12月份最热门开源项目
程序猿
4+阅读 · 2018年1月9日
Python & 机器学习之项目实践 | 赠书
人工智能头条
14+阅读 · 2017年12月26日
相关论文
A Comprehensive Survey on Transfer Learning
Arxiv
121+阅读 · 2019年11月7日
Arxiv
9+阅读 · 2019年11月6日
Graph Analysis and Graph Pooling in the Spatial Domain
Arxiv
30+阅读 · 2019年3月13日
Arxiv
9+阅读 · 2018年10月18日
Arxiv
11+阅读 · 2018年9月28日
Top
微信扫码咨询专知VIP会员