成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
体验论文新神器!AMiner人工智能工具,自动溯源论文来龙去脉
2021 年 12 月 24 日
学术头条
来自 DBLP、ArXiv、STM 等多家学术出版机构和平台的数据表明,在过去 20 年间,计算机科学、物理学、统计学等研究领域的出版物总量都有大幅增加。像 CVPR、AAAI 等有关人工智能等新兴领域的顶级会议,每年的论文接受量也已经高达上千篇。面对雨后春笋一样涌现的学术出版物和千上万篇学术论文,任何一名研究者都不可能了解所有新领域,即使这一领域和自己的研究方向近似。
如果有一种工具,可以把一篇论文的源头梳理清楚,就能极大地减少无效检索的时间,快速了解一个新领域的发展脉络。
在以往的研究中,计算机领域的相关学者提出了很多数据挖掘技术,比如概念抽取、主题演变、算法图谱等。但是,这些数据挖掘技术更多是着眼于提炼学术文献中的关键术语信息,研究它们之间的关系与变化,却很少关注学术出版物本身较深层次的内容以及关联关系。
近日,AMiner 团队的硕士生殷达等人提出一种新方法——论文溯源树
(https://mrt.aminer.cn/)
,通过刻画学术文献的发展演变脉络,来帮助科研人员了解前沿论文是如何演变而来的。相关研究论文“
MRT: Tracingthe Evolution of Scientific Publications
”已被 TKDE 2021 接收。
“MRT 溯源树”是一个通过构建论文演变图帮助学者研究论文发展的工具,目标是研究论文中各种思路方法的演变过程。
以知名 NLP 研究论文“
BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding
”为例,BERT 对于预训练模型、文本向量、序列编码等方法的使用来源于语言模型这一方向上的 ELMo、Word2vec、LSTM 等工作中,而 MLM、Transformer 等内容则可以追溯到机器翻译领域中的 MaskGAN、Attention is all you need 等文章。
图:BERT 论文溯源(部分)
为了生成关于 BERT 的“论文溯源树”,研究团队采用了检索,阅读,构图,推理等若干步骤。
MRT 溯源树技术原理
首先,算法将目标论文放入诸如 SemanticScholar 或是 AMiner 这样的开放数据源中进行检索,获取其论文标题、摘要及其引用信息,再根据引用信息扩展出多层引用网络,并采用 PageRank 算法进行排序,筛选与目标论文较为相关的文献。
然后,算法采用 TF-IDF、Sentence-BERT 以及 ProNE 等文本编码以及图特征编码方法对检索得到的论文网络进行编码计算,为每一篇论文生成表示向量。其中,TF-IDF 可以提取论文中表层的关键词信息;Sentence-BERT 则能够捕获到论文中较深层的语义信息;ProNE 则将文本信息放在论文引用网络中,用谱传播的方式将邻居节点论文之间的关联性融入论文表示向量中,从而最终得到兼顾文本信息和引用结构信息的论文向量。
另外,在此基础上,算法采用了 Kernel K-means 等方法,根据生成的论文向量进行聚类排列,连接成带有多条“溯源路径”的树状结构;同时,针对每一类(每一条溯源路径)中的论文,算法还采用了自动化标注算法为其生成标签来概括描述这些论文的主题。Kernel K-means 算法中的核函数除了用来进行聚类外,还被应用于计算论文及溯源路径对于目标论文演变的重要性。
到这里,一棵论文溯源树便就出生了。
图|论文溯源树(Demo 地址:https://mrt.aminer.cn/5dd3de98e07b013b38cf3399)
最后,在线上用户交互过程中,为了方便用户在阅读溯源树过程中可以快速定位当前感兴趣的相关论文,算法还应用强化学习设计出在线推荐模块,根据用户的阅读点击事件动态推荐相关论文。
此外,研究团队还针对上述各个步骤设计了一系列相关实验进行验证。考虑到由于缺少标注数据而难以直接进行评估的问题,研究团队还采用了若干种间接的衡量方法从多个角度对提出方法的有效性进行验证评估,并与基线算法进行比较,最终验证了算法的优越性。
目前,该算法已集成在 AMiner 学术信息挖掘系统中
(https://mrt.aminer.cn/)
。
(来源:https://mrt.aminer.cn/)
在 AMiner 网站上,你可以通过点击想要生成溯源树的论文右侧的按钮来提交生成申请,在排队过后系统会自动搜集相关引用论文并计算生成溯源树。
快来点击文末
【阅读原文】
尝试一下吧~
点这里关注我👇记得标星~
# 往期推荐 #
详解:FDA批准首个新冠口服药,可降低88%住院或死亡风险
winter
【学术头条】持续招募中,期待有志之士的加入
强势招募兼职作者!邀你书写前沿科技内容
2021-12-21
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
论文
关注
164
论文(Paper)是专知网站核心资料文档,包括全球顶级期刊、顶级会议论文,及全球顶尖高校博士硕士学位论文。重点关注中国计算机学会推荐的国际学术会议和期刊,CCF-A、B、C三类。通过人机协作方式,汇编、挖掘后呈现于专知网站。
【课程】牛津大学&DeepMind《深度学习自然语言处理》课程
专知会员服务
44+阅读 · 2022年3月28日
NeurIPS 20201接收论文列表发布,2334篇论文都在这了!
专知会员服务
37+阅读 · 2021年11月4日
自然语言处理顶会COLING2020最佳论文出炉!
专知会员服务
23+阅读 · 2020年12月12日
近期必读的五篇 EMNLP 2020【反事实推理】相关论文和代码
专知会员服务
25+阅读 · 2020年11月23日
近期必读的六篇 EMNLP 2020【知识图谱】相关论文和代码
专知会员服务
41+阅读 · 2020年11月10日
自然语言处理顶会EMNLP2020接受论文列表,754篇论文都在这儿了!
专知会员服务
27+阅读 · 2020年10月26日
【牛津大学-DeepMind 】上下文嵌入综述,A Survey on Contextual Embeddings
专知会员服务
41+阅读 · 2020年3月17日
AAAI2020接受论文列表,1591篇论文目录全集
专知会员服务
98+阅读 · 2020年1月12日
【综述】关键词生成,附10页pdf论文下载
专知会员服务
52+阅读 · 2019年11月20日
【报告推荐】《人工智能之信息检索与推荐》报告,附72页PDF下载
专知会员服务
83+阅读 · 2019年9月7日
投了3遍都被毙的论文,终于中了
图与推荐
0+阅读 · 2022年3月16日
年度回顾 | 从九大国际AI顶会接收论文一窥ML算法趋势(上)
机器之心
0+阅读 · 2022年2月1日
来试试读论文的新神器!AMiner发布“论文背景文献”一键生成工具,帮你搞清一篇论文的“来龙去脉”
PaperWeekly
0+阅读 · 2021年12月24日
推荐一个论文复现神器!
图与推荐
1+阅读 · 2021年11月22日
谷歌:一篇论文,让研究者吃我三份安利
夕小瑶的卖萌屋
8+阅读 · 2021年9月6日
NLP研究索引神器,3000+代码库,一键查找论文、GitHub库
机器之心
0+阅读 · 2021年4月28日
CIKM2020 | 最新9篇推荐系统相关论文
机器学习与推荐算法
12+阅读 · 2020年8月20日
AMiner发布《人工智能之信息检索与推荐》报告,附72页PDF下载
专知
23+阅读 · 2019年9月6日
论文浅尝 | 基于知识库的神经网络问题生成方法
开放知识图谱
19+阅读 · 2019年6月21日
【论文笔记】用图卷积网络( GCN)来做语义角色标注
专知
61+阅读 · 2018年5月26日
基于神经网络的跨语言实体链指研究
国家自然科学基金
4+阅读 · 2015年12月31日
提升《高校应用数学学报》的影响力
国家自然科学基金
0+阅读 · 2015年8月31日
基于短文本的知识库自动更新关键技术研究
国家自然科学基金
0+阅读 · 2014年12月31日
基于学科领域科技论文多重共现的情报计量分析方法研究
国家自然科学基金
3+阅读 · 2013年12月31日
多源空间线目标全局最优化与逻辑回归匹配方法研究
国家自然科学基金
0+阅读 · 2013年12月31日
基于多源信息融合的元数据自动抽取方法研究
国家自然科学基金
2+阅读 · 2012年12月31日
基于汉语话题的句际关系自动分析研究
国家自然科学基金
0+阅读 · 2012年12月31日
大型语义辞典的自动生成及在文本分析中的应用
国家自然科学基金
1+阅读 · 2012年12月31日
《软件学报》学术期刊
国家自然科学基金
6+阅读 · 2011年12月31日
基于信息融合的生物医学文本高性能聚类研究
国家自然科学基金
0+阅读 · 2009年12月31日
A Survey on Deep Hashing Methods
Arxiv
1+阅读 · 2022年4月19日
Rumor Detection with Self-supervised Learning on Texts and Social Graph
Arxiv
0+阅读 · 2022年4月19日
A Survey of Quantization Methods for Efficient Neural Network Inference
Arxiv
21+阅读 · 2021年6月21日
A Survey on Neural Recommendation: From Collaborative Filtering to Content and Context Enriched Recommendation
Arxiv
25+阅读 · 2021年4月27日
Transformer Tracking
Arxiv
17+阅读 · 2021年3月29日
Counterfactual VQA: A Cause-Effect Look at Language Bias
Arxiv
15+阅读 · 2020年12月28日
PROP: Pre-training with Representative Words Prediction for Ad-hoc Retrieval
Arxiv
11+阅读 · 2020年10月20日
Estimating Node Importance in Knowledge Graphs Using Graph Neural Networks
Arxiv
25+阅读 · 2019年5月21日
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
Arxiv
14+阅读 · 2018年10月11日
MV-YOLO: Motion Vector-aided Tracking by Semantic Object Detection
Arxiv
10+阅读 · 2018年4月30日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
论文
BERT
数据挖掘
TKDE 2021
算法
人工智能
相关VIP内容
【课程】牛津大学&DeepMind《深度学习自然语言处理》课程
专知会员服务
44+阅读 · 2022年3月28日
NeurIPS 20201接收论文列表发布,2334篇论文都在这了!
专知会员服务
37+阅读 · 2021年11月4日
自然语言处理顶会COLING2020最佳论文出炉!
专知会员服务
23+阅读 · 2020年12月12日
近期必读的五篇 EMNLP 2020【反事实推理】相关论文和代码
专知会员服务
25+阅读 · 2020年11月23日
近期必读的六篇 EMNLP 2020【知识图谱】相关论文和代码
专知会员服务
41+阅读 · 2020年11月10日
自然语言处理顶会EMNLP2020接受论文列表,754篇论文都在这儿了!
专知会员服务
27+阅读 · 2020年10月26日
【牛津大学-DeepMind 】上下文嵌入综述,A Survey on Contextual Embeddings
专知会员服务
41+阅读 · 2020年3月17日
AAAI2020接受论文列表,1591篇论文目录全集
专知会员服务
98+阅读 · 2020年1月12日
【综述】关键词生成,附10页pdf论文下载
专知会员服务
52+阅读 · 2019年11月20日
【报告推荐】《人工智能之信息检索与推荐》报告,附72页PDF下载
专知会员服务
83+阅读 · 2019年9月7日
热门VIP内容
开通专知VIP会员 享更多权益服务
OpenAI十二天总结与Agent新范式
【伯克利博士论文】高效深度学习推理的全栈方法
【AAAI2025】多层次最优传输用于语言模型中的通用跨标记器知识蒸馏
大规模语言模型增强推荐系统:分类、趋势、应用与未来
相关资讯
投了3遍都被毙的论文,终于中了
图与推荐
0+阅读 · 2022年3月16日
年度回顾 | 从九大国际AI顶会接收论文一窥ML算法趋势(上)
机器之心
0+阅读 · 2022年2月1日
来试试读论文的新神器!AMiner发布“论文背景文献”一键生成工具,帮你搞清一篇论文的“来龙去脉”
PaperWeekly
0+阅读 · 2021年12月24日
推荐一个论文复现神器!
图与推荐
1+阅读 · 2021年11月22日
谷歌:一篇论文,让研究者吃我三份安利
夕小瑶的卖萌屋
8+阅读 · 2021年9月6日
NLP研究索引神器,3000+代码库,一键查找论文、GitHub库
机器之心
0+阅读 · 2021年4月28日
CIKM2020 | 最新9篇推荐系统相关论文
机器学习与推荐算法
12+阅读 · 2020年8月20日
AMiner发布《人工智能之信息检索与推荐》报告,附72页PDF下载
专知
23+阅读 · 2019年9月6日
论文浅尝 | 基于知识库的神经网络问题生成方法
开放知识图谱
19+阅读 · 2019年6月21日
【论文笔记】用图卷积网络( GCN)来做语义角色标注
专知
61+阅读 · 2018年5月26日
相关基金
基于神经网络的跨语言实体链指研究
国家自然科学基金
4+阅读 · 2015年12月31日
提升《高校应用数学学报》的影响力
国家自然科学基金
0+阅读 · 2015年8月31日
基于短文本的知识库自动更新关键技术研究
国家自然科学基金
0+阅读 · 2014年12月31日
基于学科领域科技论文多重共现的情报计量分析方法研究
国家自然科学基金
3+阅读 · 2013年12月31日
多源空间线目标全局最优化与逻辑回归匹配方法研究
国家自然科学基金
0+阅读 · 2013年12月31日
基于多源信息融合的元数据自动抽取方法研究
国家自然科学基金
2+阅读 · 2012年12月31日
基于汉语话题的句际关系自动分析研究
国家自然科学基金
0+阅读 · 2012年12月31日
大型语义辞典的自动生成及在文本分析中的应用
国家自然科学基金
1+阅读 · 2012年12月31日
《软件学报》学术期刊
国家自然科学基金
6+阅读 · 2011年12月31日
基于信息融合的生物医学文本高性能聚类研究
国家自然科学基金
0+阅读 · 2009年12月31日
相关论文
A Survey on Deep Hashing Methods
Arxiv
1+阅读 · 2022年4月19日
Rumor Detection with Self-supervised Learning on Texts and Social Graph
Arxiv
0+阅读 · 2022年4月19日
A Survey of Quantization Methods for Efficient Neural Network Inference
Arxiv
21+阅读 · 2021年6月21日
A Survey on Neural Recommendation: From Collaborative Filtering to Content and Context Enriched Recommendation
Arxiv
25+阅读 · 2021年4月27日
Transformer Tracking
Arxiv
17+阅读 · 2021年3月29日
Counterfactual VQA: A Cause-Effect Look at Language Bias
Arxiv
15+阅读 · 2020年12月28日
PROP: Pre-training with Representative Words Prediction for Ad-hoc Retrieval
Arxiv
11+阅读 · 2020年10月20日
Estimating Node Importance in Knowledge Graphs Using Graph Neural Networks
Arxiv
25+阅读 · 2019年5月21日
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
Arxiv
14+阅读 · 2018年10月11日
MV-YOLO: Motion Vector-aided Tracking by Semantic Object Detection
Arxiv
10+阅读 · 2018年4月30日
大家都在搜
自主可控
palantir
大规模语言模型
CMU博士论文
态势感知
无人艇
洛克菲勒
DeepMind
nms
出海产品从 0 到 1 该怎么做
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top