可视化NIPs等AI顶级会议影响力:大约20%论文从未被引用

2017 年 9 月 28 日 新智元

1新智元编译  

来源:cm.cecs.anu.edu.au

作者:Lexing Xie

编译:刘小芹  常佩琦

2017 年 11 月 8 日,在北京国家会议中心举办的 AI WORLD 2017 世界人工智能大会开放售票!


还记得去年一票难求的AI WORLD 2016盛况吗?今年,我们邀请了冷扑大师”之父 Tuomas 亲临现场,且谷歌、微软、亚马逊、BAT、讯飞、京东和华为等企业重量级嘉宾均已确认出席


AI WORLD 2017 世界人工智能大会“AI 奥斯卡”AI Top 10 年度人物、 AI Top10 巨星企业、AI Top10 新星企业、AI Top 10 创投机构、AI 创新产品五个奖项全部开放投票。谁能问鼎?你来决定。


关于大会,请关注新智元微信公众号或访问活动行页面:http://www.huodongxing.com/event/2405852054900?td=4231978320026了解更多!


【新智元导读】本文作者利用微软学术图谱(Microsoft Academic Graph)的数据,对计算机科学不同子领域的会议论文引用行为进行了分析,并对引用模式进行了可视化。



两个关键概念




Citation flow(引文流):上面的彩色扇形,概括了某个领域的会议(中间的灰色点)的论文总体引用数量以及被引用的该领域中top 25的其他会议或期刊。从左到右:机器学习领域的NIPS,编程语言设计和实现领域的PLDI,web搜索和数据挖掘领域的WSDM。


所有Citation flow:http://cm.cecs.anu.edu.au/post/citation_flow/



Citation survival:上图中,具有线性趋势的橙色点表示引文生存率(citation survival rates),即一个会议的论文中,在论文发表后至少X年或更长时间里被引用过至少一次的比率。这个名字是Jacob Eisenstein创造的。从左到右:自然语言处理领域的ACL,编程语言设计和实现方面的PLDI,计算生物学的ISMB。

了解更多Citation survival:http://cm.cecs.anu.edu.au/post/citation_survival/


下面解释一下本研究的动机、方法和应用。详细的引文图表可以参阅这个页面:http://cm.cecs.anu.edu.au/tags/citation/


研究动机


  • 一个会议的学术影响力来自哪里?如果你在一个会议发表过论文,或参加过某个会议,或者即将要进入一个围绕学术会议的研究社区,你可能会想知道这个社区的知识遗产是什么。


  • 在学术圈子的集体记忆中,有多少篇论文被记住?被记住多长时间?曾经有一场激烈的讨论说:两年内是否80%的论文就被遗忘了?剧透:对于我们的研究中涉及的大多数会议来说不是这样,但是大约20%的论文根本就从来没有被引用


  • 在过去的几年里,引用的行为模式有发生变化吗?剧透:是的,尤其是在2005年或2006年之后,我们可以会将其命名为“学术搜索效应”。


以上是我们做这项研究的动机问题。


数据和方法


我们的数据源是Microsoft Academic Graph(MAG),具体来说是2007年2月发布的版本。我们按venue将论文进行分组,并利用MAG标注所有论文的引用和被引用。分析时间主要是从2015年底到2016年。数据处理,绘图和报告生成的代码在这个存储库中共享:https://github.com/lexingxie/academic-graph



发现



  • 在大多数会议中,论文被引用的比例(即在发表后,被引用至少一次)是80%左右。例如,SIGMOD是81%,SIGIR是78%,NIPS是83%。也有例外,SIGGRAPH是47%,CRYPTO是89%。


  • 论文发表20年或以上之后,被引用论文占所有论文的比例,从10%(NAACL),20%(OOPSLA),到40%(ACL),60%(CRYPTO)各不相同。这个统计数据与会议的历史高度相关——大多数会议只有20多年的历史,而且20年前发表的论文数量(也就是1995年以前)的数量是相当少的。一个极端的例子是ISIT,1973年有两篇论文,直到1991年才再次有论文发表。


  • 集体学术记忆的长尾:对于大多数会议来说,top25的会议中有60%~70+%的本会议内或其他会议论文的引用,但是不管是参考(reference)还是引文(citation)的总数都在1000~2000左右。


  • 学术搜索效应(scholar search effect):在2005或2006年之后,对旧论文的引用变得更多。这可能是因为学术搜索引擎变普及,查找旧论文变得更容易了。



示例:NIPS(1987-2015)会议引用模式数据和图示



数据:

  • 29年历史(1987-2015),共计6483篇论文。

  • 共计38246次列入参考文献,平均每篇论文被列入参考文献5.9次

        -1498个不同的参考文献来源,top 25的占了64%

  • 共计131082次引用,平均每篇文章被引用20.22次

        -3275个不同的引用来源,top 25的占了57%

        -引文生存率:当年0.83;10年0.60;20年0.32



上图左是NIPS会议论文中引用和被引用论文的截图。(详见图4)右图生存率表示在发表x年之后还活跃/被引用的论文比率。(详见图10)


本页中的其余图示大体可归为几下几类:

  • 图1-图3:论文的基本数据,被列为参考文献的次数、引用次数。

  • 图4-图5总结了这些年间所有的引用,分类为引用(incoming citation,该会议论文中引用的文献)和被引(outgoing citation,该会议的论文被其他来源的论文引用 )。

  • 图5和图6通过年份来分解引用和被引的情况。

  • 图7和图8分解了在NIPS会议上,当年被引用的参考文献。对大多数会议来说,存在“谷歌学术”效应,就是说年代越久远的论文被引用的次数越多。

  • 图9-图11探讨了“在最少x年后,还有多少论文仍被引用”以及哪些论文从未被引用过。



图1:整体论文数据。左侧是每年发表的论文数量;右侧是每年发表论文被列作reference和citation的平均数。



图2:整体reference数据。左侧是每年发表的论文被列作reference的总数;右侧是NIPS发表的论文被列为reference的数量。



图3:整体引文数据。左侧是每年发表论文被列作引文的总数;右侧是NIPS发表的论文被列为citation的数量。




图4:top-k的incoming/outgoing引用。节点颜色:引用率(outgoing ideas,红色)vs参考文献(incoming ideas,蓝色)。节点大小:在任一方向,引用和参考文献总数。蓝色边缘的厚度由离开既定会议的参考文献数量决定;红色边缘的厚度由流入既定会议的参考文献数量决定。节点由左到右,由incoming/outgoung引用的方式分类。



图5:top-k的incoming/outgoing引用。(柱状图以不同方式来呈现上面扇形图中的信息)



图6:参考文献的热力图。按照发表年份(横轴)和参考venue(纵轴)细分。



图7:引用的热力图。按照发表年份(横轴)和引用venue(纵轴)细分。



图8:参考文献年代的箱型图(y轴上越低表示年代越久远),通过论文发表的年份细分(x轴)。



图9:参考文献的热力图,通过论文被发表年份(横轴)和参考文献发表年份(纵轴)细分。



图10:通过线性回归覆盖,发表之后至少x年被引用的论文比例。



图11:每年被引用的论文数量热力图,通过发表年份(横轴)和引用年份(纵轴)划分。



图12:给定年份发表,之后仍被引用的论文热力图。通过发表年份(横轴)和引用年份(纵轴)划分。



小结



几张图表可能胜过长篇大论。我希望这个研究能为读者提供有关这些学术会议的有用信息,帮助你了解一个新的会议,或帮助你了解一个会议的概括和影响力。


这会成为论文的另一种影响度量吗?也许吧。现在已经有许多广泛使用的度量,例如影响因子(impact factor)、mapequation、Google scholar的排名,等等。没有那个度量是完美的,但是看看另一种视点肯定是有利无害的。


原文:http://cm.cecs.anu.edu.au/post/citation_vis/



【号外】新智元正在进行新一轮招聘,飞往智能宇宙的最美飞船,还有N个座位

点击阅读原文可查看职位详情,期待你的加入~


登录查看更多
1

相关内容

PLDI是一个论坛,研究人员、开发人员、教育工作者和实践者可以在这里交流关于编程语言设计和实现的最新实践和实验工作的信息PLDI寻求原创的研究论文,重点是编程语言的设计、实现、开发和使用。PLDI强调编译时和运行时技术的创新和创造性方法;新颖的语言设计和特性;以及实现的结果。官网链接:https://dl.acm.org/event.cfm?id=RE200
CVPR 2020 最佳论文与最佳学生论文!
专知会员服务
36+阅读 · 2020年6月17日
【快讯】KDD2020论文出炉,216篇上榜, 你的paper中了吗?
专知会员服务
51+阅读 · 2020年5月16日
【CVPR2020-旷视】DPGN:分布传播图网络的小样本学习
专知会员服务
27+阅读 · 2020年4月1日
【快讯】CVPR2020结果出炉,1470篇上榜, 你的paper中了吗?
49篇ICLR2020高分「图机器学习GML」接受论文及代码
专知会员服务
62+阅读 · 2020年1月18日
实验室论文被 ASE 2019 录用
inpluslab
16+阅读 · 2019年8月9日
KDD 2019放榜,接收率低至14%,你的论文中了吗?
机器之心
7+阅读 · 2019年4月30日
CVPR 2019收录论文ID公开,你上榜了吗?
AI100
3+阅读 · 2019年2月26日
CVPR 2018 最酷的十篇论文
AI研习社
6+阅读 · 2019年2月13日
【超全】CVPR 2018 收录论文所有标题列表
新智元
6+阅读 · 2018年5月27日
2018 年,你可以把论文投给这 13 场 AI 学术会议(附截稿日期)
黑龙江大学自然语言处理实验室
4+阅读 · 2018年1月8日
【C4P推荐】人工智能领域顶级会议AAAI
Call4Papers
3+阅读 · 2017年9月6日
Deep Co-Training for Semi-Supervised Image Segmentation
Arxiv
21+阅读 · 2018年5月23日
Arxiv
4+阅读 · 2018年1月15日
VIP会员
相关资讯
实验室论文被 ASE 2019 录用
inpluslab
16+阅读 · 2019年8月9日
KDD 2019放榜,接收率低至14%,你的论文中了吗?
机器之心
7+阅读 · 2019年4月30日
CVPR 2019收录论文ID公开,你上榜了吗?
AI100
3+阅读 · 2019年2月26日
CVPR 2018 最酷的十篇论文
AI研习社
6+阅读 · 2019年2月13日
【超全】CVPR 2018 收录论文所有标题列表
新智元
6+阅读 · 2018年5月27日
2018 年,你可以把论文投给这 13 场 AI 学术会议(附截稿日期)
黑龙江大学自然语言处理实验室
4+阅读 · 2018年1月8日
【C4P推荐】人工智能领域顶级会议AAAI
Call4Papers
3+阅读 · 2017年9月6日
Top
微信扫码咨询专知VIP会员