1新智元编译
来源:cm.cecs.anu.edu.au
作者:Lexing Xie
编译:刘小芹 常佩琦
2017 年 11 月 8 日,在北京国家会议中心举办的 AI WORLD 2017 世界人工智能大会开放售票!
还记得去年一票难求的AI WORLD 2016盛况吗?今年,我们邀请了冷扑大师”之父 Tuomas 亲临现场,且谷歌、微软、亚马逊、BAT、讯飞、京东和华为等企业重量级嘉宾均已确认出席
AI WORLD 2017 世界人工智能大会“AI 奥斯卡”AI Top 10 年度人物、 AI Top10 巨星企业、AI Top10 新星企业、AI Top 10 创投机构、AI 创新产品五个奖项全部开放投票。谁能问鼎?你来决定。
关于大会,请关注新智元微信公众号或访问活动行页面:http://www.huodongxing.com/event/2405852054900?td=4231978320026了解更多!
【新智元导读】本文作者利用微软学术图谱(Microsoft Academic Graph)的数据,对计算机科学不同子领域的会议论文引用行为进行了分析,并对引用模式进行了可视化。
Citation flow(引文流):上面的彩色扇形,概括了某个领域的会议(中间的灰色点)的论文总体引用数量以及被引用的该领域中top 25的其他会议或期刊。从左到右:机器学习领域的NIPS,编程语言设计和实现领域的PLDI,web搜索和数据挖掘领域的WSDM。
所有Citation flow:http://cm.cecs.anu.edu.au/post/citation_flow/
Citation survival:上图中,具有线性趋势的橙色点表示引文生存率(citation survival rates),即一个会议的论文中,在论文发表后至少X年或更长时间里被引用过至少一次的比率。这个名字是Jacob Eisenstein创造的。从左到右:自然语言处理领域的ACL,编程语言设计和实现方面的PLDI,计算生物学的ISMB。
了解更多Citation survival:http://cm.cecs.anu.edu.au/post/citation_survival/
下面解释一下本研究的动机、方法和应用。详细的引文图表可以参阅这个页面:http://cm.cecs.anu.edu.au/tags/citation/
一个会议的学术影响力来自哪里?如果你在一个会议发表过论文,或参加过某个会议,或者即将要进入一个围绕学术会议的研究社区,你可能会想知道这个社区的知识遗产是什么。
在学术圈子的集体记忆中,有多少篇论文被记住?被记住多长时间?曾经有一场激烈的讨论说:两年内是否80%的论文就被遗忘了?剧透:对于我们的研究中涉及的大多数会议来说不是这样,但是大约20%的论文根本就从来没有被引用。
在过去的几年里,引用的行为模式有发生变化吗?剧透:是的,尤其是在2005年或2006年之后,我们可以会将其命名为“学术搜索效应”。
以上是我们做这项研究的动机问题。
我们的数据源是Microsoft Academic Graph(MAG),具体来说是2007年2月发布的版本。我们按venue将论文进行分组,并利用MAG标注所有论文的引用和被引用。分析时间主要是从2015年底到2016年。数据处理,绘图和报告生成的代码在这个存储库中共享:https://github.com/lexingxie/academic-graph
在大多数会议中,论文被引用的比例(即在发表后,被引用至少一次)是80%左右。例如,SIGMOD是81%,SIGIR是78%,NIPS是83%。也有例外,SIGGRAPH是47%,CRYPTO是89%。
论文发表20年或以上之后,被引用论文占所有论文的比例,从10%(NAACL),20%(OOPSLA),到40%(ACL),60%(CRYPTO)各不相同。这个统计数据与会议的历史高度相关——大多数会议只有20多年的历史,而且20年前发表的论文数量(也就是1995年以前)的数量是相当少的。一个极端的例子是ISIT,1973年有两篇论文,直到1991年才再次有论文发表。
集体学术记忆的长尾:对于大多数会议来说,top25的会议中有60%~70+%的本会议内或其他会议论文的引用,但是不管是参考(reference)还是引文(citation)的总数都在1000~2000左右。
学术搜索效应(scholar search effect):在2005或2006年之后,对旧论文的引用变得更多。这可能是因为学术搜索引擎变普及,查找旧论文变得更容易了。
数据:
29年历史(1987-2015),共计6483篇论文。
共计38246次列入参考文献,平均每篇论文被列入参考文献5.9次
-1498个不同的参考文献来源,top 25的占了64%
共计131082次引用,平均每篇文章被引用20.22次
-3275个不同的引用来源,top 25的占了57%
-引文生存率:当年0.83;10年0.60;20年0.32
上图左是NIPS会议论文中引用和被引用论文的截图。(详见图4)右图生存率表示在发表x年之后还活跃/被引用的论文比率。(详见图10)
本页中的其余图示大体可归为几下几类:
图1-图3:论文的基本数据,被列为参考文献的次数、引用次数。
图4-图5总结了这些年间所有的引用,分类为引用(incoming citation,该会议论文中引用的文献)和被引(outgoing citation,该会议的论文被其他来源的论文引用 )。
图5和图6通过年份来分解引用和被引的情况。
图7和图8分解了在NIPS会议上,当年被引用的参考文献。对大多数会议来说,存在“谷歌学术”效应,就是说年代越久远的论文被引用的次数越多。
图9-图11探讨了“在最少x年后,还有多少论文仍被引用”以及哪些论文从未被引用过。
图1:整体论文数据。左侧是每年发表的论文数量;右侧是每年发表论文被列作reference和citation的平均数。
图2:整体reference数据。左侧是每年发表的论文被列作reference的总数;右侧是NIPS发表的论文被列为reference的数量。
图3:整体引文数据。左侧是每年发表论文被列作引文的总数;右侧是NIPS发表的论文被列为citation的数量。
图4:top-k的incoming/outgoing引用。节点颜色:引用率(outgoing ideas,红色)vs参考文献(incoming ideas,蓝色)。节点大小:在任一方向,引用和参考文献总数。蓝色边缘的厚度由离开既定会议的参考文献数量决定;红色边缘的厚度由流入既定会议的参考文献数量决定。节点由左到右,由incoming/outgoung引用的方式分类。
图5:top-k的incoming/outgoing引用。(柱状图以不同方式来呈现上面扇形图中的信息)
图6:参考文献的热力图。按照发表年份(横轴)和参考venue(纵轴)细分。
图7:引用的热力图。按照发表年份(横轴)和引用venue(纵轴)细分。
图8:参考文献年代的箱型图(y轴上越低表示年代越久远),通过论文发表的年份细分(x轴)。
图9:参考文献的热力图,通过论文被发表年份(横轴)和参考文献发表年份(纵轴)细分。
图10:通过线性回归覆盖,发表之后至少x年被引用的论文比例。
图11:每年被引用的论文数量热力图,通过发表年份(横轴)和引用年份(纵轴)划分。
图12:给定年份发表,之后仍被引用的论文热力图。通过发表年份(横轴)和引用年份(纵轴)划分。
几张图表可能胜过长篇大论。我希望这个研究能为读者提供有关这些学术会议的有用信息,帮助你了解一个新的会议,或帮助你了解一个会议的概括和影响力。
这会成为论文的另一种影响度量吗?也许吧。现在已经有许多广泛使用的度量,例如影响因子(impact factor)、mapequation、Google scholar的排名,等等。没有那个度量是完美的,但是看看另一种视点肯定是有利无害的。
原文:http://cm.cecs.anu.edu.au/post/citation_vis/
【号外】新智元正在进行新一轮招聘,飞往智能宇宙的最美飞船,还有N个座位
点击阅读原文可查看职位详情,期待你的加入~