成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
探寻 “学术宇宙” | 计算机领域会议和期刊星系结构的全方位揭示
2019 年 11 月 19 日
新智元
新智元推荐
来源:爱思美谱(ID:acemap_)
指导老师 | 傅洛伊 王新兵
【新智
元导读】
Acemap团队结合之前对Nature杂志引用关系数据可视化的技术与当前数据集的特点,对之前技术进行提升,并进行大胆创新,完成了论文数量达4328431篇的计算机全领域引用关系数据的可视化,全方位揭示了计算机领域会议和期刊之间的星系结构。
来
新智元 AI 朋友圈
和AI大咖们一起讨论吧。
前面推文简要介绍了上海交通大学Acemap团队对Nature杂志引用关系数据可视化与展示的过程。到此,我们已经对超大规模学术网络可视化过程有了初步的了解。然而,如何对论文数量更多,引用关系更加错综复杂的计算机领域论文引用关系数据进行可视化,成为摆在我们面前的一个难题。
Acemap团队再次聚焦此问题,结合之前对Nature杂志引用关系数据可视化的技术与当前数据集的特点,对之前技术进行提升,并进行大胆创新,完成了论文数量达4328431篇的计算机全领域引用关系数据的可视化,全方位揭示了计算机领域会议和期刊之间的星系结构。
计算机全领域引用关系可视化“难”在哪里
数据量翻倍,引用关系更加复杂
本次可视化的数据集抽取了Acemap数据库中整个计算机领域中4328431篇论文,以及他们之间的引用关系。下表为与上次可视化数据集的对比情况:
由上表可以明显地看出:CS全领域数据集是之前数据集的2.1倍,连边数是之前10.5倍,平均到单篇论文的连边数是之前的5倍。这种数据量的剧增直接对目前大多数布局算法造成了灾难性的后果,直接导致这些算法无法进行布局。然而,虽然有些布局算法能够处理这种数据体量,但得到的可视化结果只是数据在宏观层次的聚集效果展示,而当图放大到一定程度,图的内部结构将是一片混乱,无任何信息量可以体现。因此,此次可视化过程不仅“难”在如何将数据可视化出来,更“难”在如何使得可视化结果能够在宏观和微观层次兼顾,使其在不同层次均能展示充足的信息,而不至于一片“混沌”。
引用关系复杂化后社区发现陷入“窘境”
此次数据集单篇论文的连边数是之前数据集的5倍,这直接导致这张图变得更加稠密。当我们使用社区发现算法对网络进行聚类时,出现了无法得到合适数量的聚类,聚类效果难以解释等问题。总之,我们使用社区发现的方法对CS全领域数据集进行聚类时,并没有得到令人满意的结果。
思考宇宙的组成,得到解决问题的灵感
宇宙中有四种基本作用力,正是这四种基本作用力,造就了我们现在的世界,当然这里我们不谈四种相互作用如何造就了世界,只谈如何根据宇宙的规律来设计我们的布局算法。
宇宙中四种相互作用
在进行计算机全领域引用关系可视化的过程中,我们以论文发表的会议或期刊作为分类的依据。当完成论文分类后,我们想要以这种分类效果为导向,作为可视化宏观展示的总体效果。当我们按照之前可视化Nature数据集的方法进行布局时,在全图的整体布局步骤中出现了严重的问题,之前聚集在一起的点,被布局算法拉扯到“分崩离析”,丝毫没能得到我们预期的聚类效果,之前的算法完全不适合于此数据集的可视化。
之前的力引导算法模型当中只存在一种形式的力,考虑到宇宙中存在四种不同形式的作用力,我们认为,想要保持聚类效果,在保留原有力的基础上,有必要加入一种聚类之间的作用力,使聚类保持足够的“刚性”,以免被布局算法拉扯到“分崩离析”。
计算机领域会议和期刊星系结构的揭示
我们依照前面的思路,对计算机全领域引用关系数据进行可视化,得到全领域星系图,可以从图中看出,研究内容相似的会议或者期刊以类似星系的效果聚集在一起,小聚类围绕大聚类分布,颇有星系之感。
计算机全领域星系图
我们以计算机视觉领域星系分布进行举例分析:
计算机视觉领域会议和期刊星系分布
图为计算机视觉领域在星系图中的局部放大,首先我们可以清楚的定位计算机视觉三大顶级会议:CVPR、ICCV、ECCV在图中的位置,同时我们也能发现CV领域其他的会议或期刊,如IJCV、PR、CVGIP等。出现这种现象的原因是我们通过分析不同会议或期刊之间的引用关系,进而得到他们之间的相关性,并将这种相关性用于计算聚类之间的力的大小,即相关性越大,聚类之间的引力越大,从而表现出空间上的临近。
除此之外,我们还可以根据图给我们直观的感觉,定性给出一个衡量会议或期刊影响力的index,像CVPR、ICCV、ECCV这样的会议,我们可以认定这些会议为恒星级会议,而在他们周围环绕的会议可以认定为行星级会议。
同样,这种以类似星系汇聚的现象也出现在网络与人工智能领域,其效果如下图所示:
网络(左)与人工智能(右)领域会议和期刊星系分布
微观层面,不再“混沌”
先前在对Nature杂志引用关系数据进行可视化时,主要关注点在于如何改良算法,使得算法能够有效地对更多的数据进行可视化,而在图细节的展现上并没有太多关注,只是在图绘制完成后进行了去重操作。在计算机全领域星系图的绘制过程中,我们觉得展现图的局部特征同样重要。于是我们在对聚类进行布局时就已加入了去重步骤,并且对聚类内部不同话题的论文渲染不同的颜色,进而得到较好的聚类内部展示效果。
由宏观到微观缩放效果动态展示
TIT内部星系结构
上图展示了信息论领域CCF A类期刊TIT聚类内部的构造。当我们逐渐放大进入该期刊的内部时,星系内部的结构逐渐展现出来,不同的颜色代表不同的主题,每个主题之中会存在一个比较大的节点,同时会环绕相同颜色的较小的节点,从而向我们展现了一种论文之间的星系结构!
结语——无垠的宇宙是想象力最终的归宿
无论是不同聚类之间,还是聚类内部的论文之间,都存在有类似星系的结构存在,从而共同组成了巨大的“学术宇宙”。然而,宇宙自大爆炸以来,经历了大约150亿年的演化,从奇点演化成了我们现在的宇宙。我们不禁要问,“学术宇宙”的“大爆炸”从何时开始?然而经过若干年的演化,又将变成什么样子?看来,这一切的一切,要从宇宙中寻找答案了,无垠的宇宙依然是想象力最终的归宿!
本文经授权转载自爱思美谱(ID:
acemap_)
新智元AI朋友圈详细使用教程,8000名AI大玩家和实践者都在这里!
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
关系数据
关注
0
高效医疗图像分析的统一表示
专知会员服务
34+阅读 · 2020年6月23日
人机对抗智能技术
专知会员服务
201+阅读 · 2020年5月3日
【CVPR2020】图神经网络中的几何原理连接
专知会员服务
56+阅读 · 2020年4月8日
深入浅出「图神经网络GNN」的原理、应用以及前景 (附赠GNN新书鼠年春节福利)
专知会员服务
139+阅读 · 2020年1月17日
量子信息技术发展与应用研究报告(2019年),57页pdf,中国信息通信研究院
专知会员服务
68+阅读 · 2019年12月29日
【CCL 2019】刘康、韩先培:做失败科研的10个方法
专知会员服务
27+阅读 · 2019年11月12日
【CCL 2019】句法分析前沿动态综述,上海科技大学屠可伟博士
专知会员服务
25+阅读 · 2019年11月12日
图神经网络 (GNN) 算法及其应用 [唐杰 清华大学] 2019年中国计算机大会机器学习与数据挖掘论坛
专知会员服务
100+阅读 · 2019年10月26日
机器学习经典—理论与算法 [王立威 北京大学] 2019年中国计算机大会 计算机经典算法回顾与展望——机器学习与数据挖掘论坛
专知会员服务
35+阅读 · 2019年10月26日
知识图谱本体结构构建论文合集
专知会员服务
106+阅读 · 2019年10月9日
腾讯8篇AI医疗论文入选国际学术顶会,涵盖癌症图像分类、CT病灶检测等领域
量子位
8+阅读 · 2019年10月12日
章乐焱 | 用“科技”监管“科技”,知识图谱能做什么?
开放知识图谱
4+阅读 · 2019年5月14日
IJCAI 2019奇葩评审遭吐槽,程序主席发公开信回应
新智元
9+阅读 · 2019年5月13日
趋势分析 | 技术进步对国际关系有哪些影响?
未来产业促进会
5+阅读 · 2019年5月5日
没有领域和算法限制,联邦学习是打破数据孤岛的利器
AI前线
8+阅读 · 2019年5月5日
2019版CCF推荐国际学术会议和期刊目录发布!AI领域七大A类会议,你认同吗?
黑龙江大学自然语言处理实验室
10+阅读 · 2019年5月1日
实验室论文被DASFAA-19录用
inpluslab
9+阅读 · 2019年1月17日
一文纵览全球36个AI会议:机器学习十年发展回顾
新智元
4+阅读 · 2018年12月23日
【学科发展报告】计算机视觉
中国自动化学会
42+阅读 · 2018年10月12日
关于机器学习你要了解的 5 件事
机器学习算法与Python学习
7+阅读 · 2018年9月7日
Jointly Modeling Aspect and Sentiment with Dynamic Heterogeneous Graph Neural Networks
Arxiv
8+阅读 · 2020年4月14日
A Survey of Deep Learning for Scientific Discovery
Arxiv
29+阅读 · 2020年3月26日
A Survey on Trajectory Data Management, Analytics, and Learning
Arxiv
16+阅读 · 2020年3月25日
Tutorial on NLP-Inspired Network Embedding
Arxiv
7+阅读 · 2019年10月16日
Graph Analysis and Graph Pooling in the Spatial Domain
Arxiv
5+阅读 · 2019年10月3日
vGraph: A Generative Model for Joint Community Detection and Node Representation Learning
Arxiv
14+阅读 · 2019年9月17日
Message Passing for Complex Question Answering over Knowledge Graphs
Arxiv
6+阅读 · 2019年8月19日
Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression
Arxiv
4+阅读 · 2019年4月15日
To Cluster, or Not to Cluster: An Analysis of Clusterability Methods
Arxiv
4+阅读 · 2018年8月24日
NeuroNet: Fast and Robust Reproduction of Multiple Brain Image Segmentation Pipelines
Arxiv
5+阅读 · 2018年6月11日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
关系数据
数据可视化
CVPR 2022
数据集
社区发现
论文
相关VIP内容
高效医疗图像分析的统一表示
专知会员服务
34+阅读 · 2020年6月23日
人机对抗智能技术
专知会员服务
201+阅读 · 2020年5月3日
【CVPR2020】图神经网络中的几何原理连接
专知会员服务
56+阅读 · 2020年4月8日
深入浅出「图神经网络GNN」的原理、应用以及前景 (附赠GNN新书鼠年春节福利)
专知会员服务
139+阅读 · 2020年1月17日
量子信息技术发展与应用研究报告(2019年),57页pdf,中国信息通信研究院
专知会员服务
68+阅读 · 2019年12月29日
【CCL 2019】刘康、韩先培:做失败科研的10个方法
专知会员服务
27+阅读 · 2019年11月12日
【CCL 2019】句法分析前沿动态综述,上海科技大学屠可伟博士
专知会员服务
25+阅读 · 2019年11月12日
图神经网络 (GNN) 算法及其应用 [唐杰 清华大学] 2019年中国计算机大会机器学习与数据挖掘论坛
专知会员服务
100+阅读 · 2019年10月26日
机器学习经典—理论与算法 [王立威 北京大学] 2019年中国计算机大会 计算机经典算法回顾与展望——机器学习与数据挖掘论坛
专知会员服务
35+阅读 · 2019年10月26日
知识图谱本体结构构建论文合集
专知会员服务
106+阅读 · 2019年10月9日
热门VIP内容
开通专知VIP会员 享更多权益服务
OpenAI十二天总结与Agent新范式
【伯克利博士论文】高效深度学习推理的全栈方法
【AAAI2025】多层次最优传输用于语言模型中的通用跨标记器知识蒸馏
大规模语言模型增强推荐系统:分类、趋势、应用与未来
相关资讯
腾讯8篇AI医疗论文入选国际学术顶会,涵盖癌症图像分类、CT病灶检测等领域
量子位
8+阅读 · 2019年10月12日
章乐焱 | 用“科技”监管“科技”,知识图谱能做什么?
开放知识图谱
4+阅读 · 2019年5月14日
IJCAI 2019奇葩评审遭吐槽,程序主席发公开信回应
新智元
9+阅读 · 2019年5月13日
趋势分析 | 技术进步对国际关系有哪些影响?
未来产业促进会
5+阅读 · 2019年5月5日
没有领域和算法限制,联邦学习是打破数据孤岛的利器
AI前线
8+阅读 · 2019年5月5日
2019版CCF推荐国际学术会议和期刊目录发布!AI领域七大A类会议,你认同吗?
黑龙江大学自然语言处理实验室
10+阅读 · 2019年5月1日
实验室论文被DASFAA-19录用
inpluslab
9+阅读 · 2019年1月17日
一文纵览全球36个AI会议:机器学习十年发展回顾
新智元
4+阅读 · 2018年12月23日
【学科发展报告】计算机视觉
中国自动化学会
42+阅读 · 2018年10月12日
关于机器学习你要了解的 5 件事
机器学习算法与Python学习
7+阅读 · 2018年9月7日
相关论文
Jointly Modeling Aspect and Sentiment with Dynamic Heterogeneous Graph Neural Networks
Arxiv
8+阅读 · 2020年4月14日
A Survey of Deep Learning for Scientific Discovery
Arxiv
29+阅读 · 2020年3月26日
A Survey on Trajectory Data Management, Analytics, and Learning
Arxiv
16+阅读 · 2020年3月25日
Tutorial on NLP-Inspired Network Embedding
Arxiv
7+阅读 · 2019年10月16日
Graph Analysis and Graph Pooling in the Spatial Domain
Arxiv
5+阅读 · 2019年10月3日
vGraph: A Generative Model for Joint Community Detection and Node Representation Learning
Arxiv
14+阅读 · 2019年9月17日
Message Passing for Complex Question Answering over Knowledge Graphs
Arxiv
6+阅读 · 2019年8月19日
Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression
Arxiv
4+阅读 · 2019年4月15日
To Cluster, or Not to Cluster: An Analysis of Clusterability Methods
Arxiv
4+阅读 · 2018年8月24日
NeuroNet: Fast and Robust Reproduction of Multiple Brain Image Segmentation Pipelines
Arxiv
5+阅读 · 2018年6月11日
大家都在搜
自主可控
无人艇
大规模语言模型
CMU博士论文
俄乌战争
洛克菲勒
palantir
情感计算
笛卡尔
GANLab 将GA
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top