国庆期间闲得无聊勤勤恳恳地做了一次ICLR2023 Openreview的论文投稿分析,从OpenReview 网页抓取了论文数据,并做了2022和2023年论文关键词、标题高频词等信息的可视化比较。
ICLR,全称为「International Conference on Learning Representations」(国际学习表征会议),由深度学习三大巨头之二的 Yoshua Bengio 和 Yann LeCun 牵头创办于2013年,被认为是深度学习的顶级会议,素有「无冕之王」之称。
ICLR采用了Open Review的评审机制,这意味着所有提交的稿件都会公开信息,并且接受所有同行的评价及提问,同时任何学者都可以匿名或实名地对论文进行评价。今年ICLR一共收到了4966篇论文,相比于去年3407的投稿量暴涨了 46% 。今年主题仍然涉及图神经网络,强化学习,计算机视觉等热点领域。
以下条形图列举了提交论文中出现频率排名前 50 的关键词,排名靠前的依旧是强化学习,深度学习,表征学习 以及图神经网络等。两年的投稿趋势变化不大。
根据前十的关键词频率排名频率来看,基本上和去年保持一致,大火的领域依旧大火。但是可以明显看到前五名关键词的频率差距逐渐减少。有意思的是representation learning这一关键词终于又重回前三,再次为「国际学习表征会议」(ICLR)正名。graph neural network这一关键词则是掉了一名,与representation learning交换了位置,但相比于去年的频率仍然火爆。
Keyword | 2022 | 2023 |
---|---|---|
reinforcement learning | 1 | 1 |
deep learning | 2 | 2 |
representation learning | 4 | 3 |
graph neural network | 3 | 4 |
transformer | 5 | 5 |
federate learning | 7 | 6 |
self-supervised learning | 6 | 7 |
contrastive learning | 10 | 8 |
robustness | 9 | 9 |
generative model | 8 | 10 |
接着,在Top-50的关键词频率中,统计排名变化程度最大的10个关键词如下:
Keywords | 2022 | 2023 | rank |
---|---|---|---|
large language model | 208 | 32 | 176 |
diffusion model | 173 | 14 | 159 |
offline reinforcement learning | 59 | 20 | 39 |
sparsity | 85 | 49 | 36 |
adversarial training | 19 | 47 | -28 |
differential privacy | 45 | 23 | 22 |
fairness | 43 | 22 | 21 |
model compression | 61 | 41 | 20 |
domain generalization | 55 | 36 | 19 |
time series | 58 | 40 | 18 |
可以发现,排名暴涨的是large language model 和 diffusion一词,从原本208和173挤进了前50。其中diffusion一词甚至挤进了前15,果然今年diffusion model大火也带起了新的一波研究热潮。有意思的是上一年较火的adversarial training一词暴跌28名,差点跌出前50,可能对抗训练即将淡化出历史舞台了(瞎说的)?
根据论文提交关键词,以下词云图展示了两年来各个研究领域的热门程度:
看完关键词频率,接下来从标题词语出现的频率来观察今年的论文提交情况。由于标题可能含有较多的停用词等,因此提前作了预处理,并且排除掉了一些意义不大的词语,最终展现的结果如下所示:
从标题频率来看,两年内的趋势变化不大。
从排名变化上来看,尽管graph neural network在关键词频率排名降低了一名,但是在标题中graph却涨了一名——说明大家对图数据的研究已经不局限于图神经网络了?
Title | 2022 | 2023 |
---|---|---|
representation | 1 | 1 |
graph | 3 | 2 |
data | 6 | 3 |
reinforcement | 2 | 4 |
transformer | 7 | 5 |
training | 5 | 6 |
image | 10 | 7 |
efficient | 9 | 8 |
language | 15 | 9 |
federate | 14 | 10 |
同样地,在Top-50的标题关键词频率中,统计排名变化程度最大的10个标题关键词如下:
Title | 2022 | 2023 | rank |
---|---|---|---|
mask | 325 | 45 | 280 |
diffusion | 132 | 25 | 107 |
base | 76 | 36 | 40 |
visual | 61 | 38 | 23 |
offline | 55 | 34 | 21 |
attack | 25 | 46 | -21 |
vision | 64 | 44 | 20 |
generation | 36 | 17 | 19 |
adaptive | 45 | 32 | 13 |
knowledge | 38 | 26 | 12 |
果然最火的还是 diffusion模型,以及Kaiming He带起的 mask 相关的研究。尤其是是mask一词,从原本325暴涨至45。
同样,根据标题频率绘制的词云图如下:
最后,大胆预测下今年的热点研究话题是(排名不分先后):
GitHub项目地址: