国庆期间闲得无聊勤勤恳恳地做了一次ICLR2023 Openreview的论文投稿分析,从OpenReview 网页抓取了论文数据,并做了2022和2023年论文关键词、标题高频词等信息的可视化比较。
ICLR,全称为「International Conference on Learning Representations」(国际学习表征会议),由深度学习三大巨头之二的 Yoshua Bengio 和 Yann LeCun 牵头创办于2013年,被认为是深度学习的顶级会议,素有「无冕之王」之称。
ICLR采用了Open Review的评审机制,这意味着所有提交的稿件都会公开信息,并且接受所有同行的评价及提问,同时任何学者都可以匿名或实名地对论文进行评价。今年ICLR一共收到了4966篇论文,相比于去年3407的投稿量暴涨了 46% 。今年主题仍然涉及图神经网络,强化学习,计算机视觉等热点领域。
以下条形图列举了提交论文中出现频率排名前 50 的关键词,排名靠前的依旧是强化学习,深度学习,表征学习 以及图神经网络等。两年的投稿趋势变化不大。
根据前十的关键词频率排名频率来看,基本上和去年保持一致,大火的领域依旧大火。但是可以明显看到前五名关键词的频率差距逐渐减少。有意思的是representation learning这一关键词终于又重回前三,再次为「国际学习表征会议」(ICLR)正名。graph neural network这一关键词则是掉了一名,与representation learning交换了位置,但相比于去年的频率仍然火爆。
| Keyword | 2022 | 2023 |
|---|---|---|
| reinforcement learning | 1 | 1 |
| deep learning | 2 | 2 |
| representation learning | 4 | 3 |
| graph neural network | 3 | 4 |
| transformer | 5 | 5 |
| federate learning | 7 | 6 |
| self-supervised learning | 6 | 7 |
| contrastive learning | 10 | 8 |
| robustness | 9 | 9 |
| generative model | 8 | 10 |
接着,在Top-50的关键词频率中,统计排名变化程度最大的10个关键词如下:
| Keywords | 2022 | 2023 | rank |
|---|---|---|---|
| large language model | 208 | 32 | 176 |
| diffusion model | 173 | 14 | 159 |
| offline reinforcement learning | 59 | 20 | 39 |
| sparsity | 85 | 49 | 36 |
| adversarial training | 19 | 47 | -28 |
| differential privacy | 45 | 23 | 22 |
| fairness | 43 | 22 | 21 |
| model compression | 61 | 41 | 20 |
| domain generalization | 55 | 36 | 19 |
| time series | 58 | 40 | 18 |
可以发现,排名暴涨的是large language model 和 diffusion一词,从原本208和173挤进了前50。其中diffusion一词甚至挤进了前15,果然今年diffusion model大火也带起了新的一波研究热潮。有意思的是上一年较火的adversarial training一词暴跌28名,差点跌出前50,可能对抗训练即将淡化出历史舞台了(瞎说的)?
根据论文提交关键词,以下词云图展示了两年来各个研究领域的热门程度:
看完关键词频率,接下来从标题词语出现的频率来观察今年的论文提交情况。由于标题可能含有较多的停用词等,因此提前作了预处理,并且排除掉了一些意义不大的词语,最终展现的结果如下所示:
从标题频率来看,两年内的趋势变化不大。
从排名变化上来看,尽管graph neural network在关键词频率排名降低了一名,但是在标题中graph却涨了一名——说明大家对图数据的研究已经不局限于图神经网络了?
| Title | 2022 | 2023 |
|---|---|---|
| representation | 1 | 1 |
| graph | 3 | 2 |
| data | 6 | 3 |
| reinforcement | 2 | 4 |
| transformer | 7 | 5 |
| training | 5 | 6 |
| image | 10 | 7 |
| efficient | 9 | 8 |
| language | 15 | 9 |
| federate | 14 | 10 |
同样地,在Top-50的标题关键词频率中,统计排名变化程度最大的10个标题关键词如下:
| Title | 2022 | 2023 | rank |
|---|---|---|---|
| mask | 325 | 45 | 280 |
| diffusion | 132 | 25 | 107 |
| base | 76 | 36 | 40 |
| visual | 61 | 38 | 23 |
| offline | 55 | 34 | 21 |
| attack | 25 | 46 | -21 |
| vision | 64 | 44 | 20 |
| generation | 36 | 17 | 19 |
| adaptive | 45 | 32 | 13 |
| knowledge | 38 | 26 | 12 |
果然最火的还是 diffusion模型,以及Kaiming He带起的 mask 相关的研究。尤其是是mask一词,从原本325暴涨至45。
同样,根据标题频率绘制的词云图如下:
最后,大胆预测下今年的热点研究话题是(排名不分先后):
GitHub项目地址: