AI领域最优论文+代码查找神器:966个ML任务、8500+论文任你选

2019 年 4 月 24 日 七月在线实验室

本文转载自:机器之心


查找论文及对应源码的神器 Papers With Code 刚刚推出了最新版本,可以用图形界面查找你想要的 SOTA 实现,从应用领域到具体任务再到实现代码一步到位。据网站开发者介绍,里面包含了 966 个机器学习任务、515 个评估排行榜(以及当前最优结果)、8625 篇论文(带源码)、704 个数据集。


网站地址:https://paperswithcode.com/sota


Papers With Code 简介


Papers With Code 由 Reddit 用户 rstoj 开发,旨在提供免费、开源的机器学习论文资源、代码和评估排行榜。目前该网站已经完成了代码与论文的自动化链接,正在研究自动提取论文中的评估数据。


该网站将 ArXiv 上的最新机器学习论文与 GitHub 上的代码(TensorFlow/PyTorch/MXNet 等)对应起来。用户可以按标题关键词查询,或者按流行程度、GitHub 收藏数排列「热门研究」。


据了解,Papers With Code 网站上的所有内容都是可编辑的,而且是版本化的。用户可以从中发现好的任务和最优结果,甚至发现一些以前不知道的研究精华。开发者还开源了整个数据集。


数据下载


  • 论文摘要:https://paperswithcode.com/media/about/papers-with-abstracts.json.gz

  • 论文与代码之间的链接:https://paperswithcode.com/media/about/links-between-papers-and-code.json.gz

  • 评估排行榜:https://paperswithcode.com/media/about/evaluation-tables.json.gz


数据源


大部分数据来自于开发者的论文标注。为了确保广泛覆盖机器学习任务,开发者解析了 6 万多篇论文的标题(命名为「Method X for Task Y」)。此外,开发者还在 2018 年最后一个季度的 1600 篇 arXiv 论文摘要中手动标注了任务和数据集。


开发者还 follow 了以下项目的数据:


  • NLP 进展:https://github.com/sebastianruder/NLP-progress

  • EFF AI metrics:https://github.com/AI-metrics/AI-metrics

  • SQuAD:https://rajpurkar.github.io/SQuAD-explorer/

  • RedditSota:https://github.com/RedditSota/state-of-the-art-result-for-machine-learning-problems


抓取和导入数据的代码也已开源,详见:paperswithcode/sota-extractor 。


覆盖类别


Papers With Code 网站涉及广泛的机器学习任务,目前包含 966 个机器学习任务、515 个评估排行榜(以及当前最优结果)、8625 篇论文(带源码)、704 个数据集,其中光是计算机视觉就覆盖了多达 552 种任务。这些机器学习任务具体分类是:计算机视觉、自然语言处理、医疗、方法(Methodology)、语音、游戏、图、时序、音频、机器人、音乐、推理、计算机代码、知识库、对抗等。


图源:https://paperswithcode.com/sota


除此之外,我们还可以在该网站上查看「Trending Research」、「Latest Research」和「Top Papers」。每一个分类下面所列出的项目包含:论文标题、机构、发表日期、摘要、任务分类等信息。



使用


现在,我们来看看这个 ML SOTA 浏览器怎么用吧。


如果你进入了主页而不是上图页面,那么只要在原来的主页点击搜索框旁边的 Browse state-of-the-art,就可以看到上图的界面了。



以计算机视觉中的语义分割(Semantic Segmentation)任务为例。从 Browse state-of-the-art 主页视图中可以直接看到,语义分割任务中包含了 9 个排行榜以及 299 篇论文。



点进去之后就能看到这 9 个排行榜。不过 9 这个数字好像对不上,算了这不重要。我们可以看到 5 个数据集的 SOTA 论文,每一行分别列出了数据集名称、SOTA 模型名称、论文、源代码等。例如,第一行展示了在 PASCAL VOC 2012 数据集上的当前最佳模型是 DeepLabv3+ (Xception-JFT),源论文是《Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation》。点击「See all」,就能查看排行榜的更多细节,我们点击第一行的「See all」。



如下图所示,点击「See all」之后,页面跳转到在 PASCAL VOC 2012 数据集上的排行榜详细信息,如下图所示,图中绿色点为曾经的 SOTA 论文,图中折线表示趋势图,灰色点表示性能较弱的其他论文。上图中「趋势」栏中的小图即各排行榜的 SOTA 趋势图。鼠标落在图中的点就能显示相应的模型和性能信息,点击即可直达论文详情页面(Papers With Code 页面)。



在趋势图下方则列出了完整的数据表格,按照评估指标从大到小排序。DeepLabv3+ (Xception-JFT) 在语义分割任务中排名第一,Mean IoU 分数为 89.0%。



接下来,我们点击 DeepLabv3+ (Xception-JFT) 行中的超链,就能到达该模型的 Papers With Code 页面,上面显示了论文标题、摘要、arXiv 链接,以及最重要也是 Papers with Code 最让人心水的地方——直接提供实现代码的 GitHub 链接,还不止一个。在 DeepLabv3+ (Xception-JFT) 的页面中就提供了多达 15 个实现,这些实现按照 GitHub 收藏量排序,并显示基于什么框架实现。




终于找到想要的实现了吗?请慢用......



代码实现列表下方还展示了这个模型在其他任务上的排行榜排名和性能。从下表可以看到,


DeepLabv3+ (Xception-JFT) 还在 Cityscapes 上实现了 82.1% 的当前最佳 Mean IoU。




到此,Papers With Code 的功能就介绍得差不多了。我们再看看其中一些让人惊喜的地方。在所有数据集的排行榜页面下方还可以看到,有非常良心的子任务分类。也就是说在语义分割页面,你还能看到和语义分割相关的其它子任务的排行榜,有实时语义分割、场景分割、弱监督分割等。点进去能查看的信息类型和上述例子一致,此处不再赘述。



五一小长假将至,小编要去啃论文了~同学们,跟上!




* 本文转载自机器之心,转载请联系该公众号获得授权


今日学习推荐


金融风控实战

首次完整公开一线平台金融风控核心技术


5月11日开课


3人拼团,仅需499元 


扫描下方二维码

了解课程详情


长按识别二维码



知道什么是B树,那你知道什么是R树吗?

什么?互联网人恋爱调查报告,程序员竟成最大赢家?

金融风控面试十二问

一次面试让你知道数据结构与算法对前端的重要性

人工智能人才争抢白热化?学好数学才能C位出道!

哪些机器学习算法不需要做归一化处理?

一文详解:什么是B树?

机器学习中的数学基础(微积分和概率统计)

34个最优秀好用的Python开源框架

【实战分享】电影推荐系统项目实战应用

Python打牢基础,从19个语法开始!


扫描下方二维码  关注:七月在线实验室 


后台回复:100   免费领取【机器学习面试100题】

后台回复:干货 免费领取全体系人工智能学习资料

后台回复: 领资料 【NLP工程师必备干货资料】

▼更多精彩推荐,请关注我们▼
“阅读原文”我们一起进步
在看点一下
登录查看更多
3

相关内容

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
专知会员服务
109+阅读 · 2020年3月12日
最新《分布式机器学习》论文综述最新DML进展,33页pdf
专知会员服务
118+阅读 · 2019年12月26日
【推荐系统/计算广告/机器学习/CTR预估资料汇总】
专知会员服务
87+阅读 · 2019年10月21日
机器学习相关资源(框架、库、软件)大列表
专知会员服务
39+阅读 · 2019年10月9日
知识图谱本体结构构建论文合集
专知会员服务
106+阅读 · 2019年10月9日
【ICLR2020】五篇Open代码的GNN论文
专知会员服务
47+阅读 · 2019年10月2日
2019 到目前为止的深度学习研究进展汇总
AI研习社
4+阅读 · 2019年5月30日
图像分类论文与代码大列表
专知
6+阅读 · 2019年2月16日
秘籍 | 机器学习数据集网址大全
AI100
6+阅读 · 2019年1月27日
手把手带你复现ICCV 2017经典论文—PyraNet
PaperWeekly
10+阅读 · 2018年11月9日
吴恩达:AI论文已经够多了,赶紧“搞点事”吧!
全球人工智能
4+阅读 · 2017年11月15日
Arxiv
5+阅读 · 2019年10月11日
Arxiv
3+阅读 · 2019年9月5日
Arxiv
26+阅读 · 2019年3月5日
Arxiv
5+阅读 · 2018年10月23日
Arxiv
5+阅读 · 2018年4月22日
VIP会员
相关VIP内容
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
专知会员服务
109+阅读 · 2020年3月12日
最新《分布式机器学习》论文综述最新DML进展,33页pdf
专知会员服务
118+阅读 · 2019年12月26日
【推荐系统/计算广告/机器学习/CTR预估资料汇总】
专知会员服务
87+阅读 · 2019年10月21日
机器学习相关资源(框架、库、软件)大列表
专知会员服务
39+阅读 · 2019年10月9日
知识图谱本体结构构建论文合集
专知会员服务
106+阅读 · 2019年10月9日
【ICLR2020】五篇Open代码的GNN论文
专知会员服务
47+阅读 · 2019年10月2日
相关论文
Top
微信扫码咨询专知VIP会员